您的位置 首页 > AI资讯 > 产业资讯

专为大语言模型定制(语言模型 英文)

NVIDIA发布了HelpSteer2,这是一个开源数据集,旨在训练最先进的奖励模型,以将LLMs与人类偏好相协调。该数据集在CC-BY-4.0许可下发布,包含10,681个提示-响应对,由超过1,000名美国标注员在李克特量表上的五个属性上进行标注。

在此处阅读全文。

专为大语言模型定制(语言模型 英文)

当使用 NVIDIA 的 340B Nemotron-4 基础模型来训练奖励模型时,HelpSteer2 数据集在 RewardBench 的主要数据集上实现了最先进的 92.0% 的准确率,截至 2024 年 6 月 12 日,该数据集的表现超过了所有其他开放和专有模型。

它的数据效率非常高,相较于其他偏好数据集中使用的数百万个响应对,它仅需要 10,000 个响应对,从而大幅降低了计算成本。

它能够对奖励模型进行训练,使其有效地调整大型语言模型(如Llama 3 70B),以在主要对齐指标上匹配或超越诸如Llama 3 70B Instruct和GPT-4等模型的表现。此外,它还引入了SteerLM 2.0,这是一种新颖的模型对齐方法,利用多属性奖励预测对复杂、多要求的指令进行LLM训练。

“高质量偏好数据对于使AI系统符合人类价值观至关重要,但现有的数据集通常具有专有性或质量参差不齐,”NVIDIA 高级研究科学家 Zhilin Wang 表示。

HelpSteer2 为商业和学术用途提供了一个开放、允许授权的替代方案。

HelpSteer2 数据集可以在 Hugging Face hub 上找到,其代码也已开源在 NVIDIA 的 NeMo-Aligner GitHub 仓库中。

情感分析数据集

HelpSteer2 通过训练和指导模型,使它们以人们更偏好的方式运行。此外,还有许多其他情感分析模型应用于各个领域,帮助企业准确地了解并从他们的客户或用户那里学习。

一些示例包括亚马逊产品数据、多领域情感数据集和Sentiment140。


本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023