摘要:我们提出了用于支持苹果智能功能的基础语言模型,包括一个设计用于在设备上高效运行的约30亿参数(3B)模型,以及一个专为私有云计算设计的大型服务器端语言模型[Apple, 2024b]。这些模型旨在高效、准确和负责任地执行各种任务。本报告描述了模型架构、用于训练模型的数据、训练过程、模型如何针对推断进行优化以及评估结果。我们强调我们对负责任人工智能的关注,并描述了这些原则是如何贯穿整个模型开发过程的。
编译者注明;苹果基础模型训练选择了谷歌云的TPU芯片,而不是英伟达GPU.AFM服务器基础模型在8192块TPUv4芯片上进行训练(估计是30B尺寸),设备端侧选择2048块TPUv4,模型尺寸为3B.训练数据集标记在6.3T.我们看到黄教主与Meta 小扎高端会晤,互赠皮衣环节。小扎大批特批苹果封闭,抨击苹果手机限制Meta旗下各类超级应用的用户数据获取。Meta与谷歌是流量和广告投放天然的对手,与X也是对手。商业大部分就是竞争与合作共存的胶着状态,绝对的0和1对立是简单的原生思考,苹果与谷歌在手机终端及iOS AppStore和Google Play应用商店是主要竞争关系,但在谷歌云服务是供应商与客户关系。
目录
1介绍
2架构
3预训练
3.1数据
3.1.1网页
3.1.2许可的数据集
3.1.3代码
3.1.4数学
3.1.5公共数据集
3.1.6Tokenizer
3.2配方
3.2.1核心预训练
3.2.2继续预训练
3.2.3上下文长度扩展
3.2.4优化器
3.3训练基础设施
4后训练
4.1数据
4.1.1人工标注
4.1.2合成数据
4.2监督微调(SFT)
4.3从人类反馈中进行强化学习(RLHF)
4.3.1奖励建模
4.3.2迭代教学委员会(iTeC)
4.3.3在线强化学习算法:MDLOO
5激活苹果智能功能
5.1适配器架构
5.2优化
5.3案例研究:总结
6评价
6.1预训练评估
6.2后训练评估
6.2.1人类评估
6.2.2指令跟随
6.2.3工具使用
6.2.4写作
6.2.5写作基准
6.2.6数学
6.2.7数学基准
6.3摘要功能评估
7负责任的人工智能
7.1概述
7.2预训练
7.3后训练
7.4防范恶意代码
7.5红队行动
7.6评估
8结论
参考文献
贡献者
基础模型
数据、评估和负责任的人工智能
适配器、优化和摘要
附录
A CORE预训练配方消融.
B对修剪和蒸馏的消融
C PRE-TRAINING阶段的分阶段评估
D长上下文评估
E RLHF的技术细节
E.1奖励模型
E.2在线强化学习算法
F精度恢复适配器消融
1介绍在2024年全球开发者大会上,我们推出了Apple Intelligence,这是一个深度融入iOS 18、iPadOS 18和macOS Sequoia的个人智能系统。
Apple Intelligence由多个高效能的生成模型组成,快速高效,专为我们用户的日常任务而设计,并能即时调整以适应其当前活动。内置于 Apple Intelligence 中的基础模型已经经过微调,用于用户体验,例如编写和完善文本,优先处理和总结通知,为与家人和朋友的对话创建有趣的图像,以及执行简化跨应用程序交互的应用内操作。
在这份报告中,我们将详细介绍两种模型的情况——AFM-on-device(AFM代表苹果基础模型),一个约30亿(3B)参数的语言模型,以及AFM-server,一个更大的基于服务器的语言模型——它们是如何建立和调整以高效、准确和负责任地执行专门任务的(图1)。这两个基础模型是苹果创建的支持用户和开发者的更大生成模型家族的一部分;其中包括一个编码模型(基于AFM语言模型)用于将智能集成到Xcode中,以及一个扩散模型,帮助用户在Messages应用程序中以视觉方式表达自己。
苹果智能是根据苹果的核心价值观在每一步设计的,并建立在行业领先的隐私保护基础上。此外,我们制定了负责任的人工智能原则,指导我们如何开发人工智能工具以及支撑其的模型。
以智能工具赋能用户:我们确定可以在哪些领域以负责任的方式使用人工智能来创建解决特定用户需求的工具。我们尊重用户选择如何使用这些工具来实现他们的目标。
代表我们的用户:我们构建深具个性的产品,旨在真实地代表全球用户。我们不断努力避免在我们的AI工具和模型中延续刻板印象和系统性偏见。
设计时需要谨慎:我们在整个流程的每个阶段,包括设计、模型训练、特征开发和质量评估中都会采取预防措施,以识别我们的人工智能工具可能被滥用或导致潜在危害的方式。我们将在用户反馈的帮助下持续和积极地改进我们的人工智能工具。
保护隐私:我们通过强大的设备端处理和私有云计算等先进基础设施来保护我们的用户隐私。在训练基础模型时,我们不会使用用户的私人个人数据或用户互动数据。
这些原则贯穿在使得苹果智能化并连接特点和工具与专门模型的架构的每个阶段。
在本报告的剩余部分,我们提供有关决策的详细信息,如:我们如何开发高性能、快速和节能的模型;我们如何训练这些模型;我们如何针对特定用户需求微调我们的适配器;以及我们如何评估模型在帮助性和意外伤害方面的性能。
2架构AFM的基础模型是密集的解码器模型,仅构建在该模型之上。
Transformer架构 [Vaswani et al., 2017],具有以下设计选择:
1.一个共享的输入/输出嵌入矩阵 [Press and Wolf, 2016],以减少参数的内存使用。
2.使用RMSNorm [Zhang and Sennrich,2019]的前归一化进行训练稳定性。
3.Query/key normalization [Wortsman et al., 2023] to improve training stability. 查询/关键词标准化 [Wortsman等,2023] 以提高训练稳定性。
4.分组查询注意力(GQA)[Ainslie等,2023],使用8个键值头以减少KV缓存的内存占用。
5.SwiGLU激活[Shazeer,2020]用于更高效率。
6.RoPE [Su et al., 2024] 将基频设定为500k,以支持长上下文。
表1提供了有关AFM-on-device尺寸的一些详细信息。
表1:AFM-on-device dimensions.
3预训练我们的AFM预训练过程在开发高性能语言模型方面起着至关重要的作用,以提供一系列可帮助和支持用户的苹果智能功能。我们专注于效率和数据质量的每一步,以便进行高质量的端到端用户体验的预训练,使用高效和低延迟的模型。
3.1数据
AFM的预训练数据集包含了多样且高质量的数据混合物。这包括我们从出版商许可的数据,精心策划的公开可用或开源数据集,以及我们的网络爬虫Applebot(Apple,2024a)爬取的公开信息。我们尊重网页选择不被Applebot爬取的权利,使用标准的robots.txt指令。
鉴于我们专注于保护用户隐私,我们指出数据混合中不包含任何私人的苹果用户数据。此外,已经付出了大量努力,以从公开数据中排除粗言秽语、不安全材料和可识别个人身份信息(更多详情请参见第7节)。对许多常见评估基准也进行了严格的净化处理。
我们发现,数据质量远比数量更重要,是影响下游模型性能的关键因素。接下来,我们将提供关于数据混合关键组成部分的更多细节。
3.1.1网页
我们使用我们的网络爬虫Applebot [Apple, 2024a]来爬取公开可获得的信息,并尊重网页发布者选择使用标准robots.txt指令拒绝Applebot的权利。此外,我们采取措施排除包含粗话的页面,并应用过滤器以移除某些类别的个人可识别信息(PII)。剩下的文档然后由一个管道处理,该管道执行质量过滤和纯文本提取,更具体地说是:
1.使用Safari的阅读模式和Boilerpipe(Kohlschütter等人,2010)算法进行正文提取。安全和粗话过滤,使用启发式和基于模型的分类器。全局模糊去重,使用局部敏感的n-gram哈希。
2.基于启发式和基于模型的分类器进行广泛的质量过滤 [Kong等人,2024; Li等人,2024a]。
对811个常见的预训练基准进行脱敏,整个文档在4-13克拉碰撞与任何基准数据集一致时进行过滤,除非给定n-gram的碰撞计数达到“commonusage”阈值1000。
3.1.2许可的数据集
我们会尽力识别和许可来自出版商的少量高质量数据。这些经许可的数据集为我们提供了自然而多样化的高质量长文本数据来源,因此我们将它们作为预训练的持续和延伸上下文阶段的一部分(更多详细信息请参见第3.2.2节和3.2.3节)。我们对出版商许可数据的清洗方法与我们对网页的清洗方法相同(参见第3.1.1节)。
3.1.3代码
从GitHub上的经过许可筛选的开源代码库中获取代码数据。大部分代码数据涵盖了14种常见的编程语言,包括:Swift,Python,C,Objective-C,C++,JavaScript,Java和Go。数据进行了去重处理,进一步过滤了PII和质量,并以与第3.1.1节相同的方式进行了去污染处理。
3.1.4数学
我们整合了两类来源自网络的高质量数据。第一类是数学问答数据集,包括来自20个数学内容丰富的网域中共30亿令牌。我们通过从HTML页面识别相关标签来提取问题和答案。第二类是来自网页的共140亿令牌的集合,例如数学论坛、博客、教程和研讨会。为了过滤这些网页,我们使用了一个专门的流水线,其中包括数学标签过滤器,其中包括一组40个字符串以识别数学模板,数学符号过滤器,其中包括一组350个Unicode和LaTeX符号以识别数学内容,由专为数学而设计的语言模型分类器提供动力的质量过滤器[Kong等,2024年],以及一个由人类手动标记的领域过滤器处理所有网页。我们应用了这些过滤器,随后进行了去重、去污染和PII(个人身份信息)移除,以生成最终数据集。
3.1.5公共数据集
我们评估并选择了一些具有许可证允许用于训练语言模型的高质量公开可用数据集。然后,我们在将它们包含在预训练混合模型中之前,过滤掉其中的个人识别信息。
3.1.6Tokenizer
我们使用字节对编码(BPE)分词器,遵循来自SentencePiece的实现。所有数字都分割为单个数字,我们使用字节回退来将未知的UTF-8字符分解为字节标记。我们不启用Unicode规范化。总词汇量为100k,分别为AFM服务器和AFM设备的49k个标记。
3.2配方
我们将AFM的预训练分为三个明确定义的阶段:1. 核心阶段,消耗大部分计算资源,2. 继续阶段,在这里我们降低较低质量的大规模网络抓取数据的权重,而更倾向于对代码和数学的权重,并结合第3.1.2节中描述的许可数据,上下文延长,类似于另一个持续的预训练阶段,但在更长的序列长度下进行,并包含合成的长上下文数据混合在其中。
三个预训练阶段后模型质量的细节。
附录C中提供了根据我们内部基准实现得出的附加AFM指标的信息,附录D则探讨了AFM服务器的长文本能力。
三个阶段都使用了解耦的权重衰减[Loshchilov and Hutter, 2019]用于正则化,以及µParam的简化版本[Yang et al., 2022],类似于[Wortsman et al., 2023]中描述的µParam (简化)。到目前为止,我们还没有发现在这些尺度下需要更复杂的参数范数控制。所有阶段都将模型和优化器状态维持为float32分片,为了效率,在前向和后向传递过程中转换为bfloat16。
3.2.1核心预训练
AFM-server核心训练是从零开始进行的,而AFM-on-device是从一个较大的模型中提炼和剪枝出来的。
AFM-server:我们从头开始训练AFM-server,使用8192块TPU机器训练6.3T标记。TPUv4芯片(编者:谷歌的不是英伟达),使用序列长度为4096和批量大小为4096序列。批量大小是通过拟合模型大小和计算预算的缩放定律确定的,然而我们发现下游结果对一定范围的批量大小相当不敏感,并且预计在0.5×至2×预测的批量大小之间任何值都将产生类似的结果(实际预测的最佳值约为3072,但4096使得芯片利用率更高)。我们使用模型维度为768的代理模型进行学习率范围搜索,发现最佳学习率范围为0.01-0.02,因此我们选择0.01以保守为主。由于使用了µParam(简单),线性层的有效学习率将按照∼0.1的比例进行缩放。
我们使用调整过的分离权重衰减为3.16e−4,发现它在所有测试的模型尺寸和计算预算中都表现良好。学习率调度包括线性预热5000步,然后在剩余训练过程中按余弦衰减至峰值的0.005。有关优化器的进一步细节,请参阅第3.2.4节。附录A将AFM核心预训练配方与更典型的配置进行了比较。
在设备上的AFM模型中,我们发现知识蒸馏[Hinton等,2015]和结构剪枝是改善模型性能和训练效率的有效方法。这两种方法相互补充,以不同的方式发挥作用。具体来说,在对AFM-on-device进行训练之前,我们将其初始化为一个经过修剪的64亿参数模型(6.4B)(使用与AFM服务器相同的配方从头开始训练),使用通过类似于[Wang等,2020;Xia等,2023]所述方法学习的修剪掩码。主要区别在于:(1)我们仅修剪前馈层的隐藏维度;(2)我们使用Soft-Top-K蒙版[Lei等,2023],而不是HardConcrete蒙版[Louizos等,2018];(3)我们使用与核心阶段相同的预训练数据混合来学习掩码,训练了188B标记。然后,在设备上的AFM核心预训练过程中,通过将目标标签替换为真实标签和教师模型的top-1预测的凸组合(将0.9权重分配给教师的标签),使用蒸馏损失进行训练,共训练了6.3T标记。我们观察到,从修剪模型初始化会将数据效率和最终的基准结果分别提高0-2%,而添加蒸馏将MMLU和GSM8K分别提高约5%和3%。更详细的消融结果可以在附录B中找到。除了批量大小之外,所有训练超参数都与AFM服务器保持相同。
3.2.2继续预训练
对于这两个模型,我们在序列长度为8192的情况下进行了持续的预训练,从一个混合数据集中提取了另外1T个token,其中加重了数学和代码内容,减轻了大部分的网络抓取数据。我们还包括第3.1.2节中描述的许可数据。我们使用了峰值学习速率为3e−4和1e−5的解耦权重衰减,以及1000个热身步骤,并将最终学习速率降至峰值的0.001,与核心预训练不同。其他设置(批量大小等)保持不变。我们发现在设备上进行AFM时,蒸馏损失并不会对性能有所帮助,不像在核心预训练中那样,因此使用的配方与用于AFM服务器的配方相同。
3.2.3上下文长度扩展
最后,我们对32768个标记长度的数据进行了进一步的100B标记的持续预训练,使用了来自持续预训练阶段的数据混合,同时增加了合成的长上下文问答数据。我们还将RoPE的基础频率从500k增加到6315089,遵循[Liu等,2024年]中描述的扩展定律,预计这将有助于更好地进行短到长的泛化—考虑到我们的大部分预训练数据由明显短于32k标记的文件组成,这是可取的。该方法与持续预训练所使用的方法类似。我们在附录D中检验了AFM-server的长上下文性能。
3.2.4优化器
我们选择使用带有动量的RMSProp变种[Hinton,2012]。
AFM预训练。具体来说,我们将原始梯度除以平方根的校正偏移的平滑梯度的指数移动平均值,以产生即时更新,然后将其限制为每个参数块的最大范数为1.0,然后再通过指数移动平均值来进一步平滑这个估算值,而不进行偏差校正,从而产生最终的更新。除非另有说明,否则平方梯度(β2)和更新(β1)的平滑常数都设为0.95。为了数值稳定性,在平滑之前,会向即时平方梯度添加一个很小的常数ϵ = 1e−30。
平滑更新会按照学习率进行缩放,加入权重衰减,然后应用调度衰减来形成最终的权重增量。为了稳定性的额外保护,在优化器之前我们将全局梯度范数剪裁至1.0。关于更典型配置的配方消蚀,请参阅附录A。
3.3训练基础设施
AFM模型在v4和v5p云TPU集群上进行预训练(编译者:谷歌云平台)。
AXLearn框架[Apple,2023]是一个基于JAX [Bradbury等人,2018]的深度学习库,旨在为公共云设计。训练过程采用张量、全分片数据并行和序列并行相结合,使训练能够在高利用率下扩展到大量模型参数和序列长度。该系统使我们能够高效和可扩展地训练AFM模型,包括设备上的AFM、服务器端的AFM和更大的模型。
AFM服务器在8192块TPUv4芯片上进行训练,这些芯片被配置为8×1024芯片切片,切片通过数据中心网络(DCN)相连接[Chowdhery等,2022]。只有数据并行穿越切片边界,其他类型的状态分片仅在切片内部,因为切片内部互连带宽比DCN高几个数量级。此次训练运行的持续模型FLOP利用率(MFU)约为52%。AFM-on-device在一个2048个TPUv5p芯片的切片上进行训练。
4后训练虽然在Apple Intelligence功能中,适配器是基于基本模型构建的(请参阅第5节以深入了解适配器架构),但我们经验上发现,改进通用的后训练可以提高所有功能的性能,因为模型在遵循指令、推理和写作方面具有更强的能力。
我们在后续培训方法上进行了大量研究,以赋予预训练的AFM模型普适的指示跟随和对话能力。我们的目标是确保这些模型的能力与之相匹配。
苹果公司的核心价值和原则,包括我们对保护用户隐私的承诺,以及我们的责任型人工智能原则。我们的后训练工作包括一系列数据收集和生成,指导调优和对齐创新。我们的后训练流程包括两个阶段:监督微调(SFT)和从人类反馈中强化学习(RLHF)。我们提出了两种新的后训练算法:(1)一种带有教师委员会的拒绝采样微调算法(iTeC),以及 (2) 一种带有镜像下降策略优化和留一优势估计器(MDLOO)的从人类反馈中强化学习(RLHF)算法,这些算法应用于我们的强化学习迭代中,并导致了显著的模型质量改进。
4.1数据
我们在训练后流程中采用了混合数据策略,其中包括人工标注和合成数据。在整个数据收集和实验过程中,我们发现数据质量是模型成功的关键,因此进行了大量的数据处理和筛选程序。
4.1.1人工标注
为了燃料AFM模型Fine-tuning的指导,我们从各个来源收集了高质量的人工标注演示数据集。这种对话式数据包含系统级和任务级指令。
(a.k.a.提示),以及它们对应的回复。与[Zhou等人,2024年]类似,我们观察到在实验中质量比数量更重要。因此,我们专注于关键的数据质量标准,包括有用性,无害性,展示和响应准确性,另外还针对涵盖Apple智能功能的多样化任务分布。为了保护用户隐私,我们采取措施确保我们的数据中不存在任何个人可识别的信息,并且我们不包括用户在苹果存储的任何个人数据。
人类偏好反馈为了迭代改进AFM的能力,我们进一步收集人类反馈来进行强化学习。具体来说,我们指示人类注释员比较和对同一提示的两个模型响应进行排名,以收集并列偏好标签。此外,我们还使用单边问题来引导这个过程。这些问题告知评分员对模型响应质量的各个方面进行评分,包括遵循指令、安全性、真实性和呈现方式,并且我们也保留这些标签用于模型训练。在这个过程中,我们强调苹果的价值观和标准。和示范数据类似,我们发现数据质量对于反馈数据至关重要,因此我们联合迭代数据和模型质量以统一提升它们。
4.1.2合成数据
除了人工标注,我们还通过合成数据生成来提高数据质量和多样性。我们的研究发现,在我们强大的奖励模型的指导下,自适应反馈模型能够生成高质量的响应,在某些特定领域,这些响应被发现与甚至优于人工标注。因此,我们扩展了我们的提示集以增加多样性,并发现这些生成的响应可以使自适应反馈模型本身受益。接下来,我们将讨论三个领域,我们为自适应反馈模型在训练后生成合成数据:数学、工具使用和编码。
数学 在数学领域,广泛的主题和难度水平使得收集人类示例变得异常资源密集,因为这需要人类作者的专业知识。仅仅依赖人类撰写的内容变得不切实际,因为模型不断改进。因此,探索合成数据的潜力变得至关重要,以有效应对挑战。
数学合成数据的创建包括两个主要阶段:生成合成数学问题和生成对应的解决方案。对于数学问题的合成,我们采用几种“演化”策略,其中一组种子提示被转化为一个更大且多样化的提示集合:
根据[Yu等,2023]中的方法,我们促使AFM重新表述种子数学问题,并编辑反向问题,以便在提供最终答案时从原始问题陈述中推导出一个特定的数字。
问题演化。受到指导演化技术[Xu等,2023]的启发,给定一个种子问题集Dseed,我们促使AFM生成两个不同的数学问题集,即F(Dseed) −−−depth→ Ddepth和F(Dseed) −−−−−breadth→ Dbreadth。深度演化通过增加复杂性来增强说明,而广度演化则改进了主题覆盖范围。对于Dbreadth和Ddepth,我们首先利用嵌入模型进行去重,随后促使LLMs确保数学问题的连贯性和可解性。此外,对于Ddepth,会分配一个难度级别,并且我们只选择得分高于特定阈值的数学问题。
通过扩充的数学问题集合,我们指导自动答题机器(AFM)在每个问题中生成带有思维链的N个回答。如果初始种子数据具有基本事实,它们可以被用作“结果奖励信号”来过滤合成的答案。对于那些需要较少推理步骤的问题,我们观察到,一个正确的最终答案通常与正确的中间步骤相关联。如果直接答案检查不成功或基本事实不可用,我们将通过查询LLM评委来评估回答的正确性。我们发现,将经过过滤的答案加入训练数据后,大幅提升了我们模型的数学能力。
工具使用 我们通过合成数据和人类数据混合开发工具使用能力,例如功能调用、代码解释器和浏览。 模型能力首先通过合成数据引导,重点放在单工具使用情况上。 然后,我们收集人类注释以改进涉及多工具和多步骤场景的模型能力。 我们进一步通过将神谕工具与其他类似工具混合,增加工具选择的困难度,来增加人类策划的功能调用数据。此外,我们从人类策划的功能调用数据中合成并行功能调用,以实现新功能和基于人类策划的功能调用和通用 SFT 数据的工具意图检测数据,以减轻工具调用过度触发的问题。
编码生成一个合成编码数据集涉及到使用拒绝抽样的自指导方法。这种方法使模型能够自主学习和生成数据。从71个不同的编程主题作为种子开始,模型被提示生成一个初始的编码面试类似问题的池。对于每个问题,模型会生成一组单元测试和若干潜在解决方案。然后我们使用基于执行的拒绝抽样方法来选择最佳解决方案。这涉及将每个潜在解决方案与每个单元测试进行编译并执行。选择具有最高成功执行次数的解决方案。这产生了一组(问题、测试案例、解决方案)三元组。最后,我们通过使用通过单元测试数量来过滤三元组来验证数据集的质量,从而得到了用于SFT的12K高质量三元组。
4.2监督微调(SFT)
已显示[Chung等人,2024年],通过扩大多任务指令调整,显著提高了模型在各种任务上的性能。同样,我们尝试扩大监督微调数据,以获得用于后续对齐的强基础模型。在SFT期间,我们收集并训练给定提示的演示数据模型。我们精心挑选并结合人类数据和合成数据,形成涵盖各种自然语言使用案例的高质量混合物。
数据选择 我们在将数据纳入模型训练之前建立了一系列质量保障措施,包括来自内部人工标注者的评级、基于模型的自动过滤技术以及利用文本嵌入进行去重。我们也通过各种合成数据生成方法(如第4.1.2节所述)、以及拒绝抽样(如第4.3.2节所述)来扩大混合大小。
调整混合比例 为了调整混合权重,我们将其视为一个优化问题。具体而言,给定一组权重(w1,w2,...,wn),其中wi表示混合物中特定组分的比例,我们使用wi → wi ± ∆wi训练模型,并在一组基准上评估质量变化。我们发现,广泛地运行这样的实验可以有效地确定最佳混合物并去除影响最小的数据组分。
训练超参数:该模型在AFM服务器和AFM设备模型上使用恒定的学习率5e−6进行训练,以及丢弃率为0.1。由于评估指标在不同的检查点上波动,我们基于自动评估基准运行检查点选择,并利用奖励模型进行RL的N选最佳选择来测试潜在收益。
4.3从人类反馈中进行强化学习(RLHF)
我们进一步利用收集的人类偏好数据进行强化学习,以提高模型性能和质量。这涉及训练一个强健的奖励模型,并将其应用于我们将在下文讨论的iTeC和MDLOO两种算法中。我们在附录E中提供了有关我们RLHF流程的更多详细信息。
4.3.1奖励建模
我们使用在第4.1.1节中收集的人类偏好数据来训练奖励模型。每个人类偏好数据项包含一个提示和两个响应,以及包括人类标签在内的数据。
双方间的首选响应以及偏好水平,即首选响应是否明显优于、优于、略优于或微弱优于被拒绝的响应。
每个回应的单向评分,测量指令遵循属性,回应的简洁性、真实性和无害性。
我们的奖励模型训练遵循RLHF中奖励建模的标准实践,具有两个主要创新:
我们设计了一个考虑人类偏好程度的软标签损失函数。
我们在奖励建模中引入单侧梯度作为正则化项。
我们在RLHF中采用常用的Bradley-Terry-Luce(BTL)模型[Bradley和Terry,1952]进行奖励建模。在这个模型中,人类标注者更喜欢一种响应而不是另一种的概率被建模为奖励差异的S形函数。我们的软标签损失函数鼓励在偏好水平较高时,这种概率也较高,
例如,在一个响应明显优于另一个响应时,反之亦然。我们注意到这与Llama 2中的基于边界的损失函数不同[Touvron等,2023],后者也利用了偏好水平。经验表明,我们的方法比基于边界的损失函数效果更好。此外,我们也发现,使用单侧分级作为正则化项可以有效提高奖励模型的准确性。有关我们奖励建模技术的更多细节,请参见第E.1节。
4.3.2迭代教学委员会(iTeC)
为了充分发挥我们模型在多轮RLHF中的能力,我们提出了一个新颖的迭代RLHF框架,有效地结合了各种偏好优化算法,包括拒绝抽样(RS)、直接偏好优化(DPO)[Rafailov等,2024]及其变种如IPO[Azar等,2024],以及在线强化学习(RL)。这使我们能够将RLHF的好处带给各种规模的AFM模型,并同时提高它们的对齐性。
迭代委员会:从开发AFM RLHF的过程中我们学到的最重要的一点是,使用多样化、表现最佳的模型集合来更新在线人类偏好数据的收集。具体来说,对于每一批人类偏好数据的收集,我们建立了一个来自SFT、RS、DPO/IPO和RL训练的最新有前景的模型集合,以及来自上一轮迭代中的最佳模型,我们将其称为“模型委员会”。我们对从最新模型委员会中抽样得到的回复进行两两人类偏好数据的收集。
获取每批人类偏好数据后,我们刷新我们的奖励模型,并使用一系列偏好优化算法训练一组新模型。然后我们将用新模型委员会继续下一轮迭代RLHF数据收集。
委员会精炼 我们进一步从最新的奖励模型作为重新排序器的模型委员会中运行拒绝抽样(精炼)。与在全局级别重新排序不同,即从委员会中选择一个表现最佳的模型并将其用作教师模型,我们在提示级别重新排序模型响应。具体来说,对于每个提示,我们从委员会中的每个模型中抽样多个响应,并使用最新的奖励模型为每个提示选择最佳响应。这样可以结合不同偏好优化算法训练的模型的优点。例如,我们发现利用负例,例如在线RLHF、DPO、IPO等算法,更有助于提高推理能力,如数学,同时拒绝抽样微调更有效地学习遵循指令和写作技巧。
为了将RLHF的改进带给所有规模的AFM模型,我们将从模型委员会中扩展蒸馏。与较大模型不同,其中精心迭代数据和模型质量比数据数量更重要,我们发现当我们扩大蒸馏提示的数量时,较小的模型可以取得巨大的改进。我们的最终设备上的AFM模型是在模型委员会生成的超过100万个高质量响应上进行训练的。
4.3.3在线强化学习算法:MDLOO
在本节中,我们介绍了我们的在线强化学习算法MDLOO,在模型训练过程中解码响应并应用强化学习算法来最大化奖励。
我们使用常见的RLHF目标,该目标最大化KL惩罚奖励函数【欧阳等,2022】:
maxEx∼D,y∼πθ(·|x) [rϕ(x,y) − βDKL (πθ(·|x)∥πref(·|x))],(1) θ
在我们的强化学习训练中,我们使用奖励函数,其中D是提示分布,DKL(·∥·)表示两个分布之间的Kullback-Leibler散度,β是控制行为策略πθ和参考策略πref之间散度的系数,通常是由SFT训练的模型。
,(2)
其期望值等同于方程式1。我们考虑赌博机设置,整个响应生成被视为一次动作,我们不使用值网络(又称评论家)来获得每个令牌的奖励或优势。
类似于常用的RLHF算法,如PPO [Schulman et al., 2017],我们使用基于信赖区域的策略迭代算法。在我们的在线RL算法中,我们做出了两个主要的设计选择:
1.我们使用留一法(LOO)估计器来估计提示-响应对的优势,类似于最近的一项工作[Ahmadian等人,
2024].
2.我们使用镜像下降策略优化(MDPO)[Tomar等,2020]来优化策略,与更常用的基于剪切的PPO方法不同。
因此,我们将我们的在线RL算法命名为镜像下降与留一估计(MDLOO)。更具体地,在算法的解码阶段,我们对每个提示解码多个响应,并分配。
每个响应的优势是(提示,响应)对的奖励与由相同提示生成的其他响应的平均奖励之间的差异。直觉上,这个估计旨在衡量与典型响应相比,一个响应有多好。从经验上看,我们发现这种优势估计对于稳定RL算法和取得良好结果至关重要。此外,我们使用基于KL正则化的信任区域方法,即MDPO,来控制每次迭代中的策略变化。我们发现在我们的设置中,这种算法比PPO更有效。我们的在线RLHF算法的更多细节可以在E.2节中找到。
5激活苹果智能功能我们的基础模型是为Apple Intelligence设计的,这是集成到iPhone、iPad和Mac支持型号中的个人智能系统。我们设计这些模型的目的是为了让其快速高效。虽然我们的基础模型在广泛能力方面取得了令人印象深刻的水平,但其真正的质量衡量标准在于它在跨我们操作系统的特定任务上的表现如何。
在这里,我们发现即使是小型模型,通过任务特定的微调,也可以将性能提升到最佳水平,并且已经开发了一种基于运行时可互换适配器的架构,使得单一基础模型能够针对数十种不同的任务进行专门优化。图2展示了该架构的高级概述。
图2:Apple Intelligence架构,使用适配器为语言在设备和服务器模型以及图像模型提供支持。在本报告中,我们仅描述文本模型。
5.1适配器架构
我们的基础模型经过微调,适用于用户的日常活动,并能动态地根据手头的任务自行特化。我们使用LoRA [Hu et al., 2021] 适配器,这是一种可以插入到基础模型的各个层中的小型神经网络模块,用于为特定任务微调我们的模型。对于每个任务,我们调整所有AFM的自注意力层中的线性投影矩阵和点面前馈网络中的全连接层。仅微调适配器,使基础预先训练模型的原始参数保持不变,保留模型的通用知识同时调整适配器以支持特定任务。
我们使用16位表示适配器参数的值,对于在设备上的约30亿参数模型,典型的16级适配器所需的参数通常需要数十兆字节。适配器模型可以动态加载,暂时缓存在内存中,并且可以交换——这使得我们的基础模型在高效管理内存的同时,能够根据需要灵活专门化,并保证操作系统的响应能力。
为了方便适配器的训练,我们创建了一个高效的基础设施,使我们能够在基础模型或训练数据更新或需要新能力时快速添加、重新训练、测试和部署适配器。值得注意的是,适配器参数是使用第5.2节介绍的准确性恢复适配器进行初始化的。
5.2优化
AFM模型旨在支持用户在日常活动中的使用,推断延迟和功耗效率对于整体用户体验都很重要。我们应用各种优化技术,使得AFM能够在设备上和私有云计算中得以高效部署。这些技术显著降低了内存、延迟和功耗的使用,同时保持了整体模型质量。
为了将AFM适应边缘设备的内存预算限制并降低推理成本,关键是应用模型量化技术以降低每个权重的有效比特数,同时保持模型质量。先前的研究发现,与原始的32/16位浮点版本相比,4位量化模型在质量损失方面仅有边际增加(通常以预训练指标来衡量)。由于预计AFM将支持各种产品特性,因此量化模型保持特定领域的能力对于这些用例至关重要。为了在模型容量和推理性能之间取得最佳平衡,我们开发了最先进的量化方法和一个利用准确性恢复适配器的框架。这使我们能够实现几乎无损的量化,平均每个权重少于4比特,并提供灵活的量化方案选择。
方法模型在经过后训练阶段(量化方案的细节将在后面讨论)后,平均每个权重低于4位时被压缩和量化。量化模型通常显示出适度水平的质量损失。因此,我们不直接将量化模型传递给应用团队进行特征开发,而是附加一组参数高效的LoRA适配器进行质量恢复。我们确保这些LoRA适配器的训练配方与预训练和后训练过程保持一致。然后,产品将通过从准确度恢复适配器初始化适配器权重来微调其自己的特定特征LoRA适配器,同时保持量化基础模型冻结。
训练精度恢复适配器很高效,并且可以被视为训练基础模型的迷你版本。在适配器的预训练阶段,我们仅需要约100亿标记(基础模型训练的约0.15%)就可以完全恢复量化模型的容量。由于应用适配器将从这些精度恢复适配器微调,它们不会产生任何额外的内存使用或推理成本。关于适配器的大小,我们发现适配器秩为16在模型容量和推理性能之间提供了最佳的权衡。然而,为了满足不同用例的灵活性,我们提供了一套不同秩({8, 16, 32})的精度恢复适配器供应用团队选择。在附录 F 中,我们提供了对未量化、量化和精度恢复模型的详细评估结果,并展示恢复模型表现得更接近未量化版本。
量化方案另一个由准确度恢复适配器带来的好处是,它们允许更灵活地选择量化方案。以前在量化LLMs时,人们通常将权重分组成小块,通过对应的最大绝对值对每个块进行归一化以滤除异常值,然后在块的基础上应用量化算法。虽然较大的块大小会导致每个权重的有效比特数减少并且吞吐量更高,但量化损失会增加。为了平衡这种权衡,通常会将块大小设置为较小的值,如64或32。在我们的实验中,我们发现准确度恢复适配器可以大大改善这种权衡中的帕累托前沿。对于更激进的量化方案,将会恢复更多的错误。因此,我们能够对AFM使用高效的量化方案,而不必担心丢失模型容量。具体来说,我们在搭载苹果神经引擎(ANE)上运行的AFMon-device模型使用了调色板化:对于投影权重,每16列/行共享相同的量化常数(即查找表),并使用K均值法进行量化,具有16个唯一值(4位)。量化块大小可达到100k。此外,由于AFM的嵌入层在输入和输出之间是共享的,因此在ANE上与投影层不同实现。因此,我们使用每通道量化的8位整数来量化嵌入以获得更好的效率。
混合精度量化在AFM的每个Transformer块和每一层中存在残差连接。因此,不太可能所有层具有相同的重要性。基于这一直觉,我们通过将一些层推送到使用2位量化(默认为4位)来进一步减少内存使用。平均而言,AFM在设备上的压缩仅约为每个权重约3.5位(bpw),而没有显著的质量损失。在生产中,我们选择使用3.7 bpw,因为它已经满足了内存要求。
交互模型分析我们使用一个交互模型延迟和功耗分析工具,Talaria [Hohman et al., 2024],以更好地指导每个操作的比特率选择。
更多讨论。量化模型的使用和LoRA适配器在概念上与QLoRA [Dettmers等人,2024年] 相似。虽然QLoRA旨在在微调期间节省计算资源,但我们的重点是能够在不同LoRA适配器之间进行切换,以有效支持各种特定用例的高性能。在进行特定特征微调之前,我们首先在相同的预训练和后训练数据上训练准确度恢复适配器,这对保持模型质量至关重要。准确度恢复框架可以与不同的量化技术结合使用,比如GPTQ [Frantar等人,2022年] 和AWQ [Lin等人,2024年],因为它不直接依赖于量化方法本身。第5节中描述的特征适配器是从这些准确度恢复适配器初始化的。
5.3案例研究:总结
我们使用AFM-on-device模型来支持摘要功能。我们与设计团队合作,为电子邮件、消息和通知的摘要制定规范。
AFM-on-device擅长一般性摘要,但我们发现很难引出严格符合规范的摘要。因此,我们在经过量化的 AFM-on-device 上微调 LoRA 适配器进行摘要。该适配器是从第5.2节描述的准确性恢复适配器初始化的。我们使用包含电子邮件、短信和通知的输入有效载荷的数据混合。这些有效载荷包括公共数据集、供应商数据和内部生成和提交的示例。所有数据均已获得生产使用的批准。供应商数据和内部生成的数据均已进行了匿名化处理,以删除用户信息。根据这些有效载荷,我们使用 AFM-server 生成符合产品要求的合成摘要。这些有效载荷和摘要用于训练。
使用AFM服务器生成合成摘要。
我们应用一系列基于规则的过滤器,然后是基于模型的过滤器。基于规则的过滤器基于启发式规则,例如长度约束、格式约束、观点、语态等。基于模型的过滤器用于筛选更具挑战性的问题,例如蕴涵。我们的合成数据流水线使我们能够高效生成大量训练数据,并将其按数量级过滤,保留高质量样本以供微调使用。
我们发现AFM-on-device很容易按照输入内容中存在的指令或问题进行操作,而不是进行总结。为了减轻这一问题,我们使用启发式方法识别了一大批包含此类内容的示例,利用AFM-server生成摘要,因为它不显示类似的行为,并将这个合成数据集添加到微调数据混合中。
6评价我们在预训练(第6.1节)和训练后对AFM模型进行评估。
(Section 6.2),最重要的是,特定功能(Section 6.3)基准测试。
6.1预训练评估
在这一部分,我们提供常见的少样本预训练评估指标。虽然这些基准对于跟踪我们在预训练方面的进展很有用,但我们发现对于后训练模型(第6.2节)和特征适配器(第6.3节)的人类评估更与端到端用户体验密切相关。
我们使用常见的开源评估测试和基准来评估AFM预训练模型。表2展示了在HELM MMLU v1.5.0 [Liang et al., 2023]上对AFM设备端和AFM服务器端进行的测试结果,该测试涵盖了57个科目的5选1多项选择题。另请参见表3和表4,了解AFM服务器在HuggingFace OpenLLM榜单V1 [Huggingface, 2024]的子集和HELM-Lite v1.5.0基准套件 [Stanford, 2024]上的结果。这些基准测试表明,AFM预训练模型具有强大的语言和推理能力,并为后续训练和特征微调提供了坚实的基础。
表2:HELM MMLU-5s [Liang等,2023] v1.5.0 评估结果。
表3:Open LLM排行榜[Huggingface, 2024] V1评估结果的子集。
6.2后训练评估
我们在全面的基准测试中评估了训练后的模型,并将AFM模型与各种开源模型以及GPT-3.5和GPT-4进行了比较。本节中报告的所有结果均是使用AFM-on-device和AFM-server基础模型在bfloat16精度下获得的,没有适配器。在本节中,我们首先提供了衡量AFMs一般能力的人类评估结果,然后展示了几个特定能力和领域的结果。
表4:HELM-Lite v1.5.0 [斯坦福大学,2024年] 预训练评估结果。注意:许多基准测试(例如MMLU)与常用设置有显著差异。
6.2.1人类评估
人类评估模拟实际使用情况和用户反馈,因此通常被视为语言模型评估的金标准。因此,我们在开发模型时和评估其最终形式时都进行广泛的人类评估。我们收集一组评估提示来测试模型在不同方面的性能,包括一般能力和安全性。对于每个提示,我们匿名向人类评定者展示两个模型响应,以便进行并排比较。根据评估的性质,我们向人类评定者提供包含评分原则和单一响应评分以及并排喜好评分示例的详细准则,以确保评分标准和评估质量的一致性。每对模型响应由多个评分者评分,他们的评分被汇总以得出最终结果。总的来说,我们发现人类评估与用户体验更一致,并提供比某些使用LLMs作为评分者的学术基准更好的评估信号。在本节中,我们展示了关于一般能力的人类评估结果,安全性评估结果则在第7.6节中提供。
我们收集了一个包含1393个提示的综合集合,以评估通用模型的能力。这些提示在不同难度级别上是多样的,并涵盖主要类别,包括:分析推理、头脑风暴、聊天机器人、分类、封闭式问题回答、编码、提取、数学推理、开放式问题回答、重写、安全、摘要和写作。为了防止过拟合,在准备训练数据时,我们对我们的评估提示进行了净化。
AFM模型(Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商业模型(GPT3.5 和 GPT-4)在竞争对手模型中更受人类得分人员青睐。特别是,AFM-on-device 在获胜率达到 47.7% 时。
人类评估
AFM服务器与评估提示的分数
图3:AFM-on-device和AFM-server与可比较模型进行并排评估。我们发现,我们的模型通常被人工打分优于竞争对手的模型。
相较于Phi-3-mini,尽管模型大小缩小了25%,但甚至超越了开源强基线模型Gemma-7B和Mistral-7B,后者的参数数量是其两倍还多。与闭源模型相比,AFM-server取得了竞争性表现,在与GPT-3.5比赛中获得超过50%的胜率和27.4%的平局率。
6.2.2指令跟随
指令遵循(IF)是我们希望语言模型具备的核心能力,因为现实世界的提示通常复杂并包含复杂的指令。我们强调指令遵循在我们的RLHF数据收集和人类评估中的重要性。在本小节中,我们使用自动化基准来评估我们模型的IF技能。
在图4中,我们分别评估了AFM-on-device和AFM-server在公共IFEval基准[Zhou等,2023]上的表现。这一基准衡量了语言模型生成响应的能力,确切地遵循提示中的指令。这一基准中的指令通常包括对响应长度、格式、内容等的要求。我们发现AFM-on-device和AFM-server在指令级别和提示级别的准确性上均表现出优异的性能。此外,我们还进行了基准测试。
AFM模型在AlpacaEval 2.0 LC基准测试上[Dubois等,2024年],用于衡量通用指令遵循能力,结果表明我们的模型具有很高的竞争力。
指示遵循基准测试
本地服务器IFEval指令级IFEval指令级
图4:AFM模型和相关比较模型的指令遵循能力(使用IFEval测量,数值越高越好)。Mistral 7B、Llama3 8B、Llama3 70B、DBRX-Instruct和Mixtral 8x22B的AlpacaEval 2.0 LC结果来自AlpacaEval排行榜[Taori等人,...
2023].与比较模型的Arena Hard结果来自ArenaHard-Auto排行榜[李等,2024b]。所有其他结果来自我们自己的评估。
6.2.3工具使用
在工具使用应用中,针对用户请求和具有描述的潜在工具列表,模型可以选择通过提供结构化输出来发出工具调用,指定要调用的工具的名称和参数值。我们期望工具描述遵循OpenAPI规范。
我们通过原生支持函数调用,使用AST指标,在公共的伯克利函数调用排行榜基准测试上进行评估[Patil等,2023年]。
如图5所示,AFM-server实现了最佳的整体准确性,超越了Gemini-1.5-Pro-Preview-0514和GPT-4。
函数调用基准测试中的工具使用
图5:伯克利函数调用排行榜基准评估在函数调用API上的结果,以及相关的采样比较。数字是从Gorilla排行榜收集的[Patil等,2023]。
6.2.4写作
写作是大型语言模型必须具备的最关键的能力之一,因为它赋予了各种下游用例的能力,例如改变语调、重写和总结。然而,评估写作质量是一项非常困难的任务,并且以上公开基准中并未涵盖。
我们在内部摘要和写作评估基准上评估AFM的写作能力,这些基准包括各种写作指导。在LLM作为评阅者的基础上[Zheng等,2024],我们为每个摘要和写作任务设计一个评分指导,并要求GPT-4 Turbo为模型响应分配1到10分的评分。我们注意到,使用LLM作为评分者存在一定的限制和偏见,如长度偏见。
我们将AFM与一些最优秀的模型进行比较,以及规模较小的开源模型。如图6所示,与Gemma-7B和Mistral-7B相比,AFM-on-device可以实现相当或更好的性能。AFM-server明显优于DBRX-Instruct和GPT3.5,并与GPT4相当。
6.2.5写作基准
On‑Device Server设备本地服务器
概括总结。基准S核心Benchmark S core.
图6:AFM设备上的内部摘要和作文基准测试中的写作能力(数值越大越好),以及AFM服务器与相关抽样比较。我们发现我们的模型表现优秀,与相关模型相比有更好或类似的表现。
6.2.6数学
在图7中,我们比较了后训练的AFM在数学基准测试上的表现,包括GSM8K [Cobbe et al., 2021]和MATH [Hendrycks et al., 2021]。我们对GSM8K使用了8-shot chain-of-thought(CoT)[Wei et al., 2022]提示,对MATH使用了4-shot CoT提示[Lewkowycz et al., 2022]。我们使用内部自动化评估流程进行所有评估。我们看到,AFM-on-device明显优于Mistral-7B和Gemma-7B,甚至在不到它们一半大小的情况下。
6.2.7数学基准
在设备端服务器
GSM8KGSM8K
020406080100020406080100
基准S核心Benchmark S core
图7:AFM-on-device和AFM-server的数学基准以及相关的样本比较。GSM8K是8拍,MATH是4拍。所有结果均通过内部自动化评估流程收集。
6.3摘要功能评估
产品团队的规格要求对电子邮件、消息和通知进行总结,需要一套定制的指南、指标和专门的评分器,以评估总结质量与各种开源、许可和专有数据集之间的对比。
数据集。我们为每个使用情况精心抽样丰富的有效负载。这些评估数据集强调了一组多样化的输入,我们的产品特性在生产过程中可能会遇到,并包括各种内容类型和长度的单个和堆叠文档的分层混合。我们开发了一个流水线来构建模拟真实用户输入的评估数据集。
评分员。我们招募了一批受过高度训练、全职受雇于苹果公司的人类评分员,他们具有专业的写作和理解能力,用于评估总结质量。为了符合评分项目,每位评分员必须通过一系列的资格和培训步骤,包括在写作相关学科获得学士学位、定制的培训课程以及持续高水平表现以符合内部评分质量基准。
评分指南。在评估任务中,评分员会收到摘要的规范,原始输入内容和输出摘要。评分员将根据以下质量子维度之一使用3点评分标准(“好”, “中”, 或 “差”)对摘要进行评估:
Composition:评估摘要的整体可读性,考虑语法、标点、拼写和简洁性。
Comprehensiveness:评估总结在捕捉关键要点或指出用户行动/结论方面的综合性。
Groundedness:评估摘要与原始内容之间的联系程度。未完全接地的摘要可能包含夸大、推断、不准确或虚构的细节。
按照以下说明:评估总结是否符合特定的风格和格式要求。 要求针对每个功能进行定制,反映具体的产品和设计期望。 有害性:评估总结是否包含根据苹果的安全分类具有有害或不安全内容的内容。
根据预定义的产品规范,如果任何子维度被分类为“差”,则摘要被归类为“差”。同样,只有当所有子维度均为良好时,摘要才被分类为“好”。这些分类用于计算“好/差结果比”指标,定义为所有摘要中好/差摘要的百分比。
结果。我们请人类评分员评估摘要的质量。
AFM-on-device adapter, Phi-3-mini, Llama-3-8B,和 Gemma-7B。图8显示,AFM-on-device adapter整体表现优于其他模型。
7负责任的人工智能7.1概述
苹果智能(AI)是负责任地开发,精心设计,旨在赋予我们的用户力量,真实代表他们,并保护他们的隐私。在我们的负责任 AI 方法中,首要重要的是,我们最终提供的是具有智能、明确定义的工具,以满足特定用户需求。明确定义功能意图有助于更好地识别任何潜在的安全漏洞。
我们开发了一套安全分类系统,以便在设计和评估我们的生成式人工智能功能时做到全面和一致。这个分类系统构建并扩展了苹果在利用人工智能和机器学习为全球用户提供有用功能方面的丰富经验,并在我们开发和测试功能时定期更新。目前,该系统由12个主要类别组成,包括51个子类别,包括“仇恨言论、刻板印象和蔑称”、“歧视、边缘化和排斥”、“非法活动”、“成人性内容”和“图形暴力”。
分类法用作考虑与每个特定特征相关的潜在问题和风险的结构化方式。随着新的或额外的风险被确定,我们会制定和修订相关政策,这些政策将与每个环境相关。
人类对总结功能的满意度
良好结果比率 差结果比率
图8:相对于所有回应,针对三种摘要用例的“好”和“差”回应比例。摘要根据五个维度被分类为“好”、“中立”或“差”。如果所有维度都是好的(数值越高越好),结果被分类为“好”。如果任何一个维度是差的(数值越低越好),结果被分类为“差”。总体而言,我们的在设备上的自适应深度加法模型生成的摘要比可比模型更好。
针对不同的特征,考虑到其服务的具体需求、产生的内容和适当的缓解措施。它们是通过与学者、AI伦理学家、信任与安全专家和法律专家的广泛内外部输入共同开发的,以更好地识别和理解相关风险、这些风险的潜在严重性以及这些风险可能对某些群体造成的潜在差异影响。这些政策指导我们在数据收集、人工标注、模型训练、防护栏开发、评估和红队操作中的工作。
特别是,分类学本身并不是我们政策的唯一决定因素。例如,可能属于安全分类的内容并不一定总是被屏蔽,因为单方面这样做可能与苹果公司负责任人工智能发展原则的其他方面发生冲突,比如“尊重用户选择如何使用这些工具来实现他们的目标”。因此,作为工具运作的功能可能在操作的内容类型和生成的内容方面更为宽松,以有效地满足用户的意图。另一方面,可能会生成超出用户指定意图的内容的功能可能需要更受限制。无论如何,我们努力确保某些类别的伤害始终受到特别关注(比如任何与自残有关的内容),而其他类别将始终被屏蔽(比如非法内容)。
此外,我们的负责任人工智能原则被纳入到每个阶段的 Apple Foundation Models 和 Apple Intelligence 中,以及安全分类体系中,这帮助我们评估风险并逐个特性制定政策。我们将安全导向的数据作为我们定制的特定适配器的微调部分。此外,在推断时,我们还运行防护栏模型[Inan等,2023年]作为预处理和后处理步骤,以评估输入和输出级别的潜在风险。最后,我们已经建立机制,通过持续的用户反馈来不断主动改进我们的人工智能工具。
7.2预训练
在预训练阶段,我们采取了几项措施来确保上述价值观得到维护。我们遵循严格的数据政策,确保不包括任何苹果用户数据,并对训练语料库中的每个组件进行严格的法律审查。此外,我们进行安全过滤,以减少潜在有害内容,包括不适宜工作场所的内容、粗言秽语、垃圾信息,以及个人身份信息或财务数据。
由于预训练是各种下游功能共享的一步,我们的安全缓解措施旨在保留一般能力,使我们能够在每个功能级别对分类法和策略进行迭代,而不会损害这些下游模型的实用性。我们借鉴以往的经验教训,避免在预训练阶段过度激进的过滤,这在安全对准方面具有潜在好处[Touvron et al., 2023]。直觉上,预训练模型应意识到下游功能和策略可能需要其处理的内容 - 在某些情况下需要小心处理,或在其他情况下直接操作此类内容。
7.3后训练
在后训练阶段,我们的目标是灌输一种与我们的负责任人工智能原则基线水平对齐,以避免在基础模型之上构建的每个下游模型中必须需要处理后训练的全部复杂性(如RLHF)。在这样做时,有两个关键考虑因素:
我们必须确保我们的模型产生对用户有帮助的输出,同时最大程度地减少潜在的伤害。
我们必须根据每个功能逐个确定我们的安全分类和政策,以提供最佳用户体验。
为了平衡有用性和无害性的权衡,我们的解决方案是将安全对齐视为评估和一起迭代的许多核心训练后任务之一,而不是作为训练的单独阶段。具体来说,我们将经过策略和价值观精心策划的对抗性数据纳入我们的SFT和RLHF训练语料库中,通过与可信供应商密切合作。我们还将安全任务和基准纳入模型开发过程中使用的自动和人工评估中。
总体而言,超过10%的训练数据是针对对抗性、安全或敏感话题的,包括单轮和多轮安全类别注释、成对和整体偏好评级以及注释者的重写。这些数据要么直接使用,要么作为合成数据生成的种子数据,如第4.1.2节所述。
我们做了额外的工作,超越基线对每个功能实现适当的安全行为。我们实现这一点的一个主要方式是通过收集与安全相关的训练数据,并在微调适配器时将其包含进去。例如,在微调我们的摘要适配器时,我们试图改进诸如提高对要被总结内容中包含的恶意问题的鲁棒性,以及减少摘要无意中放大要被总结的有害或敏感内容的可能性等方面。
7.4防范恶意代码
代码生成需要特别注意。我们的代码基准测试涉及实际执行生成的代码,以确定语法和语义的正确性。因此,负责任地训练代码模型涉及将所有生成的代码默认视为不安全 - 所有代码始终在完全锁定的环境中执行,无法访问互联网或任何内部或外部服务。具体来说,锁定的环境由FireCracker [Agache等人,2020]管理,在集群级别有一个FireCracker jailer。
7.5红队行动
红队测试致力于引发模型违反安全策略的反应,或者针对尚无策略的有害反应。这些结果既有助于政策制定,也会影响安全评估数据集的重点和内容。而这些又可以影响设计、工程和发货准备决策。
红队行动是一项基本上是创造性的工作,需要红队成员利用攻击向量的组合来探测已知的模型漏洞,并尝试发现新的漏洞。与语言模型互动时使用的攻击向量包括越狱/提示注入、说服技术[Zeng等,2024]以及已知会导致模型错误行为的语言特征(例如俚语、代码切换、表情符号、打字错误)。
我们采用手动和自动红队行动[Ganguli等人,2022]来引发对齐模型可能未知的故障模式。最新研究[Touvron等人,2023]表明,自动化过程可能会生成比人类更多样化的提示,以往被视为数据收集的“黄金”标准。这些自动化过程可以包括使用语言模型自身来识别一些可能并非直观甚至令人惊讶的差距。这类示例可以直接用作合成训练或评估数据,并用来指导未来的数据收集工作。
一个基本的人类红队任务模式如下:一个红队员被分配一个安全分类范畴和攻击向量。他们利用该攻击向量为模型撰写输入,旨在引发一个包含该范畴内容的响应。如果响应不包含目标内容,红队员可以参与固定数量的对话轮次,之后给出模型输出的最终有害评级,并列出其中的分类,如果有的话。为确保注释质量,红队员还需为他们的评级提供一个整体置信度分数。
除了在基本模型级别进行红队行动外,我们还会对特定特征进行红队行动。在特征级别进行的红队行动项目使用特定于特征的指南,攻击向量受到特征安全政策和工程问题的影响。这些项目可以深入探究特定特征的已知风险,并对未知漏洞进行对抗性探查。
我们的红队项目是通过内部和外部人员进行的。为了确保负责任的数据收集,由于红队工作的敏感性质,我们:1)使红队完全自愿参加;2)对每名红队成员每周在任务上花费的时间施加严格的时间限制;3)提供全天候健康和福利资源;4)通过每周的办公时间和Slack频道与内部红队成员保持开放的沟通,让他们可以报告任何出现的问题。
7.6评估
如前所述,安全是基础模型开发过程中所迭代的众多方面之一,因此在训练后期同样接受相同的自动和人工评估周期。
为了减少人类评估过程中的噪音、成本和周转时间,我们必须确保我们的安全评估集既清洁,又具有挑战性和全面性。为此,我们筛选出“简单”提示,这些提示在模型的不同版本中始终产生低有害响应,并采用基于嵌入的分析方法来提高我们的评估提示集覆盖范围。总体而言,我们策划了一组超过一千个对抗性提示,以测试AFM在有害内容、敏感话题和事实性方面的表现,符合我们的安全政策。
安全评估结果 如图9总结了不同模型在这个安全评估集上由人类打分者评估的违规率。越低越好。AFM-on-device和AFM-server都对恶意提示具有很强的鲁棒性,其违规率明显低于开源和商业模型。此外,我们在图10中报告了安全评估提示的人类评好偏好。人类打分者更喜欢AFM模型作为安全和有帮助的回应,而不是竞争对手模型。
人类评估输出的有害性。
图9:有害内容、敏感话题和事实性违规响应的比例(更低更好)。我们的模型在面对对抗性提示时表现稳健。
人类对安全提示的偏好评估。
图10:苹果基础模型在安全提示方面的并排评估中受到偏好回应的比例。人类评分者发现我们的回应更安全,更有帮助。
8结论在这份报告中,我们介绍了支持基础语言模型的内容。
苹果智能功能包括AFM-on-device和AFM-server。这些模型旨在在 iPhone、iPad 和 Mac 以及通过私人云计算的苹果硅服务器上快速高效运行。它们经过训练,能够在语言理解、指令跟随、推理、写作和工具使用等任务中具有极高的能力。我们开发了一种创新的模型架构,专门为我们用户最常见的任务定制这些模型。在基础模型的基础上,会微调具有特定功能的适配器,以提供高质量的用户体验,比如对电子邮件、消息和通知进行摘要。我们创建这些模型的目的是帮助用户在他们的苹果产品上进行日常活动,立足于苹果的核心价值观,并贯穿我们的负责任人工智能原则。这些基础模型是苹果智能的核心,这是苹果构建的个人智能系统,旨在继续赋能我们的用户,丰富他们的生活。
参考文献
Yasin Abbasi-Yadkori, Peter Bartlett, Kush Bhatia, Nevena Lazic, Csaba Szepesvari和 Gellért Weisz。Politex:使用专家预测进行政策迭代的遗憾界限。在国际机器学习大会上,页码3692–3702。PMLR,2019。
Alexandru Agache, Marc Brooker, Alexandra Iordache, Anthony Liguori, Rolf
Neugebauer, Phil Piwonka和Diana-Maria Popa. Firecracker: 用于无服务器应用的轻量级虚拟化。在第17届USENIX网络系统设计与实现研讨会(NSDI 20)上,第419至434页,2020年。
Arash Ahmadian, Chris Cremer, Matthias Gallé, Marzieh Fadaee, Julia Kreutzer, Ahmet Üstün, and Sara Hooker.回归基础:重新审视强化学习优化方法,用于在LLMs中学习人类反馈。2024, arXiv:2402.14740.
Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebron,和 Sumit Sanghai. GQA: 从多头检查点训练泛化多查询变压器模型。在第2023届自然语言处理经验方法会议论文集中,第4895-4901页,2023年。doi: 10.18653/v1/2023.emnlp-main.298.
Apple. The AXLearn library for deep learning. https://github.com/apple/axlearn, 2023.
苹果. Applebot 描述. https://support.apple.com/en-us/HT204683,2024a. 访问日期:2024-05-04.
苹果。私有云计算:云中人工智能隐私的新领域。https:
//security.apple.com/blog/private-cloud-compute/, 2024b. Accessed: 2024-07-11.
Mohammad Gheshlaghi Azar, Zhaohan Daniel Guo, Bilal Piot, Remi Munos, Mark Rowland, Michal Valko,和 Daniele Calandriello. 一个通用的理论范式,用于理解从人类偏好中学习。在人工智能和统计学国际会议上,第4447-4455页。PMLR,2024,arXiv:2310.12036。
詹姆斯·布拉德伯里,罗伊·弗罗斯蒂格,彼得·霍金斯,马修·詹姆士·约翰逊,克里斯。
Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne, and Qiao Zhang. JAX: composable transformations of Python+NumPy programs, 2018. URL http://github.com/google/jax.
Ralph Allan Bradley和Milton E Terry。不完全区组设计的秩分析:I.配对比较方法。Biometrika,39(3/4):324-345,1952.
Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav
Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton,
Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko。
Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, PengchengYin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus.Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph,
亚历山大·斯皮里多诺夫,瑞恩·塞帕西,大卫·多汉,希瓦妮·阿加瓦尔,马克
Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie
Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov,
Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz,
Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, and Noah Fiedel. Palm: Scaling language modeling with pathways. 2022, arXiv:2204.02311.奥尔汗·菲拉特,米歇尔·卡塔斯塔,魏杰森,凯西·迈尔-赫斯特恩,道格拉斯·埃克,杰夫·迪恩,斯拉夫·彼得罗夫和诺亚·费德尔。Palm:通过路径扩展语言建模。2022年,arXiv:2204.02311。
Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma等人。扩展指导微调的语言模型。《机器学习研究杂志》,25(70):1-53,2024,arXiv:2210.11416。
卡尔·科布,维尼特·科萨拉朱,穆罕默德·巴瓦里安,马克·陈,黄宙。
Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano等人。培训验证器来解决数学问题。2021年,arXiv:2110.14168。
Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, and Luke Zettlemoyer. Qlora:
量化LLMs的有效微调。《神经信息处理系统进展》,第36卷,2024年,arXiv:2305.14314。
Yann Dubois, Balázs Galambosi, Percy Liang,和 Tatsunori B Hashimoto. Length-controlled alpacaeval: A simple way to debias automatic evaluators. 2024, arXiv:2404.04475.
Elias Frantar, Saleh Ashkboos, Torsten Hoefler, and Dan Alistarh. Gptq:
生成式预训练转换器的精准后训练量化。
2022,arXiv:2210.17323。
Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai,
Saurav Kadavath, Ben Mann, Ethan Perez, Nicholas Schiefer, Kamal Ndousse等人。对语言模型进行红队渗透以减少伤害:方法、扩展行为和经验教训。2022年,arXiv:2209.07858。
Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song和Jacob Steinhardt。用数学数据集衡量数学问题解决。2021年,arXiv:2103.03874。
Geoffrey Hinton. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural networks for machinelearning, 4(2):26, 2012.
Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. 2015, arXiv:1503.02531.
Fred Hohman, Chaoqun Wang, Jinmook Lee, Jochen Görtler, Dominik Moritz, Jeffrey P Bigham, Zhile Ren, Cecile Foret, Qi Shan, and Xiaoyi Zhang.弗雷德·霍曼,王超群,李金木,乔琛·戈特勒,多米尼克·莫里茨,杰弗里·P·比格汉姆,任治乐,塞西尔·弗雷特,单祁,张晓轶。
Talaria:交互式优化机器学习模型以实现高效推断。在人机交互计算系统CHI会议论文集中,第1-19页,2024年,arXiv:2404.03085。
Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Yang Zhang和Boris Ginsburg。Ruler: What’s the real context size of your long-context language models?2024,arXiv:2404.06654。
Edward J Hu, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen等。Lora: 大型语言模型的低秩适应。在2021年国际学习代表大会上发表,arXiv:2106.09685。
Huggingface. Open LLM evaluation. https://huggingface.co/spaces/ open-llm-leaderboard-old/open_llm_leaderboard, 2024. Accessed: 2024-07-09.
Hakan Inan, Kartikeya Upasani, Jianfeng Chi, Rashi Rungta, Krithika Iyer,
毛玉宁,Michael Tontchev,胡青,Brian Fuller,Davide Testuggine等。Llama guard: LLM-based input-output safeguard for human-ai conversations. 2023, arXiv:2312.06674.
Christian Kohlschütter, Peter Fankhauser, and Wolfgang Nejdl. Boilerplate detection using shallow text features. In Proceedings of the Third ACM基于浅层文本特征的模板检测。在第三届ACM会议论文集中。国际网络搜索与数据挖掘会议,WSDM ’10,第441-450页,美国纽约,2010年。计算机协会出版。ISBN 9781605588896。doi:10.1145/1718487.1718542。
湘孔,汤姆·冈特和若明·庞。大型语言模型引导的文档选择。2024年,arXiv:2406.04638。
Wouter Kool,Herke van Hoof和Max Welling。购买4个REINFORCE样本,免费获得一个基准线!2019年。网址https://openreview.net/forum?id=r1lgTGL5DE。
Nevena Lazic, Dong Yin, Yasin Abbasi-Yadkori,和 Csaba Szepesvari. 改进的遗憾界限和经验回放在正规化策略迭代中。在国际机器学习会议上,6032–6042页。PMLR,2021, arXiv:2102.12611.
Tao Lei, Junwen Bai, Siddhartha Brahma, Joshua Ainslie, Kenton Lee, Yanqi Zhou, Nan Du, Vincent Zhao, Yuexin Wu, Bo Li等人。条件适配器:
参数高效的迁移学习与快速推断。 Advances in Neural Information Processing Systems, 36:8152-8172, 2023, arXiv:2304.04947。
Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, HenrykMichalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo等。用语言模型解决定量推理问题。《神经信息处理系统进展》,第35卷:3843-3857,2022年。
杰弗里李,亚历克斯方,乔治欧斯·斯米尔尼斯,马奥尔·伊夫吉,马特·乔丹,萨米尔·加德雷。Hritik Bansal, Etash Guha, Sedrick Keh, Kushal Arora, Saurabh Garg, Rui.辛,尼克拉斯·穆恩尼霍夫,赖恩哈德·赫克尔,让·梅卡特,梅伊·陈,苏琴 古鲁朗甘,米切尔·沃茨曼, 阿隆·阿尔巴拉克, 约纳坦·比顿, 玛丽安娜Nezhurina, Amro Abbas, Cheng-Yu Hsieh, Dhruba Ghosh, Josh Gardner,Maciej Kilian, Hanlin Zhang, Rulin Shao, Sarah Pratt, Sunny Sanyal, Gabriel
Ilharco, Giannis Daras, Kalyani Marathe, Aaron Gokaslan, Jieyu Zhang, Khyathi Chandu, Thao Nguyen, Igor Vasiljevic, Sham Kakade, Shuran Song,Sujay Sanghavi, Fartash Faghri, Sewoong Oh, Luke Zettlemoyer, Kyle Lo,Alaaeldin El-Nouby, Hadi Pouransari, Alexander Toshev, Stephanie Wang,Dirk Groeneveld, Luca Soldaini, Pang Wei Koh, Jenia Jitsev, Thomas Kollar,Alexandros G. Dimakis, Yair Carmon, Achal Dave, Ludwig Schmidt, andVaishaal Shankar. Datacomp-lm:寻找下一代语言模型的训练集。2024a, arXiv:2406.11794.
从实时数据到高质量基准:竞技场硬管道。2024年4月。URL https://lmsys.org/blog/2024-04-19-arena-hard/。
Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, Ananya Kumar, Benjamin Newman, Binhang Yuan, Bobby Yan, Ce Zhang, ChristianCosgrove, Christopher D. Manning, Christopher Ré, Diana Acosta-Navas, Drew A. Hudson, Eric Zelikman, Esin Durmus, Faisal Ladhak, Frieda Rong, Hongyu Ren, Huaxiu Yao, Jue Wang, Keshav Santhanam, Laurel Orr, Lucia Zheng, Mert Yuksekgonul, Mirac Suzgun, Nathan Kim, Neel Guha, Niladri Chatterji, Omar Khattab, Peter Henderson, Qian Huang, Ryan Chi, Sang Michael Xie, Shibani Santurkar, Surya Ganguli, Tatsunori Hashimoto, Thomas Icard, Tianyi Zhang, Vishrav Chaudhary, William Wang, Xuechen Li, Yifan Mai, Yuhui Zhang, and Yuta Koreeda. Holistic evaluation of language models. 2023, arXiv:2211.09110.
Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan和Song Han. Awq: 激活感知权重量化用于设备上的LLM压缩与加速。机器学习与系统会议论文集,6:87–100,2024年,arXiv:2306.00978。
刘晓然,严航,张硕,安晨昕,邱喜鹏,林达华。基于绳索的外推标度律。2024年,arXiv:2310.05209。
Ilya Loshchilov和Frank Hutter。解耦权重衰减正则化。2019年,arXiv:1711.05101。
Christos Louizos, Max Welling和Diederik P. Kingma。通过l0正则化学习稀疏神经网络。在国际会议上。在学习表示方面,《Learning Representations, 2018, arXiv:1712.01312.URL https:// openreview.net/forum?id=H1Y8hhg0b.》。
Toan Q. Nguyen和Julian Salazar。无眼泪变压器:改善自注意力的标准化。在Jan Niehues,Rolando Cattoni,Sebastian Stüker,Matteo Negri,Marco Turchi,Thanh-Le Ha,Elizabeth Salesky,Ramon Sanabria,Loic Barrault,Lucia Specia和Marcello Federico等人的编辑下。,Proceedings of the 16th International Conference on Spoken Language Translation,香港,2019年11月2-3日。计算语言学协会。URL https://aclanthology.org/2019.iwslt-1.17。
Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray等。通过人类反馈训练语言模型遵循指令。《神经信息处理系统进展》,第35卷:27730-27744,2022,arXiv:2203.02155。
Shishir G. Patil, Tianjun Zhang, Xin Wang,和 Joseph E. Gonzalez. Gorilla: Large language model connected with massive APIs. 2023, arXiv:2305.15334.
Ofir Press和Lior Wolf。使用输出嵌入来改进语言模型。在计算语言学欧洲分会大会上,2016,arXiv:1608.05859。
Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon,和 Chelsea Finn. 直接偏好优化: 你的语言模型暗地里是一个奖励模型。 Advances in Neural Information Processing Systems, 36, 2024, arXiv:2305.18290.
John Schulman, Sergey Levine, Pieter Abbeel, Michael Jordan, and Philipp Moritz. Trust region policy optimization. In International Conference on Machine Learning, pages 1889–1897. PMLR, 2015, arXiv:1502.05477.
约翰·舒尔曼,菲利普·沃尔斯基,帕弗拉·达里瓦尔,亚历克·拉德福德和奧列格Klimov. Proximal policy optimization algorithms. 2017, arXiv:1707.06347.
Noam Shazeer. Glu variants improve transformer, 2020, arXiv:2002.05202. URL https://arxiv.org/abs/2002.05202.
斯坦福大学。HELM Lite:轻量级和广泛能力评估。https:
//crfm.stanford.edu/helm/lite/v1.5.0/, 2024.
Jianlin Su, Murtadha Ahmed, Yu Lu, Shengfeng Pan, Wen Bo, and Yunfeng Liu。Roformer:带有旋转位置嵌入的增强型Transformer。Neurocomputing,568:127063,2024。
Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. Stanford alpaca: →罗翰·陶里、伊沙安·古尔拉扎尼、张天毅、延杜瓦、李雪辰、卡洛斯·盖斯特林、珀西·梁和桥本达史宪。斯坦福大学羊驼:
一个指令遵循的羊驼模型。 https://github.com/tatsu-lab/stanford_alpaca, 2023.
Manan Tomar, Lior Shani, Yonathan Efroni, and Mohammad Ghavamzadeh。镜像下降策略优化。2020, arXiv:2005.09814.
雨果·图沃隆,路易斯·马丁,凯文·斯通,彼得·阿尔伯特,Amjad Almahairi。Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava,Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, ViktorKerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit SinghKoura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich,应海鲁,茁宁毛,泽维尔·马丁内,托多尔·米哈伊洛夫,普什卡尔·米什拉。伊戈尔·莫利博格,聂艺欣,安德鲁·波尔顿,杰里米·赖森斯坦,拉什ीRungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith,
Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina
Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov,和 Thomas Scialom. Llama 2: Open foundation and fine-tuned chat models. 2023, arXiv:2307.09288.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, 2017, arXiv:1706.03762.
Ziheng Wang,Jeremy Wohlwend和Tao Lei。大型语言模型的结构化剪枝。在第2020届自然语言处理经验方法会议(EMNLP)论文集中,页码6151–6162,2020,arXiv:1910.04732。doi: 10.18653/v1/2020.emnlp-main.496。
Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou等。Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35:24824–24837, 2022.
Ronald J Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8:229-256, 1992.
Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi, BenAdlam, John D. Co-Reyes, Izzeddin Gur, Abhishek Kumar, Roman Novak,Jeffrey Pennington, Jascha Sohl-dickstein, Kelvin Xu, Jaehoon Lee, Justin Gilmer和Simon Kornblith。小规模代理用于大规模Transformer训练不稳定性。2023,arXiv:2309.14322。
Mengzhou Xia, Tianyu Gao, Zhiyuan Zeng, and Danqi Chen. Sheared llama:加速语言模型预训练的结构化剪枝。2023, arXiv:2310.06694.
Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, and Daxin Jiang. WizardLM: Empowering large language models to follow complex instructions. 2023, arXiv:2304.12244.WizardLM:赋能大型语言模型遵循复杂指令。
Greg Yang, Edward J. Hu, Igor Babuschkin, Szymon Sidor, Xiaodong Liu, David Farhi, Nick Ryder, Jakub Pachocki, Weizhu Chen, and Jianfeng Gao.格雷格·杨,胡伟,伊戈尔·巴布什金,西蒙·希多尔,刘晓东,大卫·法里,尼克·赖德,雅各布·帕霍奇克,陈伟柱,高建峰。
张量程序 v:通过零-shot 超参数转移调整大型神经网络。2022年,arXiv:2203.03466。
龙辉宇,姜伟森,史涵,余金成,刘正颖,张宇,James T Kwok,李正国,Adrian Weller和刘伟扬。Metamath:为大型语言模型自主创建数学问题的方法。2023,arXiv:2309.12284。
Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, Ruoxi Jia和Weiyan Shi. How johnny can persuade llms to jailbreak them: Rethinking persuasion to challenge ai safety by humanizing llms, 2024, arXiv:2401.06373. URL https://arxiv.org/abs/2401.06373.
Biao Zhang和Rico Sennrich。均方根层归一化。在2019年的神经信息处理系统进展中。URL https://proceedings.neurips.cc/paper_files/paper/2019/file/1e8a19426224ca89e83cef47f1e7f53b-Paper.pdf。
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu,庄永浩,林子,李卓瀚,李大成,Eric Xing等人。评判
LLM作为具有MT工作台和chatbot领域的一名评委。 在神经信息处理系统的进展中,第36卷,2024年。
Chunting Zhou, Pengfei Liu, Puxin Xu, Srinivasan Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu等. LIMA: Less is more for alignment. Advances in Neural Information Processing Systems, 36, 2024.
Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, and Le Hou. Instruction-following evaluation for large language models. 2023, arXiv:2311.07911.周杰伦,田建路,斯瓦鲁普·米什拉,悉达多·布拉玛,苏乔伊·巴苏,远一,丹尼·周,胡乐。大型语言模型的指令遵循评估。2023年,arXiv:2311.07911。
贡献者
每个部分中,按照名字的首字母顺序列出贡献者的名单。
基础模型
Andy Narayanan, Aonan Zhang, Bowen Zhang, Chen Chen, Chong Wang
(inference efficiency lead), Chung-Cheng Chiu, David Qiu, Deepak Gopinath, Dian Ang Yap, Dong Yin, Feng Nan, Floris Weers, Guoli Yin, Haoshuo Huang,
王建宇,陆佳瑞,约翰·皮布尔斯,叶科,李马克,杜楠,陈其彬。
Quentin Keunebroek, Ruoming Pang (overall lead), Sam Wiseman, Syd Evans,
Tao Lei, Tom Gunter (pre-train lead), Vivek Rathod, Xiang Kong, Xianzhi
杜洋昊,李永强,王远,高源,扎伊德·艾哈迈德,许兆阳。
刘志云,王子瑞(培训后负责人)
数据、评估和负责任的人工智能
阿尔拉希德,阿尔宾·马达帕利·何塞,亚历克·多恩,阿尔弗雷多·本科莫,艾莉森Vanderby, Andrew Hansen, Ankur Jain, Anupama Mann Anupama, AreebaKamal, Bugu Wu, Carolina Brum, Charlie Maalouf, Chinguun Erdenebileg, Chris Dulhanty, Dominik Moritz, Doug Kang, Eduardo Jimenez, Evan Ladd,Fangping Shi, Felix Bai, Frank Chu, Fred Hohman, Hadas Kotek, HannahGillis Coleman, Jane Li, Jeffrey Bigham, Jeffery Cao, Jeff Lai, Jessica Cheung,九龙山,周华,李约翰,秦军,卡兰吉特·辛格,卡拉·维加,克叶,Kelvin Zou,Laura Heckman,Lauren Gardiner,Margit Bowler,Mark Lee。
Maria Cordell, Meng Cao, Nicole Hay, Nilesh Shahdadpuri, Otto Godwin,
Pranay Dighe, Pushyami Rachapudi, Ramsey Tantawi, Roman Frigg, Sam Davarnia, Sanskruti Shah, Saptarshi Guha, Sasha Sirovica, Shen Ma, ShuangMa, Simon Wang, Sulgi Kim, Suma Jayaram, Vaishaal Shankar, Varsha Paidi, Vivek Kumar, Xiang Kong, Xin Wang, Xin Zheng, Walker Cheng, YaelShrager, Yang Ye, Yasu Tanaka, Yihao Guo, Yunsong Meng, Zhao Tang Luo, Zhi Ouyang, Zhiyun Lu
适配器、优化和摘要
Alp Aygar, Alvin Wan, Andrew Walkingshaw, Andy Narayanan, Antonie
Lin, Arsalan Farooq, Brent Ramerth, Chong Wang, Colorado Reed, Chris Bartels, Chris Chaney, David Riazati, Eric Liang Yang, Erin Feldman, Gabriel
Hochstrasser, Guillaume Seguin, Guoli Yin, Irina Belousova, Jianyu Wang,侯斯特拉瑟,吉约姆·塞盖因,尤国立,伊琳娜·别洛索娃,王建宇。
Joris Pelemans, Karen Yang, Keivan Alizadeh Vahid, Liangliang Cao, Mahyar Najibi, Marco Zuliani, Max Horton, Minsik Cho, Nikhil Bhendawade, Patrick Dong, Piotr Maj, Pulkit Agrawal, Qi Shan, Qibin Chen, Qichen Fu, Regan Poston, Sam Xu, Shuangning Liu, Sushma Rao, Tashweena Heeramun, Thomas
Merth, Uday Rayala, Victor Cui, Vivek Rangarajan Sridhar, Vivek Rathod,
文丛张,文琦张,文涛吴,翔孔,兴宇周,新文刘,杨赵,音夏,智乐任,中正任
附录
A Core预训练配方消融.
我们将从第3.2.1节中选择的“核心”预训练设置(优化器、预测批量大小的缩放定律、权重衰减等)与基于[Wortsman等人,2023年]的基线进行比较。具体来说,基线使用标准的超参数配置AdamW,其中β1 = 0.9,β2 = 0.95,ϵ = 1e−15,并且有一个解耦的权重衰减为1e−4,将学习率衰减到峰值的0.0001,批量大小为1024个序列。除此之外,两种配置都是相同的。训练涵盖了使用AFM-on-device架构的3.1T令牌,但数据混合不同于官方的AFM训练运行所使用的数据混合。
表5:核心预训练配方消融少样本结果。除非另有说明,我们使用0-shot提示。我们注意到,AFM的配方在大多数任务中都可以略微改进,尽管差异通常非常小。数据混合与官方AFM运行不同。
在表5中,AFM的配方表现略有改善,优于基准线。这可能表明,对于这个模型大小和训练预算,基准线已经很好地配置了最重要的配方设置。
B对修剪和蒸馏的消融这里我们详细介绍了使用结构化剪枝和蒸馏分别进行评估的结果,并展示它们可以结合在一起以获得最佳性能。
表6显示了使用我们早期版本的预训练数据混合训练3B模型的消融结果。如表所示,修剪和蒸馏方法均能胜过从头开始训练的基线模型。例如,修剪和蒸馏的MMLU得分分别为42.9%和
将这段正文段落翻译成中文: 分别为44.9%和34.6%,而基线模型使用更多步数后为34.6%。有趣的是,剪枝在CoreEn基准测试上取得了更高的分数,而精细化在MMLU上更好。最后,当将这两种方法结合在一起时,我们观察到MMLU和GSM8k进一步取得了巨大的改进,与使用5倍计算量训练的基线模型相比,获得了更好或相当的结果。
指标/方法基线修剪蒸馏两者基线
表6:修剪和蒸馏方法的消融结果。训练数据是与官方AFM运行不同的早期版本。
C Pre-training阶段的分阶段评估
我们在核心、持续和长文本预训练阶段之后呈现了少样本评估结果,针对一组我们发现与训练后下游评估相关且方差低、多样化的评估指标子集。这些指标是使用内部测试和一组基准制定的,这些基准并非针对绝对性能进行优化(例如我们不应用长度规范化,并在可能的情况下使用更困难的测试数据集,例如TriviaQA)。因此,这些指标不适合与其他已发布的结果进行比较。
在表7和8中,我们展示了所有三个预训练阶段后的内部基准测试结果。如预期,继续的预训练有助于提高数学和特别是代码模型的能力,同时微妙地改善了一些其他基准测试。在扩展上下文长度阶段,大多数基准测试保持一致,变化(正面和负面)通常在我们认为是评估误差范围内。
D长上下文评估虽然这个版本的AFM的重点不是支持长于8k的上下文长度,但在表9中,我们使用 RULER [Hsieh et al., 2024] 基准来评估AFM 服务器在4k到32k上下文长度时的表现。我们注意到,该模型在针对简单的检索样本的测试中,在序列长度≥32k时能够完美执行,例如针在沙堆中的寻找(NIAH)。然而,显然,模型性能会逐渐下降。
表7:带有内部调试装置的AFM在设备上的预训练评估。除非另有说明,我们使用0-shot提示。TriviaQA评估是在更大、更具挑战性的“Web”拆分上进行的。
在RULER上增加上下文长度,比NIAH更复杂的评估基准,这表明对于AFM-server,对于超出检索范围的任务而言,当前真实的上下文长度最多为24k。
E RLHF的技术细节E.1奖励模型
我们在奖励模型训练中使用的人类偏好数据具有以下格式:
1.x: the prompt; 中文:提示。
2.yc:所选(优先)的响应;
3.yr: 被拒绝的回应;
4.人类偏好的水平;
5.zcif and: the instruction-following property of the two responses; zcif and:两个响应的指令遵循特性;
6.zcverb 和 zrverb:两个响应的冗余度;
7.zctruth and zrtruth: 两种响应的真实性;
表8:使用内部测试套件对AFM服务器进行预训练评估。除非另有说明,我们使用0-shot提示。TriviaQA评估是在更大、更具挑战性的“Web”拆分上进行的。
表9:RULER [Hsieh等人,2024年] 平均评估结果,针对13个使用每个任务500个示例的合成长文本任务进行了平均。
E.2 zcharm and zrharm:两种响应的无害性
在我们的奖励建模中,偏好水平 ℓ 有 4 个可能的取值,表明所选响应与被拒绝响应之间的差异可以忽略、略微、较好或显著地更好。至于单边评分,每个标签,例如 zcif,有 3 个可能的取值。对于遵循指示、真实性和无害性,这 3 个取值分别对应响应具有重大问题、轻微问题或无问题的情况。对于啰嗦性,这 3 个取值分别对应响应过于啰嗦、太短或恰到好处的情况。
我们为奖励模型使用了多头架构。更具体地说,我们采用了一个仅解码器的transformer,并获取了最后一个非填充标记的最后一层嵌入。我们将一个线性头和四个MLP头连接到嵌入中。用ϕ表示模型参数,用(x, y)表示输入提示-响应对。线性头输出偏好奖励rϕ(x, y) ∈ R。四个MLP头是代表响应的遵循指示、冗长性、真实性和无害性属性的分类头。我们分别用uifϕ、uverbϕ、utruthϕ、uharmϕ表示4个分类头的输出logits。
Soft label loss.根据Bradley- 我们基于偏好奖励rϕ(x,y)进行训练.
Terry-Luce(BTL)模型[Bradley和Terry,1952]。回想在BTL模型中,yc被优先于yr的概率被建模为σ(rϕ(x,yc)-rϕ(x,yr)),其中σ是S形函数。直观上,如果优选的响应yc被注释为明显优于被拒绝的响应yr,那么这个概率应该更大,如果yc仅比yr稍微好,那么这个概率应该更小。我们使用偏好级别ℓ来融入这些信息。更具体地,对于每个偏好级别ℓ,我们设计一个目标偏好概率pℓ。然后我们使用一个
软标签损失如下:
目标水平$pℓ$是我们算法中的一个超参数,如果偏好程度较高,则应取较大的值。在我们的实验中,我们选择$pℓ=0.95$、$0.85$、$0.75$、$0.65$分别对应显著更好、更好、稍微更好和微不足道更好。
单侧评分作为正则化。我们还利用单侧评分作为我们奖励模型中的正则化项。 直觉是,通过这些评分作为正则化项,我们可以学习到一个更好的嵌入以捕捉人类的偏好。 正则化损失为:
我们使用的奖励模型训练损失总体上为 |
E.2在线强化学习算法
在本节中,我们将更详细地介绍我们的在线RLHF算法MDLOO。
在算法的每一次迭代中,我们有数据收集阶段和策略更新阶段。设θk为第k次迭代开始时的模型参数。我们从提示集中抽取一个大小为n的批次的提示,对于每个提示,我们根据策略πθk抽取K个响应,因此在每次迭代中共收集了nK个数据点。设x为一个提示,yi为一个响应。
由于我们考虑强盗设置,根据定义,(x,yi) 的优势是:
我们使用留一法(LOO)方法[Kool等,2019]来估计Ak(x,yi)。换句话说,我们估计在给定提示x的情况下,与其他K −1 相关的平均奖励。
responses, i.e.,## 中文翻译: 回应,即,
根据最近的研究[Ahmadian et al., 2024]表明,这种优势估计对RLHF很有益处。经验上,我们发现使用LOO估计器比直接使用奖励作为优势估计或使用奖励与一个运行平均基线之间的差异[Williams, 1992]导致训练更加稳定且结果更好。
镜像梯度策略优化(MDPO)。我们的策略优化方法属于广泛使用的一类信任域策略优化算法[Schulman et al., 2015]。这些算法的基本思想是,在每个策略迭代中,我们应用正则化方法来防止策略在一次迭代中发生太大变化。正则化可以通过添加KL正则化[Abbasi-Yadkori et al., 2019; Lazic et al., 2021; Tomar et al., 2020]和使用像PPO中的概率比率裁剪来实现[Schulman et al., 2017]。在这项工作中,我们如同在镜像梯度策略优化(MDPO)[Tomar et al., 2020]中使用KL正则化。具体来说,在第k次迭代中,通过数据(提示以及)…
根据πθk对每个提示采样的K个响应,我们的目标是优化以下正则化优势最大化问题:
请注意,这里的KL正则化项与公式(1)中的不同。公式(1)中的KL正则化是指策略模型和参考模型之间的;而公式(8)中的KL正则化项是指策略模型和第k次迭代开始时的策略之间的。然后我们可以得到Ψ(θ)的梯度。
在统计学中,F分布是一种连续概率分布,在假设检验统计量的零分布中经常出现,尤其是在方差分析中。
MDLOO算法可以通过用πθk收集的nK个样本替换式(9)中的期望,并用式(7)中的LOO估计代替优势Ak(x,y)来推导得到。凭经验,我们发现,在我们的设置中,MDLOO算法比流行的PPO [Schulman et al., 2017]算法更好。
F 精度恢复适配器消融在本节中,我们呈现了关于非量化、量化和精度恢复模型的评估结果。如表10所示,量化模型在预训练和后训练度量中都有巨大的质量下降。通过仅使用排名为16的准确性恢复LoRA适配器,Alpaca的胜率可以提高7-18%,GMS8K的准确性提高5-10%。恢复模型的表现更接近于原始未量化模型,同时在模型大小上实现了显著的减少。更有趣的是,我们观察到当量化方案变得更具侵略性(从3.7到3.5 bpw)时,适配器也会恢复更多的质量。
表格10:量化和精度恢复模型的评估结果。
数字被标准化为未量化版本。