郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
NeurIPS 2022
Abstract
将语言模型做得更大并不能从本质上使它们更好地遵循用户的意图。例如,大型语言模型可能生成不真实、有害或对用户毫无帮助的输出。换句话说,这些模型与其用户不一致。在本文中,我们展示了一种通过对人类反馈进行微调,使语言模型与用户在广泛任务中的意图保持一致的途径。从一组标记器编写的提示和通过OpenAI API提交的提示开始,我们收集了所需模型行为的标记器演示数据集,我们使用该数据集使用监督学习来微调GPT-3。然后,我们收集了一个模型输出排名的数据集,我们使用它来使用来自人类反馈的强化学习来进一步微调这个监督模型。我们将生成的模型称为InstructGPT。在对我们的即时分布进行人工评估时,1.3B参数InstructGPT模型的输出优先于175B GPT-3的输出,尽管参数减少了100倍。此外,InstructionGPT模型显示了真实性的提高和有毒输出生成的减少,同时在公共NLP数据集上具有最小的性能回归。尽管InstructGPT仍然会犯一些简单的错误,但我们的研究结果表明,利用人类反馈进行微调是使语言模型与人类意图相一致的一个很有前途的方向。
1 Introduction
大型语言模型(LM)可以被“提示”执行一系列自然语言处理(NLP)任务,给出了一些作为输入的任务示例。然而,这些模型往往表现出意想不到的行为,如编造事实、生成有偏见或有毒的文本,或者根本不遵循用户指令(Bender等人,2021;Bommasani等人,2021年;Kenton等人,2021,Weidinger等人,2021、Tamkin等人,2021和Gehman等人,2020)。这是因为最近许多大型LMs使用的语言建模目标——预测互联网网页上的下一个令牌——与“帮助和安全地遵循用户的指示”的目标不同(Radford等人,2019;Brown等人,2020;Fedus等人,2021;Rae等人,2021年;Thoppilan等人,2022)。因此,我们认为语言建模的目标是错位的。避免这些意外行为对于在数百个应用程序中部署和使用的语言模型来说尤其重要。
我们通过训练语言模型按照用户的意图行事,在调整语言模型方面取得了进展(Leike et al.,2018)。这既包括明确的意图,如遵循指示,也包括隐含的意图,例如保持真实,不带偏见、有毒或其他有害因素。使用Askell等人的语言。(2021),我们希望语言模型是有用的(它们应该帮助用户解决任务)、诚实的(它们不应该编造信息或误导用户)和无害的(它们不会对人或环境造成身体、心理或社会伤害)。我们在第3.6节中详细阐述了对这些标准的评估。
我们专注于调整语言模型的微调方法。具体而言,我们使用来自人类反馈的强化学习(RLHF;Christiano等人,2017;Stiennon等人,2020)来微调GPT-3,以遵循广泛的书面指令(见图2)。这项技术使用人类的偏好作为奖励信号来微调我们的模型。我们首先雇佣了一个由40名承包商组成的团队,根据他们在筛选测试中的表现为我们的数据贴上标签(更多详细信息,请参阅第3.4节和附录B.1)。然后,我们收集了一个数据集,其中包含提交给OpenAI API3的提示(主要是英语)和一些标注器书面提示上所需输出行为的人工书面演示,并使用它来训练我们的监督学习基线。接下来,我们在一组更大的API提示上收集模型输出之间的人工标记比较数据集。然后,我们在这个数据集上训练一个奖励模型(RM),以预测我们的标注者更喜欢哪个模型输出。最后,我们使用该RM作为奖励函数,并使用PPO算法微调我们的监督学习基线,以最大化该奖励(Schulman等人,2017)。我们在图2中说明了这个过程。该程序将GPT-3的行为与特定人群(主要是我们的标签制定者和研究人员)的既定偏好相一致,而不是与任何更广泛的“人类价值观”概念相一致;我们将在第5.2节对此进行进一步讨论。我们将生成的模型称为InstructGPT。
我们主要通过让我们的标注人员对测试集上的模型输出质量进行评分来评估我们的模型,测试集由被拒的客户(他们在培训数据中没有出现)的提示组成。我们还对一系列公共NLP数据集进行了自动评估。我们训练三种模型大小(1.3B、6B和175B参数),并且我们所有的模型都使用GPT-3架构。我们的主要发现如下:
标签:输出,Training,feedback,language,模型,微调,2021,我们,语言 From: https://www.cnblogs.com/lucifer1997/p/17702555.html