首页 > 其他分享 >Training language models to follow instructions with human feedback

Training language models to follow instructions with human feedback

时间:2023-09-14 15:12:03浏览次数:32  
标签:输出 Training feedback language 模型 微调 2021 我们 语言

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

NeurIPS 2022

 

Abstract

  将语言模型做得更大并不能从本质上使它们更好地遵循用户的意图。例如,大型语言模型可能生成不真实、有害或对用户毫无帮助的输出。换句话说,这些模型与其用户不一致。在本文中,我们展示了一种通过对人类反馈进行微调,使语言模型与用户在广泛任务中的意图保持一致的途径。从一组标记器编写的提示和通过OpenAI API提交的提示开始,我们收集了所需模型行为的标记器演示数据集,我们使用该数据集使用监督学习来微调GPT-3。然后,我们收集了一个模型输出排名的数据集,我们使用它来使用来自人类反馈的强化学习来进一步微调这个监督模型。我们将生成的模型称为InstructGPT。在对我们的即时分布进行人工评估时,1.3B参数InstructGPT模型的输出优先于175B GPT-3的输出,尽管参数减少了100倍。此外,InstructionGPT模型显示了真实性的提高和有毒输出生成的减少,同时在公共NLP数据集上具有最小的性能回归。尽管InstructGPT仍然会犯一些简单的错误,但我们的研究结果表明,利用人类反馈进行微调是使语言模型与人类意图相一致的一个很有前途的方向。

 

1 Introduction

  大型语言模型(LM)可以被“提示”执行一系列自然语言处理(NLP)任务,给出了一些作为输入的任务示例。然而,这些模型往往表现出意想不到的行为,如编造事实、生成有偏见或有毒的文本,或者根本不遵循用户指令(Bender等人,2021;Bommasani等人,2021年;Kenton等人,2021,Weidinger等人,2021、Tamkin等人,2021和Gehman等人,2020)。这是因为最近许多大型LMs使用的语言建模目标——预测互联网网页上的下一个令牌——与“帮助和安全地遵循用户的指示”的目标不同(Radford等人,2019;Brown等人,2020;Fedus等人,2021;Rae等人,2021年;Thoppilan等人,2022)。因此,我们认为语言建模的目标是错位的。避免这些意外行为对于在数百个应用程序中部署和使用的语言模型来说尤其重要。

  我们通过训练语言模型按照用户的意图行事,在调整语言模型方面取得了进展(Leike et al.,2018)。这既包括明确的意图,如遵循指示,也包括隐含的意图,例如保持真实,不带偏见、有毒或其他有害因素。使用Askell等人的语言。(2021),我们希望语言模型是有用的(它们应该帮助用户解决任务)、诚实的(它们不应该编造信息或误导用户)和无害的(它们不会对人或环境造成身体、心理或社会伤害)。我们在第3.6节中详细阐述了对这些标准的评估。

  我们专注于调整语言模型的微调方法。具体而言,我们使用来自人类反馈的强化学习(RLHF;Christiano等人,2017;Stiennon等人,2020)来微调GPT-3,以遵循广泛的书面指令(见图2)。这项技术使用人类的偏好作为奖励信号来微调我们的模型。我们首先雇佣了一个由40名承包商组成的团队,根据他们在筛选测试中的表现为我们的数据贴上标签(更多详细信息,请参阅第3.4节和附录B.1)。然后,我们收集了一个数据集,其中包含提交给OpenAI API3的提示(主要是英语)和一些标注器书面提示上所需输出行为的人工书面演示,并使用它来训练我们的监督学习基线。接下来,我们在一组更大的API提示上收集模型输出之间的人工标记比较数据集。然后,我们在这个数据集上训练一个奖励模型(RM),以预测我们的标注者更喜欢哪个模型输出。最后,我们使用该RM作为奖励函数,并使用PPO算法微调我们的监督学习基线,以最大化该奖励(Schulman等人,2017)。我们在图2中说明了这个过程。该程序将GPT-3的行为与特定人群(主要是我们的标签制定者和研究人员)的既定偏好相一致,而不是与任何更广泛的“人类价值观”概念相一致;我们将在第5.2节对此进行进一步讨论。我们将生成的模型称为InstructGPT。

  我们主要通过让我们的标注人员对测试集上的模型输出质量进行评分来评估我们的模型,测试集由被拒的客户(他们在培训数据中没有出现)的提示组成。我们还对一系列公共NLP数据集进行了自动评估。我们训练三种模型大小(1.3B、6B和175B参数),并且我们所有的模型都使用GPT-3架构。我们的主要发现如下:

标签:输出,Training,feedback,language,模型,微调,2021,我们,语言
From: https://www.cnblogs.com/lucifer1997/p/17702555.html

相关文章

  • 《PROMPT2MODEL: Generating Deployable Models from Natural Language Instructions
    一、Introduction传统上,从零开始构建一个自然语言处理(NLP)模型是一项重大任务。一个寻求解决新问题的NLP从业者需要定义他们的任务范围,找到或创建目标任务领域的行为数据,选择合适的模型架构,训练模型,通过评估评估其性能,然后将其部署到实际应用中。Prompt2Modelisaframeworkfo......
  • 指令微调LLM进行推荐Recommendation as Instruction Following: A Large Language Mod
    原文地址:https://arxiv.org/abs/2305.07001本文作者将用户偏好、意图等构建为指令,并用这些指令调优一个LLM(3BFlan-T5-XL),该方法对用户友好,用户可以与系统交流获取更准确的推荐。INTRODUCTIONLLM是建立在自然语言文本上的,它不能直接适应基于行为数据的推荐系统。为了减少两者的g......
  • Proj CDeepFuzz Paper Reading: Software Testing with Large Language Model: Survey
    Abstract本文:Task:ReviewontheuseofLLMsinsoftwaretestingMethod:1.analyzes52relevantstudies1.Intro2.Background2.1LargeLanguageModel2.2SoftwareTesting3.PaperSelectionandReviewSchema3.1SurveyScope3.2PaperCollectionMetho......
  • 论文解读(CST)《Cycle Self-Training for Domain Adaptation》
    Note:[wechat:Y466551|可加勿骚扰,付费咨询]论文信息论文标题:CycleSelf-TrainingforDomainAdaptation论文作者:HongLiu,JianminWang,MingshengLong论文来源:2021 论文地址:download 论文代码:download视屏讲解:click......
  • 自然语言工具包(Natural Language Toolkit,简称NLTK) 简介
    自然语言工具包(NaturalLanguageToolkit,简称NLTK)是一个广泛使用的Python库,用于处理和分析自然语言文本。它提供了各种工具和数据集,用于文本预处理、语言模型、词性标注、句法分析、语义分析、情感分析、文本分类等自然语言处理任务。以下是NLTK的一些主要功能和特点:1.丰富的语......
  • MySQL数据库:第十四章:(DML)Data Manipulation Language数据操纵语言
    回退至Mysql数据库理论与实战#DML语句★DataManipulationLanguage数据操纵语言关键字:insert 、update、deleteUSEstu0906;CREATETABLEstuinfo(idINT,stunameVARCHAR(20)NOTNULL,genderCHAR,borndate TIMESTAMP,seatINT);#一、插入语法:插入单行:insertinto表......
  • How Can Recommender Systems Benefit from Large Language Models: A Survey 阅读笔
    论文主要从LLM应用在推荐系统哪些部分以及LLM如何应用在推荐系统中,还讨论了目前LLM应用在RS中的一些问题。Where?推荐系统哪些部分哪里可以应用到大模型?文章中提到了特征工程、特征编码、评分/排序函数、推荐流程控制。LLMforFeatureEngineering用大模型做特征工程:利用......
  • IDEA设置JAVA使用的编译语言Language level为8
       设置这个为8不然每次pom文件修改都会变更为5pom.xml增加<properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><java.version>8</java.version></properties>  增加插件配置<!--打包配置--&g......
  • Training Your Own LoRAs
    https://tfwol.github.io/text-generation-webui/Training-LoRAs.html#format-filestext-generation-webuiTrainingYourOwnLoRAsTheWebUIseekstomaketrainingyourownLoRAsaseasyaspossible.Itcomesdowntojustafewsimplesteps:Step1:Makeaplan......
  • 精进语言模型:探索LLM Training微调与奖励模型技术的新途径
    精进语言模型:探索LLMTraining微调与奖励模型技术的新途径LLMsTrainer是一个旨在帮助人们从零开始训练大模型的仓库,该仓库最早参考自Open-Llama,并在其基础上进行扩充。有关LLM训练流程的更多细节可以参考【LLM】从零开始训练大模型。使用仓库之前,请先安装所有需要的依赖:......