一、ChatGPT基础知识
transformer机制 和RLHF
RLHF(Reinforcement Learning from Human Feedback)是基于人类反馈来构建强化学习,使用强化学习的方法和框架,是模型能够接纳人类反馈。不要求构建真实的环境,而是用人工标注的反馈信息去构成环境的奖励机制。这样训练的结果就是系统汇迎合人工的标注和判别标准。ChatGPT正是用了RLHF的机制,做到了自然而流利的对话。
GPT是生成式预训练模型(Generative Pre-Training) ,总结而言特点是就是无监督的预训练,去完成语言任务。这是OpenAI在2018年提出的模型
GPT的核心思想用一句话解释就是,用统一模型解决语言的全部问题。
OpenAI的GPT模型,则是进行统一的预训练,针对任务做一些微调,虽然针对不同的任务有水平高低,但是能针对所有的语言任务给出回答,是真正的统一的语言大模型。
二、GPT研发阶段
GPT阶段:基于Transformer预训练 + 微调
第一个阶段是利用语言模型进行预训练,第二阶段通过人工微调的模式解决下游任务。
GPT2阶段:舍弃微调,直接做零样本学习
彻底放弃了微调阶段,仅通过大规模多领域的数据预训练,让模型在零样本学习的设置下系统学会解决多任务的问题,而且效果还不错。
GPT3阶段:开启NLP新范式prompt从而实现小样本学习
Prompt 就是给预训练语言模型的一个线索/提示,帮助它可以更好的理解人类的问题。
ChatGPT阶段:RLHF模式接入语言训练,更多的微调
利用人类的标注数据去对GPT3/GPT3.5进行有监督训练。针对模型的多个回答,标注员进行排序标注,通过对排序标注的理解,形成RLHF机制形成内部奖励模型,让回答更契合人类标准。
目前ChatGPT已经是多种前沿算法理论组合。Transformer、prompt、RLHF的组合,选取了大量的数据,设计了合理的标注流程,并且将这些融合。虽然不是传统意义上的算法团队理论创新,但难度和复杂度一点都不低
标签:训练,模型,RLHF,GPT,ChatGPT,标注 From: https://www.cnblogs.com/jimchen1218/p/17916412.html