ChatGPT背后的算法——RLHF总结

参考链接：抱抱脸：ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文 (qq.com)

背景

（文本生成的语言模型评价不在训练中)

chatGPT训练4步骤

　　1 预训练 [prompt, text] 无监督，数据语料来源可能都是爬虫web

　　2为了模仿人类可能答案。有监督学习人工标注的问答预料，如河南最高的山是哪座？答;登封市的少林寺金刚山，海拔高度为1474.2米。

　　3 teacher model 为了模仿人类偏好。对输出的结果人工标注分数。

　　4 RLHF

总结

待改进1 人工标注成本高 2 ppo 算法比较老。

红色部分还未完全明白具体做法。

未完---

标签：总结,背后,RLHF,算法,ChatGPT,标注
From： https://www.cnblogs.com/lx63blog/p/17233954.html

ChatGPT说：如何利用ChatGPT变现？躺着赚钱不是梦。
您好，我是[码农飞哥]，感谢您阅读本文，欢迎一键三连哦。......
KMP算法思考
第一个全匹配没有价值，从第二个开始采取每次匹配的最大值，则next数组为计算next数组时也用了KMP算法，因此当不匹配时，j=next[j]； ......
数学建模算法-神经网络
神经网络算法是一类基于生物神经网络结构和功能的计算模型。它是一种机器学习算法，可以用于识别、分类、模式匹配、预测等任务。神经网络由许多个简单的处理单元（神经元......
acwing算法基础课整理
acwing算法基础课整理模板基础算法排序快速排序#include<iostream>usingnamespacestd;constintN=1e6+10;intq[N];intn;voidquick_sort(intq[],in......
DRF算法
中文译名：优势资源公平性：多种资源类型的公平分配摘要解决不同类型资源在系统内的资源公平分配问题，提出优势资源公平性算法（DRF），是一种对多种资源类型的最大-最小公平性的推广。......
一些算法思想及一些算法基础
分治算法分治算法是一种高效的算法思想，它将问题分解成更小的子问题，通过解决子问题来解决原始问题。它的核心思想是将问题分解成若干个规模更小但结构相同的子问题，并且通过......
目标识别算法设计指引
简述简述目标识别算法中常用的图像算法，便于以后算法的设计应用内容目标检测(Objectrecognition)是在一幅图像中精确地找到各种目标所在的位置，标注出每个目标的类别，在此基础......
对称加密算法和非对称加密算法
对称加密对称加密，是指，加密方和解密方使用同样的秘钥来进行加密和解密。在对称加密算法中，数据发信方将明文（原始数据）和加密（密钥）一起经过特殊加密算法处理后，使其变成复杂的......
算法：快速幂
思想快速幂的思想其实很简单，数学告诉我们，$2^7$可以写成：$24·22·2^1$观察上式，不难发现，任何数的任意次方可以拆分成若干个二的不同次方次相乘。据此我们对原指数进......
算法之禅-递归01
构造树，并求每条路径和第一步：构造树节点用到的类：publicclassNode{publicintVal{get;set;}publicNode?LNode{get;set;}publicNode?RNode{get;set;......

ChatGPT背后的算法——RLHF总结

ChatGPT背后的算法——RLHF总结

背景

总结

相关文章

赞助商

阅读排行