首页 > 其他分享 >RLHF(从人类反馈中进行强化学习)详解(一)

RLHF(从人类反馈中进行强化学习)详解(一)

时间:2024-05-31 20:01:57浏览次数:13  
标签:学习 模型 反馈 RLHF 奖励 详解 人类

初步认知

RLHF,即Reinforcement Learning from Human Feedback(从人类反馈中进行强化学习),是一种结合了机器学习中的强化学习算法与人类主观判断的训练技术。这种方法旨在利用人类的直觉和判断力来指导人工智能系统学习更复杂、更贴近人类期望的行为模式,尤其是在自然语言处理(NLP)和决策制定等领域。

RLHF的基本流程

  1. 初步训练: 首先,使用传统的监督学习或者无监督学习方法对一个大型语言模型进行预训练,让模型学习基础的语言结构和广泛的知识。

  2. 探索阶段: 将预训练好的模型置于一个可以与环境互动的框架中,比如模拟对话场景。模型根据策略选择行动(如生成回复),但此时不直接优化于特定目标函数,而是为了探索各种可能的响应。

  3. 人类反馈收集: 模型产生的输出(如对话回复)被呈现给人类评估者,他们根据回复的质量、相关性、道德标准等因素给予正面或负面的反馈。这种反馈可以是直接评分、二元偏好(哪个更好)、或是详细的文本评论。

  4. 奖励信号构建: 人类的反馈被转换成一种形式化的奖励信号,这成为强化学习过程中的关键元素。例如,好评可以转化为正奖励,差评则为负奖励。

  5. 策略优化: 使用强化学习算法,如策略梯度方法(Policy Gradient Methods),模型根据接收到的人类反馈调整其策略参数,以增加未来获得更高奖励的概率。这个过程不断迭代,模型逐渐学会如何根据人类偏好来生成更合适的输出。

RLHF的优势与挑战

优势

1.提升模型质量:直接针对人类满意度优化,使模型输出更加自然、合适和人性化。
2.适应性:能够学习特定情境下的细微差别和文化偏好,提高模型在特定领域的适用性。
3.伦理和安全性:通过纳入人类价值观,有助于避免自动化系统产生有害或不合伦理的行为。


挑战

1.反馈成本高昂:高质量的人类反馈收集过程可能耗时且成本昂贵。
2.偏差与噪声:人类反馈可能包含个人偏见或不一致性,影响模型学习。
3.规模与泛化:如何有效规模化应用到大量数据和场景中,同时保证模型泛化能力,是一个挑战。

接下来我们以吴恩达教授的教学视频为引领,进行更进一步的学习。

How Does RLHF Work

此处以一个生动形象的例子引入:

当我们希望大模型完成以上任务,即通过输入一段文本,完成内容的总结,但是总结文本没有绝对正确的方法,比如不同的主题,不同的意图,会出现不同的结果。

如图所示,除了这两种之外,其实还有很多的可能结果。

所以,对于常规的监督学习微调,我们可以利用RLHF技术,实现得到更符合人类偏好的答案。

如图所示,RLHF实现有一些关键的步骤。首先,我们需要准备偏好数据集来训练一个奖励模型,然后通过监督学习的方式,在强化学习的循环中生成我们的基础大模型。

在创建偏好数据集的过程中,我们采用人类标注员进行人工标注,当然这个偏好不代表所有人类。

所以我们需要制订对齐标准,让标注更正确。

 在训练奖励模型的过程中,我们会输入提示和结果,返回一个标量值,代表完成的好坏。所以本质上奖励模型是一个回归模型,损失函数是错误分数的组合。

 

在图中的场景中,代理在与环境的交互中,通过状态和奖励的更新,再优化下一步的行动,最终的目标是达到最大的奖励。

总之,大致的思路如上图所示。偏好数据集→基础大模型→奖励模型→基础大模型→奖励模型→...

最后的目标是让基础大模型更符合人类的偏好。

在训练的过程中,我们会采用一些高效的微调方法,只调整其中的较小子集,减少计算量。

标签:学习,模型,反馈,RLHF,奖励,详解,人类
From: https://blog.csdn.net/TheJustice_/article/details/139335183

相关文章

  • 服务网关(Service Gateway)详解和应用
    服务网关(ServiceGateway)是微服务架构中的一种组件,它充当了系统对外的统一入口,负责路由、过滤、安全、限流、熔断等跨服务的共性功能。服务网关的主要职责包括:路由:将客户端请求路由到正确的微服务,通常基于URL路径、HTTP方法或其他路由规则。服务发现:与服务注册中心(如E......
  • REST (Representational State Transfer) API详解和应用
    REST(RepresentationalStateTransfer)API是一种设计分布式系统和Web服务的架构风格,它遵循一组特定的原则和约束,以确保简洁、一致和可伸缩的交互。RESTAPI使用HTTP协议来实现客户端和服务器之间的通信,使得任何能够发起HTTP请求的客户端(如浏览器、移动应用、桌面应用)都......
  • 【ROS参数详解】——ros应用中的常见的ros语法参数详解
    文章目录前言1.关于ros::Raterate()和rate.sleep()的使用和理解2.ros::spin()、ros::spinOnce():使用细节、区别3.时间戳和浮点格式转换4.subsribe的参数详解5.ROS中NodeHandlenh与NodeHandlenh(“~“)区别6.ros中的param参数服务器说明7.PCL的点云数据的各种转......
  • ICDE’24|中国企业首获最佳论文,详解PolarDB Serverless如何在0.5秒内实现跨机迁移
    以下文章来源于阿里云开发者作者陈浩、章颖强引言数据库领域顶会ICDE2024于5月13-17日在荷兰乌特勒支(Utrecht,Netherlands)举办。ICDE(TheInternationalConferenceonDataEngineering) 与VLDB、SIGMOD被公认为是国际数据管理领域三大顶级学术会议,此次在荷兰召开......
  • 详解 JS 中的事件循环、宏/微任务、Primise对象、定时器函数,以及其在工作中的应用和注
    为什么会突然想到写这么一个大杂烩的博文呢,必须要从笔者几年前的一次面试说起当时的我年轻气盛,在简历上放了自己的博客地址,而面试官应该是翻了我的博客,好几道面试题都是围绕着我的博文来提问其中一个问题,直接使得空气静止了五分钟,然后面试官结束了这次面试,那就是:如何手写一个简......
  • k8s--service详解
    1:service详解1、每次访问pod的时候,ip地址都不是固定的2、service有一个虚拟ip和端口,可以使用这个来进行访问3、kube-proxy,apiserver将service的信息存入到etcd中,kube-proxy将其转换为一个访问规则,这个就是本质4、表象,就是标签,本质就是规则,通过标签,来进行要管理哪些pod,5......
  • Vue3-路由详解
    文章目录路由对路由的理解安装VueRouter基本切换效果两个注意点路由器工作模式to的两种写法命名路由嵌套路由路由传参query参数params参数路由的props配置replace属性编程式导航重定向更多相关内容可查看路由附git地址:https://gitee.com/its-a-little-bad/vue......
  • Nginx企业级负载均衡:技术详解系列(15)—— 一篇文章教你如何自定义错误日志
    你好,我是赵兴晨,97年文科程序员。在今天的文章中,我将带你深入了解Nginx的一个强大功能——自定义错误日志。无论是对于运维人员还是开发者,掌握这一技能都是提升工作效率、优化系统监控的关键。主要是能装13。图片自定义错误日志在Nginx中,自定义错误日志的设置可以让你更......
  • 电源电路E24系列反馈电阻计算表格
    可调电源,包括DCDC、LDO电路的设计中,经常需要计算反馈电阻进行选型。为了提高效率,优化选型采购,抽空做了个表格进行快速计算。1.一般反馈电阻电路如下。输出电压公式为:Vout=Vfb*(Rh+Rl)/Rl2.E24电阻标准电阻值被组织成一组称为E系列的值。E系列优选或标准电阻值范围是国际公认......
  • mongodb数据库查询调优之explain方法详解
    在MongoDB中,explain()方法可以帮助我们了解查询语句的执行计划和性能。通过分析explain()的结果,我们可以找出潜在的性能问题并对其进行优化。以下是使用explain()方法对MongoDB查询语句进行优化的步骤:使用explain()方法获取查询的执行计划:db.collection.find(query).exp......