RLHF（带有人类反馈的强化学习）初探

时间：2024-09-10 12:53:34浏览次数：12

标签：学习游戏反馈 RLHF 对战 LLM 初探 com

我的目标是，在决策游戏上学习某人风格，可以让人对战“带有某人风格”的AI，比如你可以在这里对战“sky风格的AI”,这样的效果。

我最开始受到的启发来源于xbox的广告《爸爸的幽灵车》，已故人在游戏中留下的速度记录的固定轨迹。

万般皆是命。感谢这个时代，我如果2020年底那次考研成功了，可能就等不到LLM在2023年的爆发出现，就等不到2024的RLHF的概念的炒热，如果没有我导师的再三问我想做什么题目我也难以转到这个题目上来。

以上于2024-01-14 21:30:01

下图左侧是监督学习（数据+loss+模型），右侧是强化学习（环境+回报+agent）

RLHF（带有人类反馈的强化学习）初探_强化学习

RLHF这方面现在在大语言模型LLM中用的比较多，因为文字易于获取，RHLF作为文字的微调手段更加易于操作，就像聊天和打分一样就完成了。

大模型 | 通俗理解RLHF基础知识以及完整流程_大模型rlhf

RLHF(人类反馈强化学习)是什么？ - 知乎 (zhihu.com)

https://www.zhihu.com/question/644676855/answer/3399879430

RLHF在agent智能体操作上的资料相对LLM来说是极少的，我就找到几篇相关的论文与代码：

opendilab/awesome-RLHF: A curated list of reinforcement learning with human feedback resources (continually updated) (github.com)

https://github.com/opendilab/awesome-RLHF陈传玺.基于RLHF策略的无人车个性化决策控制研究[D].华东交通大学,2023.
Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces

还有一点，RLHF提及最多的是PPO算法，需要研究一下

在深入研究和思考后发现，现有的比较接近的解决方案是【强化学习中的“模仿学习”】，但是这需要大量的对战数据。

其次，对战数据是死的。比如用相同的策略“过同一个迷宫”是可以的，但如何在双方都有决策，对双方来说都是“动态迷宫” 的环境，就完全不一样了。

还有，怎么样才叫“拥有某人的操作风格”？这个很难去在复杂的RTS游戏中界定，不像赛车游戏那样有限的操作空间——后来我想到了“策略的提取”，这样能体现一个人的相关思想（比如让某个人年轻时的思维来处理现在的问题，与当下的新思维碰同一个问题，一定很有趣。）

我感觉大数据推荐算法的“同一类人”的方法是十分有效的，这个可否在同一局游戏中找到频繁前后相似的地方来进行数据挖掘？

我又想过过去听说过的“心智模式”，人生道路就是这个处事方式决定的，这种成功学论调难以检验，但放到了计算机中，我现在有了“智能体agnet”作为试验的实体，这些猜想就都可以被证明或证伪了！一些概念对应到“心智模式——模型”，“每次都得到这样结果的心智模式——固定的道路”，实体对应就像遗传因子对应到了DNA上那样找到了实体……

……最后，我一直纠结的是最后的硕士成果应该落实到什么上面，是一个软件？是一个更好的方法？还是一个结论？这个我想不清楚。

标签：学习,游戏,反馈,RLHF,对战,LLM,初探,com
From： https://blog.51cto.com/u_11347864/11970764

RLPF：用于LLM用户摘要的预测反馈
《RLPF:ReinforcementLearningfromPredictionFeedbackforUserSummarizationwithLLMs》链接：https://arxiv.org/pdf/2409.04421文章介绍了一种新的强化学习方法RLPF（ReinforcementLearningfromPredictionFeedback），用于优化大型语言模型（LLMs）生成的用户摘要，以提高下......
今天开周会重点说到上次那个项目被客户反馈，原因是很多需求被遗漏，我心里既自责，更多的是
今天开周会了，重点说到上次那个项目被客户反馈了，原因是很多需求被遗漏，导致负责开发人员需要去客户那边完善，这样一来验收时间往后移动，间接导致我们下一个本身就时间紧迫的项目所剩时间又缩短一大截。老板重点强调了责任，开发人员没有按照需要一点一点对照实现，测试......
MCU驱动架构的初探究
Handler层什么是Handler层：Handler是将所有的资源聚集到一起的一层，包括用到的HAL硬件，队列，信号量，锁），包括挂载哪个硬件设备；以温湿度传感器为例，handler结构体typedefstructbsp_temp_humi_xxx_handler{//底层driver需要的接口timebase_interface_t*timebase_interface......
图形学系列教程，带你从零开始入门图形学（包含配套代码）—— 初探图形编程
图形学系列文章目录序章初探图形编程第1章你的第一个三角形第2章变换顶点变换视图矩阵&帧速率第3章纹理映射第4章透明度和深度第5章裁剪区域和模板缓冲区第6章场景图第7章场景管理第8章索引缓冲区第9章骨骼动画第10章后处理第11章实时光照（一）第12章实时光照（二）第1......
初探编译链接原理
初探编译链接原理bug最近因为遇到了一个有意思的bug，就去学习了一下编译链接原理，本篇博文记录学习过程中相关的一些思考。foo5.c/*$beginfoo5*//*foo5.c*/#include<stdio.h>voidf(void);intx=15213;inty=15212;intmain(){f();prin......
springboot+vue学生对老师评分_意见分反馈网站【程序+论文+开题】计算机毕业设计
系统程序文件列表开题报告内容研究背景在教育领域中，学生评教作为教学质量监控与提升的重要环节，其反馈的及时性与有效性对于促进教师专业发展、优化课程设置及教学方法改革具有重要意义。然而，传统的学生评教方式往往受限于纸质问卷、面对面访谈等形式，存在数据收集效率低下、......
vue3中交互反馈的用法及各种弹窗输入框最详细教学
1.showToast1.1参数说明以上是showToast中的常用参数，接下来会对一部分进行演示1.1.1title现在添加了一个showToast方法，并且在里面写了title参数当我第一次进入这个页面时，会触发该弹窗，并且上面会有添加的文字《操作失败》上面是✓的原因是因为默认值为✓1.1.2......
阿里云数据库使用感受--操作界面有点眼花缭乱 --3年的使用感受与反馈系列
此篇是一个系列，专门剖析笔者在3年使用阿里云数据库中遇到的问题，并针对这些问题进行假设性的改进建议，大部分内容为真正使用过产品和服务后的感触，带有个人的一些主观观点，这也是不可避免的。此篇是本系列的第一篇，主要针对阿里云数据库系列产品中的产品界面进行一个使用后的主观的反馈......
阿里云数据库使用感受--客户服务问题深入剖析与什么是廉价客户 --3年的使用感受与反馈
此篇是一个系列，专门剖析笔者在3年使用阿里云数据库中遇到的问题，并针对这些问题进行假设性的改进建议，大部分内容为真正使用过产品和服务后的感触，带有个人的一些主观观点，这也是不可避免的。此篇是本系列的第二篇，主要针对阿里云数据库系列产品中的产品客服服务长达3年的沟通交流产生的......
电路分析 ---- T型反馈反相比例器
1T型反馈反相比例器2分析过程根据虚短可知$u_{+}=u_{-}=0$根据虚断可知流入运算放大器负输入端的电流为0故可得$i_{1}=\cfrac{u_{I}-u_{-}}{R_{1}}=\cfrac{u_{I}-0}{R_{1}}=\cfrac{u_{I}}{R_{1}}$同时又有\(i_{1}=\cfrac{u_{-}-u_{A}}{R_{2}}=\cfrac{0-u_{A}}{R_{2}}......

RLHF（带有人类反馈的强化学习）初探

相关文章

赞助商

阅读排行