首页 > 其他分享 >Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods

Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods

时间:2024-05-23 13:40:59浏览次数:32  
标签:information Concept LLM Language Learning RL model reward Model


发表时间:2024
文章要点:文章对LLM增强强化学习(LLM-enhanced RL)的现有文献进行了总结。在agent-environment交互的范式下,讨论LLM对RL算法的帮助。
文章先给出LLM-enhanced RL的概念:the methods that utilize the multi-modal information processing, generating, reasoning, etc. capabilities of pre-trained, knowledge-inherent AI models to assist the RL paradigm。指的是利用预训练好的大模型的各种能力来帮助提升强化学习范式的一类方法。LLM-enhanced RL和model-based RL的主要区别在于LLM的model是更general的,包含各种知识的模型,而不是task specific的。
文章将LLM的功能分为信息处理器(information processor)、奖励设计者(reward designer)、决策者(decision-maker)和生成器(generator),并依次讨论每一部分。

LLM AS INFORMATION PROCESSOR
由于RL是端到端的学习范式,需要联合信息处理和策略学习两个方面,加大了RL学习的难度。LLM作为信息处理器(information processor)可以帮助RL提取信息,其中一个作用是相当于一个特征提取器(Feature Representation Extractor),将原始输入转换成特征向量再给到RL。图Fig.3(i)所示,LLM作为encoder要么是参数固定不变的(frozen),要么是通过某个损失进一步微调的,例如图中的contrastive learning。
LLM作为信息处理器的另一个用处是作为翻译器(Language Translator),LLM处理各种语义信息并总结成结构化的任务相关的信息(LLM transforms the diverse and informal natural language information into formal task-specific information)。Instruction Information Translation针对instruction-following applications,将任务说明规范化。Environment Information Translation针对环境相关的信息,将其规范化。如图Fig.3(ii)所示,将instruction变成one hot编码,将环境dynamic信息集成到reward中。

LLM AS INFORMATION PROCESSOR
Reward 是RL学习的唯一信号,其重要性不言而喻。但是要想设计一个好的reward function是很困难的。LLM可以帮助设计或者reshape reward,包括隐式和显式。Implicit Reward Model指通过prompt LLM给出reward,或者通过LLM设计相似度指标来打分。Explicit Reward Model比较好理解,就是让LLM写个reward的函数出来。两种方式如Fig.4.所示。

LLM AS DECISION-MAKER
因为RL是decision making的任务,而LLM是基于大量数据训练的通用模型,本身具有一定的决策能力,所以可以帮助RL决策。分为直接和间接两种形式。Direct Decision-Maker直接利用模型本身,主要指transformer结构训练决策模型,这类任务通常不涉及RL,或者说只涉及offline RL。Indirect Decision-Maker中,LLM不是作为最终决策的policy,而是辅助RL的policy做决策。比如帮助筛选出候选动作,或者提供一个参考策略(Reference Policy)或者指导或者正则项。如Fig.5所示。

LLM AS GENERATOR
这一部分的作用比较像model-based里的model,不过功能要更丰富一些。文中分为World Model Simulator和Policy Interpreter两个作用。其中World Model Simulator和model-based RL里的model类似,这里主要指用transformer的结构学一个world model。这个model可以用来做trajectory rollout生成更多的样本,或者学习dynamic的表征。Policy Interpreter是说LLM可以分析或者解释一下当前策略行为的意义,方向往可解释性强化学习靠近(LLMs can be prompts to generate readable interpretations of current policies or situations for humans)。如Fig.6所示。

最后文章总结了应用,机会和挑战,还是一些比较常见的话题。应用总结了机器人,自动驾驶,能源管理,健康。机会总结了LLM-Enhanced RL下的子问题,比如RL方面的multi-agent RL, safe RL, transfer RL, explainable RL,LLM方面的retrieval-augmented generation (RAG)等工具。这个基本上就是水A+B文章的套路了。挑战提出了一些潜在的问题,比如LLM-Enhanced RL依赖LLM的能力,以及加入LLM的交互在计算开销上会大大增加等等。
总结:总结了多个方面的作用,挺全面的。不过他这个分类的方式其实有点奇怪,逻辑不太清晰,可能一种解释就是RL里面涉及到state,reward,model,action,对应起来就是LLM的四个功能了。
疑问:无。

标签:information,Concept,LLM,Language,Learning,RL,model,reward,Model
From: https://www.cnblogs.com/initial-h/p/18197605

相关文章

  • 强化学习Q-learning算法——Python实现
    Q-learning是一种基于值迭代的强化学习(ReinforcementLearning,RL)算法,主要用于在给定环境中学习一个策略,使得智能体(agent)能够在与环境交互的过程中获得最大累计奖励。它通过学习一个状态-动作值函数(Q函数)来指导智能体的行为选择,适用于各种离散状态和动作的任务环境。Q-learning在......
  • [Paper Reading] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-C
    BEVFormer:LearningBird’s-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformerslink时间:22.07机构:NanjingUniversity&&ShanghaiAILaboratoryTL;DR利用Transformer的Attention机制融合时空特征信息,在nuScenes测试集上达到SOTA精度,同时......
  • SimCLR: 一种视觉表征对比学习的简单框架《A Simple Framework for Contrastive Learn
    现在是2024年5月18日,好久没好好地看论文了,最近在学在写代码+各种乱七八糟的事情,感觉要和学术前沿脱轨了(虽然本身也没在轨道上,太菜了),今天把师兄推荐的一个框架的论文看看(视觉CV领域的)。20:31,正经的把这篇论文看完。论文:ASimpleFrameworkforContrastiveLearningofVisua......
  • m基于Q-Learning强化学习的路线规划和避障策略matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:      2.算法涉及理论知识概要      Q-Learning是强化学习中的一种重要算法,它属于无模型(model-free)学习方法,能够使智能体在未知环境中学习最优策略,无需环境的具体模型。将Q-Learning应用于路线规划和避障策略中,智能......
  • Q-learning 玩maze游戏
     importpygameimportnumpyasnpimportrandomimportsys#定义迷宫环境classMaze:def__init__(self):self.size=10self.maze=np.zeros((self.size,self.size))self.start=(0,0)self.goal=(9,9)self.m......
  • m基于Q-Learning强化学习的迷宫路线规划策略matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:     2.算法涉及理论知识概要       Q-Learning是一种无模型的强化学习算法,它能够使代理(Agent)在与环境互动的过程中学习最优策略,无需了解环境的完整动态模型。在迷宫路线规划问题中,Q-Learning被用来指导代理找到从起......
  • REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
    发表时间:2023(ICLR2023)文章要点:文章提出一个简单有效的ReAct框架,将reasoning和action结合,在交互式的环境上进行测试,取得了很好的效果。其中reasoning作为推理模块,帮助模型归纳,跟踪和更新动作规划,acting和环境交互收集更多信息(reasoningtraceshelpthemodelinduce,track,a......
  • CF940F.Machine Learning-带修莫队、Mex
    给一个序列\(a\),两个操作:1、给\(l,r\),设\(a_l,\dots,a_r\)这些数集中每个数\(v\)的出现次数是\(c_v\),要求\(\mathrm{mex}(c_i)\).2、单点修改\(1\leqn,q\leq10^5\),时限4s这种一眼看过去很难维护的信息,一般就先找找性质。首先注意到关键性质:要求的是出现次数......
  • Machine Learning - 梯度下降
    一、梯度下降:目的是为了寻找到最合适的$w$和$b$,让成本函数的值最小\[w=w-α\frac{\partialJ(w,b)}{\partialw}\]\[b=b-α\frac{\partialJ(w,b)}{\partialb}\]    其中\(α\)的值通常在\(0-1\)之间,用于控制梯度下降算法的幅度。\(α\)太大,会造成发......
  • Reflexion: Language Agents with Verbal Reinforcement Learning
    发表时间:2023(NeurIPS2023)文章要点:文章提出Reflexion框架,通过交互的方式获得反馈,并变成细致的语言feedback的形式作为下一轮的prompt,以此强化languageagents的能力,同时避免了更新大模型的参数。这样的好处有1)轻量,不需要finetuneLLM,2)feedback相比一个reward信号更加细致,3)充分......