Reflexion: Language Agents with Verbal Reinforcement Learning

时间：2024-04-30 11:35:31浏览次数：29

标签：Language Verbal Reflexion 反馈 Actor LLM memory Evaluator feedback

发表时间：2023(NeurIPS 2023)
文章要点：文章提出Reflexion框架，通过交互的方式获得反馈，并变成细致的语言feedback的形式作为下一轮的prompt，以此强化language agents的能力，同时避免了更新大模型的参数。这样的好处有1）轻量，不需要finetune LLM，2）feedback相比一个reward信号更加细致，3）充分利用过去的经验对未来的动作给予指导。缺点在于，很依赖大模型自我评估的能力（have the disadvantages of relying on the power of the LLM’s self-evaluation capabilities (or heuristics) and not having a formal guarantee for success）。
具体的，框架包括三个模型：Actor, Evaluator model, Self-Reflection model。
Actor是一个LLM，用来生成动作。Actor具体可以采用Chain of Thought和ReAct等方式实现。此外，还维护了一个memory用来存储过去的经验作为Actor的prompt。这个memory被称为short-term memory。
Evaluator分析Actor的输出并给轨迹打分（It takes as input a generated trajectory and computes a reward score that reflects its performance within the given task context.）。Evaluator可以是环境准确的反馈（reward functions based on exact match (EM) grading），可以是定义好的函数（pre-defined heuristic functions），也可以是LLM。
Self-reflection是一个LLM，主要作用是将Evaluator的打分转换成更细致的语言反馈（by generating verbal self-reflections to provide valuable feedback for future trials）。同时这个反馈也存到memory中，这个被称为long-term memory.
整个reflexion的过程是一个迭代优化的过程。Actor和环境交互得到轨迹，Evaluator给轨迹打分，Self-reflection分析轨迹和得分并生成语言形式的反馈存到memory里作为下一次迭代的prompt。如此循环下去直到回答正确或者达到最大尝试次数。
下图给了一个具体的例子

总结：文章写的很清楚了，优点是轻量而且有效，缺点就是比较依赖LLM的能力。感觉这个点是不是可以通过增加一个真正的RL的过程来弥补，可以考虑考虑。
疑问：无。

标签：Language,Verbal,Reflexion,反馈,Actor,LLM,memory,Evaluator,feedback
From： https://www.cnblogs.com/initial-h/p/18154223

Large Language Models Are Semi-Parametric Reinforcement Learning Agents
发表时间：2023(NeurIPS2023)文章要点：文章提出一个evolvableLLM-basedagent框架REMEMBERER，主要思路是给大模型加一个experiencememory存储过去的经验，然后用Q-learning的方式计算Q值，再根据任务相似度采样轨迹和对应的Q值作为prompt指导LLM进一步选取动作和环境交互。这里的S......
Kaggle自然语言处理入门推特灾难文本分类 Natural Language Processing with Disaste
和新闻按照标题分类差不多，用的朴素贝叶斯#导入必要的包importrandomimportsysfromsklearnimportmodel_selectionfromsklearn.naive_bayesimportMultinomialNBimportjoblibimportre,stringimportpandasaspdimportnumpyasnpdeftext_to_words(file_path)......
Bridging Causal Discovery and Large Language Models
本文是LLM系列文章，针对《BridgingCausalDiscoveryandLargeLanguageModels:AComprehensiveSurveyofIntegrativeApproachesandFutureDirections》的翻译。连接因果发现和大型语言模型：集成方法和未来方向的综合综述摘要1引言2背景3问题定义4当前的......
A Comprehensive Evaluation of Sequential Memory Editing in Large Language Models
本文是LLM系列文章，针对《NavigatingtheDualFacets:AComprehensiveEvaluationofSequentialMemoryEditinginLargeLanguageModels》的翻译。双向导航：大型语言模型中顺序记忆编辑的综合评价摘要1引言2相关工作3符号和背景4实验设置5ME对LLM的评估......
最新语言大模型综述 Large Language Models A Survey
文章目录摘要I.引言II.大型语言模型A.早期预训练神经语言模型B.大型语言模型家族C.其他代表性LLMsIII.LLM是如何构建的A.主要LLM架构B.数据清洗C.分词D.位置编码E.模型预训练F.微调和指令微调G.对齐H.解码策略I.成本效益的训练/推理/适应/压缩IV.LLM如......
超级agent的端语言模型Octopus v2: On-device language model for super agent
大型语言模型（LLMs）在函数调用方面展现出卓越的应用潜力，特别是针对AndroidAPI的定制应用。与那些需要详尽描述潜在函数参数、有时甚至涉及数万个输入标记的检索增强生成（RAG）方法相比，Octopus-V2-2B在训练和推理阶段均采用了独树一帜的功能标记策略。这一创新不仅令Octopus-V2-2B的......
Prompt Perturbation in Retrieval-Augmented Generation based Large Language Model
本文是LLM系列文章，针对《PromptPerturbationinRetrieval-AugmentedGenerationbasedLargeLanguageModels》的翻译。基于大语言模型的检索增强生成中的提示扰动摘要1引言2相关工作3梯度引导的提示扰动4对抗性前缀的检测5实验6结论摘要随着大型......
LLM(large language model)知识点
LLM知识点LLM1.LLM模型，常见的问题有哪些2.llm模型是用原始权重还是自己微调后的模型，如果有微调过，微调过程都存在哪些问题3.BERT的结构？4.怎么使用BERT模型5.Transformer的整体流程：6.Transformer中注意力的作用是什么？7.大模型训练的超参数如何设置？8.InstructGPT三......
Randomness Is All You Need: Semantic Traversal of Problem-Solution Spaces with L
本文是LLM系列文章，针对《RandomnessIsAllYouNeed:SemanticTraversalofProblem-SolutionSpaceswithLargeLanguageModels》的翻译。随机性就是你所需要的：具有大型语言模型的问题解决空间的语义遍历摘要1引言2相关工作3模型4算法5评估6实现7结论摘......
DISTILLM: Towards Streamlined Distillation for Large Language Models
本文是LLM系列文章，针对《DISTILLM:TowardsStreamlinedDistillationforLargeLanguageModels》的翻译。DISTILLM：面向大型语言模型的流线蒸馏摘要1引言2背景3DISTILLM4实验5分析与讨论6相关工作7结论摘要知识蒸馏（KD）被广泛用于将教师模型压缩为......

Reflexion: Language Agents with Verbal Reinforcement Learning

相关文章

赞助商

阅读排行