首页 > 其他分享 >Reflexion: Language Agents with Verbal Reinforcement Learning

Reflexion: Language Agents with Verbal Reinforcement Learning

时间:2024-04-30 11:35:31浏览次数:29  
标签:Language Verbal Reflexion 反馈 Actor LLM memory Evaluator feedback


发表时间:2023(NeurIPS 2023)
文章要点:文章提出Reflexion框架,通过交互的方式获得反馈,并变成细致的语言feedback的形式作为下一轮的prompt,以此强化language agents的能力,同时避免了更新大模型的参数。这样的好处有1)轻量,不需要finetune LLM,2)feedback相比一个reward信号更加细致,3)充分利用过去的经验对未来的动作给予指导。缺点在于,很依赖大模型自我评估的能力(have the disadvantages of relying on the power of the LLM’s self-evaluation capabilities (or heuristics) and not having a formal guarantee for success)。
具体的,框架包括三个模型:Actor, Evaluator model, Self-Reflection model。
Actor是一个LLM,用来生成动作。Actor具体可以采用Chain of Thought和ReAct等方式实现。此外,还维护了一个memory用来存储过去的经验作为Actor的prompt。这个memory被称为short-term memory。
Evaluator分析Actor的输出并给轨迹打分(It takes as input a generated trajectory and computes a reward score that reflects its performance within the given task context.)。Evaluator可以是环境准确的反馈(reward functions based on exact match (EM) grading),可以是定义好的函数(pre-defined heuristic functions),也可以是LLM。
Self-reflection是一个LLM,主要作用是将Evaluator的打分转换成更细致的语言反馈(by generating verbal self-reflections to provide valuable feedback for future trials)。同时这个反馈也存到memory中,这个被称为long-term memory.
整个reflexion的过程是一个迭代优化的过程。Actor和环境交互得到轨迹,Evaluator给轨迹打分,Self-reflection分析轨迹和得分并生成语言形式的反馈存到memory里作为下一次迭代的prompt。如此循环下去直到回答正确或者达到最大尝试次数。
下图给了一个具体的例子

总结:文章写的很清楚了,优点是轻量而且有效,缺点就是比较依赖LLM的能力。感觉这个点是不是可以通过增加一个真正的RL的过程来弥补,可以考虑考虑。
疑问:无。

标签:Language,Verbal,Reflexion,反馈,Actor,LLM,memory,Evaluator,feedback
From: https://www.cnblogs.com/initial-h/p/18154223

相关文章

  • Large Language Models Are Semi-Parametric Reinforcement Learning Agents
    发表时间:2023(NeurIPS2023)文章要点:文章提出一个evolvableLLM-basedagent框架REMEMBERER,主要思路是给大模型加一个experiencememory存储过去的经验,然后用Q-learning的方式计算Q值,再根据任务相似度采样轨迹和对应的Q值作为prompt指导LLM进一步选取动作和环境交互。这里的S......
  • Kaggle自然语言处理入门 推特灾难文本分类 Natural Language Processing with Disaste
    和新闻按照标题分类差不多,用的朴素贝叶斯#导入必要的包importrandomimportsysfromsklearnimportmodel_selectionfromsklearn.naive_bayesimportMultinomialNBimportjoblibimportre,stringimportpandasaspdimportnumpyasnpdeftext_to_words(file_path)......
  • Bridging Causal Discovery and Large Language Models
    本文是LLM系列文章,针对《BridgingCausalDiscoveryandLargeLanguageModels:AComprehensiveSurveyofIntegrativeApproachesandFutureDirections》的翻译。连接因果发现和大型语言模型:集成方法和未来方向的综合综述摘要1引言2背景3问题定义4当前的......
  • A Comprehensive Evaluation of Sequential Memory Editing in Large Language Models
    本文是LLM系列文章,针对《NavigatingtheDualFacets:AComprehensiveEvaluationofSequentialMemoryEditinginLargeLanguageModels》的翻译。双向导航:大型语言模型中顺序记忆编辑的综合评价摘要1引言2相关工作3符号和背景4实验设置5ME对LLM的评估......
  • 最新语言大模型综述 Large Language Models A Survey
    文章目录摘要I.引言II.大型语言模型A.早期预训练神经语言模型B.大型语言模型家族C.其他代表性LLMsIII.LLM是如何构建的A.主要LLM架构B.数据清洗C.分词D.位置编码E.模型预训练F.微调和指令微调G.对齐H.解码策略I.成本效益的训练/推理/适应/压缩IV.LLM如......
  • 超级agent的端语言模型Octopus v2: On-device language model for super agent
    大型语言模型(LLMs)在函数调用方面展现出卓越的应用潜力,特别是针对AndroidAPI的定制应用。与那些需要详尽描述潜在函数参数、有时甚至涉及数万个输入标记的检索增强生成(RAG)方法相比,Octopus-V2-2B在训练和推理阶段均采用了独树一帜的功能标记策略。这一创新不仅令Octopus-V2-2B的......
  • Prompt Perturbation in Retrieval-Augmented Generation based Large Language Model
    本文是LLM系列文章,针对《PromptPerturbationinRetrieval-AugmentedGenerationbasedLargeLanguageModels》的翻译。基于大语言模型的检索增强生成中的提示扰动摘要1引言2相关工作3梯度引导的提示扰动4对抗性前缀的检测5实验6结论摘要随着大型......
  • LLM(large language model)知识点
    LLM知识点LLM1.LLM模型,常见的问题有哪些2.llm模型是用原始权重还是自己微调后的模型,如果有微调过,微调过程都存在哪些问题3.BERT的结构?4.怎么使用BERT模型5.Transformer的整体流程:6.Transformer中注意力的作用是什么?7.大模型训练的超参数如何设置?8.InstructGPT三......
  • Randomness Is All You Need: Semantic Traversal of Problem-Solution Spaces with L
    本文是LLM系列文章,针对《RandomnessIsAllYouNeed:SemanticTraversalofProblem-SolutionSpaceswithLargeLanguageModels》的翻译。随机性就是你所需要的:具有大型语言模型的问题解决空间的语义遍历摘要1引言2相关工作3模型4算法5评估6实现7结论摘......
  • DISTILLM: Towards Streamlined Distillation for Large Language Models
    本文是LLM系列文章,针对《DISTILLM:TowardsStreamlinedDistillationforLargeLanguageModels》的翻译。DISTILLM:面向大型语言模型的流线蒸馏摘要1引言2背景3DISTILLM4实验5分析与讨论6相关工作7结论摘要知识蒸馏(KD)被广泛用于将教师模型压缩为......