比尔·盖茨近期发表了一篇博客,其中谈到Agents将会是LLM的未来方向。LLM是一个Decoder,是Agent的大脑。LLM和Agent的区别,正如GPT-4和ChatGPT的区别。
1 Intro
如图所示:
- Agents具有运用“Tools”的能力,可以调用外部api或沙盘来执行代码;
- Agents具有多种“Memory”的能力,短期记忆指的是当前token内的上下文窗口,长期记忆指的是LLM的权重参数;
- Agents具有可以“Planning”的能力,能够自主进行子任务分解和自我反省。
2 Tool Usage
能够使用工具是人类与其他生物在很多方面的区别。我们创造、修改和利用外部物体来扩展我们的身体和认知能力。同样,为大语言模型配备外部工具可以显著扩展其功能。
在AI Agents设置中,工具对应于一组工具集合,这些工具集合使LLM Agents能够与外部环境(如谷歌搜索、代码解释器、数学引擎等)进行交互。工具也可以是某种形式的数据库、知识库和外部模型。当Agents与外部工具交互时,它通过工作流执行任务,这些工作流帮助Agents获得观察结果或必要的上下文,以完成给定的子任务并最终完成完整的任务。
3 Memories
《普通心理学》书中将人的记忆区分为三种:感觉记忆(瞬时记忆)、工作记忆(短期记忆)、长时记忆(长期记忆)。
对于Agents来说,感觉记忆就是Embedding后的嵌入向量;工作记忆则是经过Transformer注意力机制捕捉后的隐状态序列;长时记忆则通常指大语言模型的权重参数。
除了内部记忆,Agents可以使用外部记忆如RAG机制。
4 Planning Strategy
Agents的规划能力是当前的最大挑战。
如图所示,有很多这样的论文,即思想链,思想树,思想算法(也称思想图)。这些方法都在原本的LLM Decoder上强调分步推理的提示工程和微调。提示工程帮助引导模型,模型具体的推理过程是自己分析得出的。
4.1 自我反省
上述规划模块不涉及任何反馈,这使得很难实现长期规划,特别是解决复杂任务所必需的。为了应对这一挑战,我们可以创建一个过程,以迭代地反映和改进基于过去的行动和观察的执行计划。目标是纠正和改进过去的错误,这有助于提高最终结果的质量。
和人类一样,Agents需要策略从错误中汲取教训。
ReAct
ReAct结合了推理和行动,旨在使LLM能够通过在一系列步骤(重复N次)之间交错来解决复杂的任务:Thought,Action和Observation。
Reflexion
这是一个基于ReAct改进,为智能体提供动态记忆和自我反思能力以提高推理能力的框架。反射有一个标准的强化学习设置,其中奖励模型提供一个简单的二元奖励,操作空间遵循ReAct中的设置,其中特定于任务的操作空间用语言增强,以支持复杂的推理步骤。
Chain of Hindsight(CoH)
模型被要求通过查看自己过去的工作来改进自己,进行评分,并附上关于下次如何做得更好的笔记。该模型通过使用其自身尝试和反馈的历史,尝试产生一个将获得更好评级的新输出来进行实践。
Algorithm Distillation(AD)
AD算法蒸馏将类似的想法应用于机器人或代理学习任务。代理回顾它在过去几次尝试中的表现,并试图找出改进的算法模式。然后,它预测下一步应该比之前的动作更好,学习变得更好的算法策略。
标签:模型,Agent,从大,ReAct,记忆,LLM,Agents From: https://www.cnblogs.com/Arcticus/p/18396066参考博文https://luxiangdong.com/2024/04/28/agents2/。