Agent-Pro：通过策略级反思和优化学习进化的智能代理

人工智能咨询培训老师叶梓转载标明出处

大多数基于LLM的代理被设计为特定任务的解决者，需要复杂的提示工程来指导任务规则和调节LLM行为。这些任务解决者在面对复杂动态场景（如大型互动游戏）时，往往显得力不从心。为了解决这一问题，来自中科院、南京邮电大学、南京信息工程大学、北京工业大学和国科大南京学院的研究团队提出了Agent-Pro：一个基于LLM的代理，具备策略级反思和优化能力，能够从互动经验中学习丰富的专业知识，并逐步提升其行为策略。

Agent-Pro涉及动态信念生成和反思过程，以促进策略的进化。与传统的动作级反思不同，Agent-Pro迭代反思过去的轨迹和信念，通过“微调”其不合理的信念来优化策略。它采用深度优先搜索（DFS）进行策略优化，确保策略收益的持续提升。研究者在两款游戏（Blackjack和Texas Hold’em）中评估了Agent-Pro，结果显示其表现优于普通LLM和专门模型。

用于交互任务的通用智能体框架，该框架能够自我学习和进化
这个框架首先构建关于自身和环境的信念，然后通过策略级反思过去的轨迹和信念，发展出更好的行为策略

方法

为了使代理能够在交互环境中学习，研究者们采用了一种与传统强化学习不同的方法。这种方法不依赖于通过试错来探索高回报动作并将这些经验直接编码进模型参数，而是采用了一种无需梯度的“探索-学习”策略。这种策略允许大模型（LLM）在具体的上下文中进行学习，通过自主反思和更新提示的指令，将有益的策略整合进代理的行为中。Agent-Pro的这种学习过程由三个关键组成部分支撑：信念感知的决策过程，策略级反思和基于深度优先搜索的策略演化。

Figure 2描述了Agent-Pro如何在具有不完全信息的多玩家竞争性游戏中设计动态信念以增强决策能力
它首先更新对世界和自身的信念，然后生成更一致的行动。为了实现策略级反思，Agent-Pro检查与失败轨迹相关的信念，然后总结提示指令，包括世界建模和行为准则，以校准错误的信念。最后，Agent-Pro使用基于DFS的搜索来逐步提高策略有效性

信念感知决策过程

Agent-Pro的信念感知决策过程使得智能代理能够在不完全信息的环境中做出更加合理和连贯的决策。这一过程的核心在于，代理首先构建对自身状态和外部环境的动态信念，这些信念包括自我信念和世界信念。自我信念涉及代理对自己手牌的评估、计划以及潜在风险的判断；而世界信念则是代理对对手可能持有的牌和他们的策略的推测。

在Blackjack这样的游戏中，Agent-Pro会根据自己手中的牌和对庄家牌面的观察来更新这些信念。例如，如果代理手中的牌总值较低，它可能会认为需要继续抽牌以改善手牌；如果牌总值已经较高，则可能选择停牌以避免超过21点。同时，代理还会考虑庄家的明牌，并预测庄家可能的下一步行动，如是否需要继续抽牌。

这种信念的更新是动态的，随着游戏的进行，代理会不断接收新的信息，并据此调整其信念。这种动态更新确保了代理的决策能够适应游戏状态的变化，从而在每个决策点上都能够做出最合适的选择。

信念感知决策过程还强调了决策的一致性和合理性。Agent-Pro在做出决策时，会确保其自我信念和世界信念之间的一致性，并评估这些信念是否与最终的游戏结果相符。如果发现某些信念导致了不理想的结果，代理会反思并调整这些信念，以形成更加合理的策略。

策略级反思

Agent-Pro的策略级反思允许代理在经历一系列决策后，回顾并评估其行为的有效性。这种反思不同于传统的基于动作的反思，它更关注于整体策略的合理性，而不仅仅是单个动作的结果。

在策略级反思中，Agent-Pro会审视其在游戏过程中形成的信念，包括自我信念和世界信念，以及这些信念如何影响其决策。例如，在一局失败的游戏中，代理会分析其信念是否与最终结果一致，是否存在矛盾，以及是否能够准确反映对手的意图。这种分析有助于代理识别出哪些信念可能是不合理的，或者在特定情境下未能带来预期的结果。

通过这种深入的反思，Agent-Pro能够从失败中学习，调整其行为策略。它会将反思的结果转化为具体的提示指令，这些指令可能包括行为策略、任务世界的描述，以及其他玩家行为的推测。例如，如果代理发现自己在面对某些类型的对手时过于保守，它可能会在新的策略中加入更积极的行动指南。

策略级反思还包括一个验证过程，以确保新形成的策略在实际应用中能够带来改进。Agent-Pro会将新生成的提示指令整合到其行为策略中，并在相同的游戏环境中重新进行测试。如果新策略能够提高游戏的得分，那么这些指令就会被保留；如果未能通过验证，代理则会重新生成新的策略。

基于深度优先搜索的策略演化

在Agent-Pro的设计中，策略的持续进化是通过一种基于深度优先搜索（DFS）的策略优化过程来实现的。这个过程旨在确保代理的策略能够针对新的游戏场景进行有效调整，以实现更高的收益。

其核心在于，它允许Agent-Pro在策略空间中进行广泛探索，以寻找可能带来性能改进的策略变体。每当Agent-Pro更新其策略时，它不仅仅是简单地接受或拒绝变化，而是通过创建多个候选策略来探索不同的行为方向。

在策略评估阶段，Agent-Pro会在新的游戏环境中测试这些候选策略，以评估它们的泛化能力。这个过程涉及到在不同的游戏场景中重复使用这些策略，以确保评估结果的可靠性和减少随机因素的影响。通过比较不同策略在这些场景中的表现，Agent-Pro可以确定哪些策略变体是值得进一步探索的。

如果发现某个新策略在评估中表现更好，Agent-Pro会接受这一进化，并继续在此基础上进行探索。然而，如果新策略没有带来预期的改进，Agent-Pro会使用DFS回溯到之前的策略，并考虑其他可能的策略分支。这种搜索机制允许代理在策略树中深入探索，直到找到性能最优的策略。

DFS-based Policy Evolution还包括一个策略验证过程，以确保选定的策略在实际应用中能够带来实际的改进。Agent-Pro会将经过DFS搜索选出的策略与当前策略进行比较，只有在新策略能够显著提高游戏收益的情况下，才会被采纳。

评估

研究者通过在Blackjack和Limit Texas Hold’em两款不同的游戏中测试Agent-Pro，评估了Agent-Pro在不完全信息和动态交互环境下的决策能力和学习进化的效果。他们展示了Agent-Pro在Blackjack游戏中通过策略级反思显著提升了决策能力，在更为复杂的Limit Texas Hold’em游戏中通过动态信念和策略进化展现了学习和适应的能力。

游戏：Blackjack

在研究Agent-Pro在Blackjack游戏中的表现时，研究者采用了一种针对性的方法来适应该游戏的小状态空间。由于Blackjack的规则相对简单，研究者没有采用复杂的验证和DFS策略进化机制，而是直接进行了策略学习。为此，研究者收集了50局失败的游戏作为策略学习的样本，并在这些样本上训练Agent-Pro。随后，在新采样的900局游戏中评估了Agent-Pro的表现，并与基线模型进行了比较。

Blackjack是一种要求玩家在不确定情况下做出决策的游戏，玩家需要根据自己的手牌、庄家的明牌和庄家的暗牌来决定是继续要牌还是停牌。研究者观察Agent-Pro是否能够在这种不确定的环境中做出理性的决策。在这项测试中，Agent-Pro的表现显著超过了大多数基线代理，特别是在Qwen-72B和Llama2-70B模型上，通过策略级反思，Agent-Pro的胜率分别比Reflexion模型提高了3.9%和11%。

研究者进一步分析了Agent-Pro在不同初始点数下的决策行为。Agent-Pro展现出与基线代理不同的策略，它能够根据自己手中的牌和庄家的明牌来合理地决定是继续要牌还是停牌。例如，在手中牌总值较低而庄家明牌较高时，Agent-Pro倾向于继续要牌，因为庄家爆牌的风险较大；相反，如果手中的牌已经接近21点或者庄家的明牌较低，Agent-Pro则倾向于停牌，以避免自己爆牌。

游戏：Limit Texas Hold’em

在研究Agent-Pro在限制德州扑克（Limit Texas Hold'em）游戏中的表现时，研究者面临了一个更为复杂的挑战。与Blackjack相比，德州扑克具有更多的不完全信息和动态交互的特点，这要求Agent-Pro能够处理更复杂的策略和环境变化。

研究者首先设置了游戏环境，其中包括无限筹码和四种可能的动作：跟注（Call）、加注（Raise）、弃牌（Fold）和看牌（Check）。在这种设置下，Agent-Pro的目标是尽可能多地赢得筹码。研究者通过使用一定数量的训练手牌来启动Agent-Pro的学习过程，这些手牌被用来训练Agent-Pro的策略，并帮助它理解游戏规则和对手的行为模式。

在训练过程中，Agent-Pro利用了一个包含探索、反思和进化三个阶段的循环过程。在探索阶段，Agent-Pro根据当前策略和信念感知决策过程来随机选择一手牌进行游戏。如果遭遇失败，它将立即进行策略级反思，并在通过验证后更新到新策略。在进化阶段，研究者使用开发集来评估新策略，并计算其性能提升。

研究者发现，Agent-Pro在限制德州扑克中的表现显著超越了基于强化学习的代理，如DQN和DMC，以及其他基于LLM的代理。Agent-Pro通过学习，能够使用多种游戏技巧，例如通过虚张声势迫使对手弃牌，或伪装自己的手牌以吸引激进的对手提高赌注。

研究者还分析了Agent-Pro在整个学习过程中的表现。他们观察到，基于不同LLM模型的Agent-Pro展现出了不同的学习曲线和策略风格。一些Agent-Pro在早期学习阶段迅速提高了表现，而另一些则在后期才显示出进步。这些不同的策略风格包括灵活策略、风险规避策略和谨慎策略，它们反映了Agent-Pro如何根据不同的手牌和对手行为来调整自己的游戏风格。

上表报告了各种基于LLM的智能体与其他三名玩家（DQN、DMC、GPT-3.5）的最终筹码计数

Agent-Pro显示出了新颖的LLM基础代理设计范式，能够在复杂互动任务中学习和进化。尽管Agent-Pro在学习和进化方面表现出色，但其学习过程高度依赖基础模型的能力，尤其是其推理和反思能力。Agent-Pro在游戏场景中的表现与最先进的算法（如CFR+）仍有一定差距。尽管Agent-Pro在某些方面仍有改进空间，但其在游戏场景中的表现已经显著优于现有的LLM基础代理。

论文链接：https://arxiv.org/abs/2402.17574

标签：策略,Pro,Agent,信念,反思,游戏
From： https://blog.csdn.net/weixin_44292902/article/details/140632854