首页 > 其他分享 >Agent-Pro:通过策略级反思和优化学习进化的智能代理

Agent-Pro:通过策略级反思和优化学习进化的智能代理

时间:2024-07-26 16:26:15浏览次数:12  
标签:策略 Pro Agent 信念 反思 游戏

人工智能咨询培训老师叶梓 转载标明出处

大多数基于LLM的代理被设计为特定任务的解决者,需要复杂的提示工程来指导任务规则和调节LLM行为。这些任务解决者在面对复杂动态场景(如大型互动游戏)时,往往显得力不从心。为了解决这一问题,来自中科院、南京邮电大学、南京信息工程大学、北京工业大学和国科大南京学院的研究团队提出了Agent-Pro:一个基于LLM的代理,具备策略级反思和优化能力,能够从互动经验中学习丰富的专业知识,并逐步提升其行为策略。

Agent-Pro涉及动态信念生成和反思过程,以促进策略的进化。与传统的动作级反思不同,Agent-Pro迭代反思过去的轨迹和信念,通过“微调”其不合理的信念来优化策略。它采用深度优先搜索(DFS)进行策略优化,确保策略收益的持续提升。研究者在两款游戏(Blackjack和Texas Hold’em)中评估了Agent-Pro,结果显示其表现优于普通LLM和专门模型。

用于交互任务的通用智能体框架,该框架能够自我学习和进化
这个框架首先构建关于自身和环境的信念,然后通过策略级反思过去的轨迹和信念,发展出更好的行为策略

方法

为了使代理能够在交互环境中学习,研究者们采用了一种与传统强化学习不同的方法。这种方法不依赖于通过试错来探索高回报动作并将这些经验直接编码进模型参数,而是采用了一种无需梯度的“探索-学习”策略。这种策略允许大模型(LLM)在具体的上下文中进行学习,通过自主反思和更新提示的指令,将有益的策略整合进代理的行为中。Agent-Pro的这种学习过程由三个关键组成部分支撑:信念感知的决策过程,策略级反思和基于深度优先搜索的策略演化。

Figure 2描述了Agent-Pro如何在具有不完全信息的多玩家竞争性游戏中设计动态信念以增强决策能力
它首先更新对世界和自身的信念,然后生成更一致的行动。为了实现策略级反思,Agent-Pro检查与失败轨迹相关的信念,然后总结提示指令,包括世界建模和行为准则,以校准错误的信念。最后,Agent-Pro使用基于DFS的搜索来逐步提高策略有效性

信念感知决策过程

Agent-Pro的信念感知决策过程使得智能代理能够在不完全信息的环境中做出更加合理和连贯的决策。这一过程的核心在于,代理首先构建对自身状态和外部环境的动态信念,这些信念包括自我信念和世界信念。自我信念涉及代理对自己手牌的评估、计划以及潜在风险的判断;而世界信念则是代理对对手可能持有的牌和他们的策略的推测。

在Blackjack这样的游戏中,Agent-Pro会根据自己手中的牌和对庄家牌面的观察来更新这些信念。例如,如果代理手中的牌总值较低,它可能会认为需要继续抽牌以改善手牌;如果牌总值已经较高,则可能选择停牌以避免超过21点。同时,代理还会考虑庄家的明牌,并预测庄家可能的下一步行动,如是否需要继续抽牌。

这种信念的更新是动态的,随着游戏的进行,代理会不断接收新的信息,并据此调整其信念。这种动态更新确保了代理的决策能够适应游戏状态的变化,从而在每个决策点上都能够做出最合适的选择。

信念感知决策过程还强调了决策的一致性和合理性。Agent-Pro在做出决策时,会确保其自我信念和世界信念之间的一致性,并评估这些信念是否与最终的游戏结果相符。如果发现某些信念导致了不理想的结果,代理会反思并调整这些信念,以形成更加合理的策略。

策略级反思 

Agent-Pro的策略级反思允许代理在经历一系列决策后,回顾并评估其行为的有效性。这种反思不同于传统的基于动作的反思,它更关注于整体策略的合理性,而不仅仅是单个动作的结果。

在策略级反思中,Agent-Pro会审视其在游戏过程中形成的信念,包括自我信念和世界信念,以及这些信念如何影响其决策。例如,在一局失败的游戏中,代理会分析其信念是否与最终结果一致,是否存在矛盾,以及是否能够准确反映对手的意图。这种分析有助于代理识别出哪些信念可能是不合理的,或者在特定情境下未能带来预期的结果。

通过这种深入的反思,Agent-Pro能够从失败中学习,调整其行为策略。它会将反思的结果转化为具体的提示指令,这些指令可能包括行为策略、任务世界的描述,以及其他玩家行为的推测。例如,如果代理发现自己在面对某些类型的对手时过于保守,它可能会在新的策略中加入更积极的行动指南。

策略级反思还包括一个验证过程,以确保新形成的策略在实际应用中能够带来改进。Agent-Pro会将新生成的提示指令整合到其行为策略中,并在相同的游戏环境中重新进行测试。如果新策略能够提高游戏的得分,那么这些指令就会被保留;如果未能通过验证,代理则会重新生成新的策略。

基于深度优先搜索的策略演化

在Agent-Pro的设计中,策略的持续进化是通过一种基于深度优先搜索(DFS)的策略优化过程来实现的。这个过程旨在确保代理的策略能够针对新的游戏场景进行有效调整,以实现更高的收益。

其核心在于,它允许Agent-Pro在策略空间中进行广泛探索,以寻找可能带来性能改进的策略变体。每当Agent-Pro更新其策略时,它不仅仅是简单地接受或拒绝变化,而是通过创建多个候选策略来探索不同的行为方向。

在策略评估阶段,Agent-Pro会在新的游戏环境中测试这些候选策略,以评估它们的泛化能力。这个过程涉及到在不同的游戏场景中重复使用这些策略,以确保评估结果的可靠性和减少随机因素的影响。通过比较不同策略在这些场景中的表现,Agent-Pro可以确定哪些策略变体是值得进一步探索的。

如果发现某个新策略在评估中表现更好,Agent-Pro会接受这一进化,并继续在此基础上进行探索。然而,如果新策略没有带来预期的改进,Agent-Pro会使用DFS回溯到之前的策略,并考虑其他可能的策略分支。这种搜索机制允许代理在策略树中深入探索,直到找到性能最优的策略。

DFS-based Policy Evolution还包括一个策略验证过程,以确保选定的策略在实际应用中能够带来实际的改进。Agent-Pro会将经过DFS搜索选出的策略与当前策略进行比较,只有在新策略能够显著提高游戏收益的情况下,才会被采纳。

评估

研究者通过在Blackjack和Limit Texas Hold’em两款不同的游戏中测试Agent-Pro,评估了Agent-Pro在不完全信息和动态交互环境下的决策能力和学习进化的效果。他们展示了Agent-Pro在Blackjack游戏中通过策略级反思显著提升了决策能力,在更为复杂的Limit Texas Hold’em游戏中通过动态信念和策略进化展现了学习和适应的能力。

游戏:Blackjack

在研究Agent-Pro在Blackjack游戏中的表现时,研究者采用了一种针对性的方法来适应该游戏的小状态空间。由于Blackjack的规则相对简单,研究者没有采用复杂的验证和DFS策略进化机制,而是直接进行了策略学习。为此,研究者收集了50局失败的游戏作为策略学习的样本,并在这些样本上训练Agent-Pro。随后,在新采样的900局游戏中评估了Agent-Pro的表现,并与基线模型进行了比较。

Blackjack是一种要求玩家在不确定情况下做出决策的游戏,玩家需要根据自己的手牌、庄家的明牌和庄家的暗牌来决定是继续要牌还是停牌。研究者观察Agent-Pro是否能够在这种不确定的环境中做出理性的决策。在这项测试中,Agent-Pro的表现显著超过了大多数基线代理,特别是在Qwen-72B和Llama2-70B模型上,通过策略级反思,Agent-Pro的胜率分别比Reflexion模型提高了3.9%和11%。

所有智能体独立与庄家竞争并计算它们的胜率

研究者进一步分析了Agent-Pro在不同初始点数下的决策行为。Agent-Pro展现出与基线代理不同的策略,它能够根据自己手中的牌和庄家的明牌来合理地决定是继续要牌还是停牌。例如,在手中牌总值较低而庄家明牌较高时,Agent-Pro倾向于继续要牌,因为庄家爆牌的风险较大;相反,如果手中的牌已经接近21点或者庄家的明牌较低,Agent-Pro则倾向于停牌,以避免自己爆牌。

游戏:Limit Texas Hold’em

在研究Agent-Pro在限制德州扑克(Limit Texas Hold'em)游戏中的表现时,研究者面临了一个更为复杂的挑战。与Blackjack相比,德州扑克具有更多的不完全信息和动态交互的特点,这要求Agent-Pro能够处理更复杂的策略和环境变化。

研究者首先设置了游戏环境,其中包括无限筹码和四种可能的动作:跟注(Call)、加注(Raise)、弃牌(Fold)和看牌(Check)。在这种设置下,Agent-Pro的目标是尽可能多地赢得筹码。研究者通过使用一定数量的训练手牌来启动Agent-Pro的学习过程,这些手牌被用来训练Agent-Pro的策略,并帮助它理解游戏规则和对手的行为模式。

在训练过程中,Agent-Pro利用了一个包含探索、反思和进化三个阶段的循环过程。在探索阶段,Agent-Pro根据当前策略和信念感知决策过程来随机选择一手牌进行游戏。如果遭遇失败,它将立即进行策略级反思,并在通过验证后更新到新策略。在进化阶段,研究者使用开发集来评估新策略,并计算其性能提升。

研究者发现,Agent-Pro在限制德州扑克中的表现显著超越了基于强化学习的代理,如DQN和DMC,以及其他基于LLM的代理。Agent-Pro通过学习,能够使用多种游戏技巧,例如通过虚张声势迫使对手弃牌,或伪装自己的手牌以吸引激进的对手提高赌注。

研究者还分析了Agent-Pro在整个学习过程中的表现。他们观察到,基于不同LLM模型的Agent-Pro展现出了不同的学习曲线和策略风格。一些Agent-Pro在早期学习阶段迅速提高了表现,而另一些则在后期才显示出进步。这些不同的策略风格包括灵活策略、风险规避策略和谨慎策略,它们反映了Agent-Pro如何根据不同的手牌和对手行为来调整自己的游戏风格。

上表报告了各种基于LLM的智能体与其他三名玩家(DQN、DMC、GPT-3.5)的最终筹码计数

Agent-Pro显示出了新颖的LLM基础代理设计范式,能够在复杂互动任务中学习和进化。尽管Agent-Pro在学习和进化方面表现出色,但其学习过程高度依赖基础模型的能力,尤其是其推理和反思能力。Agent-Pro在游戏场景中的表现与最先进的算法(如CFR+)仍有一定差距。尽管Agent-Pro在某些方面仍有改进空间,但其在游戏场景中的表现已经显著优于现有的LLM基础代理。

论文链接:https://arxiv.org/abs/2402.17574

标签:策略,Pro,Agent,信念,反思,游戏
From: https://blog.csdn.net/weixin_44292902/article/details/140632854

相关文章

  • python requests 报错 Caused by ProxyError ('Unable to connect to proxy', OSError
    背景:访问https接口,使用http代理版本:requests:2.31.0 从报错可以看出,是proxy相关的报错调整代码,设定不使用代理,将http与https对应的proxy值置空即可(尝试过proxies={},但此写法不生效)proxies={'http':'','https':''}response = requests.get('https://xxx......
  • Android Studio自带Profiler工具内存泄露分析步骤
    1、运行需要检测内存泄露的程序这里以“com.example.opengltest”程序为例。2、点击Profiler按钮3、点击SESIONS"+"号按钮选择设备,选择对应设备下的应用或进程4、双击内存区块5、操作应用程序要检测的部分或模块6、关闭应用程序,多次点击鼠标右键“Forcegabagecollectio......
  • 论文阅读:TKDP: Threefold Knowledge-Enriched Deep Prompt Tuning for Few-Shot Named
    将深度提示调优框架与三重知识(即TKDP)相结合,包括内部上下文知识和外部标签知识和语义知识。引言现有的少样本NER可分为3种:基于词-语义的方法、基于标签-语义的方法和基于提示的方法。基于词语义的方法完全依赖于输入词及其上下文。基于标签语义的方法需要额外利用标签知识。......
  • 对IC Flow的再反思
    最近测试有些进展,但也碰到了许多令人尴尬的问题。但问题不大,吸取经验教训才能进步。说回到这次碰到的问题。片上做的i2c接口实测时发现读取出现问题,体验了一波从实测追溯到仿真的过程。具体来说:如果有一套fpga代码有一套asic代码,版本管理做好,确保一致性fpga验证pass不能代......
  • 为什么 process.communicate 会导致我的程序被终止?
    我正在python中运行一个程序的一些代码,当我运行c++时,我需要处理它的标准输入,例如scanf和cin。我正在使用subprocess.Popen运行编译后的C++程序。当我不提供任何标准输入时,我预计它会超时并引发异常,但我的程序立即结束并在控制台上打印Killed。这是我的课程的一部分......
  • 界面控件Telerik UI for WPF 2024 Q2亮点 - 全新的AIPrompt组件
    TelerikUIforWPF拥有超过100个控件来创建美观、高性能的桌面应用程序,同时还能快速构建企业级办公WPF应用程序。UIforWPF支持MVVM、触摸等,创建的应用程序可靠且结构良好,非常容易维护,其直观的API将无缝地集成VisualStudio工具箱中。本文将介绍界面组件TelerikUIforWPF在今......
  • BGP(Border Gateway Protocol,边界网关协议)劫持是指恶意或非法地篡改BGP路由信息的行为
    BGP(BorderGatewayProtocol,边界网关协议)劫持是指恶意或非法地篡改BGP路由信息的行为。BGP是互联网上用来交换路由信息的主要协议之一,它负责决定网络数据包应该如何从一个网络路由到另一个网络。BGP劫持可以分为两种主要类型:前缀劫持(PrefixHijacking):在前缀劫持中,攻击者发送......
  • ffprobe 不反映 mp4 尺寸编辑
    我正在尝试编辑mp4宽度和高度而不缩放我通过编辑tkhd和stsd框来做到这一点exiftool将显示新的宽度和高度,但ffprobe将不会之前:$exiftool$f|egrep-i'width|height'ImageWidth:100Image......
  • Prometheus之数据类型和函数
    前言:在了解Prometheus数据类型前,我们先了解下面几个统计学名词概念:平均数(Mean):平均数是所有数据加起来除以数据个数得到的结果。它表示数据的中心趋势。最大值(Maximum):最大值是数据集中最大的数值。它表示数据的上限。最小值(Minimum):最小值是数据集中最小的数值。它表示......
  • Profinet转ModbusTCP网关模块的配置与应用详解
    Profinet转ModbusTCP网关模块的配置与应用详解Profinet转ModbusTCP网关模块(XD-ETHPN20)是一种常见的工业通信设备,广泛应用于现代工业自动化系统中。通过使用Profinet转ModbusTCP网关模块(XD-ETHPN20)将Profinet协议转换成ModbusTCP协议,实现了不同网络之间的互联互通。这种网关设备......