首页 > 其他分享 >《Adaptive Incentive Design with Multi-Agent Meta-Gradient Reinforcement Learning》 2022-AAMAS

《Adaptive Incentive Design with Multi-Agent Meta-Gradient Reinforcement Learning》 2022-AAMAS

时间:2023-01-07 00:00:29浏览次数:43  
标签:Multi AAMAS Gradient 梯度 更新 智能 参数 2022 激励函数

多智能体元梯度强化学习的自适应激励设计

总结:

提出了一种基于元梯度的多智能体强化学习自适应奖励机制,解决了较为复杂的多智能体强化学习下的奖励机制问题,最终证明该方法可以收敛至已知的全局最优解。

环境:

  • Escape room、Cleanup

具体实现过程:

  • 本质上是解决双层优化问题

    在理想情况下一般处理过程是先固定激励函数的参数,然后先求解策略参数,最后用更新后的策略得到的样本来更新激励函数参数,但是这样的过程对样本数量要求较高,效率低。于是提出了元梯度方法,主要是基于在线交叉验证,不等智能体完全收敛而是直接使用过程轨迹更新激励函数的参数
  • 策略参数更新
  • 算法伪代码

标签:Multi,AAMAS,Gradient,梯度,更新,智能,参数,2022,激励函数
From: https://www.cnblogs.com/e557/p/17031570.html

相关文章

  • 2022年工作总结,迟到比没到好
    虽已步入2023,做2022年总结已迟到,但总比旷工好2022年太难,出行难、工作难、生活也难不想多说,用图汇成一年的总结尝试围绕降本、增效、赋能、管控几个维度做总结 202......
  • 《Quantifying the effects of environment and population diversity in multi-agent
    量化多智能体强化学习中环境和种群多样性的影响总结:在多种实验环境下评估多智能体强化学习受到环境多样性以及智能体多样性的影响,主要是泛化能力实验过程主要是通过改......
  • USACO 2022 December Contest
    USACO2022DecemberContest参加的USACO的第一次比赛。没有打现场赛,后来跟着看了看题目,感觉总的来说,难度中等偏上,虽有些乏力,但是没有超出能力范围。下次争取打现场赛。P......
  • the fourteenth——20223.1.6
    #include<stdio.h>intmain(){ 3,4,5;//这是一条语句 //把上面这条语句的值赋值给变量a inta=(3,4,5); printf("a=%d\n",a);}输出结果:a=5因为a的值是整......
  • 2022 OpenMLDB 硕果累累,颁奖台上荣耀连连
    岁末年初,既是回望过去和规划未来的日子,也是总结成长与收获成果的时间。2022年即将结束之际,OpenMLDB在颁奖台上惊喜连连,获得了IT168和中国开源云联盟的认可。技......
  • MobTech袤博科技入选2022中国MarTech领域最具商业合作价值企业
    近日,知名大数据产业创新服务媒体数据猿发布了《2022中国MarTech领域最具商业合作价值企业盘点》,历时数月,在直接申报、访谈调研、外界咨询评价、匿名访问等交叉验证的层层筛......
  • 用远见超越未见 | 立足2022,洞见未来之2023十大安全技术趋势
    2022年是极不平凡的一年,外部的世界局势逐步恶化,内部的新冠疫情转段迈向新阶段。2022年也是伟大的一年,党的二十大胜利召开。党的二十大报告就“推进国家安全体系和能力现代化......
  • 2022 OpenMLDB 硕果累累,颁奖台上荣耀连连
    岁末年初,既是回望过去和规划未来的日子,也是总结成长与收获成果的时间。2022年即将结束之际,OpenMLDB在颁奖台上惊喜连连,获得了 IT168 和 中国开源云联盟 的认可。惊喜......
  • 1.6 vp Polynomial Round 2022 (Div. 1 + Div. 2, Rated, Prizes!)
    A-AddPlusMinusSign题意:给出01字符串,可以在每两个字符中间任意添加‘+’,‘-’。最后要使表达式的绝对值最小思路:设表达式的值为\(cnt\),若当前\(cnt\)大于\(0\),不管......
  • 歌谣年终总结:回首2022展望2023
    前言大家好我是歌谣是一名标准的前端开发工程师在过去的一年里,自己的技术水平又有提升。在新的一年中,希望可以有进一步的提升。微信公众号前端小歌谣,想加入前端巅峰交流......