《PROMOTING COOPERATION IN MULTI-AGENT REINFORCEMENT LEARNING VIA MUTUAL HELP》 2023-IEEE

时间：2023-02-23 21:23:50浏览次数：41

标签：MULTI VIA 函数动作算法 Actor 智能 Critic COOPERATION

通过互相帮助促进多智能体强化学习中的合作

总结

该篇文章主要是提出了一个新的多智能体强化学习算法，目的是为了提高合作程度和总社会奖励。具体实现基于传统Actor-Critic模型，添加了一个预测动作模块让智能体基于预测其他智能体的动作来进行下一步动作，达到不损害自身利益的前提下有选择的互相帮助促进合作。

实验环境

Flocking Navigation Enviroment(FNE):集群导航环境，智能体需要导航到目标区域，同时保持个体之间无碰撞，这是一个需要高度合作的任务，因此智能体需要精确控制它们之间的距离避免碰撞和破坏群集

具体实现

MADDPG算法：该算法是基于DDPG算法对应于多智能体协作环境的版本。其中每个智能体都有一个Actor和一个集中训练的Critic神经网络，用于学习动作策略和价值函数。算法在计算Critic网络的目标值时会考虑其他智能体动作对当前智能体的影响。
- Actor网络接收当前状态作为输入，输出当前智能体的动作
- Critic网络接收所有智能体的状态和动作作为输入，输出所有智能体的价值函数估计值
- 对于每个智能体，训练过程中从经验池中取一部分数据，Actor网络的目标是最大化Critic网络输出的价值函数值，同时Critic网络的目标是最小化预测值和真实值之间的误差
MH-MADDPG：将其他智能体动作作为输入，达到接收其他智能体行动影响的效果。具体来说每个智能体需要维护一个期望动作模块来生成期望的其他智能体的动作
- 不断从经验池中获取数据训练Q函数，这样随着Q值不断向最佳靠近那么期望动作函数也会越来越精确
- 利用生成的预期行动促进合作：例如智能体i想要去帮助智能体j那么智能体i就要模仿智能体j生成的期望其他智能体采取的动作：
- 但是不设限的进行模仿(通过最小化自身动作和预期动作之间的差异来实现)可能会损害自身的利益，因此要求在不对自身利益有大影响的情况下进行模仿，这就要求最小化以下函数
  
  即在模仿的同时最小化价值差异，同时用到一个比较函数，如果模仿后自身Q值变小则不进行模仿：
- 最后合成总得损失函数

即要做到最大化自身收益的同时尽最大可能帮助其他人。(混合参数的作用是将两个损失函数调整到同一量级)

算法伪代码如下:

标签：MULTI,VIA,函数,动作,算法,Actor,智能,Critic,COOPERATION
From： https://www.cnblogs.com/e557/p/17149391.html

【人脸检测】(MTCNN) Joint Face Detection and Alignment using Multi-task Cascaded
原始题目JointFaceDetectionandAlignmentusingMulti-taskCascadedConvolutionalNetworks中文名称基于多任务级联卷积网络的联合人脸检测与对齐......
STM32CubeIDE提示multiple definition of `...'错误的解决办法
在头文件中定义变量或数组时就会出现类似的问题。如在某一个头文件中定义了数组：unsignedcharcode_pictrue13[]={0x00,0x00,0x00,0x00,0x00,0x00,0x00}；就会报multiple......
Pre-training Enhanced Spatial-temporal Graph Neural Network for Multivariate Tim
原文：https://arxiv.org/abs/2206.09113代码：https://github.com/zezhishao/STEP受模型复杂性的限制，大多数STGNNs只考虑MTS短期历史数据，如过去一小时的数据。然而，时间序列......
[ARC107D] Number of Multisets
\(\text{Solution}\)学习到了一些\(dp\)的\(trick\)设\(f_{i,j}\)表示用了\(i\)的元素，当前和为\(j\)的方案数\(dp\)有两样不好处理的东西第一是当前和不一定......
Spatial-Temporal Identity: A Simple yet Effective Baseline for Multivariate Time
原文：https://arxiv.org/pdf/2208.05233.pdf代码：https://github.com/zezhishao/STIDAbstractMTS预测越来越复杂，但是性能改进有限，这一现象促使作者探索MTS预测的关键因素，......
Optimizing Top-N Collaborative Filtering via Dynamic Negative Item Sampling
目录概符号说明MotivationDynamicNegativeSamplingZhangW.,ChenT.,WangJ.andYuY.Optimizingtop-ncollaborativefilteringviadynamicnegativeitemsamp......
MySQL优化：MRR Multi-Range Read多范围读取
在优化MySQL查询的时候，在explain中看到了详细解释：MySQL中的MRR指的是Multi-RangeRead，即多范围读取。在MySQL5.6及更高版本中，当使用InnoDB存储引擎时，MRR是一种优......
在 Node.js 里使用 multiparty 上传文件
需求将上传的文件直接保存到GoogleCloudStorage中。解决方法：我们需要使用partstream订阅标准流事件，例如data和end以接收文件数据。示例代码如下：part.on("da......
got multiple values for keyword argument 'to_fields'
django.db.models.fields.related.ForeignObject.__init__()gotmultiplevaluesforkeywordargument'to_fields'原因：使用了to_fields说明：使用外键关联字段时，应该使......
fastai在Windows10多线程处理受限提示 “Due to IPython and Windows limitation, pyt
fastai在Win10直接使用Jupyternotebook，会有这个限制提示dls=TextDataLoaders.from_folder(untar_data(URLs.IMDB),valid='test')“DuetoIPythonandWindowslimit......

《PROMOTING COOPERATION IN MULTI-AGENT REINFORCEMENT LEARNING VIA MUTUAL HELP》 2023-IEEE

通过互相帮助促进多智能体强化学习中的合作

总结

实验环境

具体实现

相关文章

赞助商

阅读排行