《Partner Selection for the Emergence of Cooperation in Multi-Agent Systems Using Reinforcement Learn

时间：2022-11-25 20:36:01浏览次数：55

标签：Multi Selection 合作困境合作伙伴选择智能 Learning 伙伴

基于强化学习的多智能体系统合作伙伴选择

总结：

提出了一个合作伙伴选择模型，模型中的智能体先由单独的奖励目标函数用Q-learnng训练(环境为重复的囚徒困境，进行一定轮次)，并且训练过程中的交互信息都会被呈现给其他智能体。基于该信息每个智能体在每一轮开始时挑选合作伙伴并一起参与该困境并从经验中学习。(目标是在一定轮次后各自获得尽可能高的个人奖励)
- 每一轮分为两个阶段：第一阶段，每个代理选择一个合作伙伴(不能选择自己，被选中的人也不能拒绝)；第二阶段一起进行困境游戏，并得到各自的动作选择(合作或背叛)最终得到奖励，奖励必须互相告知(智能体的奖励只能从困境中获得)
- 选择过程中每个代理的最近一个动作是可见的(四种动作：ALL-C，ALL-D，TFT，revTFT)
贡献主要在于提出了合作伙伴选择的机制，每个智能体有两个策略，一个是选择伙伴的策略根据其他智能体之前的表现，一个是训练过程中的动作选择策略(合作或者背叛)

环境

主要是重复的囚徒困境，连续性的游戏，上一轮的结果关系到下一轮的伙伴选择

主要内容

Q-learning，采用e-贪婪策略
更新函数
四个阶段：
- 一开始没有伙伴选择，智能体都将得到背叛的动作
- 智能体开始选择伙伴，刚开始选择的伙伴都是具有合作倾向的智能体并与之合作
- 智能体开始学会惩罚那些背叛的智能体，当被其他合作倾向智能体选择时也开始选择合作
- 最后得到整体收益稳步上升，智能体开始整体倾向合作提高社会收益

标签：Multi,Selection,合作,困境,合作伙伴,选择,智能,Learning,伙伴
From： https://www.cnblogs.com/e557/p/16926252.html

【五期邵润东】arXiv(22) No free lunch theorem for security and utility in federa
XiaojinZhang,HanlinGu,LixinFan,KaiChen,andQiangYang.2022.Nofreelunchtheoremforsecurityandutilityinfederatedlearning.1,1(September20......
laravel dcat-admin upload multiple images
$form->multipleImage('images')->sortable()->compress(['width'=>750,'quality'=>90,])->uniqueName()->saveAsString()->saving(function($value)use($form){......
MarkDownLearning
写文章Markdown常用语法汇总一、Markdown简介Markdown是一种轻量级标记语言，它允许人们使用易读易写的纯文本格式编写文档。Markdown语言在2004由约翰·格鲁伯（英语......
[NIPS 2022]Neural Temporal Walks Motif-Aware Representation Learning on Continuo
NeuralTemporalWalks:Motif-AwareRepresentationLearningonContinuous-TimeDynamicGraphs介绍该文针对的是Continuous-TimeDynamicGraphs，也就是说边和点会随......
Java: Declare Multiple Variables
ExampleInsteadofwriting:intx=5;inty=6;intz=50;System.out.println(x+y+z);Youcansimplywrite:intx=5,y=6,z=50;System.out.printl......
UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 8: illegal mu
Traceback(mostrecentcalllast): File"D:/名单学号和名单比较v3--腾讯会议考勤专用.py",line7,in<module> all=file.readlines()UnicodeDecodeError:'gb......
全球名校AI课程库（40）| 威斯康星 · 深度学习和生成模型导论课程『Intro to Deep Learni
<divalign=center><imgalt="STAT453;IntrotoDeepLearningandGenerativeModels;深度学习和生成模型导论"src="http://tva1.sinaimg.cn/large/0060yMmAly1h6wx480m......
MDFEND: Multi-domain Fake News Detection
MDFEND:Multi-domainFakeNewsDetectionMDFEND：多领域假新闻检测作者：南琼、曹娟 CIKM2021shortpaper论文地址：https://arxiv.org/pdf/2201.00987.pdf数据集和......
论文理解【IL - BC】—— End to End Learning for Self-Driving Cars
文章目录1.系统概览2.数据收集&增广3.网络结构4.训练和测试框架5.实验6.总结前言：自动驾驶一直机器学习界的一个......
论文理解【IL - 数据增广】 —— Adversarial Imitation Learning with Trajectorial
文章目录1.前置内容1.1模仿学习中的数据增广1.2生成对抗模仿学习（GAIL）2.本文方法2.1增广轨迹的生成和矫正2.2使用增广轨......

《Partner Selection for the Emergence of Cooperation in Multi-Agent Systems Using Reinforcement Learn

基于强化学习的多智能体系统合作伙伴选择

总结：

环境

主要内容

相关文章

赞助商

阅读排行