基于强化学习的多智能体系统合作伙伴选择
总结:
- 提出了一个合作伙伴选择模型,模型中的智能体先由单独的奖励目标函数用Q-learnng训练(环境为重复的囚徒困境,进行一定轮次),并且训练过程中的交互信息都会被呈现给其他智能体。基于该信息每个智能体在每一轮开始时挑选合作伙伴并一起参与该困境并从经验中学习。(目标是在一定轮次后各自获得尽可能高的个人奖励)
- 每一轮分为两个阶段:第一阶段,每个代理选择一个合作伙伴(不能选择自己,被选中的人也不能拒绝);第二阶段一起进行困境游戏,并得到各自的动作选择(合作或背叛)最终得到奖励,奖励必须互相告知(智能体的奖励只能从困境中获得)
- 选择过程中每个代理的最近一个动作是可见的(四种动作:ALL-C,ALL-D,TFT,revTFT)
- 贡献主要在于提出了合作伙伴选择的机制,每个智能体有两个策略,一个是选择伙伴的策略根据其他智能体之前的表现,一个是训练过程中的动作选择策略(合作或者背叛)
环境
主要是重复的囚徒困境,连续性的游戏,上一轮的结果关系到下一轮的伙伴选择
主要内容
- Q-learning,采用e-贪婪策略
- 更新函数
- 四个阶段:
- 一开始没有伙伴选择,智能体都将得到背叛的动作
- 智能体开始选择伙伴,刚开始选择的伙伴都是具有合作倾向的智能体并与之合作
- 智能体开始学会惩罚那些背叛的智能体,当被其他合作倾向智能体选择时也开始选择合作
- 最后得到整体收益稳步上升,智能体开始整体倾向合作提高社会收益