学习解决多人零和博弈中的联盟困境
总结:
将两人的零和博弈扩展到多人零和博弈,并将多人零和博弈中的联盟问题转为社会困境问题用基于强化学习的方法进行解决。先是说明了一般的强化学习方法无法解决,由此在其基础上添加了一个契约机制使联盟问题得到解决。
环境:
- 多人零和博弈下的联盟困境:将除了两个智能体之外的其他智能体策略固定,由此转化为两人社会困境(从三人扩展为多人)
- 筹码交换游戏,三个人各自拥有自己对应颜色筹码,每一轮可选择丢弃或者赠送自己颜色筹码当没有玩家拥有自己的筹码时游戏结束,最终筹码最多的人获胜,如果多个相同则平分奖励
主要工作:
- 验证了上述特殊条件下联盟困境生成的一般性
- 说明了常规强化学习在这种环境下的不可行性
- 引入契约机制:每个时间步每个代理人上交一份契约包括伙伴选择,要伙伴做的事等等,当且仅当两个人上交的契约相同才可结盟(使用包含两个策略的神经网络,一个是接收环境奖励反馈,一个是接收契约合同)
最终显示,玩家0和玩家1之间有契约结盟,抛弃了玩家2
合同签订数和玩家积分数正相关验证了该机制的有用性