在序贯社会困境中学习同质性激励
总结:
由于在类似harvest这种困境中,带有惩罚功能的智能体惩罚他人会付出代价,由此可能引发第二层级的搭便车行为,即都不想进行惩罚动作付出小代价,那么最终困境将无法得到解决,最终导致合作行为地不稳定。为了解决上述问题,论文提出了利用同质性激励的方案,即具有相似行为的智能体,赋予相同的激励策略来使得最终大部分人同质而无法轻易地利用他人。
环境:
- Harvest、cleanup
具体实现:
- 使用两个Q网络分别训练环境网络和激励网络,采用时序差分算法训练
激励网络的损失函数
环境网络损失函数- 激励网络的相似性的损失函数
最终合成总得损失函数