本文提出了一种名为谨慎乐观知识共享(CONS)的新方法,用于解决合作多智能体强化学习(MARL)中的知识共享问题。针对传统的行动建议方法可能导致团队探索受阻的情况,即经验丰富的智能体会分享其知识而较不成熟的智能体则遵循这些建议,导致可能依赖于次优或不良建议的问题,本文的方法允许智能体既分享积极也分享消极的知识,并且接收者会谨慎地同化这些知识。在学习的早期阶段更加重视消极知识,而在后期转向重视积极知识,这一过程帮助提升了探索效率和对抗不利建议的韧性。此框架可以在不增加额外训练成本的情况下与现有的基于Q-learning的方法整合,并且在多种具有挑战性的多智能体任务中表现出色。
1 CONSIDER框架
CONSIDER(Cautiously-Optimistic kNowledge Sharing)框架是一种用于合作多智能体强化学习的新方法,旨在通过优化知识共享机制来提高学习速度和最终性能,分为三个主要阶段:学生发送请求、教师分享知识以及学生利用获取的知识。
- 1.学生发送请求:在知识共享被启动后,智能体i会检查自己的请求预算。如果预算没有耗尽,则根据当前观测到的信息oi,计算请求的概率Pask(oi)并广播一个请求消息mis;否则,智能体i将根据自身的策略选取一个动作。请求消息mis包含了oi、智能体i观测到oi的次数nioi以及对应的最高Q值max Qi(oi, ·)。
- 2.教师分享知识:教师智能体在收到学生发出的消息mis后,首先检查自己的分享预算bjgive。如果预算充足,那么教师智能体j会根据mis、自己对oi的观测次数njoi以及相应的最高Q值max Qj(oi, ·)决定是否与学生智能体i分享关于oi的知识。只有当教师智能体j在oi上的经验和价值比学生智能体i更好时,才会激活知识共享模块T j。此时,教师智能体会从它的策略πj(·|oi)中抽取最佳动作和最差动作及其概率,连同它的声望Λjoi一起形成一条回复消息mji t发送给学生智能体i。
- 3.学生利用获取的知识:学生智能体在接收到教师分享的知识后,会乐观地认为教师的知识是有益的,无论是正面还是负面的知识都能给自己带来好处。然而,学生智能体也会谨慎行事,不会盲目信任教师的知识总是正确的。因此,在接收到教师的知识后,学生智能体会仔细调整自己的动作概率,并根据新策略进行有针对性的探索。在这一过程中,学生智能体会根据学习进程调整正面知识wp和负面知识wn的权重,逐渐增加前者同时减少后者。
2 结语
本文提出了一种名为谨慎乐观知识共享(CONS)的新框架,该框架通过让多智能体系统中的成员共享正负两面的经验知识,并谨慎地融合这些知识来促进早期探索效率及提升对不利建议的抗性,从而改善了多智能体强化学习中的合作表现。
论文题目: Cautiously-Optimistic Knowledge Sharing for Cooperative Multi-Agent Reinforcement Learning
论文链接: https://arxiv.org/abs/2312.12095
PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!