首页 > 其他分享 >多智能体协作强化学习中的知识共享

多智能体协作强化学习中的知识共享

时间:2024-10-04 10:20:26浏览次数:10  
标签:教师 oi 知识 学生 智能 协作 共享

本文提出了一种名为谨慎乐观知识共享(CONS)的新方法,用于解决合作多智能体强化学习(MARL)中的知识共享问题。针对传统的行动建议方法可能导致团队探索受阻的情况,即经验丰富的智能体会分享其知识而较不成熟的智能体则遵循这些建议,导致可能依赖于次优或不良建议的问题,本文的方法允许智能体既分享积极也分享消极的知识,并且接收者会谨慎地同化这些知识。在学习的早期阶段更加重视消极知识,而在后期转向重视积极知识,这一过程帮助提升了探索效率和对抗不利建议的韧性。此框架可以在不增加额外训练成本的情况下与现有的基于Q-learning的方法整合,并且在多种具有挑战性的多智能体任务中表现出色。

多智能体协作强化学习中的知识共享_模态

1 CONSIDER框架

CONSIDER(Cautiously-Optimistic kNowledge Sharing)框架是一种用于合作多智能体强化学习的新方法,旨在通过优化知识共享机制来提高学习速度和最终性能,分为三个主要阶段:学生发送请求、教师分享知识以及学生利用获取的知识。

  • 1.学生发送请求:在知识共享被启动后,智能体i会检查自己的请求预算。如果预算没有耗尽,则根据当前观测到的信息oi,计算请求的概率Pask(oi)并广播一个请求消息mis;否则,智能体i将根据自身的策略选取一个动作。请求消息mis包含了oi、智能体i观测到oi的次数nioi以及对应的最高Q值max Qi(oi, ·)。
  • 2.教师分享知识:教师智能体在收到学生发出的消息mis后,首先检查自己的分享预算bjgive。如果预算充足,那么教师智能体j会根据mis、自己对oi的观测次数njoi以及相应的最高Q值max Qj(oi, ·)决定是否与学生智能体i分享关于oi的知识。只有当教师智能体j在oi上的经验和价值比学生智能体i更好时,才会激活知识共享模块T j。此时,教师智能体会从它的策略πj(·|oi)中抽取最佳动作和最差动作及其概率,连同它的声望Λjoi一起形成一条回复消息mji t发送给学生智能体i。
  • 3.学生利用获取的知识:学生智能体在接收到教师分享的知识后,会乐观地认为教师的知识是有益的,无论是正面还是负面的知识都能给自己带来好处。然而,学生智能体也会谨慎行事,不会盲目信任教师的知识总是正确的。因此,在接收到教师的知识后,学生智能体会仔细调整自己的动作概率,并根据新策略进行有针对性的探索。在这一过程中,学生智能体会根据学习进程调整正面知识wp和负面知识wn的权重,逐渐增加前者同时减少后者。

2 结语

本文提出了一种名为谨慎乐观知识共享(CONS)的新框架,该框架通过让多智能体系统中的成员共享正负两面的经验知识,并谨慎地融合这些知识来促进早期探索效率及提升对不利建议的抗性,从而改善了多智能体强化学习中的合作表现。

论文题目: Cautiously-Optimistic Knowledge Sharing for Cooperative Multi-Agent Reinforcement Learning

论文链接: https://arxiv.org/abs/2312.12095


PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!

多智能体协作强化学习中的知识共享_强化学习_02

精彩回顾

1. 通过模型仿真进行多模态人群计数

2. 多模态多智能体心智理论

3. 使用合成数据进行自我提升的扩散模型

标签:教师,oi,知识,学生,智能,协作,共享
From: https://blog.51cto.com/u_16811054/12170403

相关文章

  • 烟火识别智能监测系统
    烟火识别智能监测系统基于智能视频AI分析技术,烟火识别智能监测系统对工地现场或者厂区监控画面进行实时分析,发现现场出现烟火立即抓拍实时告警同步回传后台监控平台提醒值班人员及时处理,避免发生更大的损失。烟火识别智能监测系统通过前端普通网络摄像头,配置简便成本较低。烟火识......
  • Endnote导入共享数据
    Endnote导入共享数据Endnote是我们经常使用的参考文献管理工具。但是,在云计算还不是很普及的今天,往往每台电脑上都有自己的endnote数据库。这样,换了电脑,要使用同样的参考文献数据时,需要重新导入一遍。尽管现在从网上导入参考文献数据是一件很简单的事情,面对多条甚至成千上万条数......
  • 讯飞星火编排创建智能体学习(四):网页读取
    目录引言网页读取节点如何生成网址测试引言在讯飞星火编排创建智能体学习(三):搜索工具-CSDN博客中,我介绍了如何用搜索工具从网上搜索车次信息。不过,在测试中我们也发现讯飞星火的这个工具并不是特别完善,它在整理搜索结果时可能会出现错误。所以,如果你确定某个网站可以获......
  • 美容院管理智能化:SpringBoot系统开发实战
    第四章系统设计设计一个系统不单单是设计系统的页面,可以说系统设计其本质是一个结合了众多设计过程的比较复杂的系统工程。一般来说,在完成系统设计时,需要了解和掌握很多设计的知识,有界面布局技术的知识,页面采用的字体和颜色的运用,还有页面空白的规范使用等,如何将这些元素......
  • 矿山电子封条智能监管系统
    矿山电子封条智能监管系统通过YOLOv7网络模型技术,矿山电子封条智能监管系统在通过在煤矿关键地点已经安装的摄像机,对矿井人数变化、生产作业状态、出入井人员等情况实时监测分析,发现煤矿人员作业及状态异常动态及时告警,自动将报警信息推送给后台系统,对矿山场景下人员施工作业实现......
  • 智能名片V1.0.6
    在线介绍公司和个人名片,获取客户信息,让客户了解公司产品,尽可能达成成交。V1.0.6安全更新体验优化和代码规范更新1.更新已知bug和体验。2.代码安全更新。......
  • Linux查看触摸坐标点的方法,触觉智能RK3562开发板,瑞芯微、全志等通用
    平时遇到键盘、鼠标、触摸板等输入设备无响应等异常情况时,一般通过更换设备判断异常。但在遇到更换正常设备后,输入仍然异常的情况下,可以借助evtest工具查看内核的上报事件信息,协助定位问题所在。本次使用的是触觉智能EVB3562开发板进行演示,搭载瑞芯微RK3562/RK3562J芯片,该方法也......
  • 基于STM32的智能门禁系统
    目录引言项目背景环境准备硬件准备软件安装与配置系统设计系统架构关键技术代码示例RFID数据采集与处理门禁控制实现显示与报警功能应用场景结论1.引言智能门禁系统在现代安防中占据重要地位,通常用于控制进入和离开特定区域的权限。通过基于STM32微控制器的智......
  • 明厨亮灶AI智能分析盒
    明厨亮灶AI智能分析盒通过AI视频分析技术,明厨亮灶AI智能分析盒赋能现场普通监控具备了AI智能检测的功能,能够迅速高效的识别厨房内的工作人员的着装状况:口罩穿戴识别、厨师服穿戴识别、吸烟识别、厨师帽穿戴识别、后厨鼠害识别、玩手机识别等。明厨亮灶AI智能分析盒对餐厅厨房进行......
  • [20240930]关于共享池-表对象在库缓存探究2.txt
    [20240930]关于共享池-表对象在库缓存探究2.txt--//以前探究过sql语句在共享池存在父子游标,父游标存在堆0,子游标堆0,堆6,通过各种指针链接起来,--//父游标的堆0上保存了所有子游标的列表和各个子游标的句柄指针,子游标的堆6中保存了解析过的执行计划等解析信息。--//前几天测试表对象......