首页 > 其他分享 >QMIX:用于深度多智能体强化学习的单调值函数分解

QMIX:用于深度多智能体强化学习的单调值函数分解

时间:2024-03-29 12:31:29浏览次数:20  
标签:II QMIX agent 学习 智能 action centralised 单调

目录

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement LearningQMIX:用于深度多智能体强化学习的单调值函数分解

Abstract 摘要

1 Introduction 引言

2 Related Work 

2 相关工作

3 Background 

3 背景

 3.1 Deep Q-Learning 

3.1 深度 Q -学习

3.2 Deep Recurrent Q-Learning

3.2 深度递归 Q -学习

3.3 Independent Q-Learning3.3 独立 Q -学习

3.4 Value Decomposition Networks

3.4 价值分解网络

 4 QMIX

4.1 Representational Complexity

4.1 表征复杂性

5 Two-Step Game 

5 两步游戏

6Experimental Setup 6实验装置

6.1Decentralised StarCraft II Micromanagement

6.1去中心化的星际争霸II微观管理

6.2 Ablations

7 Results

7 结果

7.1 Main Results 

7.1 主要结果

7.2 Ablation Results 

7.2 消融结果

7.3 Learned Policies 

7.3 学习策略

8 Conclusion 

第八章 结论

Acknowledgements 致谢

Appendix AQMIX 附录AQMIX

A.1Representational ComplexityA.1表征复杂性

Appendix B Two Step Game 

附录B 两步游戏

B.1 Architecture and TrainingB.1 体系结构和培训

B.2 Learned Value FunctionsB.2 学习值函数

B.3Results

Appendix C StarCraft II Setup

附录C StarCraft II设置

C.1Environment Features 

C.1环境特点

C.2 Architecture and Training

C.2 结构和训练

Appendix D StarCraft II Results

附录D 星际争霸II结果

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
QMIX:用于深度多智能体强化学习的单调值函数分解

Abstract 摘要

        In many real-world settings, a team of agents must coordinate their behaviour while acting in a decentralised way. At the same time, it is often possible to train the agents in a centralised fashion in a simulated or laboratory setting, where global state information is available and communication constraints are lifted. Learning joint action-values conditioned on extra state information is an attractive way to exploit centralised learning, but the best strategy for then extracting decentralised policies is unclear. Our solution is QMIX, a novel value-based method that can train decentralised policies in a centralised end-to-end fashion. QMIX employs a network that estimates joint action-values as a complex non-linear combination of per-agent values that condition only on local observations. We structurally enforce that the joint-action value is monotonic in the per-agent values, which allows tractable maximisation of the joint action-value in off-policy learning, and guarantees consistency between the centralised and decentralised policies. We evaluate QMIX on a challenging set of StarCraft II micromanagement tasks, and show that QMIX significantly outperforms existing value-based multi-agent reinforcement learning methods.
        在许多现实世界中,一组代理必须协调他们的行为,同时以分散的方式行事。与此同时,通常可以在模拟或实验室环境中以集中方式训练代理,其中可以获得全局状态信息并解除通信约束。学习以额外状态信息为条件的联合动作值是利用集中式学习的一种有吸引力的方法,但提取分散式策略的最佳策略尚不清楚。我们的解决方案是QMIX,这是一种新颖的基于价值的方法,可以以集中的端到端方式训练分散的策略。QMIX采用一个网络,该网络将联合动作值估计为每个代理值的复杂非线性组合,仅以局部观察为条件。 我们在结构上强制联合行动值在每个代理值中是单调的,这允许在非策略学习中最大化联合行动值,并保证集中式和分散式策略之间的一致性。我们评估QMIX在一组具有挑战性的星际争霸II微观管理任务,并表明QMIX显着优于现有的基于值的多智能体强化学习方法。

Machine Learning, ICML  机器学习,ICML

1 Introduction 引言

Reinforcement learning (RL) holds considerable promise to help address a variety of cooperative multi-agent problems, such as coordination of robot swarms (Hüttenrauch et al., 2017) and autonomous cars (Cao et al., 2012).
强化学习(RL)在帮助解决各种协作多智能体问题方面具有相当大的前景,例如机器人群的协调(Hüttenrauch等人,2017)和自动汽车(Cao等人,2012年)。

In many such settings, partial observability and/or communication constraints necessitate the learning of decentralised policies, which condition only on the local action-observation history of each agent. Decentralised policies also naturally attenuate the problem that joint action spaces grow exponentially with the number of agents, often rendering the application of traditional single-agent RL methods impractical.
在许多这样的设置中,部分可观测性和/或通信约束需要学习分散的政策,其条件仅限于每个代理的本地动作观察历史。分散的策略也自然地减弱了联合行动空间随代理数量呈指数级增长的问题,这通常使传统的单代理RL方法的应用变得不切实际。

Fortunately, decentralised policies can often be learned in a centralised fashion in a simulated or laboratory setting. This often grants access to additional state information, otherwise hidden from agents, and removes inter-agent communication constraints. The paradigm of centralised training with decentralised execution (Oliehoek et al., 2008; Kraemer & Banerjee, 2016) has recently attracted attention in the RL community (Jorge et al., 2016; Foerster et al., 2018). However, many challenges surrounding how to best exploit centralised training remain open.
幸运的是,分散的策略通常可以在模拟或实验室环境中以集中的方式学习。这通常赠款对附加状态信息的访问权,否则对代理隐藏,并消除代理间的通信约束。集中培训与分散执行的范例(Oliehoek等人,2008; Kraemer & Banerjee,2016)最近在RL社区引起了关注(Jorge et al.,2016; Foerster等人,2018年)。然而,围绕如何最好地利用集中式培训的许多挑战仍然存在。

One of these challenges is how to represent and use the action-value function that most RL methods learn. On the one hand, properly capturing the effects of the agents’ actions requires a centralised action-value function Qtot that conditions on the global state and the joint action. On the other hand, such a function is difficult to learn when there are many agents and, even if it can be learned, offers no obvious way to extract decentralised policies that allow each agent to select only an individual action based on an individual observation.
其中一个挑战是如何表示和使用大多数RL方法学习的动作值函数。一方面,正确地捕捉代理人的行动的影响需要一个集中的行动价值函数 Qtot ,它以全局状态和联合行动为条件。另一方面,当有许多代理时,这样的函数很难学习,即使它可以学习,也没有提供明显的方法来提取分散的策略,允许每个代理仅根据个人观察选择个人行动。

 Figure 1:Decentralised unit micromanagement in StarCraft II, where each learning agent controls an individual unit. The goal is to coordinate behaviour across agents to defeat all enemy units.
图1:星际争霸II中分散的单元微观管理,每个学习代理控制一个单独的单元。目标是协调代理之间的行为,以击败所有敌方单位。

The simplest option is to forgo a centralised action-value function and let each agent a learn an individual action-value function Qa independently, as in independent Q-learning (IQL) (Tan, 1993). However, this approach cannot explicitly represent interactions between the agents and may not converge, as each agent’s learning is confounded by the learning and exploration of others.
最简单的选择是放弃一个集中的动作价值函数,让每个智能体 a 独立地学习一个单独的动作价值函数 Qa ,就像独立Q学习(IQL)一样(Tan,1993)。然而,这种方法不能显式地表示代理之间的交互,并且可能不会收敛,因为每个代理的学习都被其他代理的学习和探索所混淆。

At the other extreme, we can learn a fully centralised state-action value function Qtot and then use it to guide the optimisation of decentral

标签:II,QMIX,agent,学习,智能,action,centralised,单调
From: https://blog.csdn.net/wq6qeg88/article/details/137138935

相关文章

  • 【基于价值分解网络的多智能体协同学习】【VDN】 【Value-Decomposition Networks For
    目录Value-DecompositionNetworksForCooperativeMulti-AgentLearning基于价值分解网络(VDN)的多智能体协同学习Abstract 摘要1Introduction引言1.1OtherRelatedWork 1.1其他相关工作2Background 2背景2.1ReinforcementLearning2.1强化学习​2.2De......
  • 【期刊】人工智能评论 Artificial Intelligence Review
    Overview 概述ArtificialIntelligenceReviewisafullyopenaccessjournalpublishingstate-of-the-artresearchinartificialintelligenceandcognitivescience.《人工智能评论》是一本完全开放获取的期刊,发表人工智能和认知科学领域的最新研究。Publishes......
  • 开源 | 电动自行车充换电解决方案,从智能硬件到软件系统,全部自主研发
    文章目录一、产品功能部分截图1.手机端(小程序、安卓、ios)2.PC端二、小程序体验账号以及PC后台体验账号1.小程序体验账号2.PC后台体验账号关注公众号获取最新资讯三、产品简介?1.充电桩云平台(含硬件充电桩)(v2.5.2),支持(采集端-用户端-商户端-平台端)全业务场景,免费提供平台......
  • 中文地址智能分词算法-Java版
    addresstool用于处理中文地址的分词和匹配,采用NLP分词算法进行中文地址分词,在中文地址分词基础上对垃圾地址进行识别,过滤,标记等。根据杂乱的业务地址自动化生成标准中文地址库,并支持随机业务地址关联到标准地址操作,实测速度达到25000条/每秒今天我们测试一下addresstool的地址分......
  • 探索人工智能与强化学习:从基础原理到应用前景
    人工智能(ArtificialIntelligence,AI)是当今科技领域的热点话题,而强化学习(ReinforcementLearning,RL)作为其重要分支,在推动着智能系统向前迈进。本文将深入探讨AI与强化学习的基本原理、关键技术以及未来的应用前景,以期为读者提供全面的认识和理解。强化学习的基本原理强化学......
  • AI与语音识别合成:开启智能交互新时代
    引言:随着人工智能(AI)技术的不断发展,语音识别和语音合成成为了人机交互领域的重要组成部分。语音识别技术使得机器能够理解人类的语言,而语音合成则使得机器能够以人类自然的语音形式进行回应。本文将深入探讨AI与语音识别合成的技术原理、应用场景以及未来发展趋势。一、技术原......
  • 智慧酒店(二):AI智能分析网关V4视频分析技术在酒店管理中的应用
    一、人工智能技术如何应用在酒店管理中?随着科技的飞速发展,人工智能技术已经逐渐渗透到我们生活的方方面面,其中,酒店管理行业便是其应用的重要领域之一。人工智能技术以其高效、精准的特点,为酒店管理带来了革命性的变革。人工智能技术可以应用在酒店管理的这些场景中:1、智能客房管......
  • 视频汇聚/安防监控/智能监控EasyCVR平台设备录像接口调用汇总
    AI视频智能分析/视频监控管理平台EasyCVR能在复杂的网络环境中(专网、内网、局域网、广域网、公网等),支持设备通过4G、5G、WIFI、有线等方式接入,并将设备进行统一集中接入与视频汇聚管理,经平台接入的视频流能实现多格式分发,包括:RTMP、RTSP、HTTP-FLV、WebSocket-FLV、HLS、WebRTC、w......
  • 基于TSINGSEE青犀AI视频智能分析技术的山区林区烟火检测方案
    随着清明节的临近,山区、林区防火迫在眉睫,TSINGSEE青犀AI智能分析网关V4烟火检测算法利用物联网、人工智能、图像识别技术,有效监测和管理烟火活动,并在火灾发生的同时发出告警,通知护林员与管理人员。将山区林区的视频监控接入到AI智能分析网关V4并配置烟火检测算法,通过实时监控、......
  • 【智能算法改进】混沌映射策略--一网打尽
    目录1.引言2.混沌映射3.分布特征4.混沌映射函数调用5.改进智能算法1.引言基本种群初始化是在整个空间内随机分布,具有较高的随机性和分布不均匀性,会导致种群多样性缺乏,搜索效率低等问题。许多学者利用混沌映射机制来增加种群的多样性,以改善算法的性能,其非线性特性......