QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

摘要

在许多现实环境中，一组代理人必须协调他们的行为，同时以分散的方式行事。同时，通常有可能在模拟或实验室环境中以集中的方式训练代理，其中全局状态信息可用并且通信约束被解除。学习联合行动以额外的全局信息为条件的价值观是利用集中学习的一种有吸引力的方式，但提取分散政策的最佳策略尚不清楚。我们的解决方案是QMIX，这是一种基于价值的新方法，可以以集中的端到端方式训练分散的策略。QMIX采用了一个网络，该网络将联合行动值估计为每个代理值的复杂非线性组合，该组合仅基于本地观察。我们在结构上强制联合行动值在每个代理的值中是单调的，这允许在非策略学习中联合行动值的可处理最大化，并保证集中和分散策略之间的一致性。我们在一组具有挑战性的星际争霸2微观管理任务上对QMIX进行了评估，结果表明QMIX明显优于现有的基于价值的多智能体强化学习方法。

引语

分散式必要性

部分可观测性和/或通信约束使得分散策略的学习成为必要，这仅取决于每个代理的本地动作观测历史。分散的策略也自然地减弱了联合行动空间随代理数量呈指数增长的问题

挑战和解决办法

这些挑战之一是如何表示和使用大多数RL方法学习的动作值函数。一方面，正确捕捉代理人行为的影响需要一个集中的行为价值函数，该函数决定全局状态和联合行为的条件。另一方面，当有许多代理时，这种函数很难学习，即使可以学习，也没有明显的方法提取分散的策略，允许每个代理根据单个观察只选择单个操作。
最简单的选择是放弃一个集中的行为价值函数，让每个代理独立地学习一个单独的行为价值函数，就像独立Q学习一样。然而，这种方法不能明确表示代理之间的交互，并且可能不会收敛，因为每个代理的学习都被其他代理的学习和探索所混淆。
在另一个极端，我们可以学习一个完全集中的状态动作值函数Qtotand，然后用它来指导在行动者-批评者框架中分散策略的优化，这是反事实多主体(COMA)策略梯度采取的方法(Foerster等人，2018年)，以及Gupta等人(2017年)的工作。然而，这需要政策学习，这可能是样本效率低下的，当代理人超过少数时，培训完全集中的批评家变得不切实际。
在这篇文章中，我们提出了一种新的方法，叫做QMIX，它和VDN一样，位于IQL和COMA的极端之间，但是可以代表一类更丰富的actionvalue函数。我们的方法的关键是洞察到，VDN的完全分解对于提取分散的政策是不必要的。相反，我们只需要确保在Qott上执行的全局argmax产生与在每个Qa上执行的一组单独argmax操作相同的结果。为此，对Qtotand和每个Qa之间的关系实施单调性约束就足够了:
QMIX由代表每个Qa的代理网络和将它们组合成Qtot的混合网络组成，不是像VDN那样简单的总和，而是以复杂的非线性方式，确保集中和分散策略之间的一致性。同时，它通过限制混合网络具有正权重来实施(1)的约束。因此，QMIX可以表示复杂的集中式动作值函数，并带有因子表示，可以很好地扩展代理数量，并允许通过线性时间的单个argmax操作轻松提取分散的策略。
我们在星际争霸II1中构建的一系列单位微观管理任务上评估QMIX。(Vinyals等人，2017年)。我们的实验表明，QMIX在绝对性能和学习速度方面都优于IQL和VDN。特别是，我们的方法在具有异构代理的任务上显示出可观的性能提升。此外，我们的消融显示了调节状态信息和非线性混合剂Q值的必要性，以实现跨任务的一致性能。

背景

QMIX

两步游戏

实验设置

结论

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning相关推荐

阅读QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
接上文VDN,本来我觉得QMIX全文会很难读,后来发现不是,哈哈,又畏难了,希望我挑战QTRAN和Qatten的时候也能这样. QMIX 题目作者摘要方法实验和结果其他题目作者 ICML18 ...
[基础论文阅读]QMIX: Monotonic Value Function Factorization for Deep Multi-agent Reinforcement Learning
[基础论文阅读]QMIX: Monotonic Value Function Factorization for Deep Multi-agent Reinforcement Learning 题目含 ...
《Deep Reinforcement Learning for Autonomous Driving: A Survey》笔记
B Ravi Kiran , Ibrahim Sobh , Victor Talpaert , Patrick Mannion , Ahmad A. Al Sallab, Senthil Yogama ...
深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述作者: Kai Arulkumaran, Marc Peter Deisenroth ...
Deep Reinforcement Learning: Pong from Pixels翻译和简单理解
原文链接: http://karpathy.github.io/2016/05/31/rl/ 文章目录原文链接: 前言 Policy-Gradient结构流程图 Deep Reinforcement ...
深度强化学习（Deep Reinforcement Learning）的资源
深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00| 分类: Torch | 标签:深度强化学习 |举报 |字号订阅 Goo ...
Deep Reinforcement Learning: Pong from Pixels
这是一篇迟来很久的关于增强学习(Reinforcement Learning, RL)博文.增强学习最近非常火!你一定有所了解,现在的计算机能不但能够被全自动地训练去玩儿ATARI(译注:一种游戏机) ...
论文笔记之：Deep Reinforcement Learning with Double Q-learning
Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract 主流的 Q-learning 算法过高的估计在特 ...
深度学习(19): Deep Reinforcement learning（Policy gradientinteract with environment）
Deep Reinforcement learning AL=DL+RL Machine 观察到环境的状态,做出一些行为对环境产生影响,环境根据machine的改变给予一个reward.正向的acti ...