【论文笔记】多智能体强化学习值分解基础论文5篇

2024-05-20 10:50:20

文章目录

引子
IQL
COMA
VDN
QMIX
QTRAN
总结

引子

值分解可以说是解决多智能体强化学习的重要手段之一，本文主要涉及IQL、COMA、VDN、QMIX、QTRAN这五篇最经典的论文。

本文大致介绍每种方法最核心的思想，具体细节请读原文。

IQL

Multiagent Cooperation and Competition with Deep Reinforcement Learning, 2015

本文主要是基于Pong这个游戏环境，通过修改agent的收益，说明合作型agent独立地进行各自的Q-learning，依然可以有不错的效果。

最上面的收益矩阵是原本游戏的收益矩阵，每当错过球时，对方得分自己扣分，是完全竞争型的博弈。当每次失球时，如果双方都获得-1，就是矩阵2，这时是一个完全合作的博弈，双方都希望小球尽可能保持一直被接到。

介于两种情况之间的就是矩阵3，对应的就是 ρ∈(-1,1),这是混合型的博弈。

IQL发现，在不修改除了reward外的任何参数、细节，agent都能取得不错的成绩。这说明IQL可以作为多智能体强化学习的baseline。

COMA

Counterfactual Multi-Agent Policy Gradients, 2017

使用一个集中式critic网络，在训练的过程中可以获取所有智能体的信息；
采用反事实基线（counterfactual baseline）来解决信用分配的问题；
Critic网络要能够对反事实基线进行高效的计算。

红色部分是只有在训练时才会被用到的，因为实际执行时，每个agent都是拿不到全局信息的。这也是CTDE（中心化训练、去中心化执行）方法的早期成果。

VDN

Value-Decomposition Networks For Cooperative Multi-Agent Learning，2017

VDN算是大名鼎鼎的QMIX算法的前身。

VDN算法强调的是把总的Q相信分解为多个Q之和，每个Q对应每个智能体的动作价值，也就是：

这种会导致一个结果，那就是这样累计求和的Q可能没有具体的意义、吃大锅饭导致有agent划水之类的结果。这些问题在QMIX中得到了比较好的解决。

QMIX

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning， ICML2018

由于 VDN没有尽可能利用集中式训练的优势，忽略了学习期间可用的任何额外状态信息，因此 QMIX 在近似

【论文笔记】多智能体强化学习值分解基础论文5篇相关推荐

读书笔记 - 多智能体强化学习在城市交通网络信号的综述2018
多智能体强化学习在城市交通网络信号控制方法中的应用综述交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境, 将每个路口的交通信号控制器看做一个异质的智能体, 非常适合采用无模型.自 ...
王树森强化学习笔记——多智能体强化学习
多智能体强化学习想要了解更多强化学习的内容,推荐观看王树森教授的教学视频深度强化学习(王树森) 设定在之前的学习当中,我们讨论的都是单个智能体如何进行决策,然而现实中还存在需要同时控制多个智能体 ...
最新最全论文合集——多智能体强化学习合作和竞争
AMiner平台(https://www.aminer.cn)由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现. ...
《强化学习周刊》第2期：多智能体强化学习（MARL）赋能“AI智能时代”
No.02 智源社区强化学习组 R L 学习研究观点资源活动关于周刊随着强化学习研究的不断成熟,如何将其结合博弈论的研究基础,解决多智能体连续决策与优化问题成为了新的研究领域,为了帮 ...
一文搞定！！！多智能体强化学习的前世今生
最近在学习多智能体的强化学习,看了几篇高质量基础论文,发现还是很有必要将强化学习的体系简单过一遍,然后再有针对性地练习代码. 推进文章:多智能体强化学习路线图 (MARL Roadmap) 转载总结链 ...
多智能体强化学习_基于多智能体强化学习主宰星际争霸游戏
大家好,今天我们来介绍基于多智能体强化学习主宰星际争霸游戏这篇论文 Grandmaster level in StarCraft II using multi-agent reinforcement ...
多智能体强化学习入门
参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...
《强化学习周刊》第16期：多智能体强化学习的最新研究与应用
No.16 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...
多智能体强化学习思路整理
多智能体强化学习算法思路整理目录摘要背景和意义研究背景强化学习多智能体强化学习与博弈论基础研究意义问题与挑战问题分类问题分析环境的不稳定性与可扩展性的平衡部分可观测的马尔可夫决 ...
多智能体强化学习——相关论文
多智能体深度强化学习研究综述作者:孙彧,曹雷,陈希亮,徐志雄,赖俊摘要:多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法.规则.框架,并广泛应用于自动驾驶.能 ...

最新文章

热门文章