文章目录

  • 引子
  • IQL
  • COMA
  • VDN
  • QMIX
  • QTRAN
  • 总结

引子

值分解可以说是解决多智能体强化学习的重要手段之一,本文主要涉及IQL、COMA、VDN、QMIX、QTRAN这五篇最经典的论文。

本文大致介绍每种方法最核心的思想,具体细节请读原文。

IQL

Multiagent Cooperation and Competition with Deep Reinforcement Learning, 2015

本文主要是基于Pong这个游戏环境,通过修改agent的收益,说明合作型agent独立地进行各自的Q-learning,依然可以有不错的效果。



最上面的收益矩阵是原本游戏的收益矩阵,每当错过球时,对方得分自己扣分,是完全竞争型的博弈。当每次失球时,如果双方都获得-1,就是矩阵2,这时是一个完全合作的博弈,双方都希望小球尽可能保持一直被接到。

介于两种情况之间的就是矩阵3,对应的就是 ρ∈(-1,1),这是混合型的博弈。

IQL发现,在不修改除了reward外的任何参数、细节,agent都能取得不错的成绩。这说明IQL可以作为多智能体强化学习的baseline。

COMA

Counterfactual Multi-Agent Policy Gradients, 2017

使用一个集中式critic网络,在训练的过程中可以获取所有智能体的信息;
采用反事实基线(counterfactual baseline)来解决信用分配的问题;
Critic网络要能够对反事实基线进行高效的计算。

红色部分是只有在训练时才会被用到的,因为实际执行时,每个agent都是拿不到全局信息的。这也是CTDE(中心化训练、去中心化执行)方法的早期成果。

VDN

Value-Decomposition Networks For Cooperative Multi-Agent Learning,2017

VDN算是大名鼎鼎的QMIX算法的前身。

VDN算法强调的是把总的Q相信分解为多个Q之和,每个Q对应每个智能体的动作价值,也就是:

这种会导致一个结果,那就是这样累计求和的Q可能没有具体的意义、吃大锅饭导致有agent划水之类的结果。这些问题在QMIX中得到了比较好的解决。

QMIX

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning, ICML2018

由于 VDN没有尽可能利用集中式训练的优势, 忽略了学习期间可用的任何额外状态信息,因此 QMIX 在近似

【论文笔记】多智能体强化学习值分解基础论文5篇相关推荐

  1. 读书笔记 - 多智能体强化学习在城市交通网络信号的综述2018

    多智能体强化学习在城市交通网络信号 控制方法中的应用综述 交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境, 将每个路口的交通信号控制器看做一个异质的智能体, 非常适合采用无模型.自 ...

  2. 王树森强化学习笔记——多智能体强化学习

    多智能体强化学习 想要了解更多强化学习的内容,推荐观看王树森教授的教学视频 深度强化学习(王树森) 设定 在之前的学习当中,我们讨论的都是单个智能体如何进行决策,然而现实中还存在需要同时控制多个智能体 ...

  3. 最新最全论文合集——多智能体强化学习合作和竞争

    AMiner平台(https://www.aminer.cn)由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现. ...

  4. 《强化学习周刊》第2期:多智能体强化学习(MARL)赋能“AI智能时代”

    No.02 智源社区 强化学习组 R L 学  习 研究 观点 资源 活动 关于周刊 随着强化学习研究的不断成熟,如何将其结合博弈论的研究基础,解决多智能体连续决策与优化问题成为了新的研究领域,为了帮 ...

  5. 一文搞定!!!多智能体强化学习的前世今生

    最近在学习多智能体的强化学习,看了几篇高质量基础论文,发现还是很有必要将强化学习的体系简单过一遍,然后再有针对性地练习代码. 推进文章:多智能体强化学习路线图 (MARL Roadmap) 转载总结链 ...

  6. 多智能体强化学习_基于多智能体强化学习主宰星际争霸游戏

    大家好,今天我们来介绍基于多智能体强化学习主宰星际争霸游戏这篇论文 Grandmaster level in StarCraft II using multi-agent reinforcement ...

  7. 多智能体强化学习入门

    参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈 推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...

  8. 《强化学习周刊》第16期:多智能体强化学习的最新研究与应用

    No.16 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...

  9. 多智能体强化学习思路整理

    多智能体强化学习算法思路整理 目录 摘要 背景和意义 研究背景 强化学习 多智能体强化学习与博弈论基础 研究意义 问题与挑战 问题分类 问题分析 环境的不稳定性与可扩展性的平衡 部分可观测的马尔可夫决 ...

  10. 多智能体强化学习——相关论文

    多智能体深度强化学习研究综述 作者:孙 彧,曹 雷,陈希亮,徐志雄,赖 俊 摘 要:多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法.规则.框架,并广泛应用于自动驾驶.能 ...

最新文章

  1. h5 getUserMedia error PermissionDeniedError
  2. linux 下byte,char,unsigned char的区别
  3. 微软曾经的二号人物永远地离开了
  4. Telnet 对memcached进行数据操作
  5. order by、group by也会使用索引?使用这俩关键字的时候索引什么时间会失效
  6. 《你不知道的JavaScript(上)》笔记——函数作用域和块作用域
  7. linux学习心得(一)
  8. iOS应用开发的五个Java开源工具
  9. python的计算_python 计算方位角实例(根据两点的坐标计算)
  10. 进程间同步(互斥量、信号量)
  11. python 字符串交集_Python序列--集合(set)
  12. SSL/TLS 工具 OpenSSL
  13. HarmonyOS DevEco Studio 配置本地模拟器
  14. keepalived+nginx双机热备+负载均衡
  15. html js3d魔方,40行JavaScript代码实现的3D旋转魔方动画效果
  16. 将一个数组划分成总和相等的两部分(分割数组)
  17. 各大互联网大厂JAVA实习招聘岗位要求
  18. 小飞升值记——(4)
  19. java整数类和自然数类的简单实现
  20. React项目中请求跨域解决方法

热门文章

  1. CSDN终于破2万粉了,几百块钱的课程可白嫖,就是宠粉!
  2. 计算机信息技术教程(笔记)
  3. javweb音乐网站_基于jsp的音乐网站-JavaEE实现音乐网站 - java项目源码
  4. 华为hg255d+Openwrt锐捷认证在某农业公园
  5. access 数据库入门
  6. windows 验证tftp服务器,细说Windows tftp服务器配置
  7. 抖音做综艺,差点意思
  8. STC单片机免冷启/自动下载原理DIY免冷启烧录器(纯硬件版和软件版)
  9. web通用组件+Axure原型+Axure元件库+Axure后台管理系统框架模板+大屏数据可视化元件库+智慧社区管理系统大屏+图表组件+表单组合+智慧数据看板+通用大屏图表原件库+电脑端常用组件
  10. 2022-2028全球变压器测试行业调研及趋势分析报告