最近在研究多智能体深度强化学习方向方面的论文,想根据不同论文将自己的学习过程记录一下,最近看了MADDPG和COMA这两篇基于AC方法的文章,这篇主要记录下对于MADDPG论的理解。
MADDPG 针对合作竞争混合环境下的多智能体演员评论家算法
(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments)
首先这是一篇17年发表在NISP上的论文,是基于DDPG针对多智能体环境下的改进,而DDPG又是基于经典AC算法解决不容易收敛问题提出的。

对于MADDPG来说,同样是解决的传统强化学习不适用于多智能体的应用环境下,这里我们重点关注一下它的三个主要贡献点

1、首先第一点,集中式训练分布式执行,指的是在训练过程中由critic集中式共享全局信息,执行过程中actor分布式获取局部信息(当前智能体的观察信息),在这里,每个智能体维持一个单独的critic和actor,如下图

2、 其中因为critic需要共享全局信息,就要获取到其他智能体的策略信息,所以又引出了第二点贡献,提出估计其他智能体策略的方法

公式L表示的是代价函数,这里的

表示的就是智能体i对智能体j的策略估计,当代价函数取得最小值时,这时我们就可以认为Uij就是j的策略。
3、但是针对这种策略估计的方法来说可能会为了过度适应智能体的动作而制定出强有力的策略,也就是说可能会产生过拟合的情况,针对这一点,文章由提出了一个新方法,策略集合优化,也就是将一个策略划分成k个子策略集合的思想,每次从k个子策略中特定选取一个Pk进行执行

文章中也给出了不同的实验分析,对于实验环境,文章设计了不同的场景,包括有合作通信,捕食者-猎物,合作导航,物理欺骗。

网上也有很多关于MADDPG实验复现的教程,大家可以尝试动手去复现,这里提醒大家一下,MADDPG对于实验的配置要求比较要个,像是python、gym、tensorflow的版本等等,大家多加注意。

最后提一点,通过实验发现,当智能体数量增多(大于5个的时候),环境就会出现紊乱情况,智能体不能得到很好的收敛,也就是说MADDPG目前可能并不适用于大规模的多智能体深度强化学习场景下,这个也有人说是因为集中式学习分布式执行导致的,下一步我也准备继续进行学习了解下。

MADDPG论文理解相关推荐

  1. A Learned Representation for Artistic Style论文理解

    A Learned Representation for Artistic Style论文理解 这篇论文是在Perceptual losses for real-time style transfer ...

  2. 图卷积网络进行骨骼识别代码_【骨骼行为识别】2s-AGCN论文理解

    Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition 论文链接: https:/ ...

  3. PacificA: Replication in Log-Based Distributed Storage Systems 论文理解

    PacificA: Replication in Log-Based Distributed Storage Systems 论文理解 思考:论文有个结论说,相比 GFS 具有中心化的实体,Pacif ...

  4. [计算机视觉] AprilTag 2: Efficient and robust fiducial detection(2016)论文理解

    论文地址 chrome-extension://cdonnmffkdaoajfknoeeecmchibpmkmg/assets/pdf/web/viewer.html?file=https%3A%2F ...

  5. [计算机视觉] AprilTag: A robust and flexible visual fiducial system(2011)论文理解

    论文地址 chrome-extension://cdonnmffkdaoajfknoeeecmchibpmkmg/assets/pdf/web/viewer.html?file=https%3A%2F ...

  6. 【6Dof位姿估计】DPVL:6DoF Object Pose Estimation via Differentiable Proxy Voting Loss论文理解

    6DoF Object Pose Estimation via Differentiable Proxy Voting Loss论文理解 解决什么问题 本文创新点\贡献 本文IDEA来源 方法 方向向 ...

  7. 论文理解【RL - Exp Replay】—— 【ReMERN ReMERT】Regret Minimization Exp Replay in Off-Policy RL

    标题:Regret Minimization Experience Replay in Off-Policy Reinforcement Learning 文章链接:Regret Minimizati ...

  8. Transformer(二)--论文理解:transformer 结构详解

    转载请注明出处:https://blog.csdn.net/nocml/article/details/110920221 本系列传送门: Transformer(一)–论文翻译:Attention ...

  9. ResNet 论文理解含视频

    ResNet 论文理解 问题导引论文理解 Q1.神经网络真的越深越好吗? Q2. 为什么加深网络会带来退化问题? Q3. 如何构建更深层的网络? 基于残差的深度学习框架 Residual Learni ...

最新文章

  1. 有效的rtsp流媒体测试地址汇总
  2. ROS Gazebo(三):启动gazebo/URDF
  3. 从单体到混乱的微服务,阿里云托管式服务网格是如何诞生的?
  4. 微型计算机中abcd是指,一级笔试模拟试题二(答案)
  5. 安卓系统手机软件_2M不到的安卓神器!有了这五款软件,iphone用户都羡慕
  6. Oracle创建视图实现获取当前数据所在的页数,这里以每页2条数据分页
  7. into outfile 生成sql脚本
  8. UIView Methods
  9. Spring中Bean的作用域差别
  10. 大漠插件最新版dm7.2135
  11. 骗子丛生的58正失去“神奇”魔法
  12. 系统u盘测试软件,u盘检测工具操作教程
  13. Qt Designer的使用
  14. 免费从5sing上下载歌曲
  15. [VN2020 公开赛]simpleHeap-记录一次gef调试过程
  16. 利用 pinyin4j 把汉字转化为拼音
  17. 公众平台服务号、订阅号、企业微信以及小程序的相关说明
  18. Oracle导入dmp文件闪退处理方案
  19. 软件工程复习13:软件发布
  20. 运用计算机通过动力方程,计算机技术在地下水动力学课程素材建设中的应用

热门文章

  1. ai域名火爆的原因分析
  2. nodeJS 网页支付
  3. springboot 怎么 回滚事务
  4. 途家、木鸟、爱彼迎:国内三大民宿平台用户定位策略分析
  5. AcWing 861 二分图的最大匹配
  6. netflowv9介绍及数据包格式
  7. 傅立叶变换--复数到底是个什么东西?
  8. Library Cache优化与SQL游标
  9. 计算机毕业设计指北 | 基于springboot+mysql的小区失物招领网站的设计与实现架构设计
  10. JS逆向解析---某知名小说网站内容加密