MADDPG论文理解

最近在研究多智能体深度强化学习方向方面的论文，想根据不同论文将自己的学习过程记录一下，最近看了MADDPG和COMA这两篇基于AC方法的文章，这篇主要记录下对于MADDPG论的理解。
MADDPG 针对合作竞争混合环境下的多智能体演员评论家算法
(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments)
首先这是一篇17年发表在NISP上的论文，是基于DDPG针对多智能体环境下的改进，而DDPG又是基于经典AC算法解决不容易收敛问题提出的。

对于MADDPG来说，同样是解决的传统强化学习不适用于多智能体的应用环境下，这里我们重点关注一下它的三个主要贡献点

1、首先第一点，集中式训练分布式执行，指的是在训练过程中由critic集中式共享全局信息，执行过程中actor分布式获取局部信息（当前智能体的观察信息），在这里，每个智能体维持一个单独的critic和actor，如下图

2、其中因为critic需要共享全局信息，就要获取到其他智能体的策略信息，所以又引出了第二点贡献，提出估计其他智能体策略的方法

公式L表示的是代价函数，这里的

表示的就是智能体i对智能体j的策略估计，当代价函数取得最小值时，这时我们就可以认为Uij就是j的策略。
3、但是针对这种策略估计的方法来说可能会为了过度适应智能体的动作而制定出强有力的策略，也就是说可能会产生过拟合的情况，针对这一点，文章由提出了一个新方法，策略集合优化，也就是将一个策略划分成k个子策略集合的思想，每次从k个子策略中特定选取一个Pk进行执行

文章中也给出了不同的实验分析，对于实验环境，文章设计了不同的场景，包括有合作通信，捕食者-猎物，合作导航，物理欺骗。

网上也有很多关于MADDPG实验复现的教程，大家可以尝试动手去复现，这里提醒大家一下，MADDPG对于实验的配置要求比较要个，像是python、gym、tensorflow的版本等等，大家多加注意。

最后提一点，通过实验发现，当智能体数量增多（大于5个的时候），环境就会出现紊乱情况，智能体不能得到很好的收敛，也就是说MADDPG目前可能并不适用于大规模的多智能体深度强化学习场景下，这个也有人说是因为集中式学习分布式执行导致的，下一步我也准备继续进行学习了解下。

MADDPG论文理解相关推荐

A Learned Representation for Artistic Style论文理解
A Learned Representation for Artistic Style论文理解这篇论文是在Perceptual losses for real-time style transfer ...
图卷积网络进行骨骼识别代码_【骨骼行为识别】2s-AGCN论文理解
Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition 论文链接: https:/ ...
PacificA: Replication in Log-Based Distributed Storage Systems 论文理解
PacificA: Replication in Log-Based Distributed Storage Systems 论文理解思考:论文有个结论说,相比 GFS 具有中心化的实体,Pacif ...
[计算机视觉] AprilTag 2: Efficient and robust fiducial detection（2016）论文理解
论文地址 chrome-extension://cdonnmffkdaoajfknoeeecmchibpmkmg/assets/pdf/web/viewer.html?file=https%3A%2F ...
[计算机视觉] AprilTag: A robust and flexible visual fiducial system（2011）论文理解
论文地址 chrome-extension://cdonnmffkdaoajfknoeeecmchibpmkmg/assets/pdf/web/viewer.html?file=https%3A%2F ...
【6Dof位姿估计】DPVL:6DoF Object Pose Estimation via Differentiable Proxy Voting Loss论文理解
6DoF Object Pose Estimation via Differentiable Proxy Voting Loss论文理解解决什么问题本文创新点\贡献本文IDEA来源方法方向向 ...
论文理解【RL - Exp Replay】—— 【ReMERN ReMERT】Regret Minimization Exp Replay in Off-Policy RL
标题:Regret Minimization Experience Replay in Off-Policy Reinforcement Learning 文章链接:Regret Minimizati ...
Transformer(二)--论文理解：transformer 结构详解
转载请注明出处:https://blog.csdn.net/nocml/article/details/110920221 本系列传送门: Transformer(一)–论文翻译:Attention ...
ResNet 论文理解含视频
ResNet 论文理解问题导引论文理解 Q1.神经网络真的越深越好吗? Q2. 为什么加深网络会带来退化问题? Q3. 如何构建更深层的网络? 基于残差的深度学习框架 Residual Learni ...

MADDPG论文理解

MADDPG论文理解相关推荐

最新文章

热门文章