分布式强化学习之D4PG

D4PG全称Distributed Distributional Deterministic Policy Gradient，是总所周知的DDPG的分布式版本。因此学习D4PG之前，需要了解DDPG。

首先DDPG是DQN在连续空间的版本，DQN只能处理离散动作空间的问题，对于连续动作空间是无法处理的，因此我们引入了DDPG。DDPG是actor-critic的结构，并且借鉴了DQN的技巧，也就是目标网络和经验回放。因此DDPG有四个网络，一个actor，一个Target-actor，一个critic，一个Target-critic。对于Critic的更新方法和DQN一样，而Actor的更新就是最大化Critic的输出，也就是得到最高的评价。DDPG和DQN具体细节可以参考我以前的文章：强化学习实践教学

D4PG将经验收集的Actor和策略学习的Learner分开，使用多个并行的Actor收集数据，并分享一个大的经验数据缓存区，发送给learner进行学习，经验使用N步奖励的方法进行处理，也可以使用优先级经验复用，给每个经验加上一个初始优先级。

critic的输出是一个分布，这也就是distributional的概念。

D4PG的改进使得我们可以运用上百台甚至更多的机器资源，这样就能够采样更多用于训练的数据，比DPPO更好的地方在于Learner不需要等待Actor计算梯度，真正实现了样本采集和训练过程的分离，所以，D4PG可以用于更复杂的连续动作控制领域。缺点在于Actor和Learner的分离可能导致学习到的策略和正在执行的策略产生差距，因此在一个不是很好的策略下采集到的样本也不好，D4PG没有解决两者的平衡问题。

分布式强化学习之D4PG相关推荐

【新书】分布式强化学习
来源:专知本文附链接,建议阅读5分钟本书为你系统介绍分布式强化学习. 本书分为三个部分.第一部分介绍了分布式强化学习的构建模块.我们首先介绍了我们的基本研究对象,收益分布和分布Bellman方程(第二 ...
【控制】《多智能体机器人系统信息融合与协调》范波老师-第6章-基于分布式强化学习的多 Agent 协调方法
第5章回到目录第7章第6章-基于分布式强化学习的多 Agent 协调方法 6.1 引言 6.2 多 Agent 强化学习基本理论 6.2.1 基于局部合作的 Q 学习 6.2.2 基于区域合作的 ...
强化学习图鉴｜人工智能新兴子领域，分布式强化学习是AI技术未来大规模实用化的关键？
引言分布式强化学习(Distributed RL)是深度强化学习走向大规模应用,解决复杂决策空间和长期规划问题的必经之路. 为了解决像星际争霸2(SC2)[1]和DOTA2[2]这样超大规模的决策 ...
强化学习原理与python实现原理pdf_纯Python实现！Facebook发布PyTorch分布式强化学习库...
图灵TOPIA来源:Facebook编译:刘静图灵联邦编辑部出品Facebook于近日发布了PyTorch中用于强化学习(RL)研究的平台:TorchBeast.TorchBeast实现了流行的IMP ...
102页PPT，DeepMind强化学习最新进展，含图文、公式和代码
来源:专知本文多图,建议阅读9分钟本文提供涵盖了强化学习RL基础概念.策略梯度.动态规划以及D4PG.R2D3等RL算法的资源. [ 导读 ]在DeepMing任职的Nando de Freita ...
DeepMind Nando（原牛津大学教授）强化学习最新进展，含图文、公式和代码，附102页PPT下载...
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送转自:专知 [导读]在DeepMing任职的Nando de Freitas(原牛津大学 ...
142页ICML会议强化学习笔记整理，值得细读
作者 | David Abel 编辑 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) ICML 是 International Conference on Machine L ...
《强化学习周刊》第30期：Deep Mind开展人机交互的新试点研究、MIT提出神经进化优化框架...
No.30 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

分布式强化学习之D4PG

分布式强化学习之D4PG相关推荐

最新文章

热门文章