D4PG全称Distributed Distributional Deterministic Policy Gradient,是总所周知的DDPG的分布式版本。因此学习D4PG之前,需要了解DDPG。

首先DDPG是DQN在连续空间的版本,DQN只能处理离散动作空间的问题,对于连续动作空间是无法处理的,因此我们引入了DDPG。DDPG是actor-critic的结构,并且借鉴了DQN的技巧,也就是目标网络和经验回放。因此DDPG有四个网络,一个actor,一个Target-actor,一个critic,一个Target-critic。对于Critic的更新方法和DQN一样,而Actor的更新就是最大化Critic的输出,也就是得到最高的评价。DDPG和DQN具体细节可以参考我以前的文章:强化学习实践教学


D4PG将经验收集的Actor和策略学习的Learner分开,使用多个并行的Actor收集数据,并分享一个大的经验数据缓存区,发送给learner进行学习,经验使用N步奖励的方法进行处理,也可以使用优先级经验复用,给每个经验加上一个初始优先级。

critic的输出是一个分布,这也就是distributional的概念。

D4PG的改进使得我们可以运用上百台甚至更多的机器资源,这样就能够采样更多用于训练的数据,比DPPO更好的地方在于Learner不需要等待Actor计算梯度,真正实现了样本采集和训练过程的分离,所以,D4PG可以用于更复杂的连续动作控制领域。缺点在于Actor和Learner的分离可能导致学习到的策略和正在执行的策略产生差距,因此在一个不是很好的策略下采集到的样本也不好,D4PG没有解决两者的平衡问题。

分布式强化学习之D4PG相关推荐

  1. 【新书】分布式强化学习

    来源:专知本文附链接,建议阅读5分钟本书为你系统介绍分布式强化学习. 本书分为三个部分.第一部分介绍了分布式强化学习的构建模块.我们首先介绍了我们的基本研究对象,收益分布和分布Bellman方程(第二 ...

  2. 【控制】《多智能体机器人系统信息融合与协调》范波老师-第6章-基于分布式强化学习的多 Agent 协调方法

    第5章 回到目录 第7章 第6章-基于分布式强化学习的多 Agent 协调方法 6.1 引言 6.2 多 Agent 强化学习基本理论 6.2.1 基于局部合作的 Q 学习 6.2.2 基于区域合作的 ...

  3. 强化学习图鉴|人工智能新兴子领域,分布式强化学习是AI技术未来大规模实用化的关键?

    引言  分布式强化学习(Distributed RL)是深度强化学习走向大规模应用,解决复杂决策空间和长期规划问题的必经之路. 为了解决像星际争霸2(SC2)[1]和DOTA2[2]这样超大规模的决策 ...

  4. 强化学习原理与python实现原理pdf_纯Python实现!Facebook发布PyTorch分布式强化学习库...

    图灵TOPIA来源:Facebook编译:刘静图灵联邦编辑部出品Facebook于近日发布了PyTorch中用于强化学习(RL)研究的平台:TorchBeast.TorchBeast实现了流行的IMP ...

  5. 102页PPT,DeepMind强化学习最新进展,含图文、公式和代码

    来源:专知 本文多图,建议阅读9分钟 本文提供涵盖了强化学习RL基础概念.策略梯度.动态规划以及D4PG.R2D3等RL算法的资源. [ 导读 ]在DeepMing任职的Nando de Freita ...

  6. DeepMind Nando(原牛津大学教授)强化学习最新进展,含图文、公式和代码,附102页PPT下载...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送 转自:专知 [导读]在DeepMing任职的Nando de Freitas(原牛津大学 ...

  7. 142页ICML会议强化学习笔记整理,值得细读

    作者 | David Abel 编辑 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) ICML 是 International Conference on Machine L ...

  8. 训练Rainbow算法需要1425个GPU Day?谷歌说强化学习可以降低计算成本

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 ©作者 | 陈萍.小舟 来源 | 机器之心 DeepMind 提出的 ...

  9. 《强化学习周刊》第30期:Deep Mind开展人机交互的新试点研究、MIT提出神经进化优化框架...

    No.30 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

最新文章

  1. 国际互联网协会(ISOC)提出未来互联网十项原则
  2. 【机器学习基础】常见二分类损失函数、距离度量的Python实现
  3. linux下镜像播放视频,linux下挂载iso镜像的方法
  4. CSS基础---日记4
  5. python程序生成exe_使用Python程序生成QR代码的Python程序
  6. 堆排序python代码实现_python实现堆排序
  7. SQLAlchemy的使用---M2M增删改查
  8. 通过android手机内置GPS获取平面直角坐标和高斯坐标的原理(附代码)
  9. c51单片机编程实例c语言,C51单片机C语言编程基础和实例
  10. 高通9008刷机大法,避坑指南,救砖前提
  11. 基于STM32f103的TM1640驱动程序(地址自动加1 和 固定地址)
  12. 人工智能革命:人类永生还是灭亡(下)
  13. android播放器(music player)源码分析4(StreamStarter,URLEncoder)
  14. PythonProgramming.net Python 金融教程(转)
  15. matlab求圆的共切线,Matlab或Python怎么作出两个圆的公切线
  16. vulnhub-Chakravyuh打靶过程
  17. 本机与虚拟机WIN7之间互传文件
  18. php修改qq举报按钮,自定义修改QQ在线状态
  19. linux vim 编辑 保存 退出
  20. 除了欧拉公式,这8个数学公式也足够美丽且神奇

热门文章

  1. SoapUI调用webservice接口,http+post方式模仿soapui调用webservice接口
  2. 用matlab进行曲线拟合
  3. 「企业架构」企业架构师的TOGAF的权威指南
  4. C语言学习-Day4
  5. [Gdiplus]_[中级]_[绘图实现单行文本的多种颜色]
  6. 六轴机械手程序 用信捷XD5和威纶触摸屏编写
  7. 信创操作系统--麒麟Kylin桌面版 (项目二 桌面环境)
  8. java catch中抛出异常_简单了解Java编程中抛出异常的方法
  9. 大数据分析培训好就业吗
  10. lookup与VLOOKUP对比使用;sumifs与sumproduct对比使用(Excel 100例)