A3C算法(Asynchronous Advantage Actor-Critic)

DDPG算法之后,DeepMind对其改造,提出了效果更好的 Asynchronous Advantage Actor-Critic(A3C)算法(论文是 Asynchronous Methods for Deep Reinforcement Learning )。A3C 算法和DDPG类似,通过深度神经网络拟合 policy function 和 value function的估计。改进点在于:

  • ① A3C 中有多个 agent 对网络进行异步更新,这样的做法使得样本间的相关性较低,A3C中也无需采用Experience Replay的机制,且支持在线的训练模式。
  • ② A3C 有两个输出,其中一个 Softmax output 作为 policy ,而另一个linear output为 value function
  • ③ A3C 中的Policy network 的评估指标采用的是上面比较了多种评估指标的论文中提到的 Advantage Function(即A值) 而不是 DDPG 中单纯的 Q 值。

下图展示了其网络结构:

从上图可以看出输出包含2个部分,value network 的部分可以用来作为连续动作值的输出,而 policy network 可以作为离散动作值的概率输出,因此能够同时解决前面提到的2类问题。

两个网络的更新公式如下:

A3C 通过创建多个 agent,在多个环境实例中并行且异步的执行和学习,有个潜在的好处是不那么依赖于 GPU 或大型分布式系统,实际上 A3C 可以跑在一个多核 CPU 上,而工程上的设计和优化也是原始paper的一个重点。

深度学习——A3C算法相关推荐

  1. 深度学习前沿算法思想

    转自: 深度学习前沿算法思想 导读 第一版: 深度学习前沿算法思想 深度学习实践:使用Tensorflow实现快速风格迁移 行为识别:让机器学会"察言观色"第一步 第二版: 谷歌首 ...

  2. (转)深度学习前沿算法思想

    深度学习前沿算法思想 本文转自: https://mp.weixin.qq.com/s?__biz=MzA5NDExMTAzNA==&mid=2649981646&idx=2& ...

  3. Adam 那么棒,为什么还对 SGD 念念不忘?一个框架看懂深度学习优化算法

    作者|Juliuszh 链接 | https://zhuanlan.zhihu.com/juliuszh 本文仅作学术分享,若侵权,请联系后台删文处理 机器学习界有一群炼丹师,他们每天的日常是: 拿来 ...

  4. 近期活动盘点:心电数据标注系统和深度学习诊断算法研究、2019年第六届清华大学大数据社会科学讲习班...

    想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 第四期医工结合研讨会:心电数据标注系统和深度学习诊断算法研究 2019年7月11日 7月11日,"医工结合系列研讨会第四期会议: ...

  5. 谷歌发布深度学习新算法,适用于真实机器人的技能学习

    https://www.toutiao.com/a6649215346496504327/ 2019-01-22 15:11:28 通过这种名叫SAC(柔性致动/评价)的强化学习算法,机器人能很快地完 ...

  6. 2017年深度学习优化算法最新进展:改进SGD和Adam方法

    2017年深度学习优化算法最新进展:如何改进SGD和Adam方法 转载的文章,把个人觉得比较好的摘录了一下 AMSGrad 这个前期比sgd快,不能收敛到最优. sgdr 余弦退火的方案比较好 最近的 ...

  7. 2017年深度学习优化算法最新进展:如何改进SGD和Adam方法?

    2017年深度学习优化算法最新进展:如何改进SGD和Adam方法? 深度学习的基本目标,就是寻找一个泛化能力强的最小值,模型的快速性和可靠性也是一个加分点. 随机梯度下降(SGD)方法是1951年由R ...

  8. Pytorch框架的深度学习优化算法集(优化中的挑战)

    个人简介:CSDN百万访问量博主,普普通通男大学生,深度学习算法.医学图像处理专攻,偶尔也搞全栈开发,没事就写文章,you feel me? 博客地址:lixiang.blog.csdn.net Py ...

  9. 深度学习新算法,完成字里行间的情绪识别

    深度学习新算法,完成字里行间的情绪识别 发表于2013-10-12 11:41| 40891次阅读| 来源Wired| 68 条评论| 作者Daniela Hernandez 深度学习人工智能机器学习 ...

最新文章

  1. stm32显示flash下载失败_STM32大神笔记,超详细单片机学习汇总资料(干货分享4)...
  2. leetcode算法题--最长公共前缀
  3. Python 库升级问题-module ‘requests.exceptions‘ has no attribute ‘ReadTimeout‘原因及解决办法
  4. 计算未来轻沙龙 | 对抗攻击、强化学习,你关心的都在这里!
  5. MHA+keepalived实现Mysql高可用及读写分离
  6. java的tcp通信项目_java实现TCP通信
  7. CentOS 安装最新版本 Git
  8. 01-05 Linux常用命令-性能统计
  9. CC++初学者编程教程(3) 安装VS2010 boost标准库开发环境
  10. # 国王游戏(贪心+大数乘除+微扰法证明)
  11. Epson Perfection V370 Photo图片扫描自动控制
  12. 图书管理系统的分析与设计
  13. FPGA实现360°SG90舵机
  14. html的日期插件标签,CaretTab - 新式可以显示时间和日期的标签
  15. ncbi查找目的基因序列_如何用NCBI和uniprot数据库查找目的蛋白的氨基酸序列或目的基因的碱基序列...
  16. 用标号法求最短路径matlab,标号法求最短路径问题
  17. C语言编程题——杨氏矩阵
  18. hardware计算机专业英语翻译,hardware是什么意思中文翻译
  19. 一杯清茶的时间G-TEA泉舟精英
  20. 添加网站(虚拟主机)

热门文章

  1. 用vb编制一个计算机程序,VB程序题:编一模拟袖珍计算器的完整程序,界面如下图所示。要求:输入两个操作数和一个操作符,根据操作符决定所做的运算。 VB源码 龚沛曾...
  2. android实现调用科大讯飞语音识别功能详细步骤
  3. Oracle:ORA-24247: 网络访问被访问控制列表 (ACL) 拒绝
  4. GA/T1400文档请求失败消息返回提
  5. catia怎样倒2d_Catia Drafting平面图生成 3D 转2D教程.ppt
  6. 「ACM-ICPC基础算法」
  7. 触摸IC(JTW6C12)的踩坑经验
  8. excel工具栏隐藏了怎么办_Office2016基础教程第一章:认识Excel #excel #职场 #办公技巧...
  9. E-prime学习笔记01
  10. 深入浅出通信原理连载1-21(Python代码版)