深度学习——A3C算法
A3C算法(Asynchronous Advantage Actor-Critic)
DDPG算法之后,DeepMind对其改造,提出了效果更好的 Asynchronous Advantage Actor-Critic(A3C)算法(论文是 Asynchronous Methods for Deep Reinforcement Learning )。A3C 算法和DDPG类似,通过深度神经网络拟合 policy function 和 value function的估计。改进点在于:
- ① A3C 中有多个 agent 对网络进行异步更新,这样的做法使得样本间的相关性较低,A3C中也无需采用Experience Replay的机制,且支持在线的训练模式。
- ② A3C 有两个输出,其中一个 Softmax output 作为 policy ,而另一个linear output为 value function 。
- ③ A3C 中的Policy network 的评估指标采用的是上面比较了多种评估指标的论文中提到的 Advantage Function(即A值) 而不是 DDPG 中单纯的 Q 值。
下图展示了其网络结构:
从上图可以看出输出包含2个部分,value network 的部分可以用来作为连续动作值的输出,而 policy network 可以作为离散动作值的概率输出,因此能够同时解决前面提到的2类问题。
两个网络的更新公式如下:
A3C 通过创建多个 agent,在多个环境实例中并行且异步的执行和学习,有个潜在的好处是不那么依赖于 GPU 或大型分布式系统,实际上 A3C 可以跑在一个多核 CPU 上,而工程上的设计和优化也是原始paper的一个重点。
深度学习——A3C算法相关推荐
- 深度学习前沿算法思想
转自: 深度学习前沿算法思想 导读 第一版: 深度学习前沿算法思想 深度学习实践:使用Tensorflow实现快速风格迁移 行为识别:让机器学会"察言观色"第一步 第二版: 谷歌首 ...
- (转)深度学习前沿算法思想
深度学习前沿算法思想 本文转自: https://mp.weixin.qq.com/s?__biz=MzA5NDExMTAzNA==&mid=2649981646&idx=2& ...
- Adam 那么棒,为什么还对 SGD 念念不忘?一个框架看懂深度学习优化算法
作者|Juliuszh 链接 | https://zhuanlan.zhihu.com/juliuszh 本文仅作学术分享,若侵权,请联系后台删文处理 机器学习界有一群炼丹师,他们每天的日常是: 拿来 ...
- 近期活动盘点:心电数据标注系统和深度学习诊断算法研究、2019年第六届清华大学大数据社会科学讲习班...
想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 第四期医工结合研讨会:心电数据标注系统和深度学习诊断算法研究 2019年7月11日 7月11日,"医工结合系列研讨会第四期会议: ...
- 谷歌发布深度学习新算法,适用于真实机器人的技能学习
https://www.toutiao.com/a6649215346496504327/ 2019-01-22 15:11:28 通过这种名叫SAC(柔性致动/评价)的强化学习算法,机器人能很快地完 ...
- 2017年深度学习优化算法最新进展:改进SGD和Adam方法
2017年深度学习优化算法最新进展:如何改进SGD和Adam方法 转载的文章,把个人觉得比较好的摘录了一下 AMSGrad 这个前期比sgd快,不能收敛到最优. sgdr 余弦退火的方案比较好 最近的 ...
- 2017年深度学习优化算法最新进展:如何改进SGD和Adam方法?
2017年深度学习优化算法最新进展:如何改进SGD和Adam方法? 深度学习的基本目标,就是寻找一个泛化能力强的最小值,模型的快速性和可靠性也是一个加分点. 随机梯度下降(SGD)方法是1951年由R ...
- Pytorch框架的深度学习优化算法集(优化中的挑战)
个人简介:CSDN百万访问量博主,普普通通男大学生,深度学习算法.医学图像处理专攻,偶尔也搞全栈开发,没事就写文章,you feel me? 博客地址:lixiang.blog.csdn.net Py ...
- 深度学习新算法,完成字里行间的情绪识别
深度学习新算法,完成字里行间的情绪识别 发表于2013-10-12 11:41| 40891次阅读| 来源Wired| 68 条评论| 作者Daniela Hernandez 深度学习人工智能机器学习 ...
最新文章
- stm32显示flash下载失败_STM32大神笔记,超详细单片机学习汇总资料(干货分享4)...
- leetcode算法题--最长公共前缀
- Python 库升级问题-module ‘requests.exceptions‘ has no attribute ‘ReadTimeout‘原因及解决办法
- 计算未来轻沙龙 | 对抗攻击、强化学习,你关心的都在这里!
- MHA+keepalived实现Mysql高可用及读写分离
- java的tcp通信项目_java实现TCP通信
- CentOS 安装最新版本 Git
- 01-05 Linux常用命令-性能统计
- CC++初学者编程教程(3) 安装VS2010 boost标准库开发环境
- # 国王游戏(贪心+大数乘除+微扰法证明)
- Epson Perfection V370 Photo图片扫描自动控制
- 图书管理系统的分析与设计
- FPGA实现360°SG90舵机
- html的日期插件标签,CaretTab - 新式可以显示时间和日期的标签
- ncbi查找目的基因序列_如何用NCBI和uniprot数据库查找目的蛋白的氨基酸序列或目的基因的碱基序列...
- 用标号法求最短路径matlab,标号法求最短路径问题
- C语言编程题——杨氏矩阵
- hardware计算机专业英语翻译,hardware是什么意思中文翻译
- 一杯清茶的时间G-TEA泉舟精英
- 添加网站(虚拟主机)
热门文章
- 用vb编制一个计算机程序,VB程序题:编一模拟袖珍计算器的完整程序,界面如下图所示。要求:输入两个操作数和一个操作符,根据操作符决定所做的运算。 VB源码 龚沛曾...
- android实现调用科大讯飞语音识别功能详细步骤
- Oracle:ORA-24247: 网络访问被访问控制列表 (ACL) 拒绝
- GA/T1400文档请求失败消息返回提
- catia怎样倒2d_Catia Drafting平面图生成 3D 转2D教程.ppt
- 「ACM-ICPC基础算法」
- 触摸IC(JTW6C12)的踩坑经验
- excel工具栏隐藏了怎么办_Office2016基础教程第一章:认识Excel #excel #职场 #办公技巧...
- E-prime学习笔记01
- 深入浅出通信原理连载1-21(Python代码版)