Rainbow: Combining Improvements in Deep Reinforcement Learning
深度强化学习社区对DQN算法进行了一些独立的改进。然而,目前还不清楚这些扩展中哪些是互补的,可以有效地结合在一起。本文研究了DQN算法的六种扩展,并对它们的组合进行了实证研究。实验表明,该组合在Atari 2600基准上提供了最先进的性能,无论是在数据效率还是最终性能方面。还提供了详细的消融研究的结果,显示了每个组件对整体性能的贡献
背景 :
1)这些算法中的每一种都能单独实现显著的性能改进。由于它们建立在一个共享的框架上,它们可能会被结合起来。
2)本文建议研究一种结合上述所有成分的agent。本文展示了这些不同的想法如何被整合,它们确实在很大程度上是互补的。事实上,它们的组合在来自街机学习环境的57款Atari 2600游戏基准套件上产生了最新的结果,无论是数据效率还是最终性能。展示了消融研究的结果,以帮助理解不同成分的贡献。
简单的描述DQN
DQN算法是一个重要的里程碑,但目前已经发现了该算法的一些局限性,并提出了许多扩展算法。本文提出六个扩展,每个扩展都解决了一个限制并提高了整体性能。为了保持选择的大小可管理,我们选择了一组解决不同问题的扩展(例如,只是众多寻址探索中的一个)。
1.Double Q-learning. 双Q学习解决这种高估问题。
2 Prioritized replay 我们想要更频繁地对这些过渡进行采样,从中我们可以学到很多东西。 作为学习潜力的代表,
Rainbow: Combining Improvements in Deep Reinforcement Learning相关推荐
- 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...
- 18 Issues in Current Deep Reinforcement Learning from ZhiHu
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章 深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...
- 【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术
原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...
- 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
- Deep Reinforcement Learning 深度增强学习资源
http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料 增强学习课程 David Silver (有视频和ppt): http:/ ...
- 深度强化学习(Deep Reinforcement Learning)的资源
深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00| 分类: Torch | 标签:深度强化学习 |举报 |字号 订阅 Goo ...
- 利用Deep Reinforcement Learning训练王者荣耀超强AI
Mastering Complex Control in MOBA Games with Deep Reinforcement Learning (一)知识背景 (二)系统架构 (三)算法结构 3.1 ...
- 论文笔记之:Deep Reinforcement Learning with Double Q-learning
Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract 主流的 Q-learning 算法过高的估计在特 ...
- 深度学习(19): Deep Reinforcement learning(Policy gradientinteract with environment)
Deep Reinforcement learning AL=DL+RL Machine 观察到环境的状态,做出一些行为对环境产生影响,环境根据machine的改变给予一个reward.正向的acti ...
最新文章
- python测试开发自学教程-Web开发哪家强?看我用 Python 写一个颜值测试小工具
- 使用 Python 在 Linux 上实现一键回归测试
- 无限试用CrossOver 15天的办法
- 二级list列表python_Python list 列表
- 【high-speed-downloader】百度网盘不限速下载 支持 Windows 和 Mac
- mysql cluster 宕机 恢复_mysql cluster 集群恢复不起来,还请大神赐教?报错-问答-阿里云开发者社区-阿里云...
- C#3.0 Sepcification(中英文对照) (转)
- 12c oracle 修改内存_Oracle Database 12c In-Memory(内存数据库) 基本原理与简介
- C#通过LPT控制打印机——txt文档读取指令打印条码
- 《车间调度及其遗传算法》学习——前言
- Windows调试技巧工具
- 计算机网络wifi是什么意思,wifi的ssid是什么
- 2022华为机试真题 C++ 实现【勾股数元组】
- android系统蓝牙音箱功能吗,Android蓝牙开发系列文章-其实你的手机可以变成一个蓝牙音箱...
- python解法:【PAT520砖石争霸赛】7-2真的恭喜你(10)
- 单招计算机面试技巧和注意事项,单招面试技巧和注意事项
- 主成分分析PCA并给出解释百分比
- iOS———如何申请苹果公司开发者账号流程详细图文介绍(含邓白氏编码的申请方法详细介绍)
- apache doris windows下fe开发环境搭建
- prototype 原型