Rainbow: Combining Improvements in Deep Reinforcement Learning

深度强化学习社区对DQN算法进行了一些独立的改进。然而，目前还不清楚这些扩展中哪些是互补的，可以有效地结合在一起。本文研究了DQN算法的六种扩展，并对它们的组合进行了实证研究。实验表明，该组合在Atari 2600基准上提供了最先进的性能，无论是在数据效率还是最终性能方面。还提供了详细的消融研究的结果，显示了每个组件对整体性能的贡献

背景：

1）这些算法中的每一种都能单独实现显著的性能改进。由于它们建立在一个共享的框架上，它们可能会被结合起来。

2）本文建议研究一种结合上述所有成分的agent。本文展示了这些不同的想法如何被整合，它们确实在很大程度上是互补的。事实上，它们的组合在来自街机学习环境的57款Atari 2600游戏基准套件上产生了最新的结果，无论是数据效率还是最终性能。展示了消融研究的结果，以帮助理解不同成分的贡献。

简单的描述DQN

DQN算法是一个重要的里程碑，但目前已经发现了该算法的一些局限性，并提出了许多扩展算法。本文提出六个扩展，每个扩展都解决了一个限制并提高了整体性能。为了保持选择的大小可管理，我们选择了一组解决不同问题的扩展(例如，只是众多寻址探索中的一个)。

1.Double Q-learning. 双Q学习解决这种高估问题。

2 Prioritized replay 我们想要更频繁地对这些过渡进行采样，从中我们可以学到很多东西。作为学习潜力的代表，

Rainbow: Combining Improvements in Deep Reinforcement Learning相关推荐

深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述作者: Kai Arulkumaran, Marc Peter Deisenroth ...
18 Issues in Current Deep Reinforcement Learning from ZhiHu
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...
【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术
原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...
论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
Deep Reinforcement Learning 深度增强学习资源
http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料增强学习课程 David Silver (有视频和ppt): http:/ ...
深度强化学习（Deep Reinforcement Learning）的资源
深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00| 分类: Torch | 标签:深度强化学习 |举报 |字号订阅 Goo ...
利用Deep Reinforcement Learning训练王者荣耀超强AI
Mastering Complex Control in MOBA Games with Deep Reinforcement Learning (一)知识背景 (二)系统架构 (三)算法结构 3.1 ...
论文笔记之：Deep Reinforcement Learning with Double Q-learning
Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract 主流的 Q-learning 算法过高的估计在特 ...
深度学习(19): Deep Reinforcement learning（Policy gradientinteract with environment）
Deep Reinforcement learning AL=DL+RL Machine 观察到环境的状态,做出一些行为对环境产生影响,环境根据machine的改变给予一个reward.正向的acti ...

Rainbow: Combining Improvements in Deep Reinforcement Learning

Rainbow: Combining Improvements in Deep Reinforcement Learning相关推荐

最新文章

热门文章