深度强化学习社区对DQN算法进行了一些独立的改进。然而,目前还不清楚这些扩展中哪些是互补的,可以有效地结合在一起。本文研究了DQN算法的六种扩展,并对它们的组合进行了实证研究。实验表明,该组合在Atari 2600基准上提供了最先进的性能,无论是在数据效率还是最终性能方面。还提供了详细的消融研究的结果,显示了每个组件对整体性能的贡献

背景 :

1)这些算法中的每一种都能单独实现显著的性能改进。由于它们建立在一个共享的框架上,它们可能会被结合起来。

2)本文建议研究一种结合上述所有成分的agent。本文展示了这些不同的想法如何被整合,它们确实在很大程度上是互补的。事实上,它们的组合在来自街机学习环境的57款Atari 2600游戏基准套件上产生了最新的结果,无论是数据效率还是最终性能。展示了消融研究的结果,以帮助理解不同成分的贡献。

简单的描述DQN

DQN算法是一个重要的里程碑,但目前已经发现了该算法的一些局限性,并提出了许多扩展算法。本文提出六个扩展,每个扩展都解决了一个限制并提高了整体性能。为了保持选择的大小可管理,我们选择了一组解决不同问题的扩展(例如,只是众多寻址探索中的一个)。

1.Double Q-learning.  双Q学习解决这种高估问题。

2 Prioritized replay 我们想要更频繁地对这些过渡进行采样,从中我们可以学到很多东西。 作为学习潜力的代表,

Rainbow: Combining Improvements in Deep Reinforcement Learning相关推荐

  1. 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning

    A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...

  2. 18 Issues in Current Deep Reinforcement Learning from ZhiHu

    深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章 深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...

  3. 【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术

    原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...

  4. 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

    论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21: ...

  5. Deep Reinforcement Learning 深度增强学习资源

    http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料 增强学习课程 David Silver (有视频和ppt): http:/ ...

  6. 深度强化学习(Deep Reinforcement Learning)的资源

    深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00|  分类: Torch |  标签:深度强化学习   |举报 |字号 订阅 Goo ...

  7. 利用Deep Reinforcement Learning训练王者荣耀超强AI

    Mastering Complex Control in MOBA Games with Deep Reinforcement Learning (一)知识背景 (二)系统架构 (三)算法结构 3.1 ...

  8. 论文笔记之:Deep Reinforcement Learning with Double Q-learning

    Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract 主流的 Q-learning 算法过高的估计在特 ...

  9. 深度学习(19): Deep Reinforcement learning(Policy gradientinteract with environment)

    Deep Reinforcement learning AL=DL+RL Machine 观察到环境的状态,做出一些行为对环境产生影响,环境根据machine的改变给予一个reward.正向的acti ...

最新文章

  1. python测试开发自学教程-Web开发哪家强?看我用 Python 写一个颜值测试小工具
  2. 使用 Python 在 Linux 上实现一键回归测试
  3. 无限试用CrossOver 15天的办法
  4. 二级list列表python_Python list 列表
  5. 【high-speed-downloader】百度网盘不限速下载 支持 Windows 和 Mac
  6. mysql cluster 宕机 恢复_mysql cluster 集群恢复不起来,还请大神赐教?报错-问答-阿里云开发者社区-阿里云...
  7. C#3.0 Sepcification(中英文对照) (转)
  8. 12c oracle 修改内存_Oracle Database 12c In-Memory(内存数据库) 基本原理与简介
  9. C#通过LPT控制打印机——txt文档读取指令打印条码
  10. 《车间调度及其遗传算法》学习——前言
  11. Windows调试技巧工具
  12. 计算机网络wifi是什么意思,wifi的ssid是什么
  13. 2022华为机试真题 C++ 实现【勾股数元组】
  14. android系统蓝牙音箱功能吗,Android蓝牙开发系列文章-其实你的手机可以变成一个蓝牙音箱...
  15. python解法:【PAT520砖石争霸赛】7-2真的恭喜你(10)
  16. 单招计算机面试技巧和注意事项,单招面试技巧和注意事项
  17. 主成分分析PCA并给出解释百分比
  18. iOS———如何申请苹果公司开发者账号流程详细图文介绍(含邓白氏编码的申请方法详细介绍)
  19. apache doris windows下fe开发环境搭建
  20. prototype 原型

热门文章

  1. idea配置阿里云镜像失败解决
  2. RAW图像详解及使用Python读取raw格式图像并显示
  3. ffmpeg 265转YUV命令 转码工具,各种格式间互转,计算PSNR
  4. stm32单片机里面的GPIO是什么意思?
  5. 安卓蓝牙开发(1)BLE蓝牙基础知识和一般开发流程
  6. ip地址转换htonl的用法
  7. 输入法自定义短语笔记/md常用配置/搜狗输入法自定义词库推荐
  8. 滁州学院元旦晚会计算机,滁州学院机械学院2017元旦晚会精彩上演
  9. 计算机毕业设计java的婚恋交友动态网站
  10. 泰山众筹如何实现用户主动裂变?