地址:https://arxiv.org/abs/1507.06527

文章目录

  • 解决什么
  • 解决办法
  • POMDP
  • Evalution on Standard Atari Games
  • MDP to POMDP Generalization

解决什么

  • 内存限制
  • 每次决策依赖于观测完整的游戏画面

解决办法

使用一个 recurrent LSTM 替代全连接层,称为 DRQN(Deep Recurrent Q-Network):

DQN DRQN

POMDP

文章介绍了 POMDP(partially observation MDP),进而引入 Flickering Atari Games。游戏中的每一帧有 0.5 的概率是模糊的,不可观测,有 0.5 的概率是完整清晰的。

MDP POMDP

Evalution on Standard Atari Games

训练环境和 dqn 相同,MDP 环境,使用连续 4 帧作为输入,所以在 MDP 上的性能不会超过 DQN。

MDP to POMDP Generalization

将在标准 MDP 环境下训练的 DRQN 和 DQN 放在 POMDP 环境下去测试。

train evaluation

在丢失信息的情况下,DRQN 和 DQN 性能均受到影响,但是 DRQN 受到的影响较小,因此体现出 DRQN 的 robustness。

2015 - Deep recurrent q-learning for partially observable MDPs相关推荐

  1. Deep Recurrent Q-Learning for Partially Observable MDPs(DRQN)

    Abstract 深度RL已经为复杂的任务提供了精通的控制器.但是,这些控制器的内存有限,并且依赖于能够在每个决策点感知完整的游戏画面.为了解决这些缺点,本文研究了用循环LSTM替换卷积后的第一个全连 ...

  2. 【论文阅读】Deep Transformer Q-Networks for Partially Observable Reinforcement Learning

    Deep Transformer Q-Networks for Partially Observable Reinforcement Learning 1 本文解决了什么问题? 近年来,以 DQN 为 ...

  3. Deep Q learning: DQN及其改进

    Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经网络来表示 价值函数 策略 模型 使用随机梯度下降(SGD)优化los ...

  4. CNNs and Deep Q Learning

    前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL.这篇博文前半部分介绍DNN.CNN,熟悉这些的读者可以跳过,直接看后半部分的 ...

  5. Learning reward machines for partially observable reinforcement learning论文阅读

    Abstract 这篇文章是基于前面两篇RM文章进行的工作.Reward Machine是一种对reward function基于自动机,结构化的表示,将问题分解成多个子问题,并通过off-polic ...

  6. COMA(一): Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解

    Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解 论文链接:https://papers.nips.c ...

  7. 强化学习入门 : 一文入门强化学习 (Sarsa、Q learning、Monte-carlo learning、Deep-Q-Network等)

    最近博主在看强化学习的资料,找到这两个觉得特别适合入门,一个是"一文入门深度学习",一个是"莫烦PYTHON". 建议:看资料的时候可以多种资料一起参考,一边调 ...

  8. Learning to Communicate with Deep Multi-Agent Reinforcement Learning

    2017Nips的文章,看了一篇18的一篇相关方向的,但是没太明白,第一次看communicate的文章(multi-agent RL with communication),理解的也不太透彻. 大概 ...

  9. 年龄论文阅读——Deep Label Distribution Learning With Label Ambiguity

    论文阅读--Deep Label Distribution Learning With Label Ambiguity 版权声明:本文为博主原创文章,未经博主允许不得转载.https://blog.c ...

最新文章

  1. tableau两个不同的图合并_Tableau可视化分析-业务常用图形绘制1
  2. linux下从git获取有权限的代码,linux下从源代码安装git
  3. linux怎么添加ubuntu源,ubuntu/linuxmint如何添加和删除PPA源
  4. 【日志】2011.12.24
  5. 题目1156:谁是你的潜在朋友
  6. linux系统管理Linux系统实验,实验4-Linux系统管理实验.pdf
  7. jqueryppt_jquery简单实现幻灯片的方法
  8. Python基础(一)简介与安装
  9. 操作系统学习之用C语言模拟LRU算法
  10. 电商美工必看|Banner设计没灵感?传说中大气的画册风格给你灵感
  11. 跨链协议 ChainSwap 将于今晚 9 点在 Uniswap 上进行代币 TOKEN 的 LBP
  12. sha1原型 c语言,SHA1算法实现(C语言)
  13. WP7 : FrameworkDispatcher.Update has not been called when recording audio(wp7 录音)
  14. 【JZOJ4832】【NOIP2016提高A组集训第3场10.31】高维宇宙
  15. 编程中的幂等性(一):http幂等性
  16. STRAIGHT特征提取算法学习
  17. windows10 1050ti vs2015 openc3.2 cuda8.0配置自己的darknetyolov3
  18. 回文串问题(leetcode 125. 验证回文串 c#)
  19. EXCEL,筛选合并单元格后的全部内容
  20. 【codevs 1332】上白泽慧音

热门文章

  1. Office编程中得到extend对象
  2. android取消内存限制吗,Android 内存限制
  3. html文档中怎么区分节点对象节点类型,JavaScript文档对象模型-Element类型
  4. 【机器学习-西瓜书】六、支持向量机:核技巧;软间隔;惩罚因子C;松弛变量
  5. pytorch学习笔记(十三):Dropout
  6. 目标检测之RRPN的学习笔记~
  7. 理解Lucene中的Query
  8. C# Gabbage Collecting System
  9. Altium AD20删除机械层MECH
  10. Markdown标题、行首缩进、换行。csdn(1)