解决什么

内存限制
每次决策依赖于观测完整的游戏画面

解决办法

使用一个 recurrent LSTM 替代全连接层，称为 DRQN（Deep Recurrent Q-Network）：

DQN	DRQN

POMDP

文章介绍了 POMDP（partially observation MDP），进而引入 Flickering Atari Games。游戏中的每一帧有 0.5 的概率是模糊的，不可观测，有 0.5 的概率是完整清晰的。

MDP	POMDP

Evalution on Standard Atari Games

训练环境和 dqn 相同，MDP 环境，使用连续 4 帧作为输入，所以在 MDP 上的性能不会超过 DQN。

MDP to POMDP Generalization

将在标准 MDP 环境下训练的 DRQN 和 DQN 放在 POMDP 环境下去测试。

train	evaluation

在丢失信息的情况下，DRQN 和 DQN 性能均受到影响，但是 DRQN 受到的影响较小，因此体现出 DRQN 的 robustness。

2015 - Deep recurrent q-learning for partially observable MDPs相关推荐

Deep Recurrent Q-Learning for Partially Observable MDPs（DRQN）
Abstract 深度RL已经为复杂的任务提供了精通的控制器.但是,这些控制器的内存有限,并且依赖于能够在每个决策点感知完整的游戏画面.为了解决这些缺点,本文研究了用循环LSTM替换卷积后的第一个全连 ...
【论文阅读】Deep Transformer Q-Networks for Partially Observable Reinforcement Learning
Deep Transformer Q-Networks for Partially Observable Reinforcement Learning 1 本文解决了什么问题? 近年来,以 DQN 为 ...
Deep Q learning: DQN及其改进
Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经网络来表示价值函数策略模型使用随机梯度下降(SGD)优化los ...
CNNs and Deep Q Learning
前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL.这篇博文前半部分介绍DNN.CNN,熟悉这些的读者可以跳过,直接看后半部分的 ...
Learning reward machines for partially observable reinforcement learning论文阅读
Abstract 这篇文章是基于前面两篇RM文章进行的工作.Reward Machine是一种对reward function基于自动机,结构化的表示,将问题分解成多个子问题,并通过off-polic ...
COMA(一)： Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解
Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解论文链接:https://papers.nips.c ...
强化学习入门：一文入门强化学习（Sarsa、Q learning、Monte-carlo learning、Deep-Q-Network等）
最近博主在看强化学习的资料,找到这两个觉得特别适合入门,一个是"一文入门深度学习",一个是"莫烦PYTHON". 建议:看资料的时候可以多种资料一起参考,一边调 ...
Learning to Communicate with Deep Multi-Agent Reinforcement Learning
2017Nips的文章,看了一篇18的一篇相关方向的,但是没太明白,第一次看communicate的文章(multi-agent RL with communication),理解的也不太透彻. 大概 ...
年龄论文阅读——Deep Label Distribution Learning With Label Ambiguity
论文阅读--Deep Label Distribution Learning With Label Ambiguity 版权声明:本文为博主原创文章,未经博主允许不得转载.https://blog.c ...

2015 - Deep recurrent q-learning for partially observable MDPs

文章目录