2015 - Deep recurrent q-learning for partially observable MDPs
地址:https://arxiv.org/abs/1507.06527
文章目录
- 解决什么
- 解决办法
- POMDP
- Evalution on Standard Atari Games
- MDP to POMDP Generalization
解决什么
- 内存限制
- 每次决策依赖于观测完整的游戏画面
解决办法
使用一个 recurrent LSTM 替代全连接层,称为 DRQN(Deep Recurrent Q-Network):
DQN | DRQN |
---|---|
POMDP
文章介绍了 POMDP(partially observation MDP),进而引入 Flickering Atari Games。游戏中的每一帧有 0.5 的概率是模糊的,不可观测,有 0.5 的概率是完整清晰的。
MDP | POMDP |
---|---|
Evalution on Standard Atari Games
训练环境和 dqn 相同,MDP 环境,使用连续 4 帧作为输入,所以在 MDP 上的性能不会超过 DQN。
MDP to POMDP Generalization
将在标准 MDP 环境下训练的 DRQN 和 DQN 放在 POMDP 环境下去测试。
train | evaluation |
---|---|
在丢失信息的情况下,DRQN 和 DQN 性能均受到影响,但是 DRQN 受到的影响较小,因此体现出 DRQN 的 robustness。
2015 - Deep recurrent q-learning for partially observable MDPs相关推荐
- Deep Recurrent Q-Learning for Partially Observable MDPs(DRQN)
Abstract 深度RL已经为复杂的任务提供了精通的控制器.但是,这些控制器的内存有限,并且依赖于能够在每个决策点感知完整的游戏画面.为了解决这些缺点,本文研究了用循环LSTM替换卷积后的第一个全连 ...
- 【论文阅读】Deep Transformer Q-Networks for Partially Observable Reinforcement Learning
Deep Transformer Q-Networks for Partially Observable Reinforcement Learning 1 本文解决了什么问题? 近年来,以 DQN 为 ...
- Deep Q learning: DQN及其改进
Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经网络来表示 价值函数 策略 模型 使用随机梯度下降(SGD)优化los ...
- CNNs and Deep Q Learning
前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL.这篇博文前半部分介绍DNN.CNN,熟悉这些的读者可以跳过,直接看后半部分的 ...
- Learning reward machines for partially observable reinforcement learning论文阅读
Abstract 这篇文章是基于前面两篇RM文章进行的工作.Reward Machine是一种对reward function基于自动机,结构化的表示,将问题分解成多个子问题,并通过off-polic ...
- COMA(一): Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解
Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解 论文链接:https://papers.nips.c ...
- 强化学习入门 : 一文入门强化学习 (Sarsa、Q learning、Monte-carlo learning、Deep-Q-Network等)
最近博主在看强化学习的资料,找到这两个觉得特别适合入门,一个是"一文入门深度学习",一个是"莫烦PYTHON". 建议:看资料的时候可以多种资料一起参考,一边调 ...
- Learning to Communicate with Deep Multi-Agent Reinforcement Learning
2017Nips的文章,看了一篇18的一篇相关方向的,但是没太明白,第一次看communicate的文章(multi-agent RL with communication),理解的也不太透彻. 大概 ...
- 年龄论文阅读——Deep Label Distribution Learning With Label Ambiguity
论文阅读--Deep Label Distribution Learning With Label Ambiguity 版权声明:本文为博主原创文章,未经博主允许不得转载.https://blog.c ...
最新文章
- tableau两个不同的图合并_Tableau可视化分析-业务常用图形绘制1
- linux下从git获取有权限的代码,linux下从源代码安装git
- linux怎么添加ubuntu源,ubuntu/linuxmint如何添加和删除PPA源
- 【日志】2011.12.24
- 题目1156:谁是你的潜在朋友
- linux系统管理Linux系统实验,实验4-Linux系统管理实验.pdf
- jqueryppt_jquery简单实现幻灯片的方法
- Python基础(一)简介与安装
- 操作系统学习之用C语言模拟LRU算法
- 电商美工必看|Banner设计没灵感?传说中大气的画册风格给你灵感
- 跨链协议 ChainSwap 将于今晚 9 点在 Uniswap 上进行代币 TOKEN 的 LBP
- sha1原型 c语言,SHA1算法实现(C语言)
- WP7 : FrameworkDispatcher.Update has not been called when recording audio(wp7 录音)
- 【JZOJ4832】【NOIP2016提高A组集训第3场10.31】高维宇宙
- 编程中的幂等性(一):http幂等性
- STRAIGHT特征提取算法学习
- windows10 1050ti vs2015 openc3.2 cuda8.0配置自己的darknetyolov3
- 回文串问题(leetcode 125. 验证回文串 c#)
- EXCEL,筛选合并单元格后的全部内容
- 【codevs 1332】上白泽慧音