DQN paper 总结

已读paper

Playing Atari with Deep Reinforcement Learning

Human-level control through deep reinforcement learning

deep-Q-NetWork

思考
1.value-function是如何使用的
2.算法伪代码
3.异策略行动策略(产生新样本数据的策略,例如e-greedy) 和评估策略 (Q(s,a)值函数的更新,e.g.选择当前和将来max rewrd的Q(s,a)更新方式)

trick
DQN解决的问题: 非线性逼近action-value常常出现不稳定不收敛的情况
1.experience replay
memory存储previous N个状态集合,形式要求: <s1,a1,r2,s2>,<s2,a2,r3,s3>…
2.单独处理时间差分算法中的TD偏差
target action-value function: r + γMaxQ(s’,a’;θ) 以及需要更新的Q(s,a;θ)
Nerual Net random初始化θ
存在问题: target 以及学习函数使用相同参数使得训练不稳定方差大
解决方案:
target value-function隔一段固定步数再更新(θ^ = θ) 而Q(s,a;θ)通过SGD不断更新

value-function逼近:
神经网络NN
input:
原始图像像素(灰度+降采样 减少输入维度)
output:
对应action的value(动作集合size在[4,18]之间)

理解
1.target-action-value-function相当于previous的大脑记忆,通过以前的记忆选择可能的action谋取下一步的reward最大化 ==》目标的预测值
2.Q(s,a;θ)通过SGD更新{梯度下降,其中Min-loss-function =(target - Q)^2最小化)

DQN paper 总结相关推荐

机器学习之强化学习概览
https://www.toutiao.com/a6683691974433702408/ 2019-04-25 12:58:24 本文翻译自Vishal Maini在Medium平台上发布的< ...
[PAPER-RECORD]
文章目录 PAPER RECODED [NO.1] [第一次找论文作者要源码] [NO.2] [my blog] [NO.3][余弦相似度] [NO.4][Ablation Study] [NO.5] ...
Ablation study 是什么意思？
在读论文的时候看到一个短语叫ablation study,这是什么研究方法呢? 就是通过控制变量法证明算法的有效性. ----------------------------------------- ...
Deep Reinforcement Learning: Pong from Pixels翻译和简单理解
原文链接: http://karpathy.github.io/2016/05/31/rl/ 文章目录原文链接: 前言 Policy-Gradient结构流程图 Deep Reinforcement ...
ablation study解释
请看Quora上对于ablation study的解释高赞答案: An ablation study typically refers to removing some "feature& ...
Ablation Studies
请看Quora上对于ablation study的解释高赞答案: An ablation study typically refers to removing some "feature& ...
什么是ablation study
解说1 原文链接:https://www.zhihu.com/question/60170398/answer/673961942 目的其实就是为了控制变量. 比如说你为了提升baseline的性能, ...
Visualizing and Understanding Convolutional Networks - 可视化和理解卷积网络 - 看懂卷积网络
Visualizing and Understanding Convolutional Networks 可视化和理解卷积网络 - 看懂卷积网络 Matthew D Zeiler, Rob Fergu ...
My Roadmap in Reinforcement Learning
一.前言前段时间接受导师的建议,学习了一些强化学习和GANs的内容,第一周先看的强化学习,二三周看的GANs.强化学习(RL)是一个很有趣的领域,一直以来也是我很喜欢的一个AI的分支,被誉为是AI皇 ...

DQN paper 总结

已读paper

Playing Atari with Deep Reinforcement Learning

Human-level control through deep reinforcement learning

DQN paper 总结相关推荐

最新文章

热门文章