DQN paper 总结
已读paper
Playing Atari with Deep Reinforcement Learning
Human-level control through deep reinforcement learning
deep-Q-NetWork
思考
1.value-function是如何使用的
2.算法伪代码
3.异策略 行动策略(产生新样本数据的策略,例如e-greedy) 和 评估策略 (Q(s,a)值函数的更新,e.g.选择当前和将来max rewrd的Q(s,a)更新方式)
trick
DQN解决的问题: 非线性逼近action-value常常出现不稳定不收敛的情况
1.experience replay
memory存储previous N个状态集合,形式要求: <s1,a1,r2,s2>,<s2,a2,r3,s3>…
2.单独处理时间差分算法中的TD偏差
target action-value function: r + γMaxQ(s’,a’;θ) 以及需要更新的Q(s,a;θ)
Nerual Net random初始化θ
存在问题: target 以及学习函数使用相同参数使得训练不稳定 方差大
解决方案:
target value-function隔一段固定步数再更新(θ^ = θ) 而Q(s,a;θ)通过SGD不断更新
value-function逼近:
神经网络NN
input:
原始图像像素(灰度+降采样 减少输入维度)
output:
对应action的value(动作集合size在[4,18]之间)
理解
1.target-action-value-function相当于previous的大脑记忆,通过以前的记忆选择可能的action谋取下一步的reward最大化 ==》目标的预测值
2.Q(s,a;θ)通过SGD更新{梯度下降,其中Min-loss-function =(target - Q)^2最小化)
DQN paper 总结相关推荐
- 机器学习之强化学习概览
https://www.toutiao.com/a6683691974433702408/ 2019-04-25 12:58:24 本文翻译自Vishal Maini在Medium平台上发布的< ...
- [PAPER-RECORD]
文章目录 PAPER RECODED [NO.1] [第一次找论文作者要源码] [NO.2] [my blog] [NO.3][余弦相似度] [NO.4][Ablation Study] [NO.5] ...
- Ablation study 是什么意思?
在读论文的时候看到一个短语叫ablation study,这是什么研究方法呢? 就是通过控制变量法证明算法的有效性. ----------------------------------------- ...
- Deep Reinforcement Learning: Pong from Pixels翻译和简单理解
原文链接: http://karpathy.github.io/2016/05/31/rl/ 文章目录 原文链接: 前言 Policy-Gradient结构流程图 Deep Reinforcement ...
- ablation study解释
请看Quora上对于ablation study的解释 高赞答案: An ablation study typically refers to removing some "feature& ...
- Ablation Studies
请看Quora上对于ablation study的解释 高赞答案: An ablation study typically refers to removing some "feature& ...
- 什么是ablation study
解说1 原文链接:https://www.zhihu.com/question/60170398/answer/673961942 目的其实就是为了控制变量. 比如说你为了提升baseline的性能, ...
- Visualizing and Understanding Convolutional Networks - 可视化和理解卷积网络 - 看懂卷积网络
Visualizing and Understanding Convolutional Networks 可视化和理解卷积网络 - 看懂卷积网络 Matthew D Zeiler, Rob Fergu ...
- My Roadmap in Reinforcement Learning
一.前言 前段时间接受导师的建议,学习了一些强化学习和GANs的内容,第一周先看的强化学习,二三周看的GANs.强化学习(RL)是一个很有趣的领域,一直以来也是我很喜欢的一个AI的分支,被誉为是AI皇 ...
最新文章
- 链表中倒数第k个节点
- 利用window.navigator.userAgent判断当前是否微信内置浏览器
- 计数信号量的获取与释放
- PHP——获取路径和目录
- 用面向对象的方法写敲门砖
- 新建虚拟机后打开虚拟机前的设置,防止ip变动
- 哪个服务器比较稳定,云服务器哪个比较稳定
- c语言怎样编写图形,「分享」C语言如何编写图形界面
- linux中id命令的功能,Linux id命令参数及用法详解
- HTML5 实现摄像头实时监控
- Python数据挖掘框架
- 【Redis系列】Redis 入门指南
- office图标空白异常解决方法
- 经典数学问题——三门问题(数据分析面试题)
- AES - Openssl AES 函数说明
- Python爬虫之路-打码平台的使用
- 如何打开虚拟机服务器,虚拟机怎么打开ssh服务器
- ps图层的创建以及样式的添加删除等编辑
- Abp 入门教程 Day02
- 详细解读【文件系统】