已读paper

Playing Atari with Deep Reinforcement Learning

Human-level control through deep reinforcement learning

deep-Q-NetWork

思考
1.value-function是如何使用的
2.算法伪代码
3.异策略 行动策略(产生新样本数据的策略,例如e-greedy) 和 评估策略 (Q(s,a)值函数的更新,e.g.选择当前和将来max rewrd的Q(s,a)更新方式)

trick
DQN解决的问题: 非线性逼近action-value常常出现不稳定不收敛的情况
1.experience replay
memory存储previous N个状态集合,形式要求: <s1,a1,r2,s2>,<s2,a2,r3,s3>…
2.单独处理时间差分算法中的TD偏差
target action-value function: r + γMaxQ(s’,a’;θ) 以及需要更新的Q(s,a;θ)
Nerual Net random初始化θ
存在问题: target 以及学习函数使用相同参数使得训练不稳定 方差大
解决方案:
target value-function隔一段固定步数再更新(θ^ = θ) 而Q(s,a;θ)通过SGD不断更新

value-function逼近:
神经网络NN
input:
原始图像像素(灰度+降采样 减少输入维度)
output:
对应action的value(动作集合size在[4,18]之间)

理解
1.target-action-value-function相当于previous的大脑记忆,通过以前的记忆选择可能的action谋取下一步的reward最大化 ==》目标的预测值
2.Q(s,a;θ)通过SGD更新{梯度下降,其中Min-loss-function =(target - Q)^2最小化)

DQN paper 总结相关推荐

  1. 机器学习之强化学习概览

    https://www.toutiao.com/a6683691974433702408/ 2019-04-25 12:58:24 本文翻译自Vishal Maini在Medium平台上发布的< ...

  2. [PAPER-RECORD]

    文章目录 PAPER RECODED [NO.1] [第一次找论文作者要源码] [NO.2] [my blog] [NO.3][余弦相似度] [NO.4][Ablation Study] [NO.5] ...

  3. Ablation study 是什么意思?

    在读论文的时候看到一个短语叫ablation study,这是什么研究方法呢? 就是通过控制变量法证明算法的有效性. ----------------------------------------- ...

  4. Deep Reinforcement Learning: Pong from Pixels翻译和简单理解

    原文链接: http://karpathy.github.io/2016/05/31/rl/ 文章目录 原文链接: 前言 Policy-Gradient结构流程图 Deep Reinforcement ...

  5. ablation study解释

    请看Quora上对于ablation study的解释 高赞答案: An ablation study typically refers to removing some "feature& ...

  6. Ablation Studies

    请看Quora上对于ablation study的解释 高赞答案: An ablation study typically refers to removing some "feature& ...

  7. 什么是ablation study

    解说1 原文链接:https://www.zhihu.com/question/60170398/answer/673961942 目的其实就是为了控制变量. 比如说你为了提升baseline的性能, ...

  8. Visualizing and Understanding Convolutional Networks - 可视化和理解卷积网络 - 看懂卷积网络

    Visualizing and Understanding Convolutional Networks 可视化和理解卷积网络 - 看懂卷积网络 Matthew D Zeiler, Rob Fergu ...

  9. My Roadmap in Reinforcement Learning

    一.前言 前段时间接受导师的建议,学习了一些强化学习和GANs的内容,第一周先看的强化学习,二三周看的GANs.强化学习(RL)是一个很有趣的领域,一直以来也是我很喜欢的一个AI的分支,被誉为是AI皇 ...

最新文章

  1. 链表中倒数第k个节点
  2. 利用window.navigator.userAgent判断当前是否微信内置浏览器
  3. 计数信号量的获取与释放
  4. PHP——获取路径和目录
  5. 用面向对象的方法写敲门砖
  6. 新建虚拟机后打开虚拟机前的设置,防止ip变动
  7. 哪个服务器比较稳定,云服务器哪个比较稳定
  8. c语言怎样编写图形,「分享」C语言如何编写图形界面
  9. linux中id命令的功能,Linux id命令参数及用法详解
  10. HTML5 实现摄像头实时监控
  11. Python数据挖掘框架
  12. 【Redis系列】Redis 入门指南
  13. office图标空白异常解决方法
  14. 经典数学问题——三门问题(数据分析面试题)
  15. AES - Openssl AES 函数说明
  16. Python爬虫之路-打码平台的使用
  17. 如何打开虚拟机服务器,虚拟机怎么打开ssh服务器
  18. ps图层的创建以及样式的添加删除等编辑
  19. Abp 入门教程 Day02
  20. 详细解读【文件系统】

热门文章

  1. 命令行工具(Command line tools)
  2. day16多线程网络编程日志枚举
  3. 【深度优先搜索】弹珠游戏
  4. 深入浅出kafka原理-5-kafka同步副本ISR高低水位HW
  5. 分类统计字符—Python
  6. 《数据库系统原理及应用教程》(苗雪兰等,第五版) 实验五:数据库的组合查询和统计查询实验
  7. 回调函数 简单理解
  8. 手机开机接入网络的过程
  9. 创业的捷径!打造黄金人脉!
  10. 集精准翻译与学习助手于一身 搜狗翻译APP实现重磅升级