文章目录

  • 所解决的问题?
  • 背景
  • 所采用的方法?
  • 取得的效果?
  • 所出版信息?作者信息?
  • 参考链接
    • 视觉方面:
    • 语音方面:
  • 论文题目:Playing Atari with Deep Reinforcement Learning

所解决的问题?

  解决从高维传感器获取数据而端到端实现控制的难题(以前很多都是使用手工提取的特征)。所使用的例子:直接用图像数据学会控制Atari游戏,并且达到了人类水平。

背景

  在这之前已经有很多研究工作是直接从高维数据直接获取输出结果的例子。如视觉和语音方面(文末参考文献中有具体文献)。作者将这种处理技术直接用于强化学习中。而由于强化学习学习方式的特殊性(奖励延迟稀疏、状态之间高度相关,强化学习其所学习的数据会发生改变,并不会满足一个固定的分布)。因此将神经网络直接用于强化学习还是会有一定的难度的。

所采用的方法?

  文章基于1992年文献1Q-Learning算法的强化学习框架,结合卷积神经网络强大的图像处理能力从而提出了一个最基本的端到端的高维像素控制策略。

  上述框架是能处理像素这种高维数据的问题,但是强化学习本身的这种数据之间的这种相关性和数据分布的不平稳性依然没有得到解决。作者依据1993年文献2采用经验回放机制来解决这个问题。这种经验回放机制,期望强化学习,学习的分布能够从最开始随机的数据中的慢慢过渡到现在的效果比较好的这种情况中来。

  为了提高强化学习的泛化能力,采用函数近似的方法来评估动作-值函数。Q(s,a;θ)≈Q∗(s,a)Q(s,a;\theta) \approx Q^{*}(s,a)Q(s,a;θ)≈Q∗(s,a)。其核心算法和网络的描述原文如下所示:

  这里需要看懂这个Target Network,以及公式3所有符号以及下标的含义。这个模型的算法是Model-freeoff-policy的。

  其算法伪代码如下所示:

  相比于标准的Q-Learning算法,DQN算法改进如下:

  1. 采用经验回放,样本的使用效率提高;
  2. 随机从经验池中采样,减少数据之间的相关性,会减少更新过程中的方差问题;
  3. 使用经验回放数据会不容易发散。其原文解释如下:

取得的效果?

  作者在2013年文献3所提供的环境Arcade Learning Environment (ALE)中的Atari游戏中实验。同一个网络参数和框架在三个游戏中打败了人类专家。

  最左边这两幅图描述的是平均奖励,看起来是没有收敛;但是右边两幅图预测的最大Q值要平稳很多。也算是给神经网络收敛性做了一个实验证明吧。最终取得的效果以及对后世的影响都是非常巨大的。其性能可与人类选手媲美。

所出版信息?作者信息?

  这篇文章是arXiv上面的一篇文章。第一作者Volodymyr Mnih是Toronto大学的机器学习博士,师从Geoffrey Hinton,同时也是谷歌DeepMind的研究员。硕士读的Alberta大学,师从Csaba Szepesvari

参考链接

  1. Q-Learning算法:Christopher JCH Watkins and Peter Dayan. Q-learning. Machine learning, 8(3-4):279–292, 1992.
  2. experience replay mechanism:Long-Ji Lin. Reinforcement learning for robots using neural networks. Technical report, DTIC Document, 1993.
  3. Marc G Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47:253–279, 2013.
视觉方面:
  • Alex Krizhevsky, Ilya Sutskever, and Geoff Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25, pages 1106–1114, 2012.
  • Volodymyr Mnih. Machine Learning for Aerial Image Labeling. PhD thesis, University of Toronto, 2013.
  • Pierre Sermanet, Koray Kavukcuoglu, Soumith Chintala, and Yann LeCun. Pedestrian detection with unsupervised multi-stage feature learning. In Proc. International Conference on Computer Vision and Pattern Recognition (CVPR 2013). IEEE, 2013.
语音方面:
  • George E. Dahl, Dong Yu, Li Deng, and Alex Acero. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. Audio, Speech, and Language Processing, IEEE Transactions on, 20(1):30 –42, January 2012.

  • Alex Graves, Abdel-rahman Mohamed, and Geoffrey E. Hinton. Speech recognition with deep recurrent neural networks. In Proc. ICASSP, 2013.

我的微信公众号名称:深度学习与先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

【5分钟 Paper】Playing Atari with Deep Reinforcement Learning相关推荐

  1. [DQN] Playing Atari with Deep Reinforcement Learning

    论文链接:https://arxiv.org/abs/1312.5602 引用:Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with d ...

  2. 算法笔记:Playing Atari with Deep Reinforcement Learning

    Playing Atari with Deep Reinforcement Learning 比较尴尬,上篇文章不是DQN的来源,这篇才是.上篇Nature文章对于DQN做出的改进上次没读明白,查看其 ...

  3. 【强化学习】Playing Atari with Deep Reinforcement Learning (2013)

    Playing Atari with Deep Reinforcement Learning (2013) 这篇文章提出了第一个可以直接用强化学习成功学习控制policies的深度学习模型. 输入是r ...

  4. RL论文阅读【一】Playing Atari with Deep Reinforcement Learning

    1 废话 开始要认真的读论文的,计划每天晚上回宿舍看一半,两天看完一篇,第三天写博客总结,虽然有点慢吧,但是积少成多嘛~ 今天先介绍第一篇,也是深度强化学习的开山之作. 2 动机 一般把这篇论文称作深 ...

  5. 深度强化学习篇2:从Playing Atari with Deep Reinforcement Learning 看神经网络的输入,学习的状态空间

    Introduction:学习直接从高维的感观输入(视觉,语音)去直接控制智能体是强化学习一个长期的挑战.一些成功的RL应用都是依赖于hand-crafted的特征.最近深度学习的进步使提取高水平的特 ...

  6. 论文笔记之:Playing Atari with Deep Reinforcement Learning

    Playing Atari with Deep Reinforcement Learning <Computer Science>, 2013 Abstract: 本文提出了一种深度学习方 ...

  7. Paper Reading 1 - Playing Atari with Deep Reinforcement Learning

    来源:NIPS 2013 作者:DeepMind 理解基础: 增强学习基本知识 深度学习 特别是卷积神经网络的基本知识 创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控 ...

  8. 【论文翻译】Playing Atari with Deep Reinforcement Learning

    摘要:我们第一个提出了"利用强化学习从高维输入中直接学习控制策略"的深度学习模型.该模型是一个卷积神经网络,经过Q-learning训练,输入为原始像素,输出为:"用来估 ...

  9. Playing Atari with Deep Reinforcement Learning

    背景 实践中,因为action-value公式对于每个序列是被分别估计的.所以作为替换,在强化学习,通常用一个 函数拟合器 来估计action-value函数,典型的是一个线性拟合器,但是有时候是一个 ...

  10. 论文总结 - Playing Atari with Deep Reinforcement Learning

    论文地址

最新文章

  1. Android 数据库之Cursor
  2. Redis操作List相关API
  3. Hello Blazor:(14)CSS隔离
  4. 怎么格式化电脑_U盘格式化后数据能恢复吗?人人都能学会的恢复方法!
  5. windows端口备忘
  6. PHP利用Mysql锁解决高并发
  7. Contact Manager Web API 示例[4] 异常处理(Exception Handling)
  8. 时间序列深度学习:状态 LSTM 模型预测太阳黑子(二)
  9. Windows jdk下载与安装
  10. 简单三步,教你搭建一个私有云盘
  11. 国外浏览器无法访问apple ID页面,显示502 Bad Gateway,解决方法
  12. ListView分页操作
  13. office软件提示“您的组织策略阻止我们进行该操作”错误的解决办法-终极汇总
  14. 212.样本量和测序深度的Alpha多样性稀释曲线
  15. 用OneTab减少Chrome内存消耗
  16. 7-2 愿天下有情人都是失散多年的兄妹
  17. java学习思维导图(详细)
  18. STM32 W5500以太网通讯
  19. 光伏输出特性matlab,基于MATLAB的光伏模块输出特性及MPPT的建模与仿真
  20. 2010年MCM犯罪学问题评审commentary

热门文章

  1. shell for while循环
  2. HCL之SSH的配置与应用
  3. 网管学习日记-浮动静态路由和负载均衡
  4. 计算机网络网络层之数据报网络
  5. OSPF的Router-id确定顺序和冲突情况
  6. Vmware虚拟机宕机问题处理
  7. 算法学习之路|程序运行时间
  8. python+django(解决对象编码显示Test Object问题)
  9. Redhat 5.4 安装vsftp
  10. 1年内从2000涨到13000的成长经验分享