文章目录

  • 所解决的问题?
  • 背景
  • 所采用的方法?
  • 取得的效果?
  • 所出版信息?作者信息?
  • 参考链接
  • 论文题目:Dueling Network Architectures for Deep Reinforcement Learning

所解决的问题?

  主要贡献是提出了一种新的应用于强化学习的神经网络框架。

背景

  之前对强化学习的改进主要是集中在对现有的网络结构的改变,像什么引入卷积神经网络,LSTMAutoencoder这些。而这篇文章是提出了一种新的神经网络结构更好地去适应model-free的强化学习算法框架。

所采用的方法?

  这篇文章主要是提出了一种新的model-free强化学习框架。主要是将动作值函数拆开来,将其表示为状态值函数 (state values) V(s)V(s)V(s)和动作优势函数 ( (state-dependent) action advantages) A(s,a)A(s,a)A(s,a),将这两者一结合组成状态动作值函数 (state-action value) Q(s,a)Q(s,a)Q(s,a)。

  优势函数(advantage function)的定义如下:

Aπ(s,a)=Qπ(s,a)−Vπ(s)A^{\pi}(s,a)=Q^{\pi}(s,a)-V^{\pi}(s) Aπ(s,a)=Qπ(s,a)−Vπ(s)

  其中Ea∼π(s)[Aπ(s,a)]=0\mathbb{E}_{a \sim \pi(s)}\left[A^{\pi}(s, a)\right]=0Ea∼π(s)​[Aπ(s,a)]=0。值函数VVV反应的是当前这个状态sss有多好,动作值函数QQQ描述的是在当前这个状态下选择这个动作的好坏程度。而优势函数说的是每个动作的重要程度。

  这里主要的思想就是引入一个相对的概念,100+22+2虽然都是多2,但是寓意完全不同。将优势函数和值函数分开它的鲁棒性是会更强的。

  上述问题中其实是有一个约束Ea∼π(s)[Aπ(s,a)]=0\mathbb{E}_{a \sim \pi(s)}\left[A^{\pi}(s, a)\right]=0Ea∼π(s)​[Aπ(s,a)]=0,并且当你给定一个QQQ的时候,并不能得出独一无二的VVV和AAA。作者在解决这两个问题所做的处理就是将AAA减去一个平均值,这样所有的AAA加起来会等于0,并且能够得到唯一的VVV。其方程可描述为如下形式:

Q(s,a;θ,α,β)=V(s;θ,β)+(A(s,a;θ,α)−1∣A∣∑a′A(s,a′;θ,α))\begin{aligned} Q(s, a ; \theta, \alpha, \beta) &=V(s ; \theta, \beta)+\\ & \left(A(s, a ; \theta, \alpha)-\frac{1}{|\mathcal{A}|} \sum_{a^{\prime}} A\left(s, a^{\prime} ; \theta, \alpha\right)\right) \end{aligned} Q(s,a;θ,α,β)​=V(s;θ,β)+(A(s,a;θ,α)−∣A∣1​a′∑​A(s,a′;θ,α))​

  其中θ\thetaθ描述的是卷积神经网络参数,α\alphaα,β\betaβ是两个分支的全连接神经网络参数。并且这种方式训练起来会更稳定一些。

  Dueling 的这种结构能够去学习:哪个状态是有价值的或者说是没有价值的,而不是去学习在这个状态下哪个动作是有价值的。因为有些情况是,你在当前这个状态下,选择什么动作都是可以的,也就是所选择的动作对环境影响不大。

  Value这个分支更关心的路,当然还有分数,当没有车的时候,advantage并不需要关心太多事情,因为做什么动作都不会出太大问题,而当有车的时候,advantage就会关心前方的车辆。

取得的效果?

  作者先是在一个简单问题上做了一下实验,实验结果如下所示:

  之后作者还将其引用与更加普遍的Atari游戏中,并且在这里就用了限制梯度(gradient clipping) 更新过大的思想。参考的是下面这篇文献。

  • Bengio, Y., Boulanger-Lewandowski, N., and Pascanu, R. Advances in optimizing recurrent networks. In ICASSP, pp. 8624–8628, 2013.

  作者在讨论部分就说了,Dueling的这种结构的优势在于学习效率,ValueV(s)V(s)V(s)的更新将会触及到所有的动作跟着valueV(s)V(s)V(s)一起更新,如果是Q的话,你只能更新当前状态下的状态-动作值函数。

所出版信息?作者信息?

  这篇文章来自2016年谷歌DeepMind的文章,被International Conference on Machine Learning收录。作者Ziyu Wang,谷歌DeepMind的研究科学家。博士毕业于Oxford大学,师从Nando de Freitas。早年从事的工作主要是贝叶斯优化,现在主要研究深度强化学习。

参考链接

  这篇文章也是受前人Baird思想的启发,将贝尔曼方程的更新分成两部分,状态值函数的更新和优势函数的更新。

  • Baird, L.C. Advantage updating. Technical Report WLTR-93-1146, Wright-Patterson Air Force Base, 1993.

  并且Advantage updating收敛性更好。

  • Harmon, M.E., Baird, L.C., and Klopf, A.H. Advantage updating applied to a differential game. In G. Tesauro, D.S. Touretzky and Leen, T.K. (eds.), NIPS, 1995.

  优势函数只表示单一的一个优势函数。

  • Harmon, M.E. and Baird, L.C. Multi-player residual advantage learning with general function approximation. Technical Report WL-TR-1065, Wright-Patterson Air Force Base, 1996.

  但是它与advantage updating不一样的地方在于,算法是通过网络结构对其解耦,因此可以用于model free 强化学习算法中。

  将优势函数用于策略梯度算法其实有很长一段历史了。最早的话可以追溯到2000sutton的的将函数近似用于策略梯度的这篇论文:

  • Sutton, R. S., Mcallester, D., Singh, S., and Mansour, Y. Policy gradient methods for reinforcement learning with function approximation. In NIPS, pp. 1057–1063, 2000.

  在2015年也有Schulman等人将优势函数应用于减少策略梯度的方差。

  • Schulman, J., Moritz, P., Levine, S., Jordan, M. I., and Abbeel, P. High-dimensional continuous control using generalized advantage estimation. arXiv preprint arXiv:1506.02438, 2015.

我的微信公众号名称:深度学习与先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning相关推荐

  1. 18 Issues in Current Deep Reinforcement Learning from ZhiHu

    深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章 深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...

  2. 2018 Automatic View Planning with Multi-scale Deep Reinforcement Learning Agents具有多尺度深度的自动视图规划

    目录 摘要 相关工作 方法 状态State 动作Action 奖励Reward 终端状态Terminal State 多尺度代理 实验 数据集 训练 结果 条件 接下来的工作 References 摘 ...

  3. 【论】A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems

    A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems 摘要 自行车共享为旅行提供了 ...

  4. Paper Reading 1 - Playing Atari with Deep Reinforcement Learning

    来源:NIPS 2013 作者:DeepMind 理解基础: 增强学习基本知识 深度学习 特别是卷积神经网络的基本知识 创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控 ...

  5. 【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术

    原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...

  6. 《Deep Reinforcement Learning for Autonomous Driving: A Survey》笔记

    B Ravi Kiran , Ibrahim Sobh , Victor Talpaert , Patrick Mannion , Ahmad A. Al Sallab, Senthil Yogama ...

  7. 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning

    A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...

  8. Decision-making Strategy on Highway for Autonomous Vehicles using Deep Reinforcement Learning

    Decision-making Strategy on Highway for Autonomous Vehicles using Deep Reinforcement Learning 采用深度强化 ...

  9. 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现

    之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...

  10. Deep Reinforcement Learning for Sepsis Treatment文献阅读记录

    Deep Reinforcement Learning for Sepsis Treatment 1 Introduction 本文所提出的是一种基于深度强化学习的脓毒症治疗方法. 使用强化学习而非有 ...

最新文章

  1. WebApi的安全性及其解决方案
  2. JavaScript笔记 基础知识总结2
  3. python中head_Python pandas.DataFrame.head函数方法的使用
  4. Linux X Window 与命令行的切换
  5. 光纤光缆市场需求高于预期 我国将迎来流量经济
  6. 1463. Happiness to People!
  7. c++学习笔记之基础篇
  8. REVERSE-PRACTICE-BUUCTF-25
  9. pcDuino上跑 MQ2 Shield
  10. Linux之apache服务搭建以及浅析web安全
  11. python基础知识专题 - 模块的打包和发布
  12. XML(二)有效的XML: DTD(文档类型定义)介绍与三种使用方式
  13. C# 泛型LIST转DataTable
  14. php 正则 问号,正则表达式的问号需要怎样使用
  15. DaiXT: SpringBoot+JSP
  16. 运放脉冲宽度放大_创鑫激光纳秒级脉冲激光器应用于精细焊接
  17. P4942 小凯的数字
  18. 爱回收递交招股书背后,“买旧不买新”的市场价值如何看待?
  19. 啥是佩奇?用 Python 画给你看
  20. 什么是有源(AON)和无源(PON)光网络?

热门文章

  1. 基于Cocos2d-x开发guardCarrot--6 《保卫萝卜2》解锁天天向上玩法
  2. 基于Cocos2d-x开发guardCarrot--3 《保卫萝卜2》主页面开发(仅使用Cocos2d-x)
  3. mysql建表时添加时间默认值只存储时分秒且自动存储
  4. 华为IS-IS基础配置
  5. LAMP架构调优(四)——资源压缩传输
  6. 华为防火墙管理员角色和级别详解
  7. Spring Boot (一)快速入门
  8. kotlin支持jdk1.8编译,使用Java8特性
  9. 多域名证书的签名和自签名流程
  10. Google IO 2015 Material Now