文章目录

  • 所解决的问题?
  • 背景
  • 所采用的方法?
    • 预测Video
    • model-based
    • 整体算法
  • 取得的效果?
  • 所出版信息?作者信息?
  • 其它参考链接
  • 相关文献
  • 论文题目:Model Based Reinforcement Learning for Atari

所解决的问题?

  model-free的强化学习算法已经在Atari游戏上取得了巨大成功,但是与人类选手相比,model-free的强化学习算法需要的交互数据往往大地多。其根本原因在于人类选手能够很容易学习到游戏的大概运行规律,从而进行预测规划。因此为了达到用少量数据学习控制Atari游戏的目的,作者提出了一种基于video prediction models的model based Simulated Policy Learning (SimPLe)算法,来解决需要大量交互数据的问题。在所学到的model上得到的policy,用于原始model上能够取得较好效果。主要贡献在于将planning算法与learned model结合起来,并取得了SOTA效果。

背景

  人类选手可以在几分钟内学会玩Atari游戏,而及时最好的model-free强化学习方法也需要成百上千步迭代尝试才能达到,需要几周的训练时间。而人类选手能够做地这么好的原因就是:人类已经具备一些先验知识能够预测游戏接下来的走势。也有一些结合深度学习预测下一帧数据的方法,或者是预测奖励的方法,但是它们大多数都是用于model-free的强化学习算法上。model-free的强化学习算法做地比较好的有:RainbowIMPALA两大算法。而基于model-based的强化学习方法能够大大提高采样效率,以往的方法大多都在学习潜在的动力学方程,以及一些新奇的结合好奇心、反事实等东西做一些创新,以及其它的一些改进方法。

所采用的方法?

  使用video prediction技术学习model,并且基于所学到的model训练得到policy。

预测Video

  这一部分主要是依据Junhyuk Oh 2015年在Atari所做的Video prediction的工作,和Silvia Chiappa在2017年所做的Recurrent environment simulators这两篇文章来做的。本文作者主要是focus在学习如何预测才能更好地玩游戏,而不是在学习如何预测,而学习出来的model用于得到policy,并且在原环境model上也能取得较好效果。

  Felix Leibfried在 2016 年将Video prediction的工作扩展到Video和reward的同时预测,但是并没有基于预测结果去做得到policy的这部分工作。大多数的这些类似的工作(包括本文)都是在隐式地编码游戏的模型。

  为了获取更好的预测video的网络结构,作者基于models developed in the context of robotics和下述文献提出了stochastic video prediction model。

  • Aäron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. Neural discrete representation learning. In Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett (eds.), Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 4-9 December 2017, Long Beach, CA, USA, pp. 6306–6315, 2017.
  • Lukasz Kaiser and Samy Bengio. Discreteauto encoders for sequence models. CoRR, abs/1801. 09797, 2018.

  predictive model has stochastic latent variables so it can be applied in highly stochastic environments

model-based

  作者用的ppo算法。

整体算法

  大体上的思路:其实就是用神经网络构建一个环境模型(world model),基于这个学习到的world model去得到policy,然后再拿这个policy与真实的环境进行交互,收集数据,然后更新神经网络训练得到的world model。算法伪代码如下:

  目的就是为了在减少与真实的环境互动的同时,获得在真实环境上较好的policy。初始的world model训练数据来自真实环境的随机rollout数据。

  为了获取更好的world model,作者尝试了很多结构,最终提出一种 novel stochastic video prediction model 如下图所示:

取得的效果?

  SimPLe在大多数游戏中比现今的SOTA算法还具有更高的采样效率。具体实验结果可以查看论文,主要是应用在Atari上的工作。

所出版信息?作者信息?

  论文已被ICLR2020接收,作者Lukasz Kaiser谷歌大脑成员,主要研究神经网络和NLP领域,早期有做机器博弈相关理论研究。

其它参考链接

  • 官方博客介绍:https://sites.google.com/view/modelbasedrlatari/home
  • 代码链接:https://github.com/tensorflow/tensor2tensor/tree/master/tensor2tensor/rl

相关文献

  • Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Dan Horgan, Bilal Piot, Mohammad Gheshlaghi Azar, and David Silver. Rainbow: Combining improvements in deep reinforcement learning. In Sheila A. McIlraith and Kilian Q. Weinberger (eds.), Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pp. 3215–3222. AAAI Press, 2018

  • Lasse Espeholt, Hubert Soyer, Rémi Munos, Karen Simonyan, Volodymyr Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, Shane Legg, and Koray Kavukcuoglu. IMPALA: scalable distributed deep-rl with importance weighted actor-learner architectures. In Proceedings of the 35th International Conference on Machine Learning, ICML, pp. 1406–1415, 2018.

  • Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, Richard L. Lewis, and Satinder P. Singh. Action conditional video prediction using deep networks in atari games. In NIPS, pp. 2863–2871, 2015.

  • Silvia Chiappa, Sébastien Racanière, Daan Wierstra, and Shakir Mohamed. Recurrent environment simulators. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. OpenReview.net, 2017. URL https: //openreview.net/forum?id=B1s6xvqlx.

  • Felix Leibfried, Nate Kushman, and Katja Hofmann. A deep learning approach for joint video frame and reward prediction in Atari games. CoRR, abs/1611.07078, 2016.

我的微信公众号名称:深度学习先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究深度学习、强化学习、机器博弈等相关内容!期待您的关注,欢迎一起学习交流进步!

【ICLR2020】基于模型的强化学习算法玩Atari【附代码】相关推荐

  1. 上交张伟楠副教授:基于模型的强化学习算法,基本原理以及前沿进展(附视频)

    2020 北京智源大会 本文属于2020北京智源大会嘉宾演讲的整理报道系列.北京智源大会是北京智源人工智能研究院主办的年度国际性人工智能高端学术交流活动,以国际性.权威性.专业性和前瞻性的" ...

  2. 强化学习(十七) 基于模型的强化学习与Dyna算法框架

    在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Base ...

  3. 系统学习深度学习(三十九)--基于模型的强化学习与Dyna算法框架

    转自:https://www.cnblogs.com/pinard/p/10384424.html 在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Poli ...

  4. 初探强化学习(6)到底TMD什么是model-based和model-free(基于模型的强化学习和基于模型的强化学习 TMD的到底是什么)

    0 如何定义无模型和有模型 Model-based和Model-free方法对比 Model-based: 一旦model学好后,就是采用On-Policy的算法: 一旦model学好后,就不需要与真 ...

  5. 基于模型的强化学习比无模型的强化学习更好?错!

    作者 | Carles Gelada and Jacob Buckman 编辑 | DeepRL 来源 | 深度强化学习实验室(ID:Deep-RL) [导读]许多研究人员认为,基于模型的强化学习(M ...

  6. 初探强化学习(7)基于模型的强化学习的应用综述

    本文是直接翻译一篇文章的,我先把原文地址放在这里. 原文名字为:Survey of Model-Based Reinforcement Learning: Applications on Roboti ...

  7. 乔治亚理工提出基于GAN的强化学习算法用于推荐系统

    Generative Adversarial User Model for Reinforcement Learning Based Recommendation System Xinshi Chen ...

  8. 用DQN强化学习算法玩“合成大西瓜”!

    用DQN强化学习算法玩"合成大西瓜"! 完整代码地址: 1. 安装依赖库 2. 设置环境变量 3. 构建多层神经网络 4. 构建DQN算法.Agent和经验池 5. 创建Agent ...

  9. 7. 强化学习之——基于模型的强化学习

    目录 课程大纲 基于模型的强化学习概要 基于环境模型的价值函数优化 model-based value-based RL 基于环境模型的策略优化 model-based policy-based RL ...

  10. GitHub万星资源:强化学习算法实现,教程代码样样全,还有详细学习规划

    点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 鱼羊 发自 凹非寺  量子位 报道 | 公众号 QbitAI 自从有了强化学习(RL) ...

最新文章

  1. Linux那些事儿之我是Sysfs(3)设备模型上层容器
  2. 在线听音乐要收费,你愿意吗?
  3. MyBatisPlus中删除方法deletetById、deleteBatchIds、deleteByMap的使用
  4. 【机器学习基础】数学推导+纯Python实现机器学习算法27:LDA线性判别分析
  5. 收集到的非常好的第三方控件
  6. 学习linux/unix编程方法的建议[转]
  7. 初学者python笔记(迭代器、生成器、三元表达式、列表解析、send()与yield())
  8. 你有什么难忘的出差经历?
  9. 计算机本地用户和组winx,计算机(Winx系统)实用操作手册.doc
  10. IDM6.31注册机
  11. 如何 ping ip 加 端口
  12. 自己做量化交易软件(30)小白量化实战4--动于阴末止于阳极
  13. MAC打开eclipse一直卡在core.ui的解决办法
  14. 2021年Java基础面试题总结
  15. 客户机网络打印不能打印必须重启才能打印一次等假死现象的解决方法
  16. 详解高速缓存存储器的3种映射方式
  17. java生成短网址_最新url.cn短网址缩短生成接口(API)获取方法
  18. 前端学习-VUE框架
  19. 网页服务器修复,网页被劫持 网页被劫持后跳转发布网修复方法
  20. Confluence 7 删除页面和子页面

热门文章

  1. JAVA的Random类介绍
  2. Windows 8实用窍门系列:1.使用Xaml+C#开发第一个Metro Style应用程序
  3. 微软的_tell函数实现
  4. HCIE-Security Day25:DSPN+NHRP+Mgre:实验(四)配置shortcut方式DSPN(OSPF路由协议)
  5. H3C 路由过滤与路由引入
  6. zabbix详解(三)——zabbix源码安装与部署
  7. VXLAN配置实例(四)——VXLAN多租户网络隔离
  8. C语言实现任意两种进制之间互相转换
  9. Cisco 2960密码恢复
  10. 【前端】ACE Editor(代码编辑器) 简易使用示例