【ICLR2020】基于模型的强化学习算法玩Atari【附代码】

文章目录

所解决的问题？
背景
所采用的方法？
- 预测Video
- model-based
- 整体算法
取得的效果？
所出版信息？作者信息？
其它参考链接
相关文献

论文题目：Model Based Reinforcement Learning for Atari

所解决的问题？

model-free的强化学习算法已经在Atari游戏上取得了巨大成功，但是与人类选手相比，model-free的强化学习算法需要的交互数据往往大地多。其根本原因在于人类选手能够很容易学习到游戏的大概运行规律，从而进行预测规划。因此为了达到用少量数据学习控制Atari游戏的目的，作者提出了一种基于video prediction models的model based Simulated Policy Learning (SimPLe)算法，来解决需要大量交互数据的问题。在所学到的model上得到的policy，用于原始model上能够取得较好效果。主要贡献在于将planning算法与learned model结合起来，并取得了SOTA效果。

背景

人类选手可以在几分钟内学会玩Atari游戏，而及时最好的model-free强化学习方法也需要成百上千步迭代尝试才能达到，需要几周的训练时间。而人类选手能够做地这么好的原因就是：人类已经具备一些先验知识能够预测游戏接下来的走势。也有一些结合深度学习预测下一帧数据的方法，或者是预测奖励的方法，但是它们大多数都是用于model-free的强化学习算法上。model-free的强化学习算法做地比较好的有：Rainbow和IMPALA两大算法。而基于model-based的强化学习方法能够大大提高采样效率，以往的方法大多都在学习潜在的动力学方程，以及一些新奇的结合好奇心、反事实等东西做一些创新，以及其它的一些改进方法。

所采用的方法？

使用video prediction技术学习model，并且基于所学到的model训练得到policy。

预测Video

这一部分主要是依据Junhyuk Oh 2015年在Atari所做的Video prediction的工作，和Silvia Chiappa在2017年所做的Recurrent environment simulators这两篇文章来做的。本文作者主要是focus在学习如何预测才能更好地玩游戏，而不是在学习如何预测，而学习出来的model用于得到policy，并且在原环境model上也能取得较好效果。

Felix Leibfried在 2016 年将Video prediction的工作扩展到Video和reward的同时预测，但是并没有基于预测结果去做得到policy的这部分工作。大多数的这些类似的工作(包括本文)都是在隐式地编码游戏的模型。

为了获取更好的预测video的网络结构，作者基于models developed in the context of robotics和下述文献提出了stochastic video prediction model。

Aäron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. Neural discrete representation learning. In Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett (eds.), Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 4-9 December 2017, Long Beach, CA, USA, pp. 6306–6315, 2017.
Lukasz Kaiser and Samy Bengio. Discreteauto encoders for sequence models. CoRR, abs/1801. 09797, 2018.

predictive model has stochastic latent variables so it can be applied in highly stochastic environments

model-based

作者用的ppo算法。

整体算法

大体上的思路：其实就是用神经网络构建一个环境模型(world model)，基于这个学习到的world model去得到policy，然后再拿这个policy与真实的环境进行交互，收集数据，然后更新神经网络训练得到的world model。算法伪代码如下：

目的就是为了在减少与真实的环境互动的同时，获得在真实环境上较好的policy。初始的world model训练数据来自真实环境的随机rollout数据。

为了获取更好的world model，作者尝试了很多结构，最终提出一种 novel stochastic video prediction model 如下图所示：

取得的效果？

SimPLe在大多数游戏中比现今的SOTA算法还具有更高的采样效率。具体实验结果可以查看论文，主要是应用在Atari上的工作。

所出版信息？作者信息？

论文已被ICLR2020接收，作者Lukasz Kaiser谷歌大脑成员，主要研究神经网络和NLP领域，早期有做机器博弈相关理论研究。

其它参考链接

官方博客介绍：https://sites.google.com/view/modelbasedrlatari/home
代码链接：https://github.com/tensorflow/tensor2tensor/tree/master/tensor2tensor/rl