【ICLR2020】Dream to Control：Learning Behaviors by Latent Imagination

文章目录

所解决的问题？
背景
所采用的方法？
取得的效果？
所出版信息？作者信息？

论文题目：Dream to Control：Learning Behaviors by Latent Imagination

所解决的问题？

先学一个环境模型，所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了，作者提出了一种方法，dreamer，在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。

背景

强化学习是需要学习环境的表征的，或者称之为对于环境的理解，从而才能更好的去做泛化。而一个参数化的环境模型无疑是能够促进智能体对于环境的理解。

深度学习所做的表征就是在提取有效信息，因此在提取过后的有效信息的空间(或者称之为隐空间模型)中进行规划，往往能够支持更高效的方式去做规划，或者并行规划。

通常的强化学习方法是学习一个参数化的策略，去最大化期望奖励，或者通过在线规划的方式，去学习一个固定horizon的最大奖励来实现规划，像planet那样，虽然palnet这种无梯度的方式能够较鲁棒地去减少model-bias，但是并没有去提供对未来长期的期望规划。

所采用的方法？

作者提出了一种基于梯度的，在纯隐状态空间中现象的算法。用一种新的actor-critic算法去与所学的环境模型进行交互。因为是在所学的这个环境模型中进行学习，所以能够获得多步的累计奖励，进行多步长期的学习规划。

主要步骤可以分为三大部分：

从过去的经验数据中学习预测未来的奖励。主要是学环境的表征模型p(st∣st−1,at−1,ot)p\left(s_{t} \mid s_{t-1}, a_{t-1}, o_{t}\right)p(st∣st−1,at−1,ot)，转移模型 q(st∣st−1,at−1)q\left(s_{t} \mid s_{t-1}, a_{t-1}\right)q(st∣st−1,at−1)和奖励模型q(rt∣st)q\left(r_{t} \mid s_{t}\right)q(rt∣st)。
学习动作模型和值模型预测隐藏状态空间中的轨迹trajectories。

从一个真实的模型状态sts_{t}st开始往后想象，基于转移模型预测轨迹sτ∼q(sτ∣sτ−1,aτ−1)s_{\tau} \sim q\left(s_{\tau} \mid s_{\tau-1}, a_{\tau-1}\right)sτ∼q(sτ∣sτ−1,aτ−1)，预测奖励rτ∼q(rτ∣sτ)r_{\tau} \sim q\left(r_{\tau} \mid s_{\tau}\right)rτ∼q(rτ∣sτ)，基于所学习的策略aτ∼q(aτ∣sτ)a_{\tau} \sim q\left(a_{\tau} \mid s_{\tau}\right)aτ∼q(aτ∣sτ)，以最大化期望奖励Eq(∑τ=t∞γτ−trτ)\mathrm{E}_{q}\left(\sum_{\tau=t}^{\infty} \gamma^{\tau-t} r_{\tau}\right)Eq(∑τ=t∞γτ−trτ)为目标更新动作模型aτ∼qϕ(aτ∣sτ)a_{\tau} \sim q_{\phi}\left(a_{\tau} \mid s_{\tau}\right)aτ∼qϕ(aτ∣sτ)和值模型vψ(sτ)≈Eq(⋅∣sτ)(∑τ=tt+Hγτ−trτ)v_{\psi}\left(s_{\tau}\right) \approx \mathrm{E}_{q\left(\cdot \mid s_{\tau}\right)}\left(\sum_{\tau=t}^{t+H} \gamma^{\tau-t} r_{\tau}\right)vψ(sτ)≈Eq(⋅∣sτ)(∑τ=tt+Hγτ−trτ)。

在这里还需要注意作者所提出来的这个新型的actor-critic方法：

actor model

动作模型输出的是一个tanh-transformed Gaussian，

aτ=tanh⁡(μϕ(sτ)+σϕ(sτ)ϵ),ϵ∼Normal⁡(0,I)a_{\tau}=\tanh \left(\mu_{\phi}\left(s_{\tau}\right)+\sigma_{\phi}\left(s_{\tau}\right) \epsilon\right), \quad \epsilon \sim \operatorname{Normal}(0, \mathbb{I}) aτ=tanh(μϕ(sτ)+σϕ(sτ)ϵ),ϵ∼Normal(0,I)

动作模型的更新公式为：

max⁡ϕEqθ,qϕ(∑τ=tt+HVλ(sτ))\max _{\phi} \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{\tau=t}^{t+H} \mathrm{~V}_{\lambda}\left(s_{\tau}\right)\right)ϕmaxEqθ,qϕ(τ=t∑t+H Vλ(sτ))

value model

VR(sτ)≐Eqθ,qϕ(∑n=τt+Hrn)\mathrm{V}_{\mathrm{R}}\left(s_{\tau}\right) \doteq \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{n=\tau}^{t+H} r_{n}\right)VR(sτ)≐Eqθ,qϕ(n=τ∑t+Hrn)

上述这个奖励模型就是单纯的奖励累计，并没有考虑对未来的期望收益，这种奖励可以不用值函数。

VNk(sτ)≐Eqθ,qϕ(∑n=τh−1γn−τrn+γh−τvψ(sh))withh=min⁡(τ+k,t+H)\mathrm{V}_{\mathrm{N}}^{k}\left(s_{\tau}\right) \doteq \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{n=\tau}^{h-1} \gamma^{n-\tau} r_{n}+\gamma^{h-\tau} v_{\psi}\left(s_{h}\right)\right) \quad \text{with} \quad h=\min (\tau+k, t+H)VNk(sτ)≐Eqθ,qϕ(n=τ∑h−1γn−τrn+γh−τvψ(sh))withh=min(τ+k,t+H)

VNkV_{N}^{k}VNk能够估计超过kkk步之后的奖励。

Vλ(sτ)≐(1−λ)∑n=1H−1λn−1VNn(sτ)+λH−1VNH(sτ)\mathrm{V}_{\lambda}\left(s_{\tau}\right) \doteq(1-\lambda) \sum_{n=1}^{H-1} \lambda^{n-1} \mathrm{~V}_{\mathrm{N}}^{n}\left(s_{\tau}\right)+\lambda^{H-1} \mathrm{~V}_{\mathrm{N}}^{H}\left(s_{\tau}\right)Vλ(sτ)≐(1−λ)n=1∑H−1λn−1 VNn(sτ)+λH−1 VNH(sτ)

dreamer使用的是Vλ\mathrm{V}_{\lambda}Vλ，一种指数加权平均的奖励，用于平衡kkk步不同的偏差和方差。

值模型的更新公式为：

min⁡ψEqθ,qϕ(∑τ=tt+H12∥vψ(sτ)−Vλ(sτ))∥2)\left.\min _{\psi} \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{\tau=t}^{t+H} \frac{1}{2} \| v_{\psi}\left(s_{\tau}\right)-\mathrm{V}_{\lambda}\left(s_{\tau}\right)\right) \|^{2}\right)ψminEqθ,qϕ(τ=t∑t+H21∥vψ(sτ)−Vλ(sτ))∥2)

基于所学的动作模型与真实环境交互，收集新的数据。

取得的效果？

在DeepMind Control Suite上，对于同一个问题，使用相同的参数，在数据效率，计算时间，和最终性能上都超越了之前的基于模型的和无模型的方法。

学习一个值函数模型能够使得dreamer更加鲁棒。

与基于模型和无模型算法对比结果：

所出版信息？作者信息？

Danijar Hafner，多伦多大学是一个博士生，师从Jimmy Ba和Geoffrey Hinton。主要研究复杂环境中人类的思考法则，目前在研究基于模型的强化学习和无监督学习方向。