解读【ICLR2020】多伦多大学：基于策略网络的探索模型规划

文章目录

所解决的问题？
背景
所采用的方法？
- 在动作空间中的策略规划
- 在参数空间中的策略规划
- 策略提炼
- 代码实现
取得的效果？
所出版信息？作者信息？

论文题目：Exploring Model-based Planning with Policy Networks

所解决的问题？

结合模型预测控制方法的基于模型的强化学习算法已近取得不错的成绩，但是在模型预测控制那一环中如果采用的是随机动作的话，那效率就会比较低。作者就是在这个规划方面结合了一个策略。

背景

基于模型的强化学习算法学一个model，然后拿这个model产生一些imaginary数据，或者直接优化策略。但是学一个模型就一定会产生误差，而这个误差在长期的规划过程中就会累计，导致这种方法也很难落地。

结合random shooting(RS)算法和模型预测控制(MPC)方法能够获得较好的鲁棒性和稳定性。但是RS这种随机采样出动作的算法效率是比较低的，也较难用于高维、复杂动态的环境中去。

作者将从另外一个视角分析，将之前的采样结合MPC的这种方法看作一个优化问题来求解。在正式介绍Model-Based Policy Planning之前，先需要了解一下Random Shooting算法和PETS算法。

在Random Shooting算法中，我们首先需要收集一个来自真实数据的经验数据D={(st,at,st+1)}\mathcal{D}=\left\{\left(s_{t}, a_{t}, s_{t+1}\right)\right\}D={(st,at,st+1)}。之后学习多个状态转移模型，再结合集成学习得到最终的输出，假设整个参数被定义为ϕ\phiϕ，那这个模型可以表示为fϕ(st+1∣st,at)f_{\phi}\left(s_{t+1} \mid s_{t}, a_{t}\right)fϕ(st+1∣st,at)。在规划的过程中，智能体随机生成KKK个候选动作序列，每个候选动作序列可以定义为a={a0,…,aτ}\mathbf{a}=\left\{a_{0}, \ldots, a_{\tau}\right\}a={a0,…,aτ}，它包含了在规划的horizon τ\tauτ长度的所有控制信号。有了modelshen fϕ(st+1∣st,at)f_{\phi}\left(s_{t+1} \mid s_{t}, a_{t}\right)fϕ(st+1∣st,at)和动作序列a={a0,…,aτ}\mathbf{a}=\left\{a_{0}, \ldots, a_{\tau}\right\}a={a0,…,aτ}之后就可以计算期望奖励了。拿到最大的那个候选动作序列之后，只执行一步action，然后重新开始规划。在PETS中作者使用CEM方法进行规划。

所采用的方法？

作者介绍了两种算法在动作空间中的规划，和在参数空间中的规划。定义：在时间步ttt期望的规划奖励可以表示为：

R(si,ai)=E[∑t=ii+τr(st,at)]\mathcal{R}\left(s_{i}, \mathbf{a}_{i}\right)=\mathbb{E}\left[\sum_{t=i}^{i+\tau} r\left(s_{t}, a_{t}\right)\right]R(si,ai)=E[t=i∑i+τr(st,at)]

其中st+1∼fϕ(st+1∣st,at)s_{t+1} \sim f_{\phi}\left(s_{t+1} \mid s_{t}, a_{t}\right)st+1∼fϕ(st+1∣st,at)，动作序列由一个策略模块生成ai={ai,ai+1,…,ai+τ}\mathbf{a}_{i}=\left\{a_{i}, a_{i+1}, \ldots, a_{i+\tau}\right\}ai={ai,ai+1,…,ai+τ}。由此就可以预测出一个状态的轨迹{si,si+1,…,si+τ}\left\{s_{i}, s_{i+1}, \ldots, s_{i+\tau}\right\}{si,si+1,…,si+τ}。

在动作空间中的策略规划

在动作空间的策略规划方法中，采用一个策略网络去生成一个好的初始动作分布。定义策略网络为π(st)\pi\left(s_{t}\right)π(st)。一旦策略网络在期望的轨迹上生成一个动作序列，我们就可以添加一些高斯噪声到这个候选动作上面去，得到δi={δi,δi+1,…,δi+τ}\delta_{i}=\left\{\delta_{i}, \delta_{i+1}, \ldots, \delta_{i+\tau}\right\}δi={δi,δi+1,…,δi+τ}，然后采用CEM的方式微调均值和方差。在每次CEM迭代规划的时候，都是在所有的候选动作集合中，选取前ξ\xiξ个期望奖励最大的候选动作集合用于更新均值和方差：

Σ′←Cov⁡({δi0,δi1,…,δiξ}),μ′←Mean⁡({δi0,δi1,…,δiξ})\Sigma^{\prime} \leftarrow \operatorname{Cov}\left(\left\{\delta_{i}^{0}, \delta_{i}^{1}, \ldots, \delta_{i}^{\xi}\right\}\right), \mu^{\prime} \leftarrow \operatorname{Mean}\left(\left\{\delta_{i}^{0}, \delta_{i}^{1}, \ldots, \delta_{i}^{\xi}\right\}\right)Σ′←Cov({δi0,δi1,…,δiξ}),μ′←Mean({δi0,δi1,…,δiξ})

算法可描述为：

在参数空间中的策略规划

在动作上加噪声的这种方法改进还是比较小，还是可能会陷入到局部最优中去，因此直接在网络上加噪声可能会更不容易陷入局部最优。定义网络参数为θ\thetaθ，从iii步开始的参数噪声序列为ωi={ωi,ωi+1,…,ωi+τ}\omega_{i}=\left\{\omega_{i}, \omega_{i+1}, \ldots, \omega_{i+\tau}\right\}ωi={ωi,ωi+1,…,ωi+τ}。此时的期望奖励可以表示为：

R(si,ωi)=E[∑t=ii+τr(st,πθ+ωt(st))],\mathcal{R}\left(s_{i}, \boldsymbol{\omega}_{i}\right)=\mathbb{E}\left[\sum_{t=i}^{i+\tau} r\left(s_{t}, \pi_{\theta+\omega_{t}}\left(s_{t}\right)\right)\right],R(si,ωi)=E[t=i∑i+τr(st,πθ+ωt(st))],

其中st+1=fϕ(st+1∣st,πθ+ωt(st))s_{t+1}=f_{\phi}\left(s_{t+1} \mid s_{t}, \pi_{\theta+\omega_{t}}\left(s_{t}\right)\right)st+1=fϕ(st+1∣st,πθ+ωt(st))。之后同样更新均值和方差：

Σ′←Cov⁡({ωi0,ωi1,…,ωiξ}),μ′←Mean⁡({ωi0,ωi1,…,ωiξ})\Sigma^{\prime} \leftarrow \operatorname{Cov}\left(\left\{\boldsymbol{\omega}_{i}^{0}, \boldsymbol{\omega}_{i}^{1}, \ldots, \boldsymbol{\omega}_{i}^{\xi}\right\}\right), \mu^{\prime} \leftarrow \operatorname{Mean}\left(\left\{\boldsymbol{\omega}_{i}^{0}, \boldsymbol{\omega}_{i}^{1}, \ldots, \boldsymbol{\omega}_{i}^{\xi}\right\}\right)Σ′←Cov({ωi0,ωi1,…,ωiξ}),μ′←Mean({ωi0,ωi1,…,ωiξ})

在最终的策略选择上，作者还比较了模型预测控制(MPC)和策略直接控制两种方法。

策略提炼

作者用模仿学习来获取规划的策略，数据来自与MPC采用的最好的动作与真实环境的交互。模仿学习有很多方法，最简单的就是behavior cloning算法：

min⁡θEs,a∈D∥πθ(s)−a∥2\min _{\theta} \mathbb{E}_{s, a \in \mathcal{D}}\left\|\pi_{\theta}(s)-a\right\|^{2}θminEs,a∈D∥πθ(s)−a∥2

我们也可以采用GAN网络来训练一个策略网络：

min⁡πθmax⁡ψEs,a∈Dlog⁡(Dψ(s,a))+Es∈D,z∼N(0,σ0I)log⁡(1−Dψ(s,πθ+z(s)))\min _{\pi_{\theta}} \max _{\psi} \mathbb{E}_{s, a \in \mathcal{D}} \log \left(D_{\psi}(s, a)\right)+\mathbb{E}_{s \in \mathcal{D}, z \sim \mathcal{N}\left(0, \sigma_{0} I\right)} \log \left(1-D_{\psi}\left(s, \pi_{\theta+z}(s)\right)\right)πθminψmaxEs,a∈Dlog(Dψ(s,a))+Es∈D,z∼N(0,σ0I)log(1−Dψ(s,πθ+z(s)))

通过模型学习算法学习planning采样中比较好的算法，然后渐渐地使得整个算法变得更强。

代码实现

tensorflow实现： https://github.com/WilsonWangTHU/POPLIN

取得的效果？

可以看到POPLIN算法采样会有聚焦点的改变。

所出版信息？作者信息？

主页链接：http://www.cs.toronto.edu/~tingwuwang/