【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning

文章目录

所解决的问题？
背景
所采用的方法？
取得的效果？
所出版信息？作者信息？
参考链接

论文题目：Dueling Network Architectures for Deep Reinforcement Learning

所解决的问题？

主要贡献是提出了一种新的应用于强化学习的神经网络框架。

背景

之前对强化学习的改进主要是集中在对现有的网络结构的改变，像什么引入卷积神经网络，LSTM和Autoencoder这些。而这篇文章是提出了一种新的神经网络结构更好地去适应model-free的强化学习算法框架。

所采用的方法？

这篇文章主要是提出了一种新的model-free强化学习框架。主要是将动作值函数拆开来，将其表示为状态值函数 (state values) V(s)V(s)V(s)和动作优势函数 ( (state-dependent) action advantages) A(s,a)A(s,a)A(s,a)，将这两者一结合组成状态动作值函数 (state-action value) Q(s,a)Q(s,a)Q(s,a)。

优势函数(advantage function)的定义如下：

Aπ(s,a)=Qπ(s,a)−Vπ(s)A^{\pi}(s,a)=Q^{\pi}(s,a)-V^{\pi}(s) Aπ(s,a)=Qπ(s,a)−Vπ(s)

其中Ea∼π(s)[Aπ(s,a)]=0\mathbb{E}_{a \sim \pi(s)}\left[A^{\pi}(s, a)\right]=0Ea∼π(s)[Aπ(s,a)]=0。值函数VVV反应的是当前这个状态sss有多好，动作值函数QQQ描述的是在当前这个状态下选择这个动作的好坏程度。而优势函数说的是每个动作的重要程度。

这里主要的思想就是引入一个相对的概念，100+2跟2+2虽然都是多2，但是寓意完全不同。将优势函数和值函数分开它的鲁棒性是会更强的。

上述问题中其实是有一个约束Ea∼π(s)[Aπ(s,a)]=0\mathbb{E}_{a \sim \pi(s)}\left[A^{\pi}(s, a)\right]=0Ea∼π(s)[Aπ(s,a)]=0，并且当你给定一个QQQ的时候，并不能得出独一无二的VVV和AAA。作者在解决这两个问题所做的处理就是将AAA减去一个平均值，这样所有的AAA加起来会等于0，并且能够得到唯一的VVV。其方程可描述为如下形式：

Q(s,a;θ,α,β)=V(s;θ,β)+(A(s,a;θ,α)−1∣A∣∑a′A(s,a′;θ,α))\begin{aligned} Q(s, a ; \theta, \alpha, \beta) &=V(s ; \theta, \beta)+\\ & \left(A(s, a ; \theta, \alpha)-\frac{1}{|\mathcal{A}|} \sum_{a^{\prime}} A\left(s, a^{\prime} ; \theta, \alpha\right)\right) \end{aligned} Q(s,a;θ,α,β)=V(s;θ,β)+(A(s,a;θ,α)−∣A∣1a′∑A(s,a′;θ,α))

其中θ\thetaθ描述的是卷积神经网络参数，α\alphaα，β\betaβ是两个分支的全连接神经网络参数。并且这种方式训练起来会更稳定一些。

Dueling 的这种结构能够去学习：哪个状态是有价值的或者说是没有价值的，而不是去学习在这个状态下哪个动作是有价值的。因为有些情况是，你在当前这个状态下，选择什么动作都是可以的，也就是所选择的动作对环境影响不大。

Value这个分支更关心的路，当然还有分数，当没有车的时候，advantage并不需要关心太多事情，因为做什么动作都不会出太大问题，而当有车的时候，advantage就会关心前方的车辆。

取得的效果？

作者先是在一个简单问题上做了一下实验，实验结果如下所示：

之后作者还将其引用与更加普遍的Atari游戏中，并且在这里就用了限制梯度(gradient clipping) 更新过大的思想。参考的是下面这篇文献。

Bengio, Y., Boulanger-Lewandowski, N., and Pascanu, R. Advances in optimizing recurrent networks. In ICASSP, pp. 8624–8628, 2013.

作者在讨论部分就说了，Dueling的这种结构的优势在于学习效率，ValueV(s)V(s)V(s)的更新将会触及到所有的动作跟着valueV(s)V(s)V(s)一起更新，如果是Q的话，你只能更新当前状态下的状态-动作值函数。

所出版信息？作者信息？

这篇文章来自2016年谷歌DeepMind的文章，被International Conference on Machine Learning收录。作者Ziyu Wang，谷歌DeepMind的研究科学家。博士毕业于Oxford大学，师从Nando de Freitas。早年从事的工作主要是贝叶斯优化，现在主要研究深度强化学习。

参考链接

这篇文章也是受前人Baird思想的启发，将贝尔曼方程的更新分成两部分，状态值函数的更新和优势函数的更新。

Baird, L.C. Advantage updating. Technical Report WLTR-93-1146, Wright-Patterson Air Force Base, 1993.

并且Advantage updating收敛性更好。

Harmon, M.E., Baird, L.C., and Klopf, A.H. Advantage updating applied to a differential game. In G. Tesauro, D.S. Touretzky and Leen, T.K. (eds.), NIPS, 1995.

优势函数只表示单一的一个优势函数。

Harmon, M.E. and Baird, L.C. Multi-player residual advantage learning with general function approximation. Technical Report WL-TR-1065, Wright-Patterson Air Force Base, 1996.

但是它与advantage updating不一样的地方在于，算法是通过网络结构对其解耦，因此可以用于model free 强化学习算法中。

将优势函数用于策略梯度算法其实有很长一段历史了。最早的话可以追溯到2000年sutton的的将函数近似用于策略梯度的这篇论文：

Sutton, R. S., Mcallester, D., Singh, S., and Mansour, Y. Policy gradient methods for reinforcement learning with function approximation. In NIPS, pp. 1057–1063, 2000.

在2015年也有Schulman等人将优势函数应用于减少策略梯度的方差。

Schulman, J., Moritz, P., Levine, S., Jordan, M. I., and Abbeel, P. High-dimensional continuous control using generalized advantage estimation. arXiv preprint arXiv:1506.02438, 2015.

我的微信公众号名称：深度学习与先进智能决策
微信公众号ID：MultiAgent1024
公众号介绍：主要研究分享深度学习、机器博弈、强化学习等相关内容！期待您的关注，欢迎一起学习交流进步！