强化学习中值迭代收敛性推理证明

在开始证明之前，我想说的是定理是证明给怀疑者，如果你对这个定理不怀疑，那么你就不需要证明。接下来直观感受一下强化学习中值迭代的收敛性。

假设现在的Agent处于一个state sss 下，想要去找一个optimal state，那怎么去找呢？就是遍历所有的policy能够使得当前的statesss，在遍历的某个policy πx\pi_{x}πx下值最大，也就找到了这个state所对应的最大value，用数学语言描述如下：

v∗(s)=max⁡πvπ(s)v_{*}(s) = \max_{\pi} v_{\pi} (s) v∗(s)=πmaxvπ(s)

不用去怀疑，你一定能找到这样的一个最大的state value，因为你遍历了所有的policy。那能够使得state value最大的那个policy πx\pi_{x}πx就是optimal policy π∗\pi^{*}π∗，即πx=π∗\pi_{x} = \pi^{*}πx=π∗。那此时贝尔曼方程就是一个完全收敛的情况，可表示为：

v∗(s)=max⁡aRsa+arg max⁡a∈Aγ∑s′∈SPss′av(s′)v_{*}(s)=\max _{a} \mathcal{R}_{s}^{a}+\argmax_{a \in A}\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v\left(s^{\prime}\right) v∗(s)=amaxRsa+a∈Aargmaxγs′∈S∑Pss′av(s′)

如果不收敛，那它(value)肯定还没有到达optimal variable。上述等式在收敛的情况下就会成立，而不仅仅是一个赋值的关系。

观察上述式子，optimal policy是什么？也即每次是如何take action的呢？也就是等式的右端项：

π∗(s)=arg max⁡a∈A∑s′∈SPss′av(s′)\pi^{*}(s) = \argmax_{a \in A} \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v\left(s^{\prime}\right) π∗(s)=a∈Aargmaxs′∈S∑Pss′av(s′)

那随便给一个状态，我们每次都按照optimal policy去take action，那每次state value都会大于等于之前非最优的policy所得出来的state value吧：

v∗(s)=vπ∗(s)≥vπ(s)v_{*}(s) = v_{\pi *}(s) \geq v_{\pi}(s) v∗(s)=vπ∗(s)≥vπ(s)

也就是说每次都按照optimal policy去take action，state value其实都会有所改进(或者至少不会比以前的差)。那真实的state value总有一个上界吧，总会收敛吧。

Value Iteration

再来看看值迭代value iteration ，其实就是不断地去套bellman equation，就变成了对于每一个state去计算V(s)V(s)V(s)。

V(s)=R(s)+max⁡a∈Aγ∑s′∈SPsa(s′)V(s′)\begin{aligned} V(s) =R(s)+\max _{a \in A}\gamma \sum_{s^{\prime} \in S} P_{s a}\left(s^{\prime}\right) V\left(s^{\prime}\right) \end{aligned} V(s)=R(s)+a∈Amaxγs′∈S∑Psa(s′)V(s′)

这里是没有策略π\piπ的，整个方程就是在表达，policy在take action的时候，就是在take max⁡a∈Aγ∑s′∈SPsa(s′)V(s′)\max _{a \in A}\gamma \sum_{s^{\prime} \in S} P_{sa}\left(s^{\prime}\right)V\left(s^{\prime}\right)maxa∈Aγ∑s′∈SPsa(s′)V(s′)，那在值迭代里面，它自己去维护这样一个value function就可以了。policy只要使得后面上述等式后面那个max成立就可以了。

我的微信公众号名称：深度学习先进智能决策
微信公众号ID：tinyzqh
公众号介绍：主要研究深度学习、强化学习、机器博弈等相关内容！期待您的关注，欢迎一起学习交流进步！

强化学习中值迭代收敛性推理证明相关推荐

【论文知识点笔记】Binarized P-Network（强化学习+保守值迭代+二值化神经网络）
Binarized P-Network(强化学习+保守值迭代+二值化神经网络) 一.强化学习 1. 特点 2. 介绍 3. 知识点 4. 原理 4.1. 马尔科夫决策过程(MDP) 二.保守值迭代(C ...
《强化学习与最优控制》学习笔记（三）：强化学习中值空间近似和策略空间近似概述
写在前面的前一章链接: <强化学习与最优控制>学习笔记(二):强化学习与最优控制的一些术语对比这章主要是对应书中第二章前面的值空间近似和策略空间近似的简要介绍部分. 在本书的第一章就指 ...
强化学习之值迭代求解冰冻湖
理论回顾 [1]. Bellman方程求解 [2]. 3.12 Value Iteration - Frozen Lake Problem.ipynb [3]. 强化学习中马尔科夫决策过程和贝尔曼方程 ...
强化学习之策略迭代求解冰冻湖
理论回顾 [1]. Bellman方程求解 [2]. 3.12 Value Iteration - Frozen Lake Problem.ipynb [3]. 强化学习中马尔科夫决策过程和贝尔曼方程 ...
八千字长文深度解读，迁移学习在强化学习中的应用及最新进展
点击我爱计算机视觉标星,更快获取CVML新技术本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载. 机器之心原创作者:Luo Sainan 编辑:H4O 迁移学习通 ...
转载：强化学习中Bellman最优性方程背后的数学原理？
一. Bellman最优贝尔曼方程在强化学习(RL)中无处不在,它是由美国应用数学家理查德·贝尔曼(Richard Bellman)提出,用于求解马尔可夫决策过程. 贝尔曼最优性方程贝尔曼最优性方 ...
《强化学习周刊》第26期：UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...
No.26 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
强化学习中的脉冲神经网络
简介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...
最新综述 | 强化学习中从仿真器到现实环境的迁移
©PaperWeekly 原创 · 作者|李文浩学校|华东师范大学博士生研究方向|强化学习最近 survey 了一下 sim2real 领域最近的相关工作,先整理个第一版(共有七篇论文)的总结. ...
初探强化学习(10)强化学习中的一些术语（non-stationray，sample efficiency，planning和Learnin，Reward，off-policy和on-policy ）
1. 关于stationray 参考博客. Stationary or not 根据环境是否稳定.可以将强化学习问题分为stationary.non-stationary. 1.1 stationar ...

强化学习中值迭代收敛性推理证明

Value Iteration

强化学习中值迭代收敛性推理证明相关推荐

最新文章

热门文章