强化学习之贝尔曼方程

强化学习

强化学习注重智能体（agent）与环境之间的交互式学习：

强化学习的数据集不是训练初始阶段就有的，而是来自智能体与环境交互才能获得；
强化学习不追求单步决策的最优策略，而是追求与环境交互获得的长期累积奖励。强化学习需要从整体上衡量整个交互过程。智能体在做决策时，会更加偏向于历史交互中带来更多奖励的动作。同时正如发现这些动作一样，未曾选择的动作中可能蕴藏着更优的决策，这鼓励着智能体尝试未曾选择的动作。因此智能体需要平衡利用（exploitation）和探索（exploration）。

马尔可夫决策过程

通常使用马尔可夫决策过程（Markov Decision Process，MDP）来描述强化学习问题。马尔可夫决策过程过程定义为一个六元组M=(S,A,P,r,ρ0,γ)M=(\mathcal{S},\mathcal{A},P,r,\rho_0,\gamma)M=(S,A,P,r,ρ0,γ)：

S\mathcal{S}S表示所有状态（state）的集合，也称为状态空间。状态空间的大小可以是有限的，也可以是无限的。
ρ0(s0)\rho_0(s_0)ρ0(s0)表示初始状态s0s_0s0的分布。
A\mathcal{A}A表示所有动作（action）的集合，也称为动作空间。动作空间同样可以是有限的，也可以是无限的。
P∈R(∣S∣×∣A∣)×∣S∣P\in \mathbb{R}^{(|\mathcal{S}|\times|\mathcal{A}|)\times|\mathcal{S}|}P∈R(∣S∣×∣A∣)×∣S∣表示状态转移概率（state transition probability）。具体来说，P(s′∣s,a)P(s^{\prime}|s,a)P(s′∣s,a)表示在状态sss上执行动作aaa，状态转移到状态s′s^{\prime}s′的概率。显然，对于任意(s,a,s′)(s,a,s^{\prime})(s,a,s′)而言，都有0≤P(s′∣s,a)≤10\le P(s^{\prime}|s,a)\le 10≤P(s′∣s,a)≤1，并且∑s′P(s′∣s,a)=1\sum\limits_{s^{\prime}}P(s^{\prime}|s,a)=1s′∑P(s′∣s,a)=1。
r∈R∣S∣×∣A∣×∣S∣r \in \mathbb{R}^{|\mathcal{S}|\times |\mathcal{A}| \times |\mathcal{\mathcal{S}}|}r∈R∣S∣×∣A∣×∣S∣表示状态转移过程的奖励函数（reward function）。r(st,at,st+1)r(s_t,a_t,s_{t+1})r(st,at,st+1)简记作为rtr_trt，表示在状态sts_tst上执行动作ata_tat后转移到状态st+1s_{t+1}st+1得到的数值奖励。
γ\gammaγ表示状态转移过程中的折扣系数（discount coefficient），通常在区间(0,1)(0,1)(0,1)中。

不同设定的马尔可夫决策过程，会影响到强化学习算法设计以及理论分析。马尔可夫决策过程有一个重要性质——马尔可夫性质P(st∣s0,a0,s1,a1,⋯,st−1,at−1)=P(st∣st−1,at−1)P(s_t|s_0,a_0,s_1,a_1,\cdots,s_{t-1},a_{t_-1})=P(s_t|s_{t-1},a_{t-1})P(st∣s0,a0,s1,a1,⋯,st−1,at−1)=P(st∣st−1,at−1)表示下一个时间步的状态只受到当前状态和动作的影响。马尔可夫性质简化了交互过程中状态动作之间的相互影响。

如上图所示是智能体与环境之间交互的示意图，首先从初始状态分布中产生一个初始状态s0s_0s0。然后智能体采用策略π\piπ产生当前状态对应的动作a0a_0a0，并在环境中执行动作a0a_0a0。环境将根据智能体的行为产生对应的奖励r0r_0r0和下一个状态s1s_1s1。重复进行这个交互过程，智能体就可以得到一系列状态，动作和奖励，{s0,a0,r0,s1,a1,r1,⋯}\{s_0,a_0,r_0,s_1,a_1,r_1,\cdots\}{s0,a0,r0,s1,a1,r1,⋯}，称为当前策略的一个轨迹（trajectory）。这个轨迹可以拆分成一个一个的(st,at,rt,st+1)(s_t,a_t,r_t,s_{t+1})(st,at,rt,st+1)，将其称为状态转移样本。如果这个交互过程是周期的，那么智能体与环境交互一定的时间步之后，整个交互过程会重置。如果这个交互过程是无限期的，那么智能体与环境可以一直交互下去，直到触发终止条件。

强化学习的优化目标

强化学习考虑智能体与环境交互产生的长期累积奖励。具体来说，对于每条轨迹，如果给未来的奖励加上折扣系数γ\gammaγ，可以计算一个累积奖励GtG_tGt Gt=∑i=tTγi−tri=rt+γ⋅rt+1+γ2⋅rt+2+⋯+γT−t⋅rTG_t = \sum\limits_{i=t}^T \gamma^{i-t} r_i=r_t+\gamma \cdot r_{t+1} + \gamma^2 \cdot r_{t+2}+ \cdots + \gamma^{T-t}\cdot r_{T}Gt=i=t∑Tγi−tri=rt+γ⋅rt+1+γ2⋅rt+2+⋯+γT−t⋅rT如果智能体和环境的交互是无限的，即T→∞T \rightarrow \inftyT→∞，此时累计奖励GtG_tGt的计算公式为Gt=∑i=t∞γi−tri=rt+γ⋅rt+1+γ2⋅rt+2+γ3⋅rt+3+⋯G_t = \sum\limits_{i=t}^\infty \gamma^{i-t} r_i=r_t+\gamma \cdot r_{t+1} + \gamma^2 \cdot r_{t+2}+ \gamma^3 \cdot r_{t+3} +\cdots Gt=i=t∑∞γi−tri=rt+γ⋅rt+1+γ2⋅rt+2+γ3⋅rt+3+⋯折扣系数通常在0到1之间，从而使得以上优化目标在无穷时间步的情况下具有数学意义的上界，便于研究分析。折扣系数越趋近于0，优化目标越注重短期收益；越趋近于1，优化目标越注重长期累积收益。如果有两个策略，一个策略在初始步中具有短暂非常高的奖励，但之后得分较低；另一个策略在整个过程中都保持着比较稳定的奖励。这两个策略长期累积奖励是一样的。平均累积奖励将无法区分这两种策略。折扣累积奖励在折扣系数趋于0时将更加偏好第一个策略。强化学习领域通常使用折扣累积奖励作为优化目标。

值函数和贝尔曼方程

值函数（value funciton）用来描述当前状态对应的预期累积奖励。值函数分为两种，状态值函数（state value function）和状态动作值函数（state-action value functon），区别在于前者将状态映射到未来期望累积奖励，即S→R\mathcal{S}\rightarrow \mathbb{R}S→R；后者将状态动作映射到未来期望累积奖励，即S×A→R\mathcal{S}\times \mathcal{A}\rightarrow \mathbb{R}S×A→R。
给定马尔可夫决策过程MMM和策略π\piπ，状态价值函数定义如下，Vπ(s)=Est,at,st+1,⋯,∼π[Gt∣st=s]=Est,at,st+1,⋯,∼π[∑i=t∞γi−tri∣st=s]=Est,at,st+1,⋯,∼π[rt+γ∑i=t+1∞γi−(t+1)ri∣st=s]=Est,at,st+1,⋯,∼π[rt+γGt+1∣st=s]\begin{aligned}V_{\pi}(s)&=\mathbb{E}_{s_t,a_t,s_{t+1},\cdots,\sim \pi}\left[G_t|s_t=s\right]\\&=\mathbb{E}_{s_t,a_t,s_{t+1},\cdots,\sim \pi}\left[\left.\sum\limits_{i=t}^{\infty}\gamma^{i-t}r_i \right|s_t=s \right]\\ &=\mathbb{E}_{s_t,a_t,s_{t+1},\cdots,\sim \pi}\left[\left. r_t+\gamma \sum\limits_{i=t+1}^{\infty}\gamma^{i-(t+1)}r_i \right|s_t =s\right]\\&=\mathbb{E}_{s_t,a_t,s_{t+1},\cdots,\sim \pi}\left[r_t+\gamma G_{t+1}|s_t=s\right]\end{aligned}Vπ(s)=Est,at,st+1,⋯,∼π[Gt∣st=s]=Est,at,st+1,⋯,∼π[i=t∑∞γi−tri∣∣st=s]=Est,at,st+1,⋯,∼π[rt+γi=t+1∑∞γi−(t+1)ri∣∣st=s]=Est,at,st+1,⋯,∼π[rt+γGt+1∣st=s]其中，st,at,st+1,⋯,∼πs_t,a_t,s_{t+1},\cdots,\sim \pist,at,st+1,⋯,∼π表示轨迹来自策略π\piπ与环境的交互。上式表示从状态st=ss_t=sst=s出发，智能体使用策略π\piπ与环境交互得到的期望累积奖励。
类似地，可以定义状态动作价值函数Qπ(s,a)=Est,at,st+1,at+1,st+2,⋯,∼π[Gt∣st=s,at=a]=Est+1,at+1,st+2,⋯,∼π[Gt∣st=s,at=a]=Est+1,at+1,st+2,⋯,∼π[∑i=t∞γi−tri∣st=s,at=a]=Est+1,at+1,st+2,⋯,∼π[rt+γ∑i=t+1∞γi−(t+1)ri∣st=s,at=a]=Est+1,at+1,st+2,⋯,∼π[rt+γGt+1∣st=s,at=a]\begin{aligned}Q_{\pi}(s,a)&=\mathbb{E}_{s_t,a_t,s_{t+1},a_{t+1},s_{t+2},\cdots,\sim \pi}\left[G_t|s_t=s,a_t=a\right]\\&=\mathbb{E}_{s_{t+1},a_{t+1},s_{t+2},\cdots,\sim \pi}\left[G_t|s_t=s,a_t=a\right]\\&=\mathbb{E}_{s_{t+1},a_{t+1},s_{t+2},\cdots,\sim \pi}\left[\left.\sum\limits_{i=t}^{\infty}\gamma^{i-t}r_i\right|s_t=s,a_t=a\right]\\&=\mathbb{E}_{s_{t+1},a_{t+1},s_{t+2},\cdots,\sim \pi}\left[\left. r_t+\gamma \sum\limits_{i=t+1}^{\infty}\gamma^{i-(t+1)}r_i \right|s_t=s,a_t=a \right]\\&=\mathbb{E}_{s_{t+1},a_{t+1},s_{t+2},\cdots,\sim \pi}\left[r_t+\gamma G_{t+1}|s_t=s,a_t=a\right]\end{aligned}Qπ(s,a)=Est,at,st+1,at+1,st+2,⋯,∼π[Gt∣st=s,at=a]=Est+1,at+1,st+2,⋯,∼π[Gt∣st=s,at=a]=Est+1,at+1,st+2,⋯,∼π[i=t∑∞γi−tri∣∣st=s,at=a]=Est+1,at+1,st+2,⋯,∼π[rt+γi=t+1∑∞γi−(t+1)ri∣∣st=s,at=a]=Est+1,at+1,st+2,⋯,∼π[rt+γGt+1∣st=s,at=a]表示从状态sts_tst出发，执行动作ata_tat后，智能体使用策略π\piπ与交互得到的期望累积奖励。
贝尔曼方程（Bellman equation）是一个动态规划方程。它是强化学习算法中的核心等式，构建了状态转移前后值函数之间的递归关系。对于任意概率性策略π\piπ而言，状态价值的贝尔曼期望方程为：Vπ(s)=Est,at,st+1,⋯,∼π[Gt∣st=s]=Est,at,st+1,⋯,∼π[rt+γGt+1∣st=s]=∑a∈Aπ(a∣s)∑s′∈Sp(s′∣s,a)Est+1,at+1,st+2,⋯,∼π[r(s,a,s′)+γGt+1∣st+1=s′]=∑a∈Aπ(a∣s)∑s′∈Sp(s′∣s,a)[r(s,a,s′)+γEst+1,at+1,st+2,⋯,∼π[Gt+1∣st+1=s′]]=∑a∈Aπ(a∣s)∑s′∈Sp(s′∣s,a)[r(s,a,s′)+γVπ(s′)]]\begin{aligned}V_{\pi}(s)&=\mathbb{E}_{s_t,a_t,s_{t+1},\cdots,\sim \pi}\left[G_t|s_t=s\right]\\&=\mathbb{E}_{s_t,a_t,s_{t+1},\cdots,\sim \pi}\left[r_t+\gamma G_{t+1}|s_t=s\right]\\&=\sum\limits_{a \in \mathcal{A}} \pi(a | s)\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)\mathbb{E}_{s_{t+1},a_{t+1},s_{t+2},\cdots,\sim \pi}\left[r(s,a,s^{\prime})+\gamma G_{t+1}|s_{t+1}=s^{\prime}\right]\\&=\sum\limits_{a \in \mathcal{A}} \pi(a | s)\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)\left[r(s,a,s^{\prime})+\gamma \mathbb{E}_{s_{t+1},a_{t+1},s_{t+2},\cdots,\sim \pi}[G_{t+1}|s_{t+1}=s^{\prime}\right]]\\&=\sum\limits_{a \in \mathcal{A}} \pi(a | s)\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)\left[r(s,a,s^{\prime})+\gamma V_{\pi}(s^{\prime})\right]]\end{aligned}Vπ(s)=Est,at,st+1,⋯,∼π[Gt∣st=s]=Est,at,st+1,⋯,∼π[rt+γGt+1∣st=s]=a∈A∑π(a∣s)s′∈S∑p(s′∣s,a)Est+1,at+1,st+2,⋯,∼π[r(s,a,s′)+γGt+1∣st+1=s′]=a∈A∑π(a∣s)s′∈S∑p(s′∣s,a)[r(s,a,s′)+γEst+1,at+1,st+2,⋯,∼π[Gt+1∣st+1=s′]]=a∈A∑π(a∣s)s′∈S∑p(s′∣s,a)[r(s,a,s′)+γVπ(s′)]]
状态动作价值函数的贝尔曼期望方程为：
Qπ(s,a)=Est,at,st+1,at+1,st+2,⋯,∼π[Gt∣st=s,at=a]=Est+1,at+1,st+2,⋯,∼π[rt+γGt+1∣st=s,at=a]=∑s′∈Sp(s′∣s,a)Est+1,at+1,st+2,⋯,∼π[r(s,a,s′)+γGt+1∣st+1=s′]=∑s′∈Sp(s′∣s,a)[r(s,a,s′)+γEst+1,at+1,st+2,⋯,∼π[Gt+1∣st+1=s′]]=∑s′∈Sp(s′∣s,a)[r(s,a,s′)+γVπ(s′)]=∑s′∈Sp(s′∣s,a)[r(s,a,s′)+γ∑a′∈Aπ(a′∣s′)Qπ(s′,a′)]\begin{aligned}Q_{\pi}(s,a)&=\mathbb{E}_{s_t,a_t,s_{t+1},a_{t+1},s_{t+2},\cdots,\sim \pi}\left[G_t|s_t=s,a_t=a\right]\\&=\mathbb{E}_{s_{t+1},a_{t+1},s_{t+2},\cdots,\sim \pi}\left[r_t+\gamma G_{t+1}|s_t=s,a_t=a\right]\\&=\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)\mathbb{E}_{s_{t+1},a_{t+1},s_{t+2},\cdots,\sim \pi}\left[r(s,a,s^{\prime})+\gamma G_{t+1}|s_{t+1}=s^{\prime}\right]\\&=\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)\left[r(s,a,s^{\prime})+\gamma \mathbb{E}_{s_{t+1},a_{t+1},s_{t+2},\cdots,\sim \pi}[G_{t+1}|s_{t+1}=s^{\prime}\right]]\\&=\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)\left[r(s,a,s^{\prime})+\gamma V_\pi(s^{\prime})\right]\\&=\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)\left[r(s,a,s^{\prime})+\gamma \sum\limits_{a^{\prime}\in \mathcal{A}}\pi(a^{\prime}|s^{\prime})Q_{\pi}(s^{\prime},a^{\prime})\right]\end{aligned}Qπ(s,a)=Est,at,st+1,at+1,st+2,⋯,∼π[Gt∣st=s,at=a]=Est+1,at+1,st+2,⋯,∼π[rt+γGt+1∣st=s,at=a]=s′∈S∑p(s′∣s,a)Est+1,at+1,st+2,⋯,∼π[r(s,a,s′)+γGt+1∣st+1=s′]=s′∈S∑p(s′∣s,a)[r(s,a,s′)+γEst+1,at+1,st+2,⋯,∼π[Gt+1∣st+1=s′]]=s′∈S∑p(s′∣s,a)[r(s,a,s′)+γVπ(s′)]=s′∈S∑p(s′∣s,a)[r(s,a,s′)+γa′∈A∑π(a′∣s′)Qπ(s′,a′)]
由上公式推导可以发现状态价值函数和状态动作价值函数可以相互转换
Vπ(s)=∑a∈Aπ(a∣s)Qπ(s,a)Qπ(s,a)=r(s,a)+γ∑s′∈SP(s′∣s,a)V(s′)\begin{aligned}V_{\pi}(s)&=\sum\limits_{a\in \mathcal{A}}\pi(a|s)Q_{\pi}(s,a)\\Q_{\pi}(s,a)&=r(s,a)+\gamma\sum\limits_{s^{\prime}\in \mathcal{S}}P(s^{\prime}|s,a)V(s^{\prime})\end{aligned}Vπ(s)Qπ(s,a)=a∈A∑π(a∣s)Qπ(s,a)=r(s,a)+γs′∈S∑P(s′∣s,a)V(s′)

π(a∣s)\pi(a|s)π(a∣s)和p(s′∣s,a)p(s^{\prime}|s,a)p(s′∣s,a)的探讨

当前状态sss，执行动作aaa，和下一状态s′s^{\prime}s′，以及相关的概率分布π(a∣s)\pi(a|s)π(a∣s)和p(s′∣s,a)p(s^{\prime}|s,a)p(s′∣s,a)的关系示意图如下所示。策略π(a∣s)\pi(a|s)π(a∣s)是状态价值函数VVV和状态动作价值函数QQQ里非常重要的一个概率分布，它表示的是给定状态sss，动作aaa的概率分布。当π\piπ是确定性策略的时候，即给定状态sss后，输出的动作aaa就是明确的，则有π(a∣s)=1\pi(a|s)=1π(a∣s)=1或π(s)=a\pi(s)=aπ(s)=a。当π\piπ是一个随机性策略的时候，即给定状态sss后，输出的动作aaa是一个概率分布，则有a∼π(⋅∣s)a \sim \pi(\cdot|s)a∼π(⋅∣s)。

转移概率p(s′∣s,a)p(s^{\prime}|s,a)p(s′∣s,a)是状态动作价值函数QQQ中一个非常重要的概率分布，它表示的是给定当前状态sss和动作aaa，下一个状态s′s^{\prime}s′的概率分布。这里需要值得注意的是，动作空间A\mathcal{A}A的划分的不同会对转移概率p(s′∣s,a)p(s^{\prime}|s,a)p(s′∣s,a)有很直接的影响。中国象棋棋盘里“仕”只能在四宫格里进行对角走动，假定当前状态sss表示的是“仕”在四宫格的中心位置，执行动作空间A1={\mathcal{A_1}=\{A1={仕五进六，仕五进四，仕五退六，仕五退四}\}}里个一个动作aaa，进入到一下个状态s′s^{\prime}s′，此时则有转移概率p(si′∣s1,ai)=1(i∈{1,2,3,4})p(s_i^{\prime}|s_1,a_i)=1(i\in\{1,2,3,4\})p(si′∣s1,ai)=1(i∈{1,2,3,4})，即给定当前状态sss和动作aaa，那么下一个状态s′s^{\prime}s′就确定了。

如下图所示，当把动作空间划分为A2={\mathcal{A_2}=\{A2={进仕，退仕}\}}，相对动作空间A1\mathcal{A_1}A1的划分颗粒度更大，其中“进仕”这个动作又可以划分为仕五进六，仕五进四这两个动作；“退仕”这个动作又可以划分为仕五进六，仕五进四这两个动作。此时给定当前状态sss和动作aaa，那么下一个状态s′s^{\prime}s′具有概率性，即0≤p(si′∣s1,ak)≤1(k∈{1,2},i∈{1,2,3,4})0 \le p(s_i^{\prime}|s_1,a_k)\le1(k\in \{1,2\}, i\in\{1,2,3,4\})0≤p(si′∣s1,ak)≤1(k∈{1,2},i∈{1,2,3,4})。

相关定理证明

定理1：给定一个策略π\piπ，状态价值函数Vπ(s)V_\pi(s)Vπ(s)的贝尔曼算子M\mathcal{M}M为M[Vπ(s)]=∑a∈Aπ(a∣s)∑s′∈Sp(s′∣s,a)[r(s,a,s′)+γVπ(s′)],∀s∈S\mathcal{M}[V_\pi(s)]=\sum\limits_{a \in \mathcal{A}} \pi(a | s)\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)\left[r(s,a,s^{\prime})+\gamma V_{\pi}(s^{\prime})\right],\quad \forall s \in \mathcal{S}M[Vπ(s)]=a∈A∑π(a∣s)s′∈S∑p(s′∣s,a)[r(s,a,s′)+γVπ(s′)],∀s∈S可知状态价值函数Vπ(s)V_\pi(s)Vπ(s)的贝尔曼算子M\mathcal{M}M是收敛的。

证明：在策略π\piπ下，给定任意两个在状态sss下的状态价值函数Vπ1(s)V_\pi^1(s)Vπ1(s)和Vπ2(s)V_\pi^2(s)Vπ2(s)，则有∣M[Vπ1(s)]−M[Vπ2(s)]∣=∣∑α∈Aπ(a∣s)∑s′∈Sp(s′∣s,a)[γ(Vπ1(s′)−Vπ2(s′))]∣≤γ∑α∈Aπ(a∣s)∑s′∈Sp(s′∣s,a)∣Vπ1(s′)−Vπ2(s′)∣≤γ∑α∈Aπ(a∣s)∑s′∈Sp(s′∣s,a)(max⁡s′′∈S∣Vπ1(s′′)−Vπ2(s′′)∣)=γmax⁡s′′∈S∣Vπ1(s′′)−Vπ2(s′′)∣=γ∥Vπ1−Vπ2∥∞\begin{aligned}\left|\mathcal{M}[V_\pi^1 (s)]-\mathcal{M}[V_\pi^2 (s)]\right|&=\left|\sum\limits_{\alpha\in \mathcal{A}}\pi(a|s)\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)\left[\gamma(V^1_\pi(s^{\prime})-V^2_\pi(s^{\prime}))\right]\right|\\&\le\gamma \sum\limits_{\alpha\in \mathcal{A}}\pi(a|s)\sum\limits_{s^{\prime}\in S}p(s^{\prime}|s,a)|V_\pi^{1}(s^{\prime})-V_\pi^2(s^{\prime})|\\&\le\gamma \sum\limits_{\alpha \in \mathcal{A}}\pi(a|s)\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)\left(\max\limits_{s^{\prime\prime}\in \mathcal{S}}\left|V_\pi^1(s^{\prime\prime})-V_\pi^2(s^{\prime\prime})\right|\right)\\&=\gamma \max\limits_{s^{\prime\prime}\in \mathcal{S}}|V_\pi^1(s^{\prime\prime})-V_\pi^2(s^{\prime\prime})|\\&=\gamma\|V^1_{\pi}-V^2_{\pi}\|_{\infty}\end{aligned}∣∣M[Vπ1(s)]−M[Vπ2(s)]∣∣=∣∣α∈A∑π(a∣s)s′∈S∑p(s′∣s,a)[γ(Vπ1(s′)−Vπ2(s′))]∣∣≤γα∈A∑π(a∣s)s′∈S∑p(s′∣s,a)∣Vπ1(s′)−Vπ2(s′)∣≤γα∈A∑π(a∣s)s′∈S∑p(s′∣s,a)(s′′∈Smax∣∣Vπ1(s′′)−Vπ2(s′′)∣∣)=γs′′∈Smax∣Vπ1(s′′)−Vπ2(s′′)∣=γ∥Vπ1−Vπ2∥∞由上公式可以推知，给定一个状态空间S\mathcal{S}S，则有∥M[Vπ1]−M[Vπ2]∥∞≤γ∥Vπ1−Vπ2∥∞\left\|\mathcal{M}[V_\pi^1]-\mathcal{M}[V_\pi^2 ]\right\|_\infty\le\gamma \left\|V^1_\pi - V^2_\pi\right\|_\infty∥∥M[Vπ1]−M[Vπ2]∥∥∞≤γ∥∥Vπ1−Vπ2∥∥∞当γ<1\gamma<1γ<1的时，状态价值函数的贝尔曼算子M\mathcal{M}M是一个收缩映射，进而则有∥Mn+1[Vπ]−Mn[Vπ]∥∞≤γ∥Mn[Vπ]−Mn−1[Vπ]∥∞≤γ2∥Mn−1[Vπ]−Mn−2[Vπ]∥∞≤γ3∥Mn−2[Vπ]−Mn−3[Vπ]∥∞⋮≤γn−1∥M2[Vπ]−M[Vπ]∥∞≤γn∥M[Vπ]−Vπ∥∞\begin{aligned}\left\|\mathcal{M}^{n+1}[V_\pi]-\mathcal{M}^n[V_\pi]\right\|_\infty &\le \gamma \left\|\mathcal{M}^{n}[V_\pi]-\mathcal{M}^{n-1}[V_\pi]\right\|_\infty\\ &\le \gamma^2 \left\|\mathcal{M}^{n-1}[V_\pi]-\mathcal{M}^{n-2}[V_\pi]\right\|_\infty \\ &\le \gamma^3\left\|\mathcal{M}^{n-2}[V_\pi]-\mathcal{M}^{n-3}[V_\pi]\right\|_\infty \\&\quad \quad \quad \quad \quad \vdots\\ &\le \gamma^{n-1} \left\|\mathcal{M}^{2}[V_\pi]-\mathcal{M}[V_\pi]\right\|_\infty \\ &\le \gamma^n\left\|\mathcal{M}[V_\pi]-V_\pi\right\|_\infty\end{aligned}∥∥Mn+1[Vπ]−Mn[Vπ]∥∥∞≤γ∥∥Mn[Vπ]−Mn−1[Vπ]∥∥∞≤γ2∥∥Mn−1[Vπ]−Mn−2[Vπ]∥∥∞≤γ3∥∥Mn−2[Vπ]−Mn−3[Vπ]∥∥∞⋮≤γn−1∥∥M2[Vπ]−M[Vπ]∥∥∞≤γn∥M[Vπ]−Vπ∥∞当nnn趋近于无穷时，Mn+1[Vπ]\mathcal{M}^{n+1}[V_\pi]Mn+1[Vπ]和Mn[Vπ]\mathcal{M}^{n}[V_\pi]Mn[Vπ]的差值会趋近于0，所以序列{Vπ,M[Vπ],M2[Vπ],⋯}\{V_\pi, \mathcal{M}[V_\pi],\mathcal{M}^2[V_\pi],\cdots\}{Vπ,M[Vπ],M2[Vπ],⋯}是收敛的，并且会收敛到一个不动点上。

定理2：给定任意两个确定的策略π\piπ和π∗\pi^*π∗，对任意状态s∈Ss \in \mathcal{S}s∈S，如果有Qπ(s,π∗(s))≥Vπ(s)Q_\pi(s,\pi^{*}(s))\ge V_\pi(s)Qπ(s,π∗(s))≥Vπ(s)其中π∗(s)∈A\pi^{*}(s)\in \mathcal{A}π∗(s)∈A，那么则有Vπ∗(s)≥Vπ(s),s∈SV_{\pi^{*}}(s)\ge V_{\pi}(s),\quad s\in\mathcal{S}Vπ∗(s)≥Vπ(s),s∈S此时则称策略π∗\pi^{*}π∗会优于策略π\piπ。

证明：已知给定任意两个确定的策略π\piπ和π∗\pi^*π∗，且对任意状态s∈Ss \in \mathcal{S}s∈S，有Qπ(s,π∗(s))≥Vπ(s)Q_\pi(s,\pi^{*}(s))\ge V_\pi(s)Qπ(s,π∗(s))≥Vπ(s)进而可推知Qπ(s,π∗(s))=Est,at∼π∗,st+1∼π[rt+γVπ(st+1)∣st=s,at=π∗(s)]=Est,at∼π∗,st+1∼π[rt+γVπ(st+1)∣st=s]≤Est,at∼π∗,st+1∼π[rt+γQπ(st+1,π∗(st+1))∣st=s,at=π∗(s)]=Est,at∼π∗,st+1∼π[rt+γEst+1,at+1∼π∗,st+2∼π[rt+2+γVπ(st+2)]∣st+1,at+1=π∗(st+1)∣st=s]=Est,at,st+1,at+1∼π∗,st+2∼π[rt+γrt+1+γ2Vπ(st+2)∣st=s]≤Est,at,st+1,at+1,st+2∼π∗,st+3∼π[rt+γrt+1+γ2rt+2+γ3Vπ(st+3)∣st=s]⋮≤Est,at,st+1,at+1,st+2,⋯∼π∗[rt+γrt+1+γ2rt+2+γ3rt+3+⋯∣st=s]=Vπ∗(s)\begin{aligned}Q_\pi(s,\pi^{*}(s))&=\mathbb{E}_{s_t,a_t \sim \pi ^{*},s_{t+1}\sim \pi}[r_t +\gamma V_\pi(s_{t+1})|s_t=s,a_t=\pi^{*}(s)]\\&=\mathbb{E}_{s_t,a_t \sim \pi ^{*},s_{t+1}\sim \pi}[r_t +\gamma V_\pi(s_{t+1})|s_t=s]\\&\le \mathbb{E}_{s_t,a_t \sim \pi ^{*},s_{t+1}\sim \pi}[r_t +\gamma Q_\pi(s_{t+1},\pi^{*}(s_{t+1}))|s_t=s,a_t=\pi^{*}(s)]\\&=\mathbb{E}_{s_t,a_t \sim \pi ^{*},s_{t+1}\sim \pi}[r_t +\gamma \mathbb{E}_{s_{t+1},a_{t+1}\sim \pi^{*},s_{t+2}\sim \pi}[r_{t+2}+\gamma V_{\pi}(s_{t+2})]|s_{t+1},a_{t+1}=\pi^{*}(s_{t+1})|s_t=s]\\&=\mathbb{E}_{s_t,a_t,s_{t+1},a_{t+1}\sim \pi^{*},s_{t+2}\sim \pi}[r_{t}+\gamma r_{t+1}+\gamma^2 V_\pi(s_{t+2})|s_t=s]\\&\le\mathbb{E}_{s_t,a_t,s_{t+1},a_{t+1},s_{t+2}\sim \pi^{*},s_{t+3}\sim \pi}[r_{t}+\gamma r_{t+1}+\gamma^2 r_{t+2} + \gamma^3 V_\pi(s_{t+3})|s_t=s]\\&\quad \quad \quad \quad \vdots\\&\le \mathbb{E}_{s_t,a_t,s_{t+1},a_{t+1},s_{t+2},\cdots\sim \pi^{*}}[r_{t}+\gamma r_{t+1}+\gamma^2 r_{t+2} + \gamma^3 r_{t+3}+\cdots|s_t=s]\\&=V_{\pi^{*}}(s)\end{aligned}Qπ(s,π∗(s))=Est,at∼π∗,st+1∼π[rt+γVπ(st+1)∣st=s,at=π∗(s)]=Est,at∼π∗,st+1∼π[rt+γVπ(st+1)∣st=s]≤Est,at∼π∗,st+1∼π[rt+γQπ(st+1,π∗(st+1))∣st=s,at=π∗(s)]=Est,at∼π∗,st+1∼π[rt+γEst+1,at+1∼π∗,st+2∼π[rt+2+γVπ(st+2)]∣st+1,at+1=π∗(st+1)∣st=s]=Est,at,st+1,at+1∼π∗,st+2∼π[rt+γrt+1+γ2Vπ(st+2)∣st=s]≤Est,at,st+1,at+1,st+2∼π∗,st+3∼π[rt+γrt+1+γ2rt+2+γ3Vπ(st+3)∣st=s]⋮≤Est,at,st+1,at+1,st+2,⋯∼π∗[rt+γrt+1+γ2rt+2+γ3rt+3+⋯∣st=s]=Vπ∗(s)进而则有Vπ∗(s)≥Qπ(s,π∗(s))≥Vπ(s),s∈SV_{\pi^{*}}(s)\ge Q_\pi(s,\pi^{*}(s))\ge V_{\pi}(s),\quad s\in\mathcal{S}Vπ∗(s)≥Qπ(s,π∗(s))≥Vπ(s),s∈S
由定理2可知，给定一个策略π\piπ，已知当前状态sss，根据状态动作函数Qπ(s,a)Q_\pi(s,a)Qπ(s,a)找到一个最优动作所得到的新的策略π∗\pi^{*}π∗会优于或等于原始策略π\piπ。如果对所有的状态s∈Ss\in \mathcal{S}s∈S都这么操作，则可以得到新的策略π∗\pi^{*}π∗。当策略改进方法收敛到最优策略时，则有Vπ∗(s)=Vπ(s)V_{\pi^{*}}(s)=V_\pi(s)Vπ∗(s)=Vπ(s)，此时则有
Vπ∗(s)=∑a∈Aπ∗(a∣s)Qπ∗(s,a)=∑a∈Aπ∗(a∣s)max⁡a∈AQπ(s,a)=max⁡a∈AQπ(s,a)=max⁡a∈A∑s′∈Sp(s′∣s,a)[r(s,a,s′)+γVπ(s′)]=max⁡a∈A∑s′∈Sp(s′∣s,a)[r(s,a,s′)+γVπ∗(s′)]\begin{aligned}V_{\pi^{*}}(s)&=\sum\limits_{a\in\mathcal{A}}\pi^{*}(a|s)Q_{\pi^{*}}(s,a)\\&=\sum\limits_{a\in\mathcal{A}}\pi^{*}(a|s)\max\limits_{a \in \mathcal{A}}Q_\pi(s,a)=\max\limits_{a\in\mathcal{A}}Q_{\pi}(s,a)\\&=\max\limits_{a\in \mathcal{A}}\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)[r(s,a,s^{\prime})+\gamma V_{\pi}(s^{\prime})]\\&=\max\limits_{a\in \mathcal{A}}\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)[r(s,a,s^{\prime})+\gamma V_{\pi^{*}}(s^{\prime})]\end{aligned}Vπ∗(s)=a∈A∑π∗(a∣s)Qπ∗(s,a)=a∈A∑π∗(a∣s)a∈AmaxQπ(s,a)=a∈AmaxQπ(s,a)=a∈Amaxs′∈S∑p(s′∣s,a)[r(s,a,s′)+γVπ(s′)]=a∈Amaxs′∈S∑p(s′∣s,a)[r(s,a,s′)+γVπ∗(s′)]最后一个等式就是贝尔曼最优方程。

定理3：状态价值函数V(s)V(s)V(s)的贝尔曼最优算子M∗\mathcal{M_{*}}M∗为M∗[V(s)]=max⁡a∈A∑s′∈Sp(s′∣s,a)[r(s,a,s′)+γV(s′)],∀s∈S\mathcal{M}_{*}[V(s)]=\max\limits_{a\in \mathcal{A}}\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)\left[r(s,a,s^{\prime})+\gamma V(s^{\prime})\right],\quad \forall s \in \mathcal{S}M∗[V(s)]=a∈Amaxs′∈S∑p(s′∣s,a)[r(s,a,s′)+γV(s′)],∀s∈S则可知状态价值函数V(s)V(s)V(s)的贝尔曼最优算子M∗\mathcal{M}_{*}M∗是收敛的。

证明：状态价值函数V(s)V(s)V(s)的贝尔曼最优算子M∗\mathcal{M_{*}}M∗为M∗[V(s)]=max⁡a∈A∑s′∈Sp(s′∣s,a)[r(s,a,s′)+γV(s′)]],∀s∈S\mathcal{M}_{*}[V(s)]=\max\limits_{a\in \mathcal{A}}\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a)\left[r(s,a,s^{\prime})+\gamma V(s^{\prime})\right]],\quad \forall s \in \mathcal{S}M∗[V(s)]=a∈Amaxs′∈S∑p(s′∣s,a)[r(s,a,s′)+γV(s′)]],∀s∈S则有∣M∗[V1(s)]−M∗[V2(s)]∣=∣max⁡a1∈A∑s′∈Sp(s′∣s,a1)[r(s,a1,s′)+γV1(s′)]−max⁡a2∈A∑s′∈Sp(s′∣s,a2)[r(s,a2,s′)+γV2(s′)]∣≤∣max⁡a1∈A(∑s′∈Sp(s′∣s,a1)[r(s,a1,s′)+γV1(s′)]−∑s′∈Sp(s′∣s,a1)[r(s,a1,s′)+γV2(s′)])∣=γ∣max⁡a∈A(∑s′∈Sp(s′∣s,a)[V1(s′)−V2(s′)])∣≤γmax⁡a∈A∣∑s′∈Sp(s′∣s,a)[V1(s′)−V2(s′)]∣≤γmax⁡a∈A[∑s′∈Sp(s′∣s,a)∣V1(s′)−V2(s′)∣]≤γmax⁡a∈A[∑s′∈Sp(s′∣s,a)∥V1(s)−V2(s)∥∞]=γmax⁡a∈A∥V1(s)−V2(s)∥∞=γ∥V1(s)−V2(s)∥∞\begin{aligned}\left|\mathcal{M}_{*}[V^1(s)]-\mathcal{M}_{*}[V^2(s)]\right|&=\left|\max\limits_{a_1\in \mathcal{A}}\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a_1)\left[r(s,a_1,s^{\prime})+\gamma V^1(s^{\prime})\right]-\max\limits_{a_2\in \mathcal{A}}\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a_2)\left[r(s,a_2,s^{\prime})+\gamma V^2(s^{\prime})\right]\right|\\& \le \left|\max\limits_{a_1\in \mathcal{A}}\left(\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a_1)\left[r(s,a_1,s^{\prime})+\gamma V^1(s^{\prime})\right]-\sum\limits_{s^{\prime}\in \mathcal{S}}p(s^{\prime}|s,a_1)\left[r(s,a_1,s^{\prime})+\gamma V^2(s^{\prime})\right]\right)\right|\\&=\gamma\left|\max\limits_{a \in \mathcal{A}}\left(\sum\limits_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)[V^1(s^{\prime})-V^2(s^{\prime})]\right)\right|\\&\le \gamma\max\limits_{a \in \mathcal{A}}\left|\sum\limits_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)[V^1(s^{\prime})-V^2(s^{\prime})]\right|\\&\le \gamma\max\limits_{a \in \mathcal{A}}\left[\sum\limits_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)|V^1(s^{\prime})-V^2(s^{\prime})|\right]\\&\le \gamma\max\limits_{a \in \mathcal{A}}\left[\sum\limits_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)\|V^1(s)-V^2(s)\|_{\infty}\right]\\&=\gamma \max\limits_{a \in \mathcal{A}}\|V^{1}(s)-V^{2}(s)\|_{\infty}=\gamma \|V^{1}(s)-V^{2}(s)\|_{\infty}\end{aligned}∣∣M∗[V1(s)]−M∗[V2(s)]∣∣=∣∣a1∈Amaxs′∈S∑p(s′∣s,a1)[r(s,a1,s′)+γV1(s′)]−a2∈Amaxs′∈S∑p(s′∣s,a2)[r(s,a2,s′)+γV2(s′)]∣∣≤∣∣a1∈Amax(s′∈S∑p(s′∣s,a1)[r(s,a1,s′)+γV1(s′)]−s′∈S∑p(s′∣s,a1)[r(s,a1,s′)+γV2(s′)])∣∣=γ∣∣a∈Amax(s′∈S∑p(s′∣s,a)[V1(s′)−V2(s′)])∣∣≤γa∈Amax∣∣s′∈S∑p(s′∣s,a)[V1(s′)−V2(s′)]∣∣≤γa∈Amax[s′∈S∑p(s′∣s,a)∣V1(s′)−V2(s′)∣]≤γa∈Amax[s′∈S∑p(s′∣s,a)∥V1(s)−V2(s)∥∞]=γa∈Amax∥V1(s)−V2(s)∥∞=γ∥V1(s)−V2(s)∥∞当γ<1\gamma<1γ<1的时，状态价值函数的贝尔曼最优算子M∗\mathcal{M}_{*}M∗是一个收缩映射，进而则有∥M∗n+1[V]−M∗n[V]∥∞≤γ∥M∗n[V]−M∗n−1[V]∥∞≤γ2∥M∗n−1[V]−M∗n−2[V]∥∞≤γ3∥M∗n−2[V]−M∗n−3[V]∥∞⋮≤γn−1∥M∗2[V]−M∗[V]∥∞≤γn∥M∗[V]−V∥∞\begin{aligned}\left\|\mathcal{M}^{n+1}_*[V]-\mathcal{M}^n_*[V]\right\|_\infty &\le \gamma \left\|\mathcal{M}^{n}_*[V]-\mathcal{M}^{n-1}_*[V]\right\|_\infty\\ &\le \gamma^2 \left\|\mathcal{M}^{n-1}_*[V]-\mathcal{M}^{n-2}_*[V]\right\|_\infty \\ &\le \gamma^3\left\|\mathcal{M}^{n-2}_*[V]-\mathcal{M}^{n-3}_*[V]\right\|_\infty \\&\quad \quad \quad \quad \quad \vdots\\ &\le \gamma^{n-1} \left\|\mathcal{M}^{2}_*[V]-\mathcal{M}^*[V]\right\|_\infty \\ &\le \gamma^n\left\|\mathcal{M}_*[V]-V\right\|_\infty\end{aligned}∥∥M∗n+1[V]−M∗n[V]∥∥∞≤γ∥∥M∗n[V]−M∗n−1[V]∥∥∞≤γ2∥∥M∗n−1[V]−M∗n−2[V]∥∥∞≤γ3∥∥M∗n−2[V]−M∗n−3[V]∥∥∞⋮≤γn−1∥∥M∗2[V]−M∗[V]∥∥∞≤γn∥M∗[V]−V∥∞当nnn趋近于无穷时，M∗n+1[V]\mathcal{M}^{n+1}_*[V]M∗n+1[V]和M∗n[V]\mathcal{M}^{n}_*[V]M∗n[V]的差值会趋近于0，所以序列{V,M∗[V],M∗2[V],⋯}\{V, \mathcal{M}_*[V],\mathcal{M}^2_*[V],\cdots\}{V,M∗[V],M∗2[V],⋯}是收敛的，并且会收敛到一个不动点上。