强化学习的核心是用迭代法求解马尔可夫决策过程(MDP)的贝尔曼期望方程(Bellman Optimality Equation):
V(s)=Rs+γ∑s′∈SPss′V(s′)V(s) = R_s + \gamma \sum\limits_{s' \in S}P_{ss'}V(s')V(s)=Rs​+γs′∈S∑​Pss′​V(s′)
一般来说,可从两个角度证明迭代法求解贝尔曼期望方程的正确性(本文依赖于<1>):

  • 1_泛函分析:压缩映射与巴拿赫不动点定理
  • 2_数值分析:不动点迭代法及其收敛定理

参考资料:

  • 如何证明迭代式策略评价、值迭代和策略迭代的收敛性? https://zhuanlan.zhihu.com/p/39279611
  • 强化学习中无处不在的贝尔曼最优性方程,背后的数学原理知多少? https://blog.csdn.net/FnqTyr45/article/details/104889982
  • 不动点迭代法及其收敛原理 https://wenku.baidu.com/view/48350321dd36a32d7375818e.html
  • 压缩映射与巴拿赫不动点定理https://zhuanlan.zhihu.com/p/336255678

1 度量空间(Metric Space)

1.1 度量空间的概念

度量空间 M:<X,d>M :<X, d>M:<X,d> ,其中X是集合,d 是某种度量函数。度量空间是指在一个集合上的度量,度量则是定义了集合中任何两个元素之间的距离。例如,欧几里德空间是度量空间,其距离定义为欧几里德距离。一个度量ddd必须满足以下四条性质:

  • 单位性:d(x,x)=0d(x,x) = 0d(x,x)=0

  • 非负性:d(x,y)>0d(x, y) >0d(x,y)>0

  • 对称性:d(x,y)=d(y,x)d(x,y) = d(y,x)d(x,y)=d(y,x)

  • 三角不等式:d(x,z)≤d(x,y)+d(y,z)d(x,z) ≤ d(x,y)+d(y,z)d(x,z)≤d(x,y)+d(y,z)

常见的度量函数ddd有:

(1)范数metric: d(x,y)=∣∣x−y∣∣n,n≥1d(x,y)=||x-y||_n,\quad n \geq 1d(x,y)=∣∣x−y∣∣n​,n≥1, 其中∣∣c∣∣n||c||_n∣∣c∣∣n​ 表示向量的nnn范数,∣∣c∣∣n=(∑i∣ci∣n)1n||c||_n = (\sum\limits_{i} |c_i|^n)^{\frac{1}{n}}∣∣c∣∣n​=(i∑​∣ci​∣n)n1​

  • n=1n=1n=1时,为绝对值距离,又叫曼哈顿距离,即d(x,y)=∑i∣xi−yi∣d(x,y)=\sum\limits_{i}|x_i-y_i|d(x,y)=i∑​∣xi​−yi​∣
  • n=2n=2n=2时,为欧式距离
  • n=∞n=\inftyn=∞时,为最大值距离,又叫切比雪夫距离,即d(x,y)=maxi∣xi−yi∣d(x,y)= \underset{i}{max}|x_i-y_i|d(x,y)=imax​∣xi​−yi​∣

(2)离散metric:
d(x,y)={0ifx=y1otherwised(x,y) = \begin{cases} 0\ & if \ x=y \\ 1\ & otherwise \\ \end{cases}d(x,y)={0 1 ​if x=yotherwise​

1.2 完备度量空间

如果由集合XXX中元素组成的每个可能的柯西序列都收敛到集合XXX,则度量空间<X,d><X, d><X,d> 是完备的。也就是说,由集合中的每个柯西序列的极限所对应元素也属于该集合, 这也是为什么它被称为“完备”的原因。

**定义 :**一个度量空间(metric space)<X,d><X,d><X,d> 是完备的(或者说是柯西的<Cauchy的>),当且仅当所有在XXX中的Cauchy序列,都会收敛到XXX中。

即,在完备的度量空间中,对于任意在XXX中的点序列x1,x2,x3,x4,⋯∈Xx_1, x_2, x_3, x_4,\dots \in Xx1​,x2​,x3​,x4​,⋯∈X ,如果序列是Cauchy的,那么该序列收敛于XXX , 即limn→∞an∈X\underset{n\rightarrow \infty}{lim}a_n \in Xn→∞lim​an​∈X。

换句话说,完备的metric space是没有缺失的点的。有一种直观的形容方法就是完备空间“没有孔”(内部不缺点),“不缺皮”(边界不缺点)。比如,对于有理数集合RRR , 用绝对值∣.∣|.|∣.∣函数衡量两个有理数的距离,这是一个metric space,那么它是不是完备的呢?对于Cauchy序列:
xn+1={1,n=1xn2+1xnn>1x_{n+1} = \begin{cases} 1, & n=1 \\ \frac{x_n}{2}+\frac{1}{x_n} & n>1 \\ \end{cases}xn+1​={1,2xn​​+xn​1​​n=1n>1​
这个序列其实是:1,3/2,17/12…{1, 3/2, 17/12 … }1,3/2,17/12…。解方程x=x2+1xx = \frac{x}{2}+\frac{1}{x}x=2x​+x1​, 得到x=2x = \sqrt{2}x=2​。可以看出这个序列中的值都是有理数,而且是Cauchy序列,收敛于xn=2x_n = \sqrt{2}xn​=2​ 。因此这样一个有理数序列收敛的点不在集合RRR中,因此我们认为有理数集合是有缺失的点的,不是一个完备的metric space。
完备的metric space这个概念非常的重要,很多时候我们很难证明一个序列是收敛的,但是比较容易证明它是Cauchy的,只要确认该Cauchy序列在完备的metric space中,即可直接得到收敛性。

2 压缩映射

2.1 映射:

两个集合之间的一种对应关系T:X→YT:X \rightarrow YT:X→Y,对XXX中的每个元素xxx,YYY中都只有一个元素yyy与之对应。分析:

  • 宏观上,映射是集合到集合的关系
  • 微观上,是俩个元素之间的对应的关系

2.2 压缩映射:

设<X,d><X,d><X,d>是距离空间,映射T:X→XT:X \rightarrow XT:X→X。若存在一个常数α∈[1,0)\alpha \in [1,0)α∈[1,0),使得对任意x,y∈Xx,y \in Xx,y∈X,都有:
d(T(x),T(y))≤α⋅d(x,y)d(T(x),T(y)) \leq \alpha \cdot d(x,y)d(T(x),T(y))≤α⋅d(x,y)
称TTT为XXX上的压缩映射。例如:T=f(x)=12xT = f(x) = \frac {1}{2} xT=f(x)=21​x。

  • 分析:经过映射后,两点间距离更小。
  • 问题:距离怎么定义?任取一种距离还是对于任何距离都成立?
  • 答:(X,d)(X,d)(X,d)是完备的距离空间,则只要有一种 ddd 度量函数即可。

2.3 举例解释

总结:集合,度量,压缩映射三者的关系:
例题:设X=[1,+∞)⊂R1X = [1,+\infty) \subset R^1X=[1,+∞)⊂R1,T:X→XT:X \rightarrow XT:X→X,定义:T(x)=x2+1xT(x) = \frac{x}{2} + \frac {1}{x}T(x)=2x​+x1​。求证TTT是压缩映射。

思路:选取一种合适的度量函数ddd,目标是根据定义证明:d(T(x),T(y))≤α⋅d(x,y),α∈[0,1)d(T(x),T(y)) \leq \alpha \cdot d(x,y), \alpha \in [0,1)d(T(x),T(y))≤α⋅d(x,y),α∈[0,1)

证明:对于任意x,y∈Xx,y \in Xx,y∈X,当ddd为绝对值距离时:
d(T(x),T(y))=∣x2+1x−(y2+1y)∣=∣12−1xy∣⋅∣x−y∣d(T(x),T(y)) = |\frac{x}{2} + \frac {1}{x} - (\frac{y}{2} + \frac {1}{y})|=|\frac{1}{2}-\frac{1}{xy}|\cdot |x-y|d(T(x),T(y))=∣2x​+x1​−(2y​+y1​)∣=∣21​−xy1​∣⋅∣x−y∣
由于x,y∈X=[1,+∞)⇒0<1xy≤1x,y \in X = [1,+\infty) \Rightarrow 0<\frac{1}{xy}\leq 1x,y∈X=[1,+∞)⇒0<xy1​≤1,

所以∣12−1xy∣≤12<23|\frac{1}{2}-\frac{1}{xy}|\leq \frac{1}{2}< \frac{2}{3}∣21​−xy1​∣≤21​<32​。从而:
d(T(x),T(y))<23d(x,y)d(T(x),T(y)) < \frac {2}{3} d(x,y)d(T(x),T(y))<32​d(x,y)

3 不动点定理

3.1 不动点的概念

已知函数f(x)f(x)f(x),假设存在xxx,使得f(x)=xf(x)=xf(x)=x,那么点(x,f(x))(x,f(x))(x,f(x))就是函数f(x)f(x)f(x)的一个不动点。

例如:已知函数f(x)=x2−2x+2f(x)=x^2-2x+2f(x)=x2−2x+2,令f(x)=xf(x)=xf(x)=x,则变形为x2−3x+2=0x^2-3x+2=0x2−3x+2=0,则x=1,2x=1,2x=1,2。所以点(1,1),(2,2)(1,1),(2,2)(1,1),(2,2)就是函数f(x)f(x)f(x)的不动点。

3.2 不动点定理

设<X,d><X,d><X,d>是完备的距离空间,T:X→XT:X \rightarrow XT:X→X是压缩映射,则TTT有唯一的不动点。

证明思路:由 TTT 构造一个数列{xn}\{x_n\}{xn​} ⟶\longrightarrow⟶ 证明{xn}\{x_n\}{xn​}是柯西数列 ⟶\longrightarrow⟶ 存在极限点x∗x^{*}x∗且 x∗∈Xx^{*}\in Xx∗∈X ⟶\longrightarrow⟶ $ T(x)=x^{*}$ ⟶\longrightarrow⟶ 证明x∗x^{*}x∗唯一。
证明:
第一步:任取x0∈Xx_0 \in Xx0​∈X,构造数列:x1=T(x0),x2=T(x1)=T2(x0),...,xm=T(xm−1)=Tm(x0),...,xn=T(xn−1)=Tn(x0)x_1 = T(x_0),x_2 = T(x_1) = T^2(x_0),...,x_m = T(x_{m-1})= T^m(x_0),...,x_n = T(x_{n-1}) = T^n(x_0)x1​=T(x0​),x2​=T(x1​)=T2(x0​),...,xm​=T(xm−1​)=Tm(x0​),...,xn​=T(xn−1​)=Tn(x0​)。则:
d(xm+1,xm)=d(T(xm),T(xm−1))≤αd(xm,xm−1)d(xm,xm−1)=d(T(xm−1),T(xm−2))≤αd(xm−1,xm−2)⋯⋯d(x2,x1)=d(T(x1),T(x0))≤αd(x1,x0)⟹d(xm+1,xm)≤αmd(x1,x0)(1)\begin{aligned} &d(x_{m+1},x_m) = d(T(x_m),T(x_{m-1})) \leq \alpha d(x_m,x_{m-1}) \\ &d(x_{m},x_{m-1}) = d(T(x_{m-1}),T(x_{m-2})) \leq \alpha d(x_{m-1},x_{m-2}) \\ &\cdots \ \cdots \\ &d(x_2,x_1) = d(T(x_1),T(x_0)) \leq \alpha d(x_1,x_0) \\ &\Longrightarrow d(x_{m+1},x_m) \leq \alpha^m d(x_1,x_0) \tag{1} \end{aligned} ​d(xm+1​,xm​)=d(T(xm​),T(xm−1​))≤αd(xm​,xm−1​)d(xm​,xm−1​)=d(T(xm−1​),T(xm−2​))≤αd(xm−1​,xm−2​)⋯ ⋯d(x2​,x1​)=d(T(x1​),T(x0​))≤αd(x1​,x0​)⟹d(xm+1​,xm​)≤αmd(x1​,x0​)​(1)
对于任意m<nm<nm<n,重复应用三角不等式,

d(xm,xn)≤d(xm,xm+1)+d(xm+1,xn)≤d(xm,xm+1)+d(xm+1,xm+2)+d(xm+2,xn)≤d(xm,xm+1)+...+d(xn−1,xn)d(x_m,x_n) \leq d(x_m,x_{m+1}) + d(x_{m+1},x_n)\leq d(x_m,x_{m+1}) + d(x_{m+1},x_{m+2}) + d(x_{m+2},x_{n})\leq d(x_m,x_{m+1}) +...+ d(x_{n-1},x_{n})d(xm​,xn​)≤d(xm​,xm+1​)+d(xm+1​,xn​)≤d(xm​,xm+1​)+d(xm+1​,xm+2​)+d(xm+2​,xn​)≤d(xm​,xm+1​)+...+d(xn−1​,xn​)

代入(1)(1)(1)式,得:

d(xm,xn)≤(αm+αm+1+...+αn−1)d(x1,x0)=αm1−αn−m1−αd(x1,x0)⟶m→+∞0d(x_m,x_n) \leq (\alpha^m + \alpha^{m+1}+ ...+\alpha^{n-1})d(x_1,x_0)=\alpha^m \frac{1-\alpha^{n-m}}{1-\alpha}d(x_1,x_0)\stackrel{m \rightarrow + \infty}{\longrightarrow}0d(xm​,xn​)≤(αm+αm+1+...+αn−1)d(x1​,x0​)=αm1−α1−αn−m​d(x1​,x0​)⟶m→+∞​0
即{xn}\{x_n\}{xn​}是柯西数列。
而<X,d><X,d><X,d>是完备的,所以 ∃x∗∈X\exists x^{*} \in X∃x∗∈X,使得 limn→∞xn=x∗(2)\underset {n \rightarrow \infty}{lim} x_n = x^{*} \qquad (2)n→∞lim​xn​=x∗(2)
第二步:由(2)式可得:limn→∞xn−1=x∗\underset {n \rightarrow \infty}{lim} x_{n-1} = x^{*}n→∞lim​xn−1​=x∗

又由于T(x)T(x)T(x)是连续函数,且xn=T(xn−1)x_n = T(x_{n-1})xn​=T(xn−1​),两边取极限:

左边:limn→∞xn=x∗左边:\underset {n \rightarrow \infty}{lim} x_{n} = x^{*}左边:n→∞lim​xn​=x∗

右边:limn→∞T(xn−1)=T(limn→∞xn−1)=T(x∗)右边:\underset {n \rightarrow \infty}{lim} T(x_{n-1}) = T(\underset {n \rightarrow \infty}{lim}x_{n-1}) = T(x^{*})右边:n→∞lim​T(xn−1​)=T(n→∞lim​xn−1​)=T(x∗)

从而T(x∗)=x∗T(x^{*}) = x^{*}T(x∗)=x∗,x∗x^{*}x∗是不动点。

4 MRP(马尔科夫奖励过程)中的贝尔曼期望方程

MRP中,假设状态集 S=s1,s2,...,snS = s_1,s_2,...,s_nS=s1​,s2​,...,sn​ ,贝尔曼期望方程(Bellman Equation):
v(s)=Rs+γ∑s′∈SPss′v(s′)v(s) = R_{s} + \gamma \sum\limits_{s′\in{S}}P_{ss′}v(s′)v(s)=Rs​+γs′∈S∑​Pss′​v(s′)
可以写成如下矩阵的形式:
v=R+γPvv= R + \gamma Pvv=R+γPv
它表示:
[v(s1)⋯v(sn)]=[R1⋯Rn]+γ[P11⋯P1n⋯⋯⋯Pn1⋯Pnn][v(s1)⋯v(sn)]\begin{bmatrix}v(s_1) \\ \cdots \\ v(s_n) \end{bmatrix} = \begin{bmatrix} R_1 \\ \cdots \\ R_n \end{bmatrix} + \gamma \begin{bmatrix} P_{11} \cdots P_{1n} \\ \cdots \ \cdots \ \cdots \\ P_{n1} \cdots P_{nn}\end{bmatrix} \begin{bmatrix}v(s_1) \\ \cdots \\ v(s_n) \end{bmatrix}⎣⎡​v(s1​)⋯v(sn​)​⎦⎤​=⎣⎡​R1​⋯Rn​​⎦⎤​+γ⎣⎡​P11​⋯P1n​⋯ ⋯ ⋯Pn1​⋯Pnn​​⎦⎤​⎣⎡​v(s1​)⋯v(sn​)​⎦⎤​
则映射函数为:
T(v)=R+γPvT(v) = R + \gamma PvT(v)=R+γPv

4.1 定义度量空间

对于状态集S=s1,s2,...,snS = s_1,s_2,...,s_nS=s1​,s2​,...,sn​,我们定义状态值函数向量:
V=[v(s1)v(s2)...v(sn)]V = \begin{bmatrix} v(s_1) \\ v(s_2) \\ ...\\ v(s_n) \end{bmatrix}V=⎣⎢⎢⎡​v(s1​)v(s2​)...v(sn​)​⎦⎥⎥⎤​

该向量属于值函数空间VVV,我们考虑VVV是一个nnn维全空间。定义该空间的度量是无穷范数,即:

d(u,v)=maxs∈S∣u(s)−v(s)∣d(u,v) = \underset{s \in S}{max}|u(s)-v(s)|d(u,v)=s∈Smax​∣u(s)−v(s)∣

由VVV于是向量全空间,因此<V,d><V,d><V,d>是一个完备的度量空间。

4.2 T(v)是压缩映射

d(T(u),T(v))=∣∣(R+γPu)−(R+γPv)∣∣∞=∣∣γP(u−v)∣∣∞≤∣∣γP∣∣u−v∣∣∞∣∣∞≤γ∣∣u−v∣∣∞=γd(u,v)\begin{aligned} d(T(u),T(v)) &= ||(R+\gamma Pu) - (R+\gamma Pv)||_{\infty} \\ &=||\gamma P(u-v)||_{\infty} \\ &\leq ||\gamma P||u-v||_{\infty}||_{\infty} \\ &\leq \gamma ||u-v||_{\infty} = \gamma d(u,v) \end{aligned} d(T(u),T(v))​=∣∣(R+γPu)−(R+γPv)∣∣∞​=∣∣γP(u−v)∣∣∞​≤∣∣γP∣∣u−v∣∣∞​∣∣∞​≤γ∣∣u−v∣∣∞​=γd(u,v)​
根据压缩映射定理,我们可以直接得到如下的结论:

  • 贝尔曼期望方程收敛于唯一的VVV;
  • 迭代式策略评价算法以γ\gammaγ的线性速率收敛于vvv;
  • 策略迭代收敛于v∗v^{*}v∗。

迭代法求解贝尔曼期望方程的数学证明相关推荐

  1. 强化学习(一)- 强化学习介绍、Markov决策过程和贝尔曼期望方程

    强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给 ...

  2. 贝尔曼期望方程(Bellman Expectation Equation)

    马尔可夫决策过程之贝尔曼期望方程 价值函数与贝尔曼期望方程 回顾 策略的重要性 策略的具体表现形式 如何判断一个策略π\piπ的优劣性 价值函数(Value Function) 状态价值函数(stat ...

  3. 贝尔曼最优方程(Bellman Optimality Equation)

    贝尔曼最优方程 目录 回顾 + 补充 逻辑场景设置 贝尔曼最优方程 最优策略与最优价值函数 最优状态价值函数 最优状态-动作价值函数 小小的题外话 - 最大值/期望值 最大值和期望值之间的大小关系 最 ...

  4. 强化学习2——有模型强化学习MDP(搬砖马尔科夫,贝尔曼等式)

    文章目录 强化学习--马尔科夫系列 前言 马尔科夫决策过程(MDP) 1 马尔科夫过程(MP) 1.1 马尔科夫性质 1.2 马尔科夫过程 1.3 马尔科夫的一个例子 2 马尔科夫奖励过程(MRP) ...

  5. python迭代法求解非线性方程_荐【数学知识】非线性方程求解的二分法以及牛顿迭代法...

    [数学知识]非线性方程求解的二分法以及牛顿迭代法 本博客不谈及理论推导,只提供代码实现,关于理论推导,大家可以查看其它博客文章. 导入包 import sys import math import s ...

  6. 最优策略(Optimal Policy)及贝尔曼最优方程(Bellman Optimally Equation)

    文章目录 1.最优策略(Optimal Policy) 2.贝尔曼最优方程(Bellman Optimally Equation) 3.参考文献 1.最优策略(Optimal Policy) 强化学习 ...

  7. 3.牛顿迭代法求解方程的根

    牛顿迭代法求解方程的根 引题:用牛顿迭代法求下列方程在值等于x附近的根: 2 x 3 − 4 x 2 + 3 x − 6 = 0 2x^3-4x^2+3x-6=0 2x3−4x2+3x−6=0 输入: ...

  8. 算法分析与设计-迭代法求解方程(组)的根(详解)

    算法分析设计课之期末考试前的重要算法复习总结... 以下内容大多都摘抄自上课的课件的内容,但是课件没有解方程的完整代码,于是自己又写了写代码,仅供参考. 首先,迭代法解方程的实质是按照下列步骤构造一个 ...

  9. Python实现迪杰斯特拉算法和贝尔曼福特算法求解最短路径

    文章目录 (一).题目 (二).导库 (三).绘制带权无向图 (四).获得最短路径 (四).实现最短路径高亮 (五).完整代码 (六).结果展示 关于Python数据分析在数学建模中的更多相关应用:P ...

最新文章

  1. SQLite三种JDBC驱动的区别
  2. HDU5687 Problem C【字典树】
  3. Algorithm——何为算法?
  4. 挑战程序设计竞赛: 三角形
  5. 客户预付款处理和设置
  6. 基于协同过滤的电影推荐
  7. UVa 220 黑白棋 算法竞赛入门经典 习题4-3
  8. 自学html4,HTML4
  9. STM32跑马灯实验的基本步骤(库函数)
  10. 太空动作游戏《Phobos Vector Prime》创作经验分享
  11. 短视频去水印API文档
  12. 计算机设备机房防静电标准,机房防静电地板设计标准是什么
  13. 教你如何几行python代码实现图片转手绘
  14. performSelector
  15. 钗头凤---陆游唐婉
  16. 【GANs学习笔记】(三)GANs理论基础
  17. MyBatis研习录(06)——基于注解的增删改查操作
  18. URP Camera
  19. AD应用相关:相机测距和参数相关知识
  20. 移动互联网4种引流思维:免费思维、跨界思维、平台思维、金融思维

热门文章

  1. 整理2008-2017年的所有上市公司海外收入数据
  2. 电大php考试,电大考试搜题神器免费
  3. 未知USB设备 端口重置失败
  4. 几种Web服务器比较-(Apache、IIS、Lighttpd、Nginx、LiteSpeed、Zeus
  5. CDH6.2配置spark.yarn.jars目录
  6. SSS1629USB麦克风方案设计原理
  7. 模型矩阵、视图矩阵、投影矩阵
  8. Taq DNA聚合酶的种类与应用现状
  9. 互联网晚报 | 6月28日 星期二|​ QQ回应大规模账号被盗;iPhone 14系列新机最快8月初量产;微信表情符号写入判决...
  10. 个人网站,有哪些虚拟主机值得购买?