转载：强化学习中Bellman最优性方程背后的数学原理？

一. Bellman最优
贝尔曼方程在强化学习（RL）中无处不在，它是由美国应用数学家理查德·贝尔曼（Richard Bellman）提出，用于求解马尔可夫决策过程。

贝尔曼最优性方程

贝尔曼最优性方程是一个递归方程，对于Model_based环境可由动态规划（dynamic programming，DP）算法求解，可以通过求解该方程可以找到最优值函数和最优策略。

对于任何有限的MDP，都存在一个最佳策略π*，满足其他所有可能的策略π都不会比这个策略更好。
如果对于状态空间中的每个状态，使用π1派生的值函数在此状态的值都大于或等于使用π2派生的值函数在此状态的值，则可以说策略π1优于策略π2
采用巴拿赫不动点定理证明始终存在一个比所有其他策略都更好的策略，方法是证明贝尔曼最优算子是对带有L-无穷范数度量的实数完备度量空间上的闭映射

二、Banach不动点：

（如果某个函数在某个点收敛，那么该函数在那个收敛点的值就是收敛点本身。因此，这个收敛点就是不动点。）

如果函数是收敛的，那么它必须收敛到某个值，比方说， x*。选择一任意值 x0并在其上无限次应用函数f(.)以获得 x*，然后使用它来解决不动点问题:

三、度量空间

度量空间只是一个定义了度量的集合，度量则是定义了集合中任何两个元素之间的距离。例如，欧几里德空间是度量空间，其距离定义为欧几里德距离。因此，**度量空间 M 可表示为(X, d) **，其中X是集合，d 是某种度量。一个度量d 必须满足以下四条性质：

单位性：d(x,x) = 0

非负性：d(x, y) >0

对称性：d(x,y) = d(y,x)

三角不等式：d(x,z) ≤ d(x,y)+d(y,x)

四. 柯西序列

对于度量空间（X，d），集合X中的元素组成的序列（x1，x2，x3 … xn）是柯西序列，如果对于任意正实数ε, 存在一个整数N，使得以下等式成立：

度量空间元素组成的序列如果在某个点收敛（它们无限接近于某个点），这个序列就是柯西序列。

五、压缩映射

在度量空间 (X, d) 的元素上定义的函数（算子或映射）是一个压缩映像（或压缩子），如果存在某个常数γ∈[0,1)，使得对于度量空间中任意两个元素x1 和x2，满足以下条件：

意味着在将元素x1 和 x2上应用了映射 f(.) 之后，它们彼此之间的距离至少在小于1的一个乘数因子γ意义下更接近。而且，该常数的最小值被称为Lipschitz常数（这是生成对抗网络的重要常数）。另外，如果γ=1，则映射不再是压缩映射，而是短映射。直观上来说，在应用压缩映射后，元素之间序列值会越来越接近。

六、Banach不动点定理与性质

如何求解最优值？
对于一个完整的度量空间，将压缩映射一遍又一遍地应用到集合的元素上，我们最终将得到唯一的一个最优值。我们知道：

压缩映射将集合中元素聚集到一起。
不断运用压缩映射，得到一个柯西序列。
完备度量空间中的柯西序列始终会收敛自身中的一个值。

令(X, d)是一个完备的度量空间，函数f: X->X是一个压缩映射，
则f具有唯一一个不动点 x*∈ X (即，f(x *)=x *) ，
使得序列 f(f(f(…f(x))))收敛至x *。

唯一性：
假设收敛值不是唯一的，并且x1*和x2 *是压缩映射序列收敛的两个值，那么：

x1 *和x2 *是最优值，压缩映射已在这两点收敛，距离不再会变。
由于f是压缩映射，因此必须具有以下性质：

现在，由于γ∈[0,1)，无法同时满足等式1和2，导出矛盾（因为此处假定两点距离大于零）。因此，我们的假设是错误的，*x 必是唯一的。
存在性：
令(x1, x2, x3, …. xn)为重复应用压缩映射所形成的序列。

假设序列(x1, x2, x3, …. xn)是柯西序列，我们知道该序列将收敛到某个点，例如，x *。而且，由于度量空间是完整的，所以该收敛点x *属于度量空间(X,d)。现在，我们只需要证明此序列是柯西序列即可。我们取序列中xn和xm中两个元素，使得m >> n，并使得m足够大，然后通过重复应用度量d的三角形不等式性质来证明此序列是柯西序列，有：

由于f是压缩映射，我们知道：

重复运用压缩映射不等式，我们可进一步将d(xm, xn)化为如下形式：

现在，通过选择一个足够大的n，我们可以使上式的右边小于任何正实数 ε 。因此，序列序列(x1, x2, x3, …. xn)是柯西序列，并且存在最优的x *∈X。这就证明了巴拿赫不动点定理。

七、Bellman算子

B是一个递归算子。因此，对初始值函数重复运用此算子将生成一系列值函数。如果我们可以证明B确实是某个度量空间(X,d)上的压缩映射，那么根据巴拿赫不动点定理，我们可以得出结论，最优贝尔曼算子的重复应用最终将导出唯一的最优值函数，通过值函数可以得到最优策略。因此，我们的工作现在都简化为证明B是压缩映射.
定义度量空间如下：度量空间(X,d)：集合X是值函数的取值空间，如下：

对此度量空间，我们使用的L-无穷范数定义如下:

L-无穷范数

根据此度量空间范数的定义，两个值函数之间的距离等于两个值函数向量各方向绝对值之差的最大值。同样，对于有限奖励的有限MDP，值函数将始终在实数空间中。因此，此有限空间是完备的。

1. 定理：贝尔曼算子B是有限空间(X, L-infinity)上的压缩映射

2. 证明：假设V1和V2是两个值函数。则：
在第二步中，我们通过用a代替第二个值函数中的a’来引入不等式。这是因为通过将最优动作a替换为其他动作 a’，降低了其总价值，从而引入了不等式。

在第四步中，我们通过在状态空间 s’上取最大值来移除L-无穷范数

在最后一步中，因为概率和始终为1，消去了求和号。

3. 结论：最后，在贝尔曼最优性方程中，由于γ∈[0,1)（现在暂时忽略γ= 1的可能性），因此贝尔曼算子是压缩映射。

(X, L-infinity) 是一个完备的度量空间
贝尔曼算子B是压缩映射

因此，根据巴拿赫不动点定理，我们得出结论：
对每个MDP，存在唯一的最优值函数V *，使用这个值函数，我们可以得到最优策略π *。

因此证明，对于任何有限的MDP，都存在一个最优策略π *，不差于其他所有可能的策略π。

策略迭代和值迭代的区别：
策略迭代选择初始随机策略，通过策略评估-策略改进-反复迭代直至策略最优；
价值迭代利用Banach不动点定理，迭代的方法求解Bellman最优方程，通过寻找最优价值函数，再提取最优策略，因为值函数一旦最优，那么策略也一定最优（保证收敛），策略迭代更快速高效一点。

策略迭代和价值迭代都用到了动态规划方法和自益的思想。

参考：

强化学习的四要素中：策略和模型的区别是什么？
强化学习中无处不在的贝尔曼最优性方程，背后的数学原理知多少？
强化学习(二)：马尔科夫决策过程(Markov decision process)
强化学习原理与python实现

转载：强化学习中Bellman最优性方程背后的数学原理？相关推荐

【深度学习】解析深度神经网络背后的数学原理
来源:产业智能官解析深度网络背后的数学如今,已有许多像 Keras, TensorFlow, PyTorch 这样高水平的专门的库和框架,我们就不用总担心矩阵的权重太多,或是对使用的激活函数求导时 ...
《强化学习周刊》第26期：UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...
No.26 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
强化学习中的基础概念和术语——spinning up文档翻译
Key Concepts and Terminology 以下内容翻译自open ai 的spinning up文档,同时加入了一些自己的理解.原始内容来自spinningup 文章目录 Key Co ...
(转) 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）
本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA 专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 201 ...
强化学习中的脉冲神经网络
简介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...
labview叠加白噪声_强化学习中Ornstein-Uhlenbeck噪声是鸡肋吗？
欢迎转载,转载请注明出处--知乎专栏"机器学习与控制论". 读过DDPG论文[1]的同学几乎都会有一个问题,论文中使用Ornstein-Uhlenbeck噪声用于探索,比较难理解, ...
八千字长文深度解读，迁移学习在强化学习中的应用及最新进展
点击我爱计算机视觉标星,更快获取CVML新技术本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载. 机器之心原创作者:Luo Sainan 编辑:H4O 迁移学习通 ...
从多臂老虎机开始学习强化学习中的探索与利用
从多臂老虎机开始学习强化学习中的探索与利用 \quad 目录从多臂老虎机开始学习强化学习中的探索与利用多臂老虎机问题形式化描述估计期望奖励代码实现策略中的探索与利用 ϵ\epsilonϵ- ...
强化学习中的递归神经网络
在解决模型训练的机器学习问题时,可以使用已知的输出(监督学习),或者模型可以在事先不知道正确结果的情况下自行学习在可用数据中寻找模式(无监督学习). 强化学习(RL)不属于这两种类型:然而,它同时具有 ...

转载：强化学习中Bellman最优性方程背后的数学原理？

转载：强化学习中Bellman最优性方程背后的数学原理？相关推荐

最新文章

热门文章