强化学习中值迭代收敛性推理证明
在开始证明之前,我想说的是定理是证明给怀疑者,如果你对这个定理不怀疑,那么你就不需要证明。接下来直观感受一下强化学习中值迭代的收敛性。
假设现在的Agent
处于一个state
sss 下,想要去找一个optimal state
,那怎么去找呢?就是遍历所有的policy
能够使得当前的state
sss,在遍历的某个policy
πx\pi_{x}πx下值最大,也就找到了这个state
所对应的最大value
,用数学语言描述如下:
v∗(s)=maxπvπ(s)v_{*}(s) = \max_{\pi} v_{\pi} (s) v∗(s)=πmaxvπ(s)
不用去怀疑,你一定能找到这样的一个最大的state value
,因为你遍历了所有的policy
。那能够使得state value
最大的那个policy
πx\pi_{x}πx就是optimal policy
π∗\pi^{*}π∗,即πx=π∗\pi_{x} = \pi^{*}πx=π∗。那此时贝尔曼方程就是一个完全收敛的情况,可表示为:
v∗(s)=maxaRsa+arg maxa∈Aγ∑s′∈SPss′av(s′)v_{*}(s)=\max _{a} \mathcal{R}_{s}^{a}+\argmax_{a \in A}\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v\left(s^{\prime}\right) v∗(s)=amaxRsa+a∈Aargmaxγs′∈S∑Pss′av(s′)
如果不收敛,那它(value
)肯定还没有到达optimal variable
。上述等式在收敛的情况下就会成立,而不仅仅是一个赋值的关系。
观察上述式子,optimal policy
是什么?也即每次是如何take action
的呢?也就是等式的右端项:
π∗(s)=arg maxa∈A∑s′∈SPss′av(s′)\pi^{*}(s) = \argmax_{a \in A} \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v\left(s^{\prime}\right) π∗(s)=a∈Aargmaxs′∈S∑Pss′av(s′)
那随便给一个状态,我们每次都按照optimal policy
去take action
,那每次state value
都会大于等于之前非最优的policy
所得出来的state value
吧:
v∗(s)=vπ∗(s)≥vπ(s)v_{*}(s) = v_{\pi *}(s) \geq v_{\pi}(s) v∗(s)=vπ∗(s)≥vπ(s)
也就是说每次都按照optimal policy
去take action
,state value
其实都会有所改进(或者至少不会比以前的差)。那真实的state value
总有一个上界吧,总会收敛吧。
Value Iteration
再来看看值迭代value iteration
,其实就是不断地去套bellman equation
,就变成了对于每一个state
去计算V(s)V(s)V(s)。
V(s)=R(s)+maxa∈Aγ∑s′∈SPsa(s′)V(s′)\begin{aligned} V(s) =R(s)+\max _{a \in A}\gamma \sum_{s^{\prime} \in S} P_{s a}\left(s^{\prime}\right) V\left(s^{\prime}\right) \end{aligned} V(s)=R(s)+a∈Amaxγs′∈S∑Psa(s′)V(s′)
这里是没有策略π\piπ的,整个方程就是在表达,policy
在take action
的时候,就是在take
maxa∈Aγ∑s′∈SPsa(s′)V(s′)\max _{a \in A}\gamma \sum_{s^{\prime} \in S} P_{sa}\left(s^{\prime}\right)V\left(s^{\prime}\right)maxa∈Aγ∑s′∈SPsa(s′)V(s′),那在值迭代里面,它自己去维护这样一个value function
就可以了。policy
只要使得后面上述等式后面那个max
成立就可以了。
我的微信公众号名称:深度学习先进智能决策
微信公众号ID:tinyzqh
公众号介绍:主要研究深度学习、强化学习、机器博弈等相关内容!期待您的关注,欢迎一起学习交流进步!
强化学习中值迭代收敛性推理证明相关推荐
- 【论文知识点笔记】Binarized P-Network(强化学习+保守值迭代+二值化神经网络)
Binarized P-Network(强化学习+保守值迭代+二值化神经网络) 一.强化学习 1. 特点 2. 介绍 3. 知识点 4. 原理 4.1. 马尔科夫决策过程(MDP) 二.保守值迭代(C ...
- 《强化学习与最优控制》学习笔记(三):强化学习中值空间近似和策略空间近似概述
写在前面的 前一章链接: <强化学习与最优控制>学习笔记(二):强化学习与最优控制的一些术语对比 这章主要是对应书中第二章前面的值空间近似和策略空间近似的简要介绍部分. 在本书的第一章就指 ...
- 强化学习之值迭代求解冰冻湖
理论回顾 [1]. Bellman方程求解 [2]. 3.12 Value Iteration - Frozen Lake Problem.ipynb [3]. 强化学习中马尔科夫决策过程和贝尔曼方程 ...
- 强化学习之策略迭代求解冰冻湖
理论回顾 [1]. Bellman方程求解 [2]. 3.12 Value Iteration - Frozen Lake Problem.ipynb [3]. 强化学习中马尔科夫决策过程和贝尔曼方程 ...
- 八千字长文深度解读,迁移学习在强化学习中的应用及最新进展
点击我爱计算机视觉标星,更快获取CVML新技术 本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载. 机器之心原创 作者:Luo Sainan 编辑:H4O 迁移学习通 ...
- 转载:强化学习中Bellman最优性方程背后的数学原理?
一. Bellman最优 贝尔曼方程在强化学习(RL)中无处不在,它是由美国应用数学家理查德·贝尔曼(Richard Bellman)提出,用于求解马尔可夫决策过程. 贝尔曼最优性方程 贝尔曼最优性方 ...
- 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...
No.26 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
- 强化学习中的脉冲神经网络
简 介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...
- 最新综述 | 强化学习中从仿真器到现实环境的迁移
©PaperWeekly 原创 · 作者|李文浩 学校|华东师范大学博士生 研究方向|强化学习 最近 survey 了一下 sim2real 领域最近的相关工作,先整理个第一版(共有七篇论文)的总结. ...
- 初探强化学习(10)强化学习中的一些术语(non-stationray,sample efficiency,planning和Learnin,Reward,off-policy和on-policy )
1. 关于stationray 参考博客. Stationary or not 根据环境是否稳定.可以将强化学习问题分为stationary.non-stationary. 1.1 stationar ...
最新文章
- iOS组件化方案的几种实现
- 安德鲁斯Selector简介
- oracle 类似decode,类似于ORACLE decode 的用法
- c语言通讯录动态文件操作,学C三个月了,学了文件,用C语言写了个通讯录程序...
- 剑指offer——29.顺时针打印矩阵(不熟)
- 【简报】超棒的免费Web字体服务:Adobe Edge Web字体
- sql如何在两张表中得到每组数据,并知道数据的个数,举例,判断有多少班级,每个班的人数
- 场地预约小程序开发及前后端源码
- 前端工作中碰到的一些小问题总结
- 内核的同步机制(原子锁)
- 关于电脑端如何下载云班课资源---将云班课资源下载到本地
- css日落_如何拍摄好日落照片
- 数据可视化神器,精彩的地图可视化展示
- As I Please--PartⅠ
- 字体设计编辑软件Glyphs 2 for mac中文版v2.6.6(1350)
- 变频电源使用脉冲宽度调制方式会对周边设备造成什么影响,该如何去防护
- Visual Studio Code PlatformIo IDE 新建项目下载慢的解决办法
- 发现一个学习Android的好博客
- python框架下的CT成像重建后处理(CIL库)
- javaSE commons-io第三方插件, FileUtils工具类,复制文件夹、文件,写入/读取文件