bellman operator 和bellman equation概念区分
在阅读强化学习相关的论文时经常会遇到bellman operator和bellman equation,例如:状态动作值函数的贝尔曼等式:
状态动作值函数的贝尔曼算子:
那么这两个东西到底有什么区别呢?首先给出结论,这两个东西的等价的。证明如下:
vπ(s)=∑a∈Aπ(a∣s)(Rsa+γ∑s′∈SPss′avπ(s′))v_{\pi}(s)=\sum_{a \in \mathcal{A}} \pi(a \mid s)\left(\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{\pi}\left(s^{\prime}\right)\right)vπ(s)=a∈A∑π(a∣s)(Rsa+γs′∈S∑Pss′avπ(s′))
展开
vπ(s)=∑a∈Aπ(a∣s)Rsa+γ∑a∈Aπ(a∣s)∑s′∈SPss′avπ(s′)v_{\pi}(s)=\sum_{a \in \mathcal{A}} \pi(a \mid s)\mathcal{R}_{s}^{a}+\gamma\sum_{a \in \mathcal{A}} \pi(a \mid s) \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{\pi}\left(s^{\prime}\right)vπ(s)=a∈A∑π(a∣s)Rsa+γa∈A∑π(a∣s)s′∈S∑Pss′avπ(s′)
左边项可以写成
Rsπ=∑a∈Aπ(a∣s)Rsa\mathcal{R}_{s}^{\pi}=\sum_{a \in \mathcal{A}} \pi(a \mid s) \mathcal{R}_{s}^{a}Rsπ=a∈A∑π(a∣s)Rsa
右边项可以写成
Pss′π=∑a∈Aπ(a∣s)Pss′a\mathcal{P}_{s s^{\prime}}^{\pi}=\sum_{a \in \mathcal{A}} \pi(a \mid s) \mathcal{P}_{s s^{\prime}}^{a}Pss′π=a∈A∑π(a∣s)Pss′a
于是原来bellman equation变成
vπ(s)=Rsπ+γ∑s′∈SPss′πvπ(s′)v_{\pi}(s)=\mathcal{R}_{s}^{\pi}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{\pi} v_{\pi}\left(s^{\prime}\right)vπ(s)=Rsπ+γs′∈S∑Pss′πvπ(s′)
对于一个batch的数据,上面的式子进一步简化:
vπ=Rπ+γPπvπv_{\pi}=\mathcal{R}^{\pi}+\gamma \mathcal{P}^{\pi} v_{\pi}vπ=Rπ+γPπvπ
而对应的bellman operator是这样的:
Tπ(v)=Rπ+γPπv\mathcal{T}^{\pi}(v)=\mathcal{R}^{\pi}+\gamma \mathcal{P}^{\pi} vTπ(v)=Rπ+γPπv
就是用bellman operator更新v,而这个bellman operator由pi决定。和原来bellman equation中更具策略pi更新v本质上是一样的。形式的不同就是把pi提到贝尔曼算子的符号上。
那为什么要改写呢?是因为贝尔曼算子的收缩性能够用来证明v的值最后可以收敛到固定的点。所以贝尔曼算子就是用来理论推导的。
参考资料
如果有理解不对的地方,希望各位大佬批评指正!
bellman operator 和bellman equation概念区分相关推荐
- Android中build target,minSdkVersion,targetSdkVersion,maxSdkVersion概念区分
Android中build target,minSdkVersion,targetSdkVersion,maxSdkVersion概念区分 本文参考了谷歌开发者文档:http://developer. ...
- 邻域、邻接、通路、连通、连通集、区域概念区分
转自:邻域.邻接.通路.连通.连通集.区域概念区分 有些概念就是这样,刚开始挺明白,后来长时间不看越来越模糊,都混成一团了,这里重新总结一下. 1.邻域:数字图像中,邻域分为4邻域和8邻域,4邻域就是 ...
- # 行动、任务、项目概念区分
行动.任务.项目概念区分 1.行动(todo或action) 行动就是确定时间节点,可以立即去做的事情.行动容易操作和衡量. 2.任务(task) 任务通常指所接受的工作,所担负的职责,是指为了完成某 ...
- 解决微信小程序请求后端接口碰到合法域名的问题 http-405j及java接口和数据接口的概念区分
合法域名的问题 http-405 解决方案: @Overrideprotected void doGet(HttpServletRequest req, HttpServletResponse res ...
- 液晶接口系列——MIPI之DSI时钟的计算和常见概念区分
文章目录 总述 时钟计算 液晶基础时钟概念 DSI时钟计算 DSI的"模式"概念区分 液晶屏的模式 COMMAND模式和VIDEO模式 VIDEO屏的三种模式 数据传输HS MOD ...
- PO,BO,VO,DTO和POJO的概念区分
PO,BO,VO,DTO和POJO的概念区分 文章目录 PO,BO,VO,DTO和POJO的概念区分 POJO(plain ordinary java object) VO(View Object) ...
- Network 之一 国际标准组织介绍、互联网/因特网、以太网概念区分、协议标准
在学习计算机网络时,互联网.以太网.因特网.万维网.局域网.城域网.广域网等这些概念常常对理解计算机网络造成很大的困扰.并且在很多文章中,这些概念经常被混为一谈.但是当我们深入了解计算机网络时就会 ...
- 点积、内积、外积、叉积、张量积——概念区分
找张量积概念的时候,被各种野路子博客引入的各种"积"搞混了,下面仅以Wikipedia为标准记录各种积的概念. 点积(Dot product) https://en.wikiped ...
- 数据仓库DM、DW和ODS等概念区分
一.数据中心整体架构 数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层 ...
最新文章
- 轻量型模型比肩千亿大模型,新一代中文语言模型孟子,刷新CLUE纪录!
- 网易数据基础平台建设经验谈
- Web前端学习笔记:Bootstrap
- MySQL中的常用函数
- 由“标准C”“纯C”引发的思考
- 基于JAVA+SpringMVC+Mybatis+MYSQL的微信小程序图书借阅管理系统
- js html utf8编码转换,js中的UTF-8编码与解码
- Java并发系列—并发编程挑战
- 在Java / Maven中处理“Xerces hell”?
- 树的最大独立集详解(C++)
- x轴z轴代表的方向图片_x轴y轴z轴代表的方向_x轴y轴z轴代表的方向图
- getcwd()函数的用法
- hdu4966 最小树形图+虚根
- 此人才是最强的创客,马化腾、李彦宏大佬都望尘莫及
- 微生物16S测序数据的正确打开方式
- python代替易语言_基于hook的python机器人,彻底取代itchat
- flink的java api_Flink 流处理API之二
- JavaScript实现在线生成高强度随机密码工具-toolfk程序员在线工具网
- 第十一章 曲线积分与曲面积分
- 1546B AquaMoon and Stolen String