在阅读强化学习相关的论文时经常会遇到bellman operator和bellman equation,例如:状态动作值函数的贝尔曼等式:

状态动作值函数的贝尔曼算子:

那么这两个东西到底有什么区别呢?首先给出结论,这两个东西的等价的。证明如下:
vπ(s)=∑a∈Aπ(a∣s)(Rsa+γ∑s′∈SPss′avπ(s′))v_{\pi}(s)=\sum_{a \in \mathcal{A}} \pi(a \mid s)\left(\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{\pi}\left(s^{\prime}\right)\right)vπ​(s)=a∈A∑​π(a∣s)(Rsa​+γs′∈S∑​Pss′a​vπ​(s′))
展开
vπ(s)=∑a∈Aπ(a∣s)Rsa+γ∑a∈Aπ(a∣s)∑s′∈SPss′avπ(s′)v_{\pi}(s)=\sum_{a \in \mathcal{A}} \pi(a \mid s)\mathcal{R}_{s}^{a}+\gamma\sum_{a \in \mathcal{A}} \pi(a \mid s) \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{\pi}\left(s^{\prime}\right)vπ​(s)=a∈A∑​π(a∣s)Rsa​+γa∈A∑​π(a∣s)s′∈S∑​Pss′a​vπ​(s′)
左边项可以写成
Rsπ=∑a∈Aπ(a∣s)Rsa\mathcal{R}_{s}^{\pi}=\sum_{a \in \mathcal{A}} \pi(a \mid s) \mathcal{R}_{s}^{a}Rsπ​=a∈A∑​π(a∣s)Rsa​
右边项可以写成
Pss′π=∑a∈Aπ(a∣s)Pss′a\mathcal{P}_{s s^{\prime}}^{\pi}=\sum_{a \in \mathcal{A}} \pi(a \mid s) \mathcal{P}_{s s^{\prime}}^{a}Pss′π​=a∈A∑​π(a∣s)Pss′a​
于是原来bellman equation变成
vπ(s)=Rsπ+γ∑s′∈SPss′πvπ(s′)v_{\pi}(s)=\mathcal{R}_{s}^{\pi}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{\pi} v_{\pi}\left(s^{\prime}\right)vπ​(s)=Rsπ​+γs′∈S∑​Pss′π​vπ​(s′)
对于一个batch的数据,上面的式子进一步简化:
vπ=Rπ+γPπvπv_{\pi}=\mathcal{R}^{\pi}+\gamma \mathcal{P}^{\pi} v_{\pi}vπ​=Rπ+γPπvπ​
而对应的bellman operator是这样的:
Tπ(v)=Rπ+γPπv\mathcal{T}^{\pi}(v)=\mathcal{R}^{\pi}+\gamma \mathcal{P}^{\pi} vTπ(v)=Rπ+γPπv
就是用bellman operator更新v,而这个bellman operator由pi决定。和原来bellman equation中更具策略pi更新v本质上是一样的。形式的不同就是把pi提到贝尔曼算子的符号上。
那为什么要改写呢?是因为贝尔曼算子的收缩性能够用来证明v的值最后可以收敛到固定的点。所以贝尔曼算子就是用来理论推导的。

参考资料

如果有理解不对的地方,希望各位大佬批评指正!

bellman operator 和bellman equation概念区分相关推荐

  1. Android中build target,minSdkVersion,targetSdkVersion,maxSdkVersion概念区分

    Android中build target,minSdkVersion,targetSdkVersion,maxSdkVersion概念区分 本文参考了谷歌开发者文档:http://developer. ...

  2. 邻域、邻接、通路、连通、连通集、区域概念区分​​​​​​​

    转自:邻域.邻接.通路.连通.连通集.区域概念区分 有些概念就是这样,刚开始挺明白,后来长时间不看越来越模糊,都混成一团了,这里重新总结一下. 1.邻域:数字图像中,邻域分为4邻域和8邻域,4邻域就是 ...

  3. # 行动、任务、项目概念区分

    行动.任务.项目概念区分 1.行动(todo或action) 行动就是确定时间节点,可以立即去做的事情.行动容易操作和衡量. 2.任务(task) 任务通常指所接受的工作,所担负的职责,是指为了完成某 ...

  4. 解决微信小程序请求后端接口碰到合法域名的问题 http-405j及java接口和数据接口的概念区分

    合法域名的问题 http-405 解决方案: @Overrideprotected void doGet(HttpServletRequest req, HttpServletResponse res ...

  5. 液晶接口系列——MIPI之DSI时钟的计算和常见概念区分

    文章目录 总述 时钟计算 液晶基础时钟概念 DSI时钟计算 DSI的"模式"概念区分 液晶屏的模式 COMMAND模式和VIDEO模式 VIDEO屏的三种模式 数据传输HS MOD ...

  6. PO,BO,VO,DTO和POJO的概念区分

    PO,BO,VO,DTO和POJO的概念区分 文章目录 PO,BO,VO,DTO和POJO的概念区分 POJO(plain ordinary java object) VO(View Object) ...

  7. Network 之一 国际标准组织介绍、互联网/因特网、以太网概念区分、协议标准

      在学习计算机网络时,互联网.以太网.因特网.万维网.局域网.城域网.广域网等这些概念常常对理解计算机网络造成很大的困扰.并且在很多文章中,这些概念经常被混为一谈.但是当我们深入了解计算机网络时就会 ...

  8. 点积、内积、外积、叉积、张量积——概念区分

    找张量积概念的时候,被各种野路子博客引入的各种"积"搞混了,下面仅以Wikipedia为标准记录各种积的概念. 点积(Dot product) https://en.wikiped ...

  9. 数据仓库DM、DW和ODS等概念区分

    一.数据中心整体架构 数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层 ...

最新文章

  1. 轻量型模型比肩千亿大模型,新一代中文语言模型孟子,刷新CLUE纪录!
  2. 网易数据基础平台建设经验谈
  3. Web前端学习笔记:Bootstrap
  4. MySQL中的常用函数
  5. 由“标准C”“纯C”引发的思考
  6. 基于JAVA+SpringMVC+Mybatis+MYSQL的微信小程序图书借阅管理系统
  7. js html utf8编码转换,js中的UTF-8编码与解码
  8. Java并发系列—并发编程挑战
  9. 在Java / Maven中处理“Xerces hell”?
  10. 树的最大独立集详解(C++)
  11. x轴z轴代表的方向图片_x轴y轴z轴代表的方向_x轴y轴z轴代表的方向图
  12. getcwd()函数的用法
  13. hdu4966 最小树形图+虚根
  14. 此人才是最强的创客,马化腾、李彦宏大佬都望尘莫及
  15. 微生物16S测序数据的正确打开方式
  16. python代替易语言_基于hook的python机器人,彻底取代itchat
  17. flink的java api_Flink 流处理API之二
  18. JavaScript实现在线生成高强度随机密码工具-toolfk程序员在线工具网
  19. 第十一章 曲线积分与曲面积分
  20. 1546B AquaMoon and Stolen String

热门文章

  1. 下注玩客币到重仓公链,迅雷的区块链转型之路
  2. mysql存储手机号
  3. 第十六章 SQL命令 CREATE TABLE(三)
  4. 面阵激光雷达产品调研——Livox Avia
  5. 好佳居软装十大品牌 软装可以提升格调
  6. nginx用法总结【1】
  7. 通过 blast 结果查看 测序数据fastq是否被污染,以及污染reads所属物种、所占比例
  8. iOS : 通过路径读取文件的几种方法
  9. Mockito 中被 Mocked 的对象属性及方法的默认值
  10. STM32单片机的PSAM卡驱动模块设计