bellman operator 和bellman equation概念区分

在阅读强化学习相关的论文时经常会遇到bellman operator和bellman equation，例如：状态动作值函数的贝尔曼等式：

状态动作值函数的贝尔曼算子：

那么这两个东西到底有什么区别呢？首先给出结论，这两个东西的等价的。证明如下：
vπ(s)=∑a∈Aπ(a∣s)(Rsa+γ∑s′∈SPss′avπ(s′))v_{\pi}(s)=\sum_{a \in \mathcal{A}} \pi(a \mid s)\left(\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{\pi}\left(s^{\prime}\right)\right)vπ(s)=a∈A∑π(a∣s)(Rsa+γs′∈S∑Pss′avπ(s′))
展开
vπ(s)=∑a∈Aπ(a∣s)Rsa+γ∑a∈Aπ(a∣s)∑s′∈SPss′avπ(s′)v_{\pi}(s)=\sum_{a \in \mathcal{A}} \pi(a \mid s)\mathcal{R}_{s}^{a}+\gamma\sum_{a \in \mathcal{A}} \pi(a \mid s) \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{\pi}\left(s^{\prime}\right)vπ(s)=a∈A∑π(a∣s)Rsa+γa∈A∑π(a∣s)s′∈S∑Pss′avπ(s′)
左边项可以写成
Rsπ=∑a∈Aπ(a∣s)Rsa\mathcal{R}_{s}^{\pi}=\sum_{a \in \mathcal{A}} \pi(a \mid s) \mathcal{R}_{s}^{a}Rsπ=a∈A∑π(a∣s)Rsa
右边项可以写成
Pss′π=∑a∈Aπ(a∣s)Pss′a\mathcal{P}_{s s^{\prime}}^{\pi}=\sum_{a \in \mathcal{A}} \pi(a \mid s) \mathcal{P}_{s s^{\prime}}^{a}Pss′π=a∈A∑π(a∣s)Pss′a
于是原来bellman equation变成
vπ(s)=Rsπ+γ∑s′∈SPss′πvπ(s′)v_{\pi}(s)=\mathcal{R}_{s}^{\pi}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{\pi} v_{\pi}\left(s^{\prime}\right)vπ(s)=Rsπ+γs′∈S∑Pss′πvπ(s′)
对于一个batch的数据，上面的式子进一步简化：
vπ=Rπ+γPπvπv_{\pi}=\mathcal{R}^{\pi}+\gamma \mathcal{P}^{\pi} v_{\pi}vπ=Rπ+γPπvπ
而对应的bellman operator是这样的：
Tπ(v)=Rπ+γPπv\mathcal{T}^{\pi}(v)=\mathcal{R}^{\pi}+\gamma \mathcal{P}^{\pi} vTπ(v)=Rπ+γPπv
就是用bellman operator更新v，而这个bellman operator由pi决定。和原来bellman equation中更具策略pi更新v本质上是一样的。形式的不同就是把pi提到贝尔曼算子的符号上。
那为什么要改写呢？是因为贝尔曼算子的收缩性能够用来证明v的值最后可以收敛到固定的点。所以贝尔曼算子就是用来理论推导的。

参考资料

如果有理解不对的地方，希望各位大佬批评指正！

bellman operator 和bellman equation概念区分相关推荐

Android中build target，minSdkVersion，targetSdkVersion，maxSdkVersion概念区分
Android中build target,minSdkVersion,targetSdkVersion,maxSdkVersion概念区分本文参考了谷歌开发者文档:http://developer. ...
邻域、邻接、通路、连通、连通集、区域概念区分
转自:邻域.邻接.通路.连通.连通集.区域概念区分有些概念就是这样,刚开始挺明白,后来长时间不看越来越模糊,都混成一团了,这里重新总结一下. 1.邻域:数字图像中,邻域分为4邻域和8邻域,4邻域就是 ...
# 行动、任务、项目概念区分
行动.任务.项目概念区分 1.行动(todo或action) 行动就是确定时间节点,可以立即去做的事情.行动容易操作和衡量. 2.任务(task) 任务通常指所接受的工作,所担负的职责,是指为了完成某 ...
解决微信小程序请求后端接口碰到合法域名的问题 http-405j及java接口和数据接口的概念区分
合法域名的问题 http-405 解决方案: @Overrideprotected void doGet(HttpServletRequest req, HttpServletResponse res ...
液晶接口系列——MIPI之DSI时钟的计算和常见概念区分
文章目录总述时钟计算液晶基础时钟概念 DSI时钟计算 DSI的"模式"概念区分液晶屏的模式 COMMAND模式和VIDEO模式 VIDEO屏的三种模式数据传输HS MOD ...
PO,BO,VO,DTO和POJO的概念区分
PO,BO,VO,DTO和POJO的概念区分文章目录 PO,BO,VO,DTO和POJO的概念区分 POJO(plain ordinary java object) VO(View Object) ...
Network 之一国际标准组织介绍、互联网/因特网、以太网概念区分、协议标准
在学习计算机网络时,互联网.以太网.因特网.万维网.局域网.城域网.广域网等这些概念常常对理解计算机网络造成很大的困扰.并且在很多文章中,这些概念经常被混为一谈.但是当我们深入了解计算机网络时就会 ...
点积、内积、外积、叉积、张量积——概念区分
找张量积概念的时候,被各种野路子博客引入的各种"积"搞混了,下面仅以Wikipedia为标准记录各种积的概念. 点积(Dot product) https://en.wikiped ...
数据仓库DM、DW和ODS等概念区分
一.数据中心整体架构数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层 ...

bellman operator 和bellman equation概念区分

bellman operator 和bellman equation概念区分相关推荐

最新文章

热门文章