一、需要证明：

E[V(st+1)∣st]=E[E[Gt+1∣st+1]∣st]=E[Gt+1∣st],(1)\mathbb{E} [V(s_{t+1})|s_t] = \mathbb{E} [ \mathbb{E}{[G_{t+1}|s_{t+1}]|s_t}] = \mathbb{E} {[G_{t+1}|s_t}], \tag{1}E[V(st+1)∣st]=E[E[Gt+1∣st+1]∣st]=E[Gt+1∣st],(1) 其中第一个等号可以由定义 V(st+1)=E[Gt+1∣st+1]V(s_{t+1})=\mathbb{E}[G_{t+1}|s_{t+1}]V(st+1)=E[Gt+1∣st+1] 直接得。现证明第二个等号。公式（1）将有利于推导贝尔曼方程。

二、证明过程：

为了简化符号表达，先把公式（1）的符号下标省略。st=ss_t = sst=s, Gt+1=g′G_{t+1} = g'Gt+1=g′ 和 st+1=s′s_{t+1} = s'st+1=s′.
说明几个将会用到的公式
1. If x is a discrete random variable, then, it expectation value E[x]\mathbb{E}[x]E[x] is,
E[x]=∑xxp(x)=∑iE[x∣Ai]p(Ai)=∑xx∑ip(x∣Ai)p(Ai),(2)\mathbb{E}[x] = \sum_x xp(x) = \sum_i \mathbb{E} [x|A_i] p(A_i)= \sum_x x \sum_ip(x|A_i)p(A_i), \tag{2}E[x]=x∑xp(x)=i∑E[x∣Ai]p(Ai)=x∑xi∑p(x∣Ai)p(Ai),(2)其中 p(x)p(x)p(x)表示xxx的概率密度函数, 且 p(x)=∑ip(x∣Ai)p(Ai)p(x)= \sum_ip(x|A_i)p(A_i)p(x)=∑ip(x∣Ai)p(Ai) 【全概率公式】。
2. If x and y are discrete random variables, then, their conditional expectation value E[y∣x]\mathbb{E}[y|x]E[y∣x] is,
E[y∣x]=∑yyp(y∣x).(3)\mathbb{E}[y|x] = \sum_y yp(y|x). \tag{3}E[y∣x]=y∑yp(y∣x).(3)
可以看到需要证明的公式是一个具有双重期望与双重条件集的等式 E[E[g′∣s′]∣s]=E[g′∣s]\mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}]E[E[g′∣s′]∣s]=E[g′∣s]。所以先尝试推导一个简单的情况( 双重期望、单条件集的情况)，即 E[E[g′∣s′]]=E[g′]\mathbb{E} [ \mathbb{E}{[g'|s']}] = \mathbb{E} {[g'}]E[E[g′∣s′]]=E[g′] ：
E[E[g′∣s′]]=∑s′E[g′∣s′]p(s′)=∑s′∑g′g′p(g′∣s′)p(s′)=∑g′g′[∑s′p(g′∣s′)p(s′)]=∑g′g′[∑s′p(g′,s′)]=∑g′g′p(g′)=E[g′].(4)\mathbb{E} [ \mathbb{E}{[g'|s']}] = \sum_{s'}\mathbb{E}{[g'|s']} p(s')\\ = \sum_{s'} \sum_{g'} g'p(g'|s') p(s') \\ =\sum_{g'} g' [\sum_{s'} p(g'|s') p(s')] \\ = \sum_{g'} g' [\sum_{s'} p(g',s')] \\ = \sum_{g'} g'p(g') = \mathbb{E} {[g'}]. \tag{4} E[E[g′∣s′]]=s′∑E[g′∣s′]p(s′)=s′∑g′∑g′p(g′∣s′)p(s′)=g′∑g′[s′∑p(g′∣s′)p(s′)]=g′∑g′[s′∑p(g′,s′)]=g′∑g′p(g′)=E[g′].(4) 首先我们需要关注的是期望E(⋅)\mathbb{E}(\cdot)E(⋅) 是对谁求期望。即，在E[E[g′∣s′]]\mathbb{E} [ \mathbb{E}{[g'|s']}]E[E[g′∣s′]]中，第一个期望 E\mathbb{E}E 针对s′s's′，第二个期望 E\mathbb{E}E 针对g′g'g′. 所以：
公式(4)的第一个等号，可以根据公式(2)得出。公式(4)的第二个等号，可以根据公式(3)得出.
公式(4)的第三个等号，做了个交换顺序。公式(4)的第四个、五个等号，可以从公式(2)提及的全概率公式知道。
现在来推我们想要的双重期望与双重条件集的等式 E[E[g′∣s′]∣s]=E[g′∣s]\mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}]E[E[g′∣s′]∣s]=E[g′∣s] 就容易多了：
E[E[g′∣s′]∣s]=∑s′E[g′∣s′,s]p(s′∣s)=∑s′[∑g′g′p(g′∣s′,s)]p(s′∣s)=∑g′g′[∑s′p(g′∣s′,s)p(s′∣s)]=∑g′g′[∑s′p(g′,s′∣s)]=∑g′g′p(g′∣s)=E[g′∣s].(5)\mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \sum_{s'}\mathbb{E}{[g'|s',s]} p(s'|s)\\ = \sum_{s'} [ \sum_{g'} g' p(g'|s',s) ] p(s'|s)\\ = \sum_{g'} g' [ \sum_{s'}p(g'|s',s) p(s'|s) ] \\ = \sum_{g'} g' [ \sum_{s'} p(g',s'|s) ] \\ = \sum_{g'} g' p(g'|s) = \mathbb{E} {[g'|s}] \tag{5}.E[E[g′∣s′]∣s]=s′∑E[g′∣s′,s]p(s′∣s)=s′∑[g′∑g′p(g′∣s′,s)]p(s′∣s)=g′∑g′[s′∑p(g′∣s′,s)p(s′∣s)]=g′∑g′[s′∑p(g′,s′∣s)]=g′∑g′p(g′∣s)=E[g′∣s].(5) 与公式(4)同样的思路，我们先分析每个期望E(⋅)\mathbb{E}(\cdot)E(⋅) 是对谁求期望。即，在E[E[g′∣s′]∣s]\mathbb{E} [ \mathbb{E}{[g'|s']|s}]E[E[g′∣s′]∣s]中，第一个期望 E\mathbb{E}E 针对s′s's′，第二个期望E\mathbb{E}E 针对g′g'g′ （和公式(4)一样）. 所以：
公式(5)的第一个等号，与公式(4)相比，只是多了个sss作为条件集（注意的是因为这里sss条件集并没有被要求做期望 E\mathbb{E}E，所以它只发挥条件集的作用）。
公式(5)的第二个等号，可以根据公式(3)得出.
公式(5)的第三个等号，做了个交换顺序。
公式(5)的第四个等号，可以从公式(2)提及的全概率公式知道：相比公式(2)的 p(g′∣s′)p(s′)=p(g′,s′)p(g'|s') p(s') = p(g',s')p(g′∣s′)p(s′)=p(g′,s′), 这里也只是多了个条件集，所以类似有 p(g′∣s′,s)p(s′∣s)=p(g′,s′∣s)p(g'|s',s) p(s'|s)=p(g',s'|s)p(g′∣s′,s)p(s′∣s)=p(g′,s′∣s) 。

综上， E[E[g′∣s′]∣s]=E[g′∣s]\mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}]E[E[g′∣s′]∣s]=E[g′∣s] 得证。上述过程参考了[1], 里面包含了连续随机变量双重期望、单条件集的证明，也就是公式(4)连续情况的证明.

reference

[1] https://www.zhihu.com/question/58919546

贝尔曼方程基于全期望公式的前期推导相关推荐

hdu 4405　全期望公式
首先确定随机事件X:掷色子到达终点的次数 E［n-n+5] :因为已经到达终点所以,全为0 由全期望公式得,E[i] = sum( E[i+j] ) ( 1<=j<=6 )/6 + 1因为 ...
期望 UVA - 11427 - 独立重复事件-全期望公式
题目链接:https://onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem& ...
二维随机变量期望公式_MIT 6.041 概率论笔记离散随机变量（二）
6.Discrete Random Variables II 离散随机变量(二) Standard deviation 标准差若想要以相同单位衡量数据的偏移量,可以将方差开根,得到随机变量X分布的标 ...
Lucene学习总结之六：Lucene打分公式的数学推导
Lucene学习总结之六:Lucene打分公式的数学推导在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索 ...
全概公式和贝叶斯公式的理解
目录(?)[+] 条件概率首先,理解这两个公式的前提是理解条件概率,因此先复习条件概率. P(A|B)=P(AB)P(B) 理解这个可以从两个角度来看. 第一个角度:在B发生的基础上,A发生的概率 ...
概率论（三）- 全概公式逆概公式（贝叶斯公式）
全概公式定义: B是一个事件,则有证明: 技巧性的问题: 例1 袋中有5个球,其中有3个红球,2个白球,从中每次取出一个球(不放回)用A表示第一次取到红球,B表示第二次取到红球,求 (1)P(A) ...
3D点云初探：基于全卷积神经网络实现3D物体识别
基于全卷积神经网络实现3D物体识别一.从2D图像识别到3D物体识别二.ModelNet10:3D CAD数据集 1.存储格式 2.读取方法 3.点云可视化可视化工具 plt可视化 4.数据集定义 ...
常用概率分布的矩母函数、特征函数以及期望、方差的推导
常用概率分布的矩母函数.特征函数以及期望.方差的推导一.定义与性质二.离散型随机变量的分布 0.退化分布(Degenerate distribution) 1.离散型均匀分布(Discrete u ...
零中频接收机频率转换图_【鼎阳硬件智库原创︱测试测量】基于全数字中频技术频谱分析仪的工作原理...
汪进进鼎阳硬件设计与测试智库专家组成员频谱分析仪简称频谱仪,是射频工程师最熟悉的一种仪器.相对于示波器作为"电子工程师的眼睛",占据"时域第一仪器"甚至&q ...

贝尔曼方程基于全期望公式的前期推导

一、需要证明：

二、证明过程：

reference

贝尔曼方程基于全期望公式的前期推导相关推荐

最新文章

热门文章