一、需要证明:

E[V(st+1)∣st]=E[E[Gt+1∣st+1]∣st]=E[Gt+1∣st],(1)\mathbb{E} [V(s_{t+1})|s_t] = \mathbb{E} [ \mathbb{E}{[G_{t+1}|s_{t+1}]|s_t}] = \mathbb{E} {[G_{t+1}|s_t}], \tag{1}E[V(st+1​)∣st​]=E[E[Gt+1​∣st+1​]∣st​]=E[Gt+1​∣st​],(1) 其中第一个等号可以由定义 V(st+1)=E[Gt+1∣st+1]V(s_{t+1})=\mathbb{E}[G_{t+1}|s_{t+1}]V(st+1​)=E[Gt+1​∣st+1​] 直接得。现证明第二个等号。公式(1)将有利于推导贝尔曼方程。

二、证明过程:

  • 为了简化符号表达,先把公式(1)的符号下标省略。st=ss_t = sst​=s, Gt+1=g′G_{t+1} = g'Gt+1​=g′ 和 st+1=s′s_{t+1} = s'st+1​=s′.

  • 说明几个将会用到的公式
    1. If x is a discrete random variable, then, it expectation value E[x]\mathbb{E}[x]E[x] is,
    E[x]=∑xxp(x)=∑iE[x∣Ai]p(Ai)=∑xx∑ip(x∣Ai)p(Ai),(2)\mathbb{E}[x] = \sum_x xp(x) = \sum_i \mathbb{E} [x|A_i] p(A_i)= \sum_x x \sum_ip(x|A_i)p(A_i), \tag{2}E[x]=x∑​xp(x)=i∑​E[x∣Ai​]p(Ai​)=x∑​xi∑​p(x∣Ai​)p(Ai​),(2)其中 p(x)p(x)p(x)表示xxx的概率密度函数, 且 p(x)=∑ip(x∣Ai)p(Ai)p(x)= \sum_ip(x|A_i)p(A_i)p(x)=∑i​p(x∣Ai​)p(Ai​) 【全概率公式】。
    2. If x and y are discrete random variables, then, their conditional expectation value E[y∣x]\mathbb{E}[y|x]E[y∣x] is,
    E[y∣x]=∑yyp(y∣x).(3)\mathbb{E}[y|x] = \sum_y yp(y|x). \tag{3}E[y∣x]=y∑​yp(y∣x).(3)

  • 可以看到 需要证明的公式 是一个具有 双重期望 与 双重条件集 的 等式 E[E[g′∣s′]∣s]=E[g′∣s]\mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}]E[E[g′∣s′]∣s]=E[g′∣s]。所以先尝试推导 一个简单的情况( 双重期望、单条件集的情况),即 E[E[g′∣s′]]=E[g′]\mathbb{E} [ \mathbb{E}{[g'|s']}] = \mathbb{E} {[g'}]E[E[g′∣s′]]=E[g′] :
    E[E[g′∣s′]]=∑s′E[g′∣s′]p(s′)=∑s′∑g′g′p(g′∣s′)p(s′)=∑g′g′[∑s′p(g′∣s′)p(s′)]=∑g′g′[∑s′p(g′,s′)]=∑g′g′p(g′)=E[g′].(4)\mathbb{E} [ \mathbb{E}{[g'|s']}] = \sum_{s'}\mathbb{E}{[g'|s']} p(s')\\ = \sum_{s'} \sum_{g'} g'p(g'|s') p(s') \\ =\sum_{g'} g' [\sum_{s'} p(g'|s') p(s')] \\ = \sum_{g'} g' [\sum_{s'} p(g',s')] \\ = \sum_{g'} g'p(g') = \mathbb{E} {[g'}]. \tag{4} E[E[g′∣s′]]=s′∑​E[g′∣s′]p(s′)=s′∑​g′∑​g′p(g′∣s′)p(s′)=g′∑​g′[s′∑​p(g′∣s′)p(s′)]=g′∑​g′[s′∑​p(g′,s′)]=g′∑​g′p(g′)=E[g′].(4) 首先我们需要关注的是 期望E(⋅)\mathbb{E}(\cdot)E(⋅) 是对谁求期望。即,在E[E[g′∣s′]]\mathbb{E} [ \mathbb{E}{[g'|s']}]E[E[g′∣s′]]中, 第一个期望 E\mathbb{E}E 针对s′s's′,第二个期望 E\mathbb{E}E 针对g′g'g′. 所以:
    公式(4)的第一个等号,可以根据公式(2)得出。公式(4)的第二个等号,可以根据公式(3)得出.
    公式(4)的第三个等号,做了个交换顺序。公式(4)的第四个、五个等号,可以从公式(2)提及的全概率公式知道。

  • 现在来推我们想要的 双重期望 与 双重条件集 的 等式 E[E[g′∣s′]∣s]=E[g′∣s]\mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}]E[E[g′∣s′]∣s]=E[g′∣s] 就容易多了:
    E[E[g′∣s′]∣s]=∑s′E[g′∣s′,s]p(s′∣s)=∑s′[∑g′g′p(g′∣s′,s)]p(s′∣s)=∑g′g′[∑s′p(g′∣s′,s)p(s′∣s)]=∑g′g′[∑s′p(g′,s′∣s)]=∑g′g′p(g′∣s)=E[g′∣s].(5)\mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \sum_{s'}\mathbb{E}{[g'|s',s]} p(s'|s)\\ = \sum_{s'} [ \sum_{g'} g' p(g'|s',s) ] p(s'|s)\\ = \sum_{g'} g' [ \sum_{s'}p(g'|s',s) p(s'|s) ] \\ = \sum_{g'} g' [ \sum_{s'} p(g',s'|s) ] \\ = \sum_{g'} g' p(g'|s) = \mathbb{E} {[g'|s}] \tag{5}.E[E[g′∣s′]∣s]=s′∑​E[g′∣s′,s]p(s′∣s)=s′∑​[g′∑​g′p(g′∣s′,s)]p(s′∣s)=g′∑​g′[s′∑​p(g′∣s′,s)p(s′∣s)]=g′∑​g′[s′∑​p(g′,s′∣s)]=g′∑​g′p(g′∣s)=E[g′∣s].(5) 与公式(4)同样的思路,我们先分析 每个期望E(⋅)\mathbb{E}(\cdot)E(⋅) 是对谁求期望。即,在E[E[g′∣s′]∣s]\mathbb{E} [ \mathbb{E}{[g'|s']|s}]E[E[g′∣s′]∣s]中, 第一个期望 E\mathbb{E}E 针对s′s's′,第二个期望E\mathbb{E}E 针对g′g'g′ (和公式(4)一样). 所以:
    公式(5)的第一个等号,与公式(4)相比,只是多了个sss作为条件集(注意的是 因为这里sss条件集并没有被要求做期望 E\mathbb{E}E,所以它只发挥条件集的作用)。
    公式(5)的第二个等号,可以根据公式(3)得出.
    公式(5)的第三个等号,做了个交换顺序。
    公式(5)的第四个等号,可以从公式(2)提及的全概率公式知道:相比公式(2)的 p(g′∣s′)p(s′)=p(g′,s′)p(g'|s') p(s') = p(g',s')p(g′∣s′)p(s′)=p(g′,s′), 这里也只是多了个条件集,所以类似有 p(g′∣s′,s)p(s′∣s)=p(g′,s′∣s)p(g'|s',s) p(s'|s)=p(g',s'|s)p(g′∣s′,s)p(s′∣s)=p(g′,s′∣s) 。

综上, E[E[g′∣s′]∣s]=E[g′∣s]\mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}]E[E[g′∣s′]∣s]=E[g′∣s] 得证。上述过程参考了[1], 里面包含了连续随机变量 双重期望、单条件集的证明,也就是公式(4)连续情况的证明.

reference

[1] https://www.zhihu.com/question/58919546

贝尔曼方程基于全期望公式的前期推导相关推荐

  1. hdu 4405 全期望公式

    首先确定随机事件X:掷色子到达终点的次数 E[n-n+5] :因为已经到达终点所以,全为0 由全期望公式得,E[i] = sum( E[i+j] ) ( 1<=j<=6 )/6 + 1因为 ...

  2. 期望 UVA - 11427 - 独立重复事件-全期望公式

    题目链接:https://onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem& ...

  3. 二维随机变量期望公式_MIT 6.041 概率论笔记 离散随机变量(二)

    6.Discrete Random Variables II 离散随机变量(二) Standard deviation 标准差 若想要以相同单位衡量数据的偏移量,可以将方差开根,得到随机变量X分布的标 ...

  4. Lucene学习总结之六:Lucene打分公式的数学推导

     Lucene学习总结之六:Lucene打分公式的数学推导 在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索 ...

  5. 全概公式和贝叶斯公式的理解

    目录(?)[+] 条件概率 首先,理解这两个公式的前提是理解条件概率,因此先复习条件概率. P(A|B)=P(AB)P(B) 理解这个可以从两个角度来看.  第一个角度:在B发生的基础上,A发生的概率 ...

  6. 概率论(三)- 全概公式逆概公式(贝叶斯公式)

    全概公式 定义: B是一个事件,则有 证明: 技巧性的问题: 例1 袋中有5个球,其中有3个红球,2个白球,从中每次取出一个球(不放回)用A表示第一次取到红球,B表示第二次取到红球,求 (1)P(A) ...

  7. 3D点云初探:基于全卷积神经网络实现3D物体识别

    基于全卷积神经网络实现3D物体识别 一.从2D图像识别到3D物体识别 二.ModelNet10:3D CAD数据集 1.存储格式 2.读取方法 3.点云可视化 可视化工具 plt可视化 4.数据集定义 ...

  8. 常用概率分布的矩母函数、特征函数以及期望、方差的推导

    常用概率分布的矩母函数.特征函数以及期望.方差的推导 一.定义与性质 二.离散型随机变量的分布 0.退化分布(Degenerate distribution) 1.离散型均匀分布(Discrete u ...

  9. 零中频接收机频率转换图_【鼎阳硬件智库原创︱测试测量 】基于全数字中频技术频谱分析仪的工作原理...

    汪进进 鼎阳硬件设计与测试智库专家组成员 频谱分析仪简称频谱仪,是射频工程师最熟悉的一种仪器.相对于示波器作为"电子工程师的眼睛",占据"时域第一仪器"甚至&q ...

最新文章

  1. nodejs mysql 异步_Gearman + Nodejs + MySQL UDF异步实现 MySQL 到 Redis 的数据同步
  2. GPRS流量计算方法(TCP/IP)
  3. java使用集合模拟斗地主洗牌发牌案例
  4. 坐在马桶上看算法:Dijkstra最短路算法
  5. Java菜鸟教程math类_Java Number Math 类
  6. 《Breakfast At Tiffanys》
  7. 高二女生制作危险驾驶报警手机软件
  8. [LeetCode]819. 最常见的单词
  9. Netty设计模式应用
  10. js截取字符串区分汉字字母代码
  11. 创建MyFilter1类过滤器,对于未登陆用户(如果session对象中包含用户名就认为已登录)进行过滤跳转到登录页面
  12. 贝叶斯分类与贝叶斯网络
  13. 大学学计算机考试大一,大学计算机基础大一考试必备题库[1].pdf
  14. ReviewBoard代码评审实践总结
  15. js-table2excel 导出带图片的excel
  16. SSH基础:ssh首次连接的公钥认证
  17. [转载]创建、部署和调试 Apache Geronimo 应用程序
  18. 【综述】方面级情感分析 Aspect-level Sentiment Classification
  19. 2020年泰迪杯C题智慧政务中的文本数据挖掘应用--论文+全部源码分享
  20. CRM-客户关系管理(Customer Relationship Management)

热门文章

  1. android仿钉钉日程日历,Flutter仿钉钉考勤日历的示例代码
  2. matlab中ode的用法,关于matlab 的ode45用法
  3. 国仁网络资讯:微信视频号怎么给自己账号精准定位;账号定位又分为哪些类?
  4. 针对平层住宅的分布式无线组网方案(含万兆NAS)
  5. dvm 与jvm 区别
  6. RT-Thread ENV工具 pkgs --upgrade 报错:open .config failed
  7. 《区块链革命》读书笔记1可信的协议 引导未来:区块链经济七大设计原则
  8. RCF—用于C++的进程间通讯(1)
  9. 通过SqlDbx导出*.sql
  10. PayPal集成标准版案例(asp.net)关键源码