• 本科阶段,对离散型随机变量和连续型随机变量单独定义了数学期望和条件数学期望。
  • 注意到有很多随机变量的分布函数既不是离散的也不是连续的,下面考虑如何对这类一般的分布函数定义数学期望
  • 需要用到 Riemann-Stieltjes 积分,参考:随机过程(1.1)—— 概率空间、分布函数、Riemann-Stieltjes 积分

文章目录

  • 1. 数学期望
    • 1.1 本质定义
    • 1.2 随机变量的函数的期望
    • 1.3 期望的性质
  • 2. 关于事件的条件数学期望(条件为一个事件)
    • 2.1 条件期望
    • 2.2 一些重要公式
      • 2.2.1 全概率公式
      • 2.2.2 全分布函数公式
      • 2.2.3 全期望公式
      • 2.2.4 条件全期望公式
    • 2.3 Example
    • 2.4 示性随机变量
  • 3. 关于 r.v. 的条件数学期望(条件为一个 r.v.)
    • 3.1 定义
    • 3.2 计算
    • 3.3 条件期望的性质
      • 3.3.1 五条性质
      • 3.3.2 一条推论
    • 3.4 条件期望的本质 —— 投影
      • 3.4.1 投影
      • 3.4.2 直观推论
      • 3.4.3 Example
    • 3.5 深入理解条件数学期望
      • 3.5.1 关于 r.v. 的条件数学期望的正统定义
      • 3.5.2 再看离散和连续随机变量的条件期望

1. 数学期望

1.1 本质定义

  • 设 XXX 的分布函数为 FX(x)F_X(x)FX​(x),且 ∫−∞∞∣x∣dF(x)<∞\int_{-\infin}^\infin|x|dF(x) < \infin∫−∞∞​∣x∣dF(x)<∞,则称
    EX=∫−∞∞xdFX(x)EX = \int_{-\infin}^\infin x dF_X(x) EX=∫−∞∞​xdFX​(x) 为 XXX 的 数学期望,其本质是 f(x)=xf(x) = xf(x)=x 关于其分布函数 FX(x)F_X(x)FX​(x) 的 R-S 积分
  • 两类特殊的随机变量的数学期望
    1. 若 XXX 为离散型随机变量,有 P(X=xi)=pi,i=1,2,...P(X=x_i) = p_i, \space\space i=1,2,...P(X=xi​)=pi​,  i=1,2,...,分布函数 F(x)F(x)F(x) 是阶梯函数,数学期望本质上是关于阶梯函数的 R-S 积分,即
      EX=∑i=1∞xipiEX = \sum_{i=1}^\infin x_ip_i EX=i=1∑∞​xi​pi​
    2. 若 XXX 为连续型随机变量,概率密度函数为 p(x)p(x)p(x),分布函数 F(x)F(x)F(x) 是连续函数,有 dF(x)=p(x)dxdF(x)=p(x)dxdF(x)=p(x)dx,数学期望本质上是关于连续函数的 R-S 积分,即
      EX=∫−∞∞xp(x)dxEX = \int_{-\infin}^\infin xp(x)dx EX=∫−∞∞​xp(x)dx

1.2 随机变量的函数的期望

  • 设 XXX 的分布函数为 FX(x)F_X(x)FX​(x),g(x)g(x)g(x) 为一元 R→RR\to RR→R 函数,且 Y=g(X)Y = g(X)Y=g(X),则
    EY=∫Rg(x)dFX(x)EY = \int_\mathbb{R}g(x)dF_X(x) EY=∫R​g(x)dFX​(x)
  • 若 (X1,X2,...,Xn)(X_1,X_2,...,X_n)(X1​,X2​,...,Xn​) 的分布函数为 F(x1,x2,...,xn)F(x_1,x_2,...,x_n)F(x1​,x2​,...,xn​),g(x1,x2,...,xn)g(x_1,x_2,...,x_n)g(x1​,x2​,...,xn​) 为 n 元 Rn→RR^n\to RRn→R 函数,则
    EY=∫Rng(x1,x2,...,xn)dFX1,X2,...,Xn(x1,x2,...,xn)EY = \int_{\mathbb{R}^n}g(x_1,x_2,...,x_n)dF_{X_1,X_2,...,X_n}(x_1,x_2,...,x_n) EY=∫Rn​g(x1​,x2​,...,xn​)dFX1​,X2​,...,Xn​​(x1​,x2​,...,xn​)

1.3 期望的性质

  1. 若 EXEXEX 存在,则
    ∣EX∣≤E∣X∣|EX| \leq E|X| ∣EX∣≤E∣X∣ 这是因为随机变量的分布函数 F(X)F(X)F(X) 一定是单调不减函数,根据 R-S 积分性质可以证明(更本质地可以通过分割求和取极限证明,每个小区间都有 △F≥0\triangle F\geq 0△F≥0)
  2. Holder 不等式:对于任意的对偶数 p,qp,qp,q (即 p,q>0,1p+1q=1p,q>0,\frac{1}{p}+\frac{1}{q} =1p,q>0,p1​+q1​=1),有
    ∣EXY∣≤E∣XY∣≤(E∣X∣p)1p(E∣Y∣q)1q|EXY| \leq E|XY| \leq (E|X|^p)^\frac{1}{p}(E|Y|^q)^\frac{1}{q} ∣EXY∣≤E∣XY∣≤(E∣X∣p)p1​(E∣Y∣q)q1​ 特别地,p = q = 2 时
    E∣XY∣≤EX2EY2E|XY|\leq \sqrt{EX^2EY^2}E∣XY∣≤EX2EY2​ 这个不等式的意义在于,可以用 XXX 和 YYY 的期望对 XYXYXY 的期望做一个控制
  3. 对于 k>0k>0k>0,若 E∣X∣k≤∞E|X|^k\leq \infinE∣X∣k≤∞,则 E∣X∣r≤∞E|X|^r \leq \infinE∣X∣r≤∞,其中 0≤r≤k0\leq r\leq k0≤r≤k

2. 关于事件的条件数学期望(条件为一个事件)

2.1 条件期望

  • 定义:给定概率空间 (Ω,F,P)(\Omega,\mathscr{F},P)(Ω,F,P),令 B∈FB\in\mathscr{F}B∈F 且 P(B)>0P(B)>0P(B)>0。F(x∣B)=P(X≤x∣B)F(x|B)=P(X\leq x|B)F(x∣B)=P(X≤x∣B) 为 XXX 关于事件 BBB 的条件分布函数,则 XXX 关于 BBB 的 条件期望
    E(X∣B)=∫RxdFX∣B(x∣B)E(X|B) = \int_{\mathbb{R}} xdF_{X|B}(x|B) E(X∣B)=∫R​xdFX∣B​(x∣B) 随机变量的条件概率密度函数(条件分布律)其实就是一种特殊的概率密度函数(分布律)。可以换一套符号:令 Q(⋅)=P(⋅∣B)Q(·)=P(·|B)Q(⋅)=P(⋅∣B) 则 QQQ 为 (Ω,F)(\Omega,\mathscr{F})(Ω,F) 上的概率分布,且 XXX 在 QQQ 下的分布函数为
    FQ(x)=Q(X≤x)=F(x∣B)E(X∣B)=∫RxdF(x∣B)=∫RxdFQ(x)=EQ(X)\begin{aligned} &F_Q(x) = Q(X\leq x) = F(x|B) \\ &E(X|B) = \int_\mathbb{R}xdF(x|B) = \int_\mathbb{R}xdF_Q(x) = E_Q(X) \end{aligned} ​FQ​(x)=Q(X≤x)=F(x∣B)E(X∣B)=∫R​xdF(x∣B)=∫R​xdFQ​(x)=EQ​(X)​
  • 两类特殊的随机变量
    1. 若 XXX 为取值 xi,i=1,2,...x_i,i=1,2,...xi​,i=1,2,... 的离散型随机变量,则
      E(X∣B)=∑i=1∞xiP(X=xi∣B)E(X|B) = \sum_{i=1}^\infin x_iP(X=x_i|B) E(X∣B)=i=1∑∞​xi​P(X=xi​∣B)
    2. 若 XXX 为连续型随机变量,则
      E(X∣B)=∫−∞∞xp(x∣B)dxE(X|B) = \int_{-\infin}^\infin xp(x|B)dx E(X∣B)=∫−∞∞​xp(x∣B)dx
  • 若 X,BX,BX,B 相互独立,即 ∀x,{X≤x}\forall x,\{X\leq x\}∀x,{X≤x} 与 BBB 独立,则 E(X∣B)=EXE(X|B)=EXE(X∣B)=EX
  • 例:设 X∼ε(γ)X\sim \varepsilon(\gamma)X∼ε(γ), B={X>1}B=\{X>1\}B={X>1},求 E(X∣B)E(X|B)E(X∣B)
    ∵F(X∣B)=P(X≤x∣X>1)=P(1<X≤z)P(X>1)={e−λ−e−λxe−λx>10x≤1∴f(x∣B)={λe−λ(x−1)x>10x≤1∴E(X∣B)=∫1∞xλe−λ(x−1)dx=λeλ∫1∞xe−λxdx=λ\begin{aligned} &\begin{aligned} \because F(X|B) &= P(X\leq x|X>1) \\ & = \frac{P(1<X\leq z)}{P(X>1)} \\ & =\left\{ \begin{aligned} &\frac{e^{-\lambda}-e^{-\lambda x}}{e^{-\lambda}} && x>1 \\ &0 & &x\leq 1 \end{aligned} \right. \end{aligned} \\ &\therefore f(x|B) = \left\{ \begin{aligned} &\lambda e^{- \lambda(x-1)} && x>1 \\ &0 & &x\leq 1 \end{aligned} \right. \\ &\begin{aligned} \therefore E(X|B) &= \int_1^\infin x \lambda e^{- \lambda(x-1)}dx \\ &= \lambda e^\lambda \int_1^\infin xe^{-\lambda x}dx \\ &= \lambda \end{aligned} \end{aligned} ​∵F(X∣B)​=P(X≤x∣X>1)=P(X>1)P(1<X≤z)​=⎩⎪⎨⎪⎧​​e−λe−λ−e−λx​0​​x>1x≤1​​∴f(x∣B)={​λe−λ(x−1)0​​x>1x≤1​∴E(X∣B)​=∫1∞​xλe−λ(x−1)dx=λeλ∫1∞​xe−λxdx=λ​​

2.2 一些重要公式

  • 有时候事件概率;随机变量的分布函数、数学期望等不好求,可以把样本空间进行划分并作为条件,在这些条件的基础上,条件概率、条件分布函数、条件数学期望可能比较好求,进而间接地算出结果
  • 令样本空间为若干个不交空间的并,即 Ω=∑i=1∞Bi\Omega = \sum_{i=1}^\infin B_iΩ=∑i=1∞​Bi​

2.2.1 全概率公式

∀A∈FP(A)=∑i=1∞P(Bi)P(A∣Bi)\begin{aligned} &\forall A\in \mathscr{F} \\ &P(A) = \sum_{i=1}^\infin P(B_i)P(A|B_i) \end{aligned} ​∀A∈FP(A)=i=1∑∞​P(Bi​)P(A∣Bi​)​

2.2.2 全分布函数公式

∀x∈RF(x)=p(X≤x)=∑i=1∞P(Bi)P(X≤x∣Bi)=∑i=1∞P(Bi)F(x∣Bi)\begin{aligned} &\forall x\in \mathbb{R} \\ & \begin{aligned} F(x) &= p(X\leq x) \\ &=\sum_{i=1}^\infin P(B_i)P(X\leq x|B_i) \\ &=\sum_{i=1}^\infin P(B_i)F(x|B_i) \end{aligned} \end{aligned} ​∀x∈RF(x)​=p(X≤x)=i=1∑∞​P(Bi​)P(X≤x∣Bi​)=i=1∑∞​P(Bi​)F(x∣Bi​)​​

2.2.3 全期望公式

EX=∫RxdF(x)=∫Rxd∑i=1∞P(Bi)F(x∣Bi)=∑i=1∞P(Bi)∫RxdF(x∣Bi)=∑i=1∞P(Bi)E(X∣Bi)\begin{aligned} EX &= \int_\mathbb{R} xdF(x) \\ & = \int_\mathbb{R} xd\sum_{i=1}^\infin P(B_i)F(x|B_i) \\ & = \sum_{i=1}^\infin P(B_i) \int_\mathbb{R} xd F(x|B_i) \\ & = \sum_{i=1}^\infin P(B_i) E(X|B_i) \end{aligned} EX​=∫R​xdF(x)=∫R​xdi=1∑∞​P(Bi​)F(x∣Bi​)=i=1∑∞​P(Bi​)∫R​xdF(x∣Bi​)=i=1∑∞​P(Bi​)E(X∣Bi​)​

2.2.4 条件全期望公式

  • 先算条件全分布函数公式
    F(x∣A)=P(X≤x∣A):=Q(X≤x)=∑i=1∞Q(Bi)Q(X≤x∣Bi)=∑i=1∞Q(Bi)Q(X≤x,Bi)Q(Bi)=∑i=1∞P(Bi∣A)P(X≤x,Bi∣A)P(Bi∣A)=∑i=1∞P(Bi∣A)P(X≤x,ABi)/P(A)P(ABi)/P(A)=∑i=1∞P(Bi∣A)P(X≤x∣ABi)=∑i=1∞P(Bi∣A)F(x∣ABi)\begin{aligned} F(x|A) &= P(X\leq x|A) \\ &:= Q(X\leq x)\\ & = \sum_{i=1}^\infin Q(B_i) Q(X\leq x|B_i) \\ & = \sum_{i=1}^\infin Q(B_i) \frac{Q(X\leq x,B_i)}{Q(B_i)} \\ & = \sum_{i=1}^\infin P(B_i|A) \frac{P(X\leq x,B_i|A)}{P(B_i|A)} \\ & = \sum_{i=1}^\infin P(B_i|A) \frac{P(X\leq x,AB_i)/P(A)}{P(AB_i)/P(A)} \\ & = \sum_{i=1}^\infin P(B_i|A) P(X\leq x|AB_i) \\ & = \sum_{i=1}^\infin P(B_i|A) F(x|AB_i) \end{aligned} \\ F(x∣A)​=P(X≤x∣A):=Q(X≤x)=i=1∑∞​Q(Bi​)Q(X≤x∣Bi​)=i=1∑∞​Q(Bi​)Q(Bi​)Q(X≤x,Bi​)​=i=1∑∞​P(Bi​∣A)P(Bi​∣A)P(X≤x,Bi​∣A)​=i=1∑∞​P(Bi​∣A)P(ABi​)/P(A)P(X≤x,ABi​)/P(A)​=i=1∑∞​P(Bi​∣A)P(X≤x∣ABi​)=i=1∑∞​P(Bi​∣A)F(x∣ABi​)​
  • 再根据期望的定义(xxx 关于分布函数的R-S积分)计算条件全期望公式
    E(X∣A)=∫RxdF(x∣A)=∫Rxd∑i=1∞P(Bi∣A)F(x∣ABi)=∑i=1nP(Bi∣A)∫RxdF(x∣ABi)=∑i=1nP(Bi∣A)E(X∣ABi)\begin{aligned} E(X|A) &= \int_{\mathbb{R}}xdF(x|A) \\ & = \int_{\mathbb{R}}xd\sum_{i=1}^\infin P(B_i|A) F(x|AB_i) \\ &=\sum_{i=1}^nP(B_i|A) \int_{\mathbb{R}}xdF(x|AB_i) \\ &=\sum_{i=1}^nP(B_i|A)E(X|AB_i) \end{aligned} E(X∣A)​=∫R​xdF(x∣A)=∫R​xdi=1∑∞​P(Bi​∣A)F(x∣ABi​)=i=1∑n​P(Bi​∣A)∫R​xdF(x∣ABi​)=i=1∑n​P(Bi​∣A)E(X∣ABi​)​

2.3 Example

  • 设 r.v.s {Xn,n≥1}\{X_n,n\geq 1\}{Xn​,n≥1} i.i.d,r.v. ξ\xiξ 取正整数值且与 {Xn,n≥1}\{X_n,n\geq 1\}{Xn​,n≥1} 相互独立,求 E(X1+...+Xξ),D(X1+...+Xξ)E(X_1+...+X_\xi),D(X_1+...+X_\xi)E(X1​+...+Xξ​),D(X1​+...+Xξ​)
  • 分析:我们知道多个 i.i.d 随机变量的期望和方差如何求,这里要求和变量的个数是另一个相互独立的随机变量 ξ\xiξ,所以可以通过 ξ\xiξ 的取值对样本空间进行划分,转换为求全期望和全方差

2.4 示性随机变量

  • 令 XXX 为 r.v., A,B∈F,P(B)>0A,B\in \mathscr{F},P(B)>0A,B∈F,P(B)>0,则
    E(IA)=P(A)E(IA∣B)=P(A∣B)E(XIB)=P(B)E(X∣B)\begin{aligned} &E(I_A) = P(A)\\ &E(I_A|B) = P(A|B)\\ &E(XI_B)=P(B)E(X|B) \end{aligned} ​E(IA​)=P(A)E(IA​∣B)=P(A∣B)E(XIB​)=P(B)E(X∣B)​ 其中 IA(w)={1w∈A0w∉AI_A(w) = \left\{ \begin{aligned} &1&& w \in A \\ &0 & &w \notin A \end{aligned} \right.IA​(w)={​10​​w∈Aw∈/​A​
  • 从示性随机变量这个例子可以看出来,概率 PPP 和期望 EEE 是一回事,而期望可以写成积分,所以概率是一种特殊的积分,那么这个积分能不能算?不能算的话能不能估计?由此引发一系列问题

3. 关于 r.v. 的条件数学期望(条件为一个 r.v.)

3.1 定义

  • 令 g(⋅)g(·)g(⋅) 为 R→RR\to RR→R 的实值函数(这种函数和随机变量的复合仍然是随机变量),在 Y=yY=yY=y 的条件下,g(X)g(X)g(X) 的条件数学期望为:
    E(g(X)∣y)=E(g(X)∣Y=y)=∫Rg(x)dFX∣Y(x∣y)\begin{aligned} E(g(X)|y) &= E(g(X)|Y=y) \\ &=\int_{\mathbb{R}}g(x)dF_{X|Y}(x|y) \end{aligned} E(g(X)∣y)​=E(g(X)∣Y=y)=∫R​g(x)dFX∣Y​(x∣y)​
    需要注意的是,对于连续型随机变量,Y=yY=yY=y 不能看作一个事件,因为连续随机变量的点概率 P(Y=y)=0P(Y=y)=0P(Y=y)=0,如果把它当作事件,按上面 2.2.4 节计算条件全分布函数时,会有 P(Y=y)P(Y=y)P(Y=y) 出现在分母位置,而 0 是不能做分母的。事实上

    1. 对于离散型随机变量,Y=yY=yY=y 可以看作一个事件
    2. 对于连续型随机变量,Y=yY=yY=y 只是一种符号表示,指求出 E(g(X)∣Y)E(g(X)|Y)E(g(X)∣Y) 后,把 YYY 替换为 yyy。后面 3.4 节会进一步说明

3.2 计算

  • 3.1 节的定义式给出了计算方法。对于 X,YX,YX,Y 都是离散或连续的情况,可以利用以下公式计算

    1. 若 (X,Y)(X,Y)(X,Y) 为二维离散型 r.v. 且 P(Y=y)>0P(Y=y)>0P(Y=y)>0,则
      E(g(X)∣y)=∑ig(xi)P(X=xi∣Y=y)E(g(X)|y) = \sum_i g(x_i) P(X=x_i|Y=y) E(g(X)∣y)=i∑​g(xi​)P(X=xi​∣Y=y)
    2. 若 (X,Y)(X,Y)(X,Y) 为二维连续型 r.v.,则
      E(g(X)∣y)=∫Rg(x)fX∣Y(x∣y)dxE(g(X)|y) = \int_{\mathbb{R}}g(x)f_{X|Y}(x|y)dx E(g(X)∣y)=∫R​g(x)fX∣Y​(x∣y)dx
  • 注意:令 g(⋅)g(·)g(⋅) 是 R→RR\to RR→R 的实值函数,则

    1. E(g(X)∣y)E(g(X)|y)E(g(X)∣y) 是关于 yyy 的函数
    2. E(g(X)∣Y):=E(g(X)∣y)y=YE(g(X)|Y):= E(g(X)|y)_{y=Y}E(g(X)∣Y):=E(g(X)∣y)y=Y​ 称为 g(X)g(X)g(X) 关于 YYY 的条件数学期望
    3. E(g(X)∣Y)E(g(X)|Y)E(g(X)∣Y) 是关于 YYY 的函数

    也就是说,一个随机变量 XXX 或 g(X)g(X)g(X) 关于另一个随机变量 YYY 的条件期望 E(X∣Y)E(X|Y)E(X∣Y) 或 E(g(X)∣Y)E(g(X)|Y)E(g(X)∣Y)

    1. 关于条件 YYY 的一个函数
    2. 本身也是一个随机变量,计算时可以先求出 E(g(X)∣y)E(g(X)|y)E(g(X)∣y),再直接把 yyy 替换为 YYY 以得到 E(g(X)∣Y)E(g(X)|Y)E(g(X)∣Y)

3.3 条件期望的性质

3.3.1 五条性质

  • 假设 X,Y,ZX,Y,ZX,Y,Z 为连续型 r.v. ,概率密度分别为 fX,fY,fZf_X,f_Y,f_ZfX​,fY​,fZ​

    1. 若 X≥0X\geq 0X≥0,则 E(X∣Y)≥0E(X|Y)\geq 0E(X∣Y)≥0
    2. ∀a,b∈R\forall a,b \in R∀a,b∈R,E(aX+bY∣Z)=aE(X∣Z)+bE(Y∣Z)E(aX+bY|Z) = aE(X|Z)+bE(Y|Z)E(aX+bY∣Z)=aE(X∣Z)+bE(Y∣Z)
    3. 若 XXX 与 YYY 独立(X⊥⁣ ⁣ ⁣⊥YX \perp \!\!\! \perp YX⊥⊥Y),则 E(X∣Y)=EXE(X|Y) = EXE(X∣Y)=EX
    4. E(Xg(Y)∣Y)=g(Y)E(X∣Y)E(Xg(Y)|Y) = g(Y)E(X|Y)E(Xg(Y)∣Y)=g(Y)E(X∣Y)
    5. E(E(X∣Y))=EXE\big(E(X|Y)\big) = EXE(E(X∣Y))=EX

3.3.2 一条推论

  • E[E(X∣Y)g(Y)]=E[Xg(Y)]E\big[E(X|Y)g(Y)\big] = E\big[Xg(Y)\big]E[E(X∣Y)g(Y)]=E[Xg(Y)]
    ∵g(Y)E(X∣Y)=E(Xg(Y)∣Y)(性质4)∴E(E(X∣Y)g(Y))=E(E(Xg(Y)∣Y))∵E(E(X∣Y))=EX(性质5)∴E(E(X∣Y)g(Y))=E(E(Xg(Y)∣Y))=E(Xg(Y)∣Y)\begin{aligned} &\because g(Y)E(X|Y) =E(Xg(Y)|Y) \space\space\space\space(性质4) \\ &\therefore E(E(X|Y)g(Y)) = E(E(Xg(Y)|Y)) \\ &\because E\big(E(X|Y)\big) = EX\space\space\space\space(性质5) \\ & \begin{aligned} \therefore E(E(X|Y)g(Y)) &= E(E(Xg(Y)|Y)) \\ &= E(Xg(Y)|Y) \end{aligned} \end{aligned} ​∵g(Y)E(X∣Y)=E(Xg(Y)∣Y)    (性质4)∴E(E(X∣Y)g(Y))=E(E(Xg(Y)∣Y))∵E(E(X∣Y))=EX    (性质5)∴E(E(X∣Y)g(Y))​=E(E(Xg(Y)∣Y))=E(Xg(Y)∣Y)​​

3.4 条件期望的本质 —— 投影

3.4.1 投影

  • 随机变量生成的空间:考虑 R→RR \to RR→R 的实值函数 g(⋅)g(·)g(⋅),对于随机变量 YYY,选择不同的 g(⋅)g(·)g(⋅) 与其复合,就能得到不同的新的随机变量 g(Y)g(Y)g(Y),所有满足 Eg2(Y)<∞Eg^2(Y)<\infinEg2(Y)<∞ 的 g(Y)g(Y)g(Y) 的集合,称为随机变量 YYY 生成的空间,即
    {g(Y)∣g:R→R且Eg2(Y)<∞}\{g(Y)\big| g:R\to R 且 Eg^2(Y)<\infin\}{g(Y)∣∣​g:R→R且Eg2(Y)<∞}
  • 考虑随机变量 XXX 到 YYY 生成的空间的距离,用 E[X−g(Y)]2E[X-g(Y)]^2E[X−g(Y)]2 表示(省略开方以简化运算),有
    E[X−g(Y)]2=E[X−E(X∣Y)+E(X∣Y)−g(Y)]2=E[X−E(X∣Y)]2+E[E(X∣Y)−g(Y)]2+2E[X−E(X∣Y)][E(X∣Y)−g(Y)]\begin{aligned} E[X-g(Y)]^2 &= E\big[X-E(X|Y)+E(X|Y)-g(Y)\big]^2 \\ & =E\big[X-E(X|Y)\big]^2+E\big[E(X|Y)-g(Y)\big]^2 + 2E\big[X-E(X|Y)\big]\big[E(X|Y)-g(Y)\big] \end{aligned} E[X−g(Y)]2​=E[X−E(X∣Y)+E(X∣Y)−g(Y)]2=E[X−E(X∣Y)]2+E[E(X∣Y)−g(Y)]2+2E[X−E(X∣Y)][E(X∣Y)−g(Y)]​
    关注其中的交叉项
    E[X−E(X∣Y)][E(X∣Y)−g(Y)]=E[XE(X∣Y)−Xg(Y)−(E(X∣Y))2+E(X∣Y)g(Y)]=E[XE(X∣Y)]−E[Xg(Y)]−E[(E(X∣Y))2]+E[E(X∣Y)g(Y)]=E[XE(X∣Y)]−E[(E(X∣Y))2]\begin{aligned} E\big[X-E(X|Y)\big]\big[E(X|Y)-g(Y)\big] &= E\big[XE(X|Y)-Xg(Y)-(E(X|Y))^2+E(X|Y)g(Y)\big] \\ &= E\big[XE(X|Y)\big]-E\big[Xg(Y)\big]-E\big[(E(X|Y))^2\big]+E\big[E(X|Y)g(Y)\big] \\ &= E\big[XE(X|Y)\big]-E\big[(E(X|Y))^2\big] \end{aligned} E[X−E(X∣Y)][E(X∣Y)−g(Y)]​=E[XE(X∣Y)−Xg(Y)−(E(X∣Y))2+E(X∣Y)g(Y)]=E[XE(X∣Y)]−E[Xg(Y)]−E[(E(X∣Y))2]+E[E(X∣Y)g(Y)]=E[XE(X∣Y)]−E[(E(X∣Y))2]​
    展开剩下的两项,发现他们相等
    E[XE(X∣Y)]=∫⁣ ⁣ ⁣ ⁣ ⁣∫R2xg(y)fX,Y(x,y)dxdy=∫⁣ ⁣ ⁣ ⁣ ⁣∫R2x∫RxfX∣Y(x∣y)dxfX,Y(x,y)dxdy=∫⁣ ⁣ ⁣ ⁣ ⁣∫R2x∫RxfX∣Y(x∣y)dxfX,Y(x,y)dxdy=∫⁣ ⁣ ⁣ ⁣ ⁣∫⁣ ⁣ ⁣ ⁣ ⁣∫R3x2fX∣Y(x∣y)fX,Y(x,y)dxdxdyE[(E(X∣Y))2]=∫Rg(y)2fY(y)dy=∫R(E[X∣Y=y])2fY(y)dy=∫R(∫RxfX∣Y(x∣y))2fY(y)dy=∫⁣ ⁣ ⁣ ⁣ ⁣∫⁣ ⁣ ⁣ ⁣ ⁣∫R3x2(fX∣Y(x∣y))2fY(y)dxdxdy=∫⁣ ⁣ ⁣ ⁣ ⁣∫⁣ ⁣ ⁣ ⁣ ⁣∫R3x2fX∣Y(x∣y)fX,Y(x,y)dxdxdy∴E[XE(X∣Y)]=E[(E(X∣Y))2]\begin{aligned} &\begin{aligned} E\big[XE(X|Y)\big] &= \int \!\!\!\!\! \int_{R^2} xg(y)f_{X,Y}(x,y)dxdy\\ &= \int \!\!\!\!\! \int_{R^2} x\int_{R} xf_{X|Y}(x|y)dxf_{X,Y}(x,y)dxdy\\ &= \int \!\!\!\!\! \int_{R^2} x\int_{R} xf_{X|Y}(x|y)dxf_{X,Y}(x,y)dxdy\\ &= \int \!\!\!\!\! \int\!\!\!\!\! \int_{R^3} x^2 f_{X|Y}(x|y)f_{X,Y}(x,y)dxdxdy\\ \end{aligned} \\ &\begin{aligned} E\big[(E(X|Y))^2\big] &= \int_R g(y)^2f_Y(y)dy \\ &= \int_R (E[X|Y=y])^2f_Y(y)dy \\ &= \int_R (\int_R xf_{X|Y}(x|y))^2f_Y(y)dy \\ &= \int \!\!\!\!\! \int\!\!\!\!\! \int_{R^3} x^2 (f_{X|Y}(x|y))^2f_Y(y)dxdxdy \\ &= \int \!\!\!\!\! \int\!\!\!\!\! \int_{R^3} x^2 f_{X|Y}(x|y)f_{X,Y}(x,y)dxdxdy\\ \end{aligned} \\ &\space\\ &\therefore E\big[XE(X|Y)\big] = E\big[(E(X|Y))^2\big] \end{aligned} ​E[XE(X∣Y)]​=∫∫R2​xg(y)fX,Y​(x,y)dxdy=∫∫R2​x∫R​xfX∣Y​(x∣y)dxfX,Y​(x,y)dxdy=∫∫R2​x∫R​xfX∣Y​(x∣y)dxfX,Y​(x,y)dxdy=∫∫∫R3​x2fX∣Y​(x∣y)fX,Y​(x,y)dxdxdy​E[(E(X∣Y))2]​=∫R​g(y)2fY​(y)dy=∫R​(E[X∣Y=y])2fY​(y)dy=∫R​(∫R​xfX∣Y​(x∣y))2fY​(y)dy=∫∫∫R3​x2(fX∣Y​(x∣y))2fY​(y)dxdxdy=∫∫∫R3​x2fX∣Y​(x∣y)fX,Y​(x,y)dxdxdy​ ∴E[XE(X∣Y)]=E[(E(X∣Y))2]​
    因此交叉项为0,随机变量 XXX 到 YYY 生成的空间的距离可以表示为
    E[X−g(Y)]2=E[X−E(X∣Y)]2+E[E(X∣Y)−g(Y)]2E[X-g(Y)]^2 = E\big[X-E(X|Y)\big]^2+E\big[E(X|Y)-g(Y)\big]^2 E[X−g(Y)]2=E[X−E(X∣Y)]2+E[E(X∣Y)−g(Y)]2
  • 考虑这个距离何时最小。我们知道 E(X∣Y)E(X|Y)E(X∣Y) 是关于 YYY 的函数,而 g(⋅)g(·)g(⋅) 是取遍的,因此不妨取 g(Y)=E(X∣Y)g(Y)=E(X|Y)g(Y)=E(X∣Y),此时得到随机变量 XXX 到 YYY 生成的空间的最短距离为
    inf⁡gE[X−g(Y)]2=E[X−E(X∣Y)]2\inf_g E[X-g(Y)]^2 = E\big[X-E(X|Y)\big]^2 ginf​E[X−g(Y)]2=E[X−E(X∣Y)]2 假设随机变量 XXX 是空间中的一个向量(向量上每个点代表一个取值),YYY 生成的空间是由一组随机变量 g(Y)g(Y)g(Y) 组成的二维平面,如下图所示

    显然,最短距离是 XXX 到 “XXX 在 YYY 生成的空间上的投影” 的距离,也就是说这时平面上满足要求的 g(Y)g(Y)g(Y) 就是投影,而我们前面选出了 g(Y)=E(X∣Y)g(Y)=E(X|Y)g(Y)=E(X∣Y),所以条件期望 E(X∣Y)E(X|Y)E(X∣Y) 的本质就是:XXX 到 YYY 生成空间的投影
  • 利用这个本质,再来看上面的性质:X⊥⁣ ⁣ ⁣⊥Y⇒E(X∣Y)=EXX \perp \!\!\! \perp Y \Rightarrow E(X|Y) = EXX⊥⊥Y⇒E(X∣Y)=EX。XXX 与 YYY 独立意味着 XXX 在空间中的向量和 YYY 生成的平面垂直,所以投影是一个点,它是一个数,记作 a,有
    E(X∣Y)=a∴E[E(X∣Y)]=Ea∴EX=a∴E(X∣Y)=EX\begin{aligned} & E(X|Y) = a \\ &\therefore E[E(X|Y)] = Ea \\ &\therefore EX = a\\ &\therefore E(X|Y) = EX \end{aligned} ​E(X∣Y)=a∴E[E(X∣Y)]=Ea∴EX=a∴E(X∣Y)=EX​

3.4.2 直观推论

  • 利用条件期望的投影本质,可以直观地给出一些等式关系,具体证明省略

    1. 空间上元素往自己空间上投影,还是自己
      E(g(Y)∣Y)=g(Y)E(g(Y)|Y)=g(Y) E(g(Y)∣Y)=g(Y)
    2. 连续向多个空间投影,等价于直接向最小的空间投影
      E[E(X∣Z)∣Y,Z]=E(X∣Z)E[E(X∣Y,Z)∣Z]=E(X∣Z)\begin{aligned} &E \big[E(X|Z)|Y,Z \big] = E(X|Z) \\ &E \big[E(X|Y,Z)|Z \big] = E(X|Z) \\ \end{aligned} ​E[E(X∣Z)∣Y,Z]=E(X∣Z)E[E(X∣Y,Z)∣Z]=E(X∣Z)​

3.4.3 Example

3.5 深入理解条件数学期望

3.5.1 关于 r.v. 的条件数学期望的正统定义

  • 3.1 节中,我们给出的 “关于 r.v. 的条件数学期望的定义” 是:令 g(⋅)g(·)g(⋅) 为 R→RR\to RR→R 的实值函数,在 Y=yY=yY=y 的条件下,g(X)g(X)g(X) 的条件数学期望为:
    E(g(X)∣y)=E(g(X)∣Y=y)=∫Rg(x)dFX∣Y(x∣y)\begin{aligned} E(g(X)|y) &= E(g(X)|Y=y) \\ &=\int_{\mathbb{R}}g(x)dF_{X|Y}(x|y) \end{aligned} E(g(X)∣y)​=E(g(X)∣Y=y)=∫R​g(x)dFX∣Y​(x∣y)​ 这种定义通常是工科教材里的定义,它能告诉我们数学期望如何计算,但是并没有触及本质。这种定义方法把 Y=yY=yY=y 看做一个事件,但事实上,对于连续型随机变量,不能把 Y=yY=yY=y 当作事件处理。3.1 节中已经说明过这个问题

  • 为了深入理解其中原由,下面给出数学专业中对于 “关于 r.v. 的条件数学期望的定义”:给定概率空间 (Ω,F,P)(\Omega,\mathscr{F},P)(Ω,F,P),对于 r.v.s X,Y,Z,若

    1. ZZZ 为 YYY 的函数
    2. ∀A∈B(R)\forall A\in \mathscr{B}(\mathbb{R})∀A∈B(R)(就是实数集上任意集合 AAA),有 EXIA(Y)=EZIA(Y)EXI_A(Y) = EZI_A(Y)EXIA​(Y)=EZIA​(Y)

    则称 ZZZ 为 XXX 关于 YYY 的条件数学期望,即 Z=E(X∣Y)Z = E(X|Y)Z=E(X∣Y),

  • 注:IA(Y)(w)=IY−1(A)(w)I_A(Y)(w) = I_{Y^{-1}(A)}(w)IA​(Y)(w)=IY−1(A)​(w) 是一个示性随机变量,即
    IA(Y)(w)=IY−1(A)(w)={1w∈A0w∉AI_A(Y)(w) = I_{Y^{-1}(A)}(w) = \left\{ \begin{aligned} &1 && w \in A \\ &0 & &w \notin A \end{aligned} \right. IA​(Y)(w)=IY−1(A)​(w)={​10​​w∈Aw∈/​A​ 其中 Y−1(A)={w:Y(w)∈A}Y^{-1}(A) = \{w:Y(w)\in A\}Y−1(A)={w:Y(w)∈A} 称为 A在Y下的原像,指被随机变量 YYY 映射到实数集 AAA 中的事件组成的集合

3.5.2 再看离散和连续随机变量的条件期望

  1. 若 YYY 为离散型 r.v.,取值为 {yn:n=1,2,3...}\{y_n: n=1,2,3...\}{yn​:n=1,2,3...},则

    1. XXX 关于 r.v. YYY 的条件期望为
      E(X∣Y)=∑n=1∞E[X∣Y−1({yn})]I{yn}(Y)E(X|Y) = \sum_{n=1}^\infin E\big[X|Y^{-1}(\{y_n\})\big]I_{\{y_n\}}(Y) E(X∣Y)=n=1∑∞​E[X∣Y−1({yn​})]I{yn​}​(Y) 这里 Y−1({yn})Y^{-1}(\{y_n\})Y−1({yn​}) 指使得 Y(w)=ynY(w) = y_nY(w)=yn​ 的全体事件 www 的集合;I{yn}(Y)I_{\{y_n\}}(Y)I{yn​}​(Y) 指 Y=ynY=y_nY=yn​ 时其值为 111。
    2. 证明:显然这个是关于 YYY 的函数,只需证 EXIA(Y)=EE(X∣Y)IA(Y)EXI_A(Y) = EE(X|Y)I_A(Y)EXIA​(Y)=EE(X∣Y)IA​(Y) 不妨取一个单点集作为 AAA,即 A=ymA={y_m}A=ym​,有
    3. 那么,对于任意 Y=ynY=y_nY=yn​,有 I{yn}(Y)=1I_{\{y_n\}}(Y) = 1I{yn​}​(Y)=1,I{yi≠n}(Y)=0I_{\{y_{i\neq n}\}}(Y) = 0I{yi​=n​}​(Y)=0,此时
      E(X∣yn)=E(X∣Y)Y=yn=E[X∣Y−1({yn})]:=E[X∣Y=yn]E(X|y_n) = E(X|Y)_{Y=y_n} = E\big[X|Y^{-1}(\{y_n\})\big] := E\big[X|Y=y_n\big] E(X∣yn​)=E(X∣Y)Y=yn​​=E[X∣Y−1({yn​})]:=E[X∣Y=yn​] 可见,离散情况下 Y=ynY=y_nY=yn​ 代表的是事件集合 Y−1({yn})Y^{-1}(\{y_n\})Y−1({yn​}),它确实是一个事件
  2. 若 (X,Y)(X,Y)(X,Y) 为二维连续型 r.v.,联合概率密度为 f(x,y)f(x,y)f(x,y),则

    1. XXX 关于 r.v. YYY 的条件期望为
      E(X∣Y)Y=y=g(y)=∫RxfX∣Y(x∣y)dxE(X|Y)_{Y=y} = g(y) = \int_{\mathbb{R}}xf_{X|Y}(x|y)dx E(X∣Y)Y=y​=g(y)=∫R​xfX∣Y​(x∣y)dx
    2. 证明
    3. 可见,有
      E(X∣y)=E(X∣Y)Y=y=g(y):=E(X∣Y=y)E(X|y) = E(X|Y)_{Y=y}= g(y) := E(X|Y=y) E(X∣y)=E(X∣Y)Y=y​=g(y):=E(X∣Y=y) 这里是利用期望的本质定义,直接积分算出了 g(Y)=E(X∣Y)g(Y)=E(X|Y)g(Y)=E(X∣Y),然后再把 YYY 替换为 yyy,因此 Y=yY=yY=y 只是一个记号,并非事件

随机过程(1.2)—— 数学期望与条件期望相关推荐

  1. 随机过程之一——关于条件数学期望

    中秋之际,得留下点东西纪念一下才行.主要说一下条件数学期望(Conditional Expectation)吧.以前本科的时候学过这玩意儿,但是当时理解太肤浅.今天看了一遍别的书,颇有心得.理科生讲究 ...

  2. 概率论 —— 数学期望

    [概述] 在概率论和统计学中,一个离散型随机变量的数学期望是试验中每次可能结果的概率乘以其结果的总和. 在信息学竞赛中,期望值问题大多是求离散型随机变量的数学期望,如果 X 是一个离散的随机变量,输出 ...

  3. 数学期望(均值)、方差、协方差、相关系数和矩

    文章目录 1 前言 2 数学期望(均值).方差,矩.协方差和相关系数 2.1 数学期望(均值) 2.2 方差 2.3 协方差 2.4 相关系数 2.5 矩 1 前言 随机变量的分布函数完整地描述了随机 ...

  4. 数论小白都能看懂的数学期望讲解

    -1.灌水 这里阅读应该效果更佳 想了解更多关于数论的内容,可戳这里 感谢@command_block 大佬提出宝贵建议 也感谢洛谷及UVA的相关题目 如果有小瑕疵可以在评论区提出 内容可能有点多但很 ...

  5. 随机变量的数字特征(数学期望,方差,协方差与相关系数)

    戳这里:概率论思维导图 !!! 数学期望 离散型随机变量的数学期望 (这里要求级数绝对收敛,若不绝对收敛,则E(X)不存在) 如果有绝对收敛,则有 ,其中 连续型随机变量的数学期望 (这里要求绝对收敛 ...

  6. 解题报告(一)F、(2018 ACM - ICPC shenyang I)Distance Between Sweethearts(数学期望 + 乘法原理 + FWT)(4.5)

    繁凡出品的全新系列:解题报告系列 -- 超高质量算法题单,配套我写的超高质量题解和代码,题目难度不一定按照题号排序,我会在每道题后面加上题目难度指数(1∼51 \sim 51∼5),以模板题难度 11 ...

  7. R语言:求二维变量数学期望

    想做一个二维变量数学期望实验, 查看若干资料终于找到方法 先看这篇文章熟悉一下R的函数 http://www.cyclismo.org/tutorial/R/tables.html 构造数据 通过下面 ...

  8. hdu 5419(数学期望)

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5419 题解: 首先分母是C(m,3),考虑如何求出分子 考虑数学期望的独立性,我们首先可以用线性的时间 ...

  9. 概率论-2.2 随机变量的数学期望(重点:随机变量X的期望)

    分布有关的特征数:均值,方差,分位数等 期望的定义: 设离散随机变量X的分布列为pi=p(xi)=P(X=xi),i=1,2,-,n 若Sum(| xi |*p(xi))收敛(等价于Sum( xi * ...

  10. jzoj3801-[NOIP2014模拟8.23]骰子【数学期望】

    正题 题目链接:https://jzoj.net/senior/#main/show/3801 题目大意 mmm面的骰子是1∼m1\sim m1∼m,然后丢nnn次,求最大值的数学期望. 解题思路 若 ...

最新文章

  1. android 异常打印
  2. 【深度学习】详解集成学习的投票和Stacking机制
  3. Java从零开始学二十三(集合Map接口)
  4. win10下linux子系统6,Windows10下安装Linux子系统2020年7月最新版
  5. [云炬创业基础笔记]第二章创业者测试9
  6. python 播放视频 ftp_利用Python快速搭建HTTPFTP服务器
  7. 以美术资源生产为例,谈游戏研发中台PM实战
  8. 快手通过标签添加的我_快手怎么上热门?快手短视频推荐指标有哪些?
  9. 有了这些,文件批量重命名还需要求助其它工具吗?
  10. Java 中equals 与 == 的区别:
  11. 【论文精读与思考】:深度强化学习的组合优化研究进展
  12. 肠道微生物组如何影响运动能力,所谓的“精英肠道微生物组”真的存在吗?
  13. 一个简单的网页版钢琴(用到JQuery)
  14. 爱奇艺体育获5亿元战略融资 ,IDG资本、汇盈博润领投
  15. 32位16进制转换为10进制数
  16. ASP.NET Identity 2新增双重认证、帐号锁定、防伪印章功能并修复了一些bug
  17. 微软 Office 全家桶被 GPT-4 革新:Word 一键变成 PPT,打工人的春天来了!
  18. 全解析阿里云Alibaba Cloud Linux镜像操作系统详解
  19. c/c++ sprintf sprintf_s
  20. Ubuntu 20.04添加临时/永久路由

热门文章

  1. 制作字幕.html教程,如何制作电影字幕,视频字幕制作软件|免费给视频加字幕
  2. 通过SMART法则进行网站策划
  3. win7系统打开打印机服务器,Win7如何开启打印机服务?
  4. 16位深度图像转8位灰度
  5. 百度翻译API的调用
  6. 单层石墨烯结构图matlab,CST中如何建立单层石墨烯模型
  7. 视频融合技术解决方案,三维全景拼接赋能平台
  8. 解决Error: Call to undefined function eregi() 报错方法
  9. 一个码稿人自述:什么样的文档产品适合我?|深度吐槽
  10. 编程数学-∑(求和符号)-Sigma