2.3 条件概率分布与随机变量的独立性

2.3.1 条件概率分布的概念

一个随机变量或向量XXX的条件概率分布，就是在某种给定的条件之下，XXX的概率分布.

考虑之前提到的体重X1X_1X1与身高X2X_2X2的二维正态分布N(a,b,σ21,σ22,ρ)N\left(a, b, \sigma_{2}^{1}, \sigma_{2}^{2}, \rho\right)N(a,b,σ21,σ22,ρ).根据之前的论述可以知道X1X_1X1,X2X_2X2都有单独的概率分布,分别为N(a,σ12)N\left(a, \sigma_{1}^{2}\right)N(a,σ12)和N(b,σ22)N\left(b, \sigma_{2}^{2}\right)N(b,σ22). 现在如限制1.7⩽X2⩽1.81.7 \leqslant X_{2} \leqslant 1.81.7⩽X2⩽1.8(米 ), 在这个条件下去求X1X_{1}X1的条件分布,这就意味着要从这一大群人中把其身高在1.71.71.7米和1.81.81.8米的那些人都挑出来,然后在挑出的人群中求其体重的分布. 容易想像, 这个分布与不设这个条件的分布 (无条件分布)会很不一样.体重取大值的概率会显著增加.

从这个例子也看出条件分布这个概念的重要性.

2.3.2 离散型随机变量的条件概率分布

这个比较简单,直接给例子.

多项分布的条件概率分布

设(X1,X2,⋯,Xn)\left(X_{1}, X_{2}, \cdots, X_{n}\right)(X1,X2,⋯,Xn)服从多项分布M(N;p1,⋯,M\left(N ; p_{1}, \cdots,\right.M(N;p1,⋯,,pnp_{n}pn). 在给定X2=k2X_{2}=k_{2}X2=k2的条件下,X1X_{1}X1的条件分布为B(N−k2,p1/(1−p2))B\left(N-k_{2}, p_{1} /\left(1-p_{2}\right)\right)B(N−k2,p1/(1−p2))

代数证明略去.这个公式的直观意义为在X2=k2X_{2}=k_{2}X2=k2的条件下,剩下n−1n-1n−1个变量的联合分布就变为n−k2n-k_2n−k2个物品分成n−1n-1n−1堆,每个物品分到第iii堆的概率从pip_ipi变成pi/(1−p2)p_i/(1-p_2)pi/(1−p2).那么X1X_1X1的条件分布就变为M(N−k2;p1/(1−p2),p3/(1−p2),⋯,pn/(1−p2))M\left(N-k_2 ; p_{1}/(1-p_2), p_{3}/(1-p_2), \cdots,p_{n}/(1-p_2)\right)M(N−k2;p1/(1−p2),p3/(1−p2),⋯,pn/(1−p2))的边缘分布,即B(N−k2,p1/(1−p2))B\left(N-k_{2}, p_{1} /\left(1-p_{2}\right)\right)B(N−k2,p1/(1−p2))

2.3.3 连续型随机变量的条件分布

连续型随机变量的条件分布函数如下

当a≠ba\neq ba=b时

f1(x1∣a⩽X2⩽b)=∫abf(x1,t2)dt2/∫abf2(t2)dt2f_{1}\left(x_{1} \mid a \leqslant X_{2} \leqslant b\right)=\int_{a}^{b} f\left(x_{1}, t_{2}\right) \mathrm{d} t_{2} / \int_{a}^{b} f_{2}\left(t_{2}\right) \mathrm{d} t_{2}f1(x1∣a⩽X2⩽b)=∫abf(x1,t2)dt2/∫abf2(t2)dt2

当a=b=x2a=b=x_2a=b=x2时

f(x1∣x2)=f2(x2)f1(x1,x2)f\left(x_{1}\mid x_{2}\right)=f_{2}\left(x_{2}\right) f_{1}\left(x_{1} , x_{2}\right) f(x1∣x2)=f2(x2)f1(x1,x2)

可以记为
f(x1,x2)=f2(x2)f1(x1∣x2)f\left(x_{1}, x_{2}\right)=f_{2}\left(x_{2}\right) f_{1}\left(x_{1} \mid x_{2}\right) f(x1,x2)=f2(x2)f1(x1∣x2)
可以看出该公式对应于条件概率的公式P(AB)=P(B)P(A∣B)P(A B)=P(B) P(A \mid B)P(AB)=P(B)P(A∣B)

推广到任意多变量的场合

f(x1,⋯,xn)=g(x1,⋯,xk)h(xk+1,⋯,xn∣x1,⋯,xk)f\left(x_{1}, \cdots, x_{n}\right)=g\left(x_{1}, \cdots, x_{k}\right) h\left(x_{k+1}, \cdots, x_{n} \mid x_{1}, \cdots, x_{k}\right)f(x1,⋯,xn)=g(x1,⋯,xk)h(xk+1,⋯,xn∣x1,⋯,xk)

下面给出连续型随机变量的条件分布的例子

二维正态分布的条件分布

设(X1,X2)\left(X_{1}, X_{2}\right)(X1,X2)服从二维正态分布N(a,b,σ12,σ22,ρ)N\left(a, b, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)N(a,b,σ12,σ22,ρ). 在给定X1=x1X_{1}=x_{1}X1=x1的条件下,X2X_{2}X2的条件密度函数
f2(x2∣x1)=12πσ21−ρ2⋅exp⁡[−(x2−(b+ρσ2σ1−1(x1−a)))22(1−ρ2)σ22]\begin{aligned} f_{2}\left(x_{2} \mid x_{1}\right)=& \frac{1}{\sqrt{2 \pi} \sigma_{2} \sqrt{1-\rho^{2}}} \\ & \cdot \exp \left[-\frac{\left(x_{2}-\left(b+\rho \sigma_{2} \sigma_{1}^{-1}\left(x_{1}-a\right)\right)\right)^{2}}{2\left(1-\rho^{2}\right) \sigma_{2}^{2}}\right] \end{aligned} f2(x2∣x1)=2πσ21−ρ21⋅exp[−2(1−ρ2)σ22(x2−(b+ρσ2σ1−1(x1−a)))2]
这正是正态分布N(b+ρσ2σ1−1(x1−a),σ22(1−ρ2))N\left(b+\rho \sigma_{2} \sigma_{1}^{-1}\left(x_{1}-a\right), \sigma_{2}^{2}\left(1-\rho^{2}\right)\right)N(b+ρσ2σ1−1(x1−a),σ22(1−ρ2))的概率密度函数.

由这里可以看出ρ\rhoρ刻画了X1,X2X_{1}, X_{2}X1,X2之间的相依关系.解释如下:

若ρ>0\rho>0ρ>0, 则随着x1x_{1}x1的增加,X2X_{2}X2(在X1=x1X_{1}=x_{1}X1=x1之下) 的条件分布的中心点m(x1)m\left(x_{1}\right)m(x1)随x1x_{1}x1的增加而增加. 可以看出: 这意味着当x1x_{1}x1增加时,X2X_{2}X2取大值的可能性增加, 即X2X_{2}X2有随着X1X_{1}X1的增长而增长.若ρ<0\rho<0ρ<0则情况相反.若ρ=0\rho=0ρ=0则无关.这从中心点的角度刻画了ρ\rhoρ对X1X_1X1,X2X_2X2相依关系的刻画.

下图展示了X1X1X1分布为N(25,64)N\left(25, 64\right)N(25,64)和X2X_2X2分布为N(25,64)N\left(25, 64\right)N(25,64)时,不同ρ\rhoρ下二维正态分布的概率密度.

下图展示了rho=0.5rho=0.5rho=0.5时,X1=15,25,35X_1=15,25,35X1=15,25,35下X2X_2X2的条件分布
若∣ρ∣=0|\rho|=0∣ρ∣=0,则σ=σ2\sigma=\sigma_2σ=σ2,X2X_2X2分布的集中程度不受X1X_1X1影响.现在考虑极端情况,假如∣ρ∣=1|\rho|=1∣ρ∣=1,那么σ=0\sigma=0σ=0,由一维正态分布的性质可以知道X2X_2X2的取值全部集中于m(X1)m(X_1)m(X1).也就是说,X2X_2X2的取值由X1X_1X1完全决定.这从集中程度的角度刻画了ρ\rhoρ对X1X_1X1,X2X_2X2相依关系的刻画.

下图为ρ=0.999\rho=0.999ρ=0.999时X2X_2X2的条件分布

2.3.4 随机变量的独立性

定义3.13.13.1设nnn维随机向量(X1,⋯,Xn)\left(X_{1}, \cdots, X_{n}\right)(X1,⋯,Xn)的联合密度函数为f(x1,⋯,xn)f\left(x_{1}, \cdots, x_{n}\right)f(x1,⋯,xn), 而XiX_{i}Xi的(边缘)密度函数为fi(xi),i=1,⋯,nf_{i}\left(x_{i}\right), i=1, \cdots, nfi(xi),i=1,⋯,n. 如果
f(x1,⋯,xn)=f1(x1)⋯fn(xn)f\left(x_{1}, \cdots, x_{n}\right)=f_{1}\left(x_{1}\right) \cdots f_{n}\left(x_{n}\right) f(x1,⋯,xn)=f1(x1)⋯fn(xn)
就称随机变量X1,⋯,XnX_{1}, \cdots, X_{n}X1,⋯,Xn相互独立或简称独立

定义 3.2 设X1,⋯,XnX_{1}, \cdots, X_{n}X1,⋯,Xn都是离散型随机变量. 若对任何常数a1,⋯,ana_{1}, \cdots, a_{n}a1,⋯,an, 都有
P(X1=a1,⋯,Xn=an)=P(X1=a1)⋯P(Xn=an)P\left(X_{1}=a_{1}, \cdots, X_{n}=a_{n}\right)=P\left(X_{1}=a_{1}\right) \cdots P\left(X_{n}=a_{n}\right) P(X1=a1,⋯,Xn=an)=P(X1=a1)⋯P(Xn=an)
则称X1,⋯,XnX_{1}, \cdots, X_{n}X1,⋯,Xn相互独立

定理3.13.13.1如果连续变量X1,⋯,XnX_{1}, \cdots, X_{n}X1,⋯,Xn独立时, 则对任何ai<a_{i}<ai<bi,i=1,⋯,nb_{i}, i=1, \cdots, nbi,i=1,⋯,n, 由(3.14)(3.14)(3.14)定义的nnn个事件A1,⋯,AnA_{1}, \cdots, A_{n}A1,⋯,An也独立.

定理3.23.23.2若连续型随机向量(X1,⋯,Xn)\left(X_{1}, \cdots, X_{n}\right)(X1,⋯,Xn)的概率密度函数f(x1,⋯,xn)f\left(x_{1}, \cdots, x_{n}\right)f(x1,⋯,xn)可表为nnn个函数g1,⋯,gng_{1}, \cdots, g_{n}g1,⋯,gn之积, 其中gig_{i}gi只依赖于xix_{i}xi, 即
f(x1,⋯,xn)=g1(x1)⋯gn(xn)f\left(x_{1}, \cdots, x_{n}\right)=g_{1}\left(x_{1}\right) \cdots g_{n}\left(x_{n}\right) f(x1,⋯,xn)=g1(x1)⋯gn(xn)
则X1,⋯,XnX_{1}, \cdots, X_{n}X1,⋯,Xn相互独立,且XiX_{i}Xi的边缘密度函数fi(xi)f_{i}\left(x_{i}\right)fi(xi)与gi(xi)g_{i}\left(x_{i}\right)gi(xi)只相差一个党数因子

定理3.33.33.3若X1,⋯,XnX_{1}, \cdots, X_{n}X1,⋯,Xn相互独立,而
Y1=g1(X1,⋯,Xm),Y2=g2(Xm+1,⋯,Xn)Y_{1}=g_{1}\left(X_{1}, \cdots, X_{m}\right), Y_{2}=g_{2}\left(X_{m+1}, \cdots, X_{n}\right) Y1=g1(X1,⋯,Xm),Y2=g2(Xm+1,⋯,Xn)
则Y1Y_{1}Y1和Y2Y_{2}Y2独立.

概率论于数理统计(陈希孺)笔记2.3相关推荐

宋浩概率论与数理统计-第八章-笔记
概率论与数理统计第八章假设检验 8.1 基本概念一.假设检验问题二.假设检验基本概念三.假设检验的思想与步骤 1. 思想 2. 步骤四.两类错误 8.2 一个正态总体的参数假设检验一.μ ...
概率论与数理统计（学习笔记）——平平无奇的知识点
概率论与数理统计第一章:随机事件及其计算自然现象:确定性现象随机现象:事先不能准确预知其结果的现象. 1.1.单位名称样本点(ω):实验中可能出现的基本结果样本空间(Ω): 全部样本点构成的 ...
《概率论与数理统计》—读书笔记
概率论的基本概念概率论与数理统计是研究和揭示随机现象统计规律性的一门数学学科. 统计规律性:在大量重复试验或观察中所呈现出的固有规律性. 随机现象:在个别试验中其结果呈现出不确定性,在大量重复试验中 ...
《概率论与数理统计》复习笔记
最近整理了一下期末复习笔记,我们用的教材是人民邮电出版社慕课版的,希望可以帮助到一些需要的小伙伴!(开摆了,已经不想整理了/(ㄒoㄒ)/~~) 目录第一章随机事件与概率第二章随机变量及其分布 ...
2021年秋季《概率论与数理统计》学习笔记
多维随机变量及之后内容.概念理解和误区澄清性质笔记可参考本专栏其他博客. 20211002更新至2.4连续型随机变量 "概率的概率" 20210930更新几何分布无记忆性证明泊 ...
【2020/07/16修订】概率论与数理统计（电子科技大学）知识梳理 · 第一版（1到8章 · 度盘）
概率论与数理统计知识梳理 (第一版) 建议先修课程:高等数学(微积分) 配套课程: 1.慕课(MOOC):概率论与数理统计(电子科技大学) 2.教材:概率论与数理统计电子科技大学应用数学学院 ...
古典概型——概率论与数理统计（宋浩）
事件的概率 1.2.1概率的初等描述概率的定义:事件发生的可能性的大小(P(A)) 性质: P(Ω)=1,P(φ)=0(规范性) 0<=P(A)<=1(非负性) 有限可加:A1,A2,A ...
样本空间与事件集合，事件间的关系——概率论与数理统计（宋浩）
1.1.1随机试验与随机事件统计规律 1.随机试验(用E表示): (1)在相同条件下可重复 (2)结果不止一个 (3)无法预测 2.事件:每种试验结果 3.随机事件(用大写A,B,C--表示):可能 ...
几何概型，公理化——概率论与数理统计（宋浩）
1.2.3几何概率模型(线段,平面,立体) 例题:会面问题甲,乙在一小时内的任意时刻都可以到达,先到达的人会等后到的人15分钟,超时离开,求两个人可以碰面的概率. 可列出方程并做出对应的图: 用x轴 ...
多维随机变量及其分布——《概率论及其数理统计》第三章学习笔记
多维随机变量及其分布--<概率论及其数理统计>第三章学习笔记文章目录多维随机变量及其分布--<概率论及其数理统计>第三章学习笔记前言 MindMap 二维随机变量定义与 ...

概率论于数理统计(陈希孺)笔记2.3