概率论数理统计

随机变量及其分布

随机变量的概念

定义：在随机试验E中，Ω是相应的样本空间，如果对样本空间中每一个样本点ω，有唯一的一个实数X与之对应，那么就把定义域为Ω的单值实值函数X = X(ω)称为随机变量。随机变量是样本点的函数，定义域为样本空间，一个随机变量取值可以对应一个样本点，也可以对应多个样本点

随机变量一般用大写字母表示，随机变量的取值一般用对应的小写字母表示。

离散型随机变量：随机变量能取到的值有限可列。

连续型随机变量是最常见的非离散型随机变量。

随机变量的分布函数

{a<X<=b} = {X<=b} - {X<=a}

{X>c} = Ω - {X<=c}

所以对于任意实数x，只要知道{X<=x}的概率即可，我们用F(x)表示P{X<=x}这个概率值。

分布函数定义：设X是一个随机变量，对于任意实数x,称函数F(x) = P(X<=x),-∞<x<+∞ 为随机变量X的分布函数。

则对任意的两个实数-∞<a<b<+∞,有P(a<X<=b) = F(b) - F(a)

分布函数是定义在(-∞,+∞)上，取值在[0,1]上的函数
任意一个随机变量X都有且仅有一个分布函数

古典概型的问题求分布函数，先算出随机变量取值各自对应的概率，定义分布函数的定义为F(x)=P(X<=x)

,分别求出x<x1,x1<=x<x2…的概率，然后得到各个区间的分布函数。
对于任意实数x，有0<=F(x)<=1，limF(-∞) = 0, limF(+∞) = 1
F(x)单调不减，当x1<x2时，有F(x1)<=F(x2)
F(x)是x的右连续函数，limF(x—>x0+) = F(x0)

离散随机变量及其分布律

定义：若一维离散型随机变量X的取值为x1,x2,…,xn,…,称相应的概率P(X=xi) = pi,i = 1,2,… 为离散型随机变量X的分布律（分布列，概率函数）

判断某一数列能否成为分布律的充要条件：1.概率都大于0；2.概率之和为1

可以通过分布律求分布函数，也可以通过分布函数求分布律。

连续型随机变量及其密度函数

连续型随机变量的取值区间有无穷不可列个数，所以用概率密度函数代替分布律。

定义：E是随机试验，Ω是相应的样本空间，X是随机变量，F(x)是X的分布函数，若存在f(x)使得

则称X为一维连续型随机变量，f(x)称为 X的概率密度函数，满足1.f(x)>=0; 2.

P(a<=X<=b) = P(a<X<=b) = P(a<=X<b) = P(a< X <b)

若非离散型随机变量不存在离散的点，概率不为0，则该随机变量为连续性随机变量

常用离散型随机变量

二项分布

对一随机试验E，只关心某一事件A是否发生，即随机试验只有两种结果，A和非A，则称这样的随机试验为伯努利试验。将伯努利试验独立重复进行n次，则称这n次试验叫n重伯努利试验。在n次中特定的k次A事件发生，概率为p^k(1-p)(n-k) ,同时乘上在n中挑选k个的不同方法的概率。称随机变量X服从参数为n，p的二项分布，记为X~B(n,p)

n=1时，称随机变量X服从参数为p的0-1分布（伯努利分布，两点分布），

泊松分布

设随机变量X的取值为0,1,2,3，…,n,…,相应的分布律为

称随机变量X服从参数λ的泊松分布，记为X~P（λ）

泊松定理 ：在n重伯努利试验中，记A事件在一次试验中发生的概率为pn,如果当n—>+∞时，有npn—>λ

则

超几何分布

设有N件产品，其中有M（M≤N）件是不合格品．若从中不放回地抽取n（n≤N）件，设其中含有的不合格品的件数为X，则X的分布律为

称X服从参数为N、M和n的超几何分布，记为X_{H（N，M，n）**，其中N、M和n均为正整数．若将不放回抽样改成**有放回抽样**，那么，这个模型就是n重伯努利试验，即n件被抽查的产品中含有的不合格品的件数**X}B（n，p），其中p = M/N可以证明：当M=Np时，有

几何分布

伯努利试验中，设随机变量表示A事件 首次出现时已经试验的次数，则X的取值为1,2,3，…,n,…,相应的分布律为p(X=k) = p(1-p)^(k-1), 0<p<1,k=1,2,3,…,n,…。称随机变量X服从参数为p的几何分布，记为X~Ge§

常用连续型随机变量

均匀分布

a<b，概率密度函数为f(x) = 1/(b-a),a<x<b;f(x) = 0,其他。则称随机变量X服从区间(a,b)上的均匀分布，记为X~U(a,b)

指数分布

概率密度函数为f(x) = λe^(-λx) , x>= 0;f(x) = 0,其他。（λ>0）

则称随机变量X服从参数为λ的指数分布，记为X~E(λ)

相应的分布函数为

正态分布

概率密度函数为:

则称随机变量X服从参数为μ(-∞<μ<+∞)和σ²（σ>0）的正态分布，记为X~N(μ，σ²)，分布函数是一条光滑上升的S形曲线。

正态分布又称高斯分布，密度函数中间高两边低，关于 x=μ对称：

x = μ时，概率密度函数取最大值，最大值随着σ增大而减小。

σ不变，μ值的改变会使概率密度函数图像沿着x轴平移。μ值称为位置参数

μ不变，σ的改变会影响概率密度函数图像的陡峭程度，σ又称为尺度参数

特别的，μ=0，σ=1时，正态分布称为标准正态分布，记为X~N(0,1)，标准正态分布的概率密度函数是偶函数。对任意两个实数a,b（a<b）,P(a<X<=b) = F(b) - F(a). F(x) = 1- F(-x).

定理：设X_{N(μ，σ2),则当k≠0时，Y=kX+b}(kμ+b,k²σ²).

定理：X~N(μ，σ²)，则(X-μ)/σ ~ N(0,1)

正态分布概率计算：若随机变量X~N(μ，σ²)，对任意两个实数a,b(a<b),有P(a<X<=b) = F((b-μ)/σ) - F((a-μ)/σ)

X服从标准正态分布时，称满足P(X<=u_α) = α的u_α称为标准正态分布的α分位数，α在概率密度函数图像上几何表示为x = u_α左侧的图像与x轴组成的面积。

随机变量函数的分布

离散型随机变量函数的分布

已知离散型随机变量的分布，则根据Y = g(X)求出每一个随机变量取值x_i对应的g(x_i)的值，然后对应概率相等，若g(x_i) = g(x_j),则将其对应的概率相加

连续型随机变量函数的分布

已知连续型随机变量X的密度函数，根据连续型随机变量X服从分布区间，求出对应的g(X)服从分布的区间，然后求g(X)的分布函数（
），将Y分布函数求解转换为X分布函数的求解。然后整理出-∞<y<+∞上的分布函数F_Y(y)，最后求导得到密度函数。

二维随机变量及其分布

二维随机变量及其联合分布

二维随机变量

定义：随机试验E，其样本空间为Ω，若对Ω中的每一个样本点ω都有一对有序实数(X(ω),Y(ω))与之对应（比如测定天气情况的试验中，样本空间中的样本点对应的随机变量有温度，湿度等，每个样本点都对应着温度，湿度的一种具体情况），则称(X,Y)的取值范围为它的值域，记为Ω_(X,Y).

不同的样本点存在对应相同有序数对(X,Y)的情况，不同的有序数对一定对应着不同的样本点。

联合分布函数

二维随机变量的分布不仅仅包含每个随机变量各自的分布信息，还要包含两者之间相互关系的信息。因此称他们的分布为联合分布。

定义：(X,Y)为二维随机变量，对任意的(X,Y)∈R²,称F(x,y) = P(X<=x,Y<=y)为随机变量(X,Y)的联合分布函数。

{X<=x,Y<=y}表示对事件 {X<=x}和事件{Y<=y}取积事件。

F(x,y) = P(X<=x,Y<=y) = P({X<=x}∩{Y<=y}),F(x,y)在点（x,y）处的函数值，即随机变量(X,Y)在区域X<=x,Y<=y中取值的概率。

当固定y值时，F(x,y)是变量x的单调非减函数。固定x值同理。
固定y值时，F(x,y)是变量x的右连续函数。固定x值同理。
对任意的x₁<x₂,y₁<y₂,有矩形公式P(x₁<X<=x₂,y₁<Y<=y₂) = F(x₂,y₂) - F(x₂,y₁) - F(x₁,y₂) + F(x₁,y₁)

二维离散随机变量及其联合分布律

定义：如果二维随机变量(X,Y)仅可能取有限个或可列有限个值，则称(X,Y)为二维离散型随机变量。

离散型随机变量的联合分布律可以用二位数表，公式，图像法表示。

二维连续型随机变量及其联合密度函数

定义：二维随机变量(X,Y)的联合分布函数为F(x,y),如果存在一个二元非负实数函数，使得对于任意(x,y)∈R²,

F(x,y) = ∫^x_-∞ ∫^y_-∞f(u,v)dudv，积分区域D_xy = (-∞,x]*(-∞,y],则称(X,Y)为二维连续型随机变量，f(x,y)为二维连续型随机变量(X,Y)的联合概率密度函数。

联合密度函数实际意义理解：表示某个实际量在xoy平面分布的密度情况。

对任意一条平面曲线L，有P((X,Y)∈L) = 0
F(x,y) 为连续函数，在f(x,y)的连续点处有f(x,y) = ∂²F(x,y)/(∂x∂y) = f(x,y)

常见的二维随机变量

二维均匀分布

定义：二维随机变量(X,Y)的联合密度函数为 f(x,y) = 1/S_G, (x,y)∈G;f(x,y) = 0 ,其他。G为xoy平面上某个区域，S_G是G区域的面积，则称随机变量 (X,Y)服从区域G上的二维均匀分布

二维正态分布N(μ₁,μ₂,σ₁²,σ₂²,ρ)

定义：联合密度函数为：

σ₁,σ₂>0,|ρ|<1.(X,Y)服从二维正态分布记为**(X,Y) ~ N(μ₁,μ₂,σ₁²,σ₂²,ρ)**,联合密度函数图像为：

定理：如果(X,Y)服从二维正态分布，则X,Y也分别服从相应的一维正态分布：X_{N(μ1,σ12),Y}N(μ₂,σ₂²)

边缘分布

边缘分布函数

定义：二维随机变量 (X,Y)联合分布函数为F(x,y),

X的边缘分布函数：F_X(x) = P(X<=x) = P(X<=x,Y<+∞) = F(x,+∞)，-∞<x<+∞

Y的边缘分布函数：F_Y(y) = P(Y<=y) = P(X<+∞,Y<=y) = F(-∞,y)，-∞<y<+∞

二维离散型随机变量的边缘分布律

定义:二维离散分布型随机变量(X,Y)的联合分布律为P(X,Y) = p_ij,i,j = 1,2,3…

X的边缘分布律：

Y的边缘分布律：

类似上面。

二维连续型随机变量的边缘密度函数

X的边缘密度函数：

Y的边缘密度函数：

二维随机变量的相互独立性

**定义 **：（X,Y）为二维随机变量，F(x,y) = F_X(x)F_Y(y)对任意的x,y∈R成立，则称X,Y相互独立

定理：（相互独立充要条件）

二维离散型随机变量：对任意的i,j = 1,2,3,…,p_ij = p_i*p_j,q其中p_ij是(X,Y)的联合分布律，p_i,p_j分别是X,Y的边缘分布律。
二维连续型随机变量：在f(x,y) ,f_X(x),f_Y(y)的公共连续点上都有**f(x,y) = f_X(x)*f_Y(y)**,f(x,y) ,f_X(x),f_Y(y)分别是联合密度函数，X,Y的边缘密度函数。

条件分布

二维离散型随机变量的条件分布律

已知二维离散型随机变量的联合分布律，

在给定条件{Y = y_j}下随机变量X的条件分布律为P(X = x_i|Y=y_j) = p_ij/p(Y=y_j),i = 1,2,3,…,
在给定条件{X = x_i}下随机变量Y的条件分布律为P(Y = y_j|X=x_i) = p_ij/p(X=x_i),j = 1,2,3,…,

二维连续型随机变量的条件分布律

已知二维连续型随机变量的联合密度函数，

在给定条件{Y = y}下随机变量X的条件密度函数为f_X|Y(x|y) = f(x,y)/f_Y(y),-∞<x<+∞，f_Y(y)>0
在给定条件{X = x}下随机变量Y的条件密度函数为f_Y|X(y|x) = f(x,y)/f_X(x),-∞<y<+∞，f_X(x)>0

二维随机变量函数的分布

二维离散型随机变量函数的分布

求出函数作为随机变量的取值，并分别求出概率。

相互独立，成功概率相同的二项分布之和仍服从二项分布
相互独立的泊松分布之和仍服从泊松分布
可加性：同类型且相互独立的随机变量之和仍服从该类型分布的性质

二维连续型随机变量函数的分布

联合密度函数为f(x,y),随机变量所在的函数为Z = g(X,Y),则其分布函数为：

卷积公式：
随机变量X,Y都服从正态分布，则X+Y也服从正态分布（μ₁+μ₂,σ₁²+σ₂²）

随机变量的数字特征

数学期望

定义：X是离散型随机变量，分布律为P(X = x_i) = p_i,i = 1,2,3,…,如果级数∑x_ip_i绝对收敛（保证数学期望的唯一性）（关于级数和绝对收敛的概念后续在高等数学的更新中会讲解），则称E(X) = ∑x_ip_i为离散型随机变量X的数学期望，也称期望或者均值。
定义：X为连续型随机变量，其密度函数为f(x),如果广义积分∫xf(x)dx绝对收敛，则称E(X) = ∫xf(x)dx为连续型随机变量X的数学期望
- 均匀分布对应的数学期望：E(X) = (a+b)/2
- 泊松分布对应的数学期望：E(X) = 1/λ
- 正态分布对应的数学期望：E(X) = μ
定理（随机离散型变量二元函数的数学期望）：(X,Y)是二维离散型随机变量，联合分布律为P(X = x_i,Y = y_j) = p_ij,i,j = 1,2,3,…,若级数∑∑g(x_i,y_j)p_ij绝对收敛，则二元函数g(X,Y)数学期望为E(g(X,Y)) = ∑∑g(x_i,y_j)p_ij
定理（随机连续型变量二元函数的数学期望）：(X,Y)是二维连续型随机变量，联合密度函数为f(x,y).若广义积分∫∫g(x,y)f(x,y)dxdy绝对收敛，则g(X,Y)数学期望为E((X,Y)) = ∫∫g(x,y)f(x,y)dxdy
数学期望的性质：
- c为常数，则E© = c
- X为随机变量，且E(X)存在，k,c为常数，则E(kX + c) = kE(X)+c
- X,Y为任意两个随机变量，且E(X),E(Y)存在，则E(X+Y) = E(X) + E(Y)
- X,Y相互独立，且E(X)和E(Y)存在，则E(XY) = E(X)E(Y)

方差和标准差

定义：X是随机变量，如果E{[X-E(X)]²}存在，则称D(X) = E(X²) - (E(X))² 为随机变量X的方差，称D(X)的算术平方根σ_X 为标准差
泊松分布对应的方差为D(X) = 1/λ²
均匀分布对应的方差为D(X) = (b-a)²/12
正态分布对应的方差为D(X) = σ²
性质：
- D(X) = 0的充分必要条件是P(X=c) =1,即X服从参数c的退化分布，其中c=E(X).
- E(kX+c) = k²D(X)
- X,Y为任意两个随机变量，则D(X+/-Y) = D(X)+D(Y)+/-2E{[X-E(X)] [Y-E(Y)]}
- X,Y为相互独立的随机变量，则D(X+/-Y) = D(X) +/- D(Y)
X_* :中心化随机变量 将中心平移至原点，使其分布不偏左也不偏右，期望值为0，分布波动程度不发生改变，方差不变
X^*:标准化随机变量 将中心平移至与原点，使其分布不偏左也不偏右，期望值为0，同时随机变量取值压缩到原来的1/sqrt(D(X)),压缩改变了分布的波动程度，方差变化。

协方差和相关系数

协方差

定义：(X,Y)是二维随机变量，如果E{[X-E(X)] [Y-E(Y)]}存在，则称cov(X,Y) = E{[X-E(X)] [Y-E(Y)]} = E(XY) - E(X)*E(Y),cov(X,Y)称为二维随机变量的协方差
意义：Z = [X-E(X)] [Y-E(Y)],则cov(X,Y) = E(Z),若cov(X,Y)>0,则事件{Z>0}发生可能性更大，也就是 X，Y同时大于或者小于各自期望的可能性更大。协方差反映的就是随机变量X,Y之间协同变化的关系。
性质：设X,Y,X₁,X₂ 为任意随机变量，c,k,l为常数
- cov(X,c) = 0
- cov(X,Y) = cov(Y,X)
- cov(kX,lY) = klcov(X,Y)
- cov(X₁+X₂,Y) = cov(X₁,Y) + cov(X₂,Y)

相关系数

定义：由于在求协方差的时候，量纲不同会导致协方差差异很大，所以将随机变量标准化（标准化随机变量在上面讲过了），X^* = (X-E(X))/sqrt(D(X)) ,

Y^*= (Y-E(Y))/sqrt(D(Y)),然后求标准化协方差,标准化协方差即为相关系数。

相关系数：ρ(X,Y) = cov(X,Y)/(sqrt(D(X)))(sqrt(D(Y)))

二维正态分布的参数ρ恰好是X,Y的相关系数
二维随机变量，当ρ_XY = 0时，称X,Y线性无关
等价命题：当D(X) >0,D(Y) > 0时：
- ρ_XY = 0
- cov(X,Y) = 0
- E(XY) = E(X) +E(Y)
- D(X+Y) = D(X) + D(Y)
- D(X-Y) = D(X) - D(Y)
性质：cov(X,Y)存在且D(X)>0,D(Y)>0时，有
- |ρ_XY|<=1
- |ρ_XY|=1的充分必要条件是P(Y = aX+b) = 1,其中：
 - ρ_XY = 1时：a = sqrt(D(Y)/D(X)),b=E(Y) - sqrt(D(Y)/D(X))*E(X)
 - ρ_XY =-1时：a = - sqrt(D(Y)/D(X)), b=E(Y) + sqrt(D(Y)/D(X))*E(X)
- 若随机变量X与Y相互独立，则X与Y线性无关；但由X,Y线性无关不能推断X,Y相互独立
定义：，若相关系数ρ_XY存在，则
- |ρ_XY|=1，(X,Y)的取值(x,y)在直线 y = ax+b上的概率为1，称X,Y完全线性相关；
- ρ_XY = 1，(X,Y)的取值(x,y)在斜率大于0的直线 y = ax+b上的概率为1，称X,Y完全正线性相关；
- ρ_XY =-1，(X,Y)的取值(x,y)在斜率小于0的直线 y = ax+b上的概率为1，称X,Y完全负线性相关；
- ρ_XY > 0,称X,Y正线性相关；
- ρ_XY < 0,称X,Y负相关；

定理：如果二维随机变量(X,Y)服从二维正态分布，那么X,Y相互独立等价于X,Y不相关。