06 随机变量及其分布

1.何谓随机变量

何谓随机变量？即给定样本空间（S,F），其上的实值函数X:S->R 称为(实值)随机变量。

如果随机变量X的取值是有限的或者是可数无穷尽的值,则称为离散随机变量(用白话说，此类随机变量是间断的)。

如果由X全部实数或者由一部分区间组成，则称X为连续随机变量，连续随机变量的值是不可数及无穷尽的(用白话说，此类随机变量是连续的，不间断的)：

也就是说，随机变量分为离散型随机变量，和连续型随机变量，当要求随机变量的概率分布的时候，要分别处理之，如：

针对离散型随机变量而言，一般以加法的形式处理其概率和；

而针对连续型随机变量而言，一般以积分形式求其概率和。

再换言之，对离散随机变量用求和得全概率，对连续随机变量用积分得全概率。这点包括在第4节中相关期望.方差.协方差等概念会反复用到，望读者注意之。

2.离散型随机变量的定义

定义：取值至多可数的随机变量为离散型的随机变量。概率分布(分布律)为:

且

(一)（0-1）分布

若X的分布律为：

同时，p+q=1,p>0,q>0，则则称X服从参数为p的0-1分布，或两点分布。

此外，（0-1）分布的分布律还可表示为：

或

我们常说的抛硬币实验便符合此（0-1）分布。

(二)、二项分布

二项分布是n个独立的是/非试验中成功的次数的离散概率分布，其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。举个例子就是，独立重复地抛n次硬币，每次只有两个可能的结果：正面，反面，概率各占1/2。

设A在n重贝努利试验中发生X次，则：

并称X服从参数为p的二项分布，记为：

与此同时，

(三)、泊松分布(Poisson分布)

Poisson分布（法语：loi de Poisson，英语：Poisson distribution），即泊松分布，是一种统计与概率学里常见到的离散概率分布，由法国数学家西莫恩·德尼·泊松（Siméon-Denis Poisson）在1838年时发表。

若随机变量X的概率分布律为

称X服从参数为λ的泊松分布，记为：

有一点提前说一下，泊松分布中，其数学期望与方差相等，都为参数λ。

泊松分布的来源

在二项分布的伯努力试验中，如果试验次数n很大，二项分布的概率p很小，且乘积λ= n p比较适中，则事件出现的次数的概率可以用泊松分布来逼近。事实上，二项分布可以看作泊松分布在离散时间上的对应物。证明如下。

首先，回顾e的定义：

二项分布的定义：

如果令p=λ/n,n趋于无穷是P的极限：

上述过程表明：Poisson(λ) 分布可以看成是二项分布 B(n,p) 在 np=λ,n→∞ 条件下的极限分布。

最大似然估计

给定n个样本值ki，希望得到从中推测出总体的泊松分布参数λ的估计。为计算最大似然估计值, 列出对数似然函数：

对函数L取相对于λ的导数并令其等于零：

解得λ从而得到一个驻点（stationary point）：

检查函数L的二阶导数，发现对所有的λ 与ki大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L的极大值点：

证毕。OK，上面内容都是针对的离散型随机变量，那如何求连续型随机变量的分布律呢？请接着看以下内容。

3.随机变量分布函数定义的引出

实际中，如上述第2.所述，

对于离散型随机变量而言，其所有可能的取值可以一一列举出来

可对于非离散型随机变量，即连续型随机变量X而言，其所有可能的值则无法一一列举出来

故连续型随机变量也就不能像离散型随机变量那般可以用分布律来描述它，那怎么办呢(事实上，只有因为连续，所以才可导，所以才可积分，这些东西都是相通的。当然了，连续不一定可导，但可导一定连续)？

既然无法研究其全部，那么我们可以转而去研究连续型随机变量所取的值在一个区间（x1，x2] 的概率：P{x1 < X <=x2 }，同时注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1}，故要求P{x1 < X <=x2 } ，我们只需求出P{X <=x2} 和 P{X <=x1} 即可。

针对随机变量X，对应变量x，则P(X<=x) 应为x的函数。如此，便引出了分布函数的定义。

定义：随机变量X，对任意实数x，称函数F(x) = P(X <=x ) 为X 的概率分布函数，简称分布函数。

F(x)的几何意义如下图所示：

且对于任意实数x1，x2（x1<x2），有P{x1<X<=x2} = P{X <=x2} - P{X <= x1} = F(x2) - F(x1)。

同时，F(X)有以下几点性质：

4.连续型随机变量及其概率密度

定义：对于随机变量X的分布函数F(x)，若存在非负的函数f(x)，使对于任意实数x，有：

则称X为连续型随机变量，其中f(x)称为X的概率密度函数，简称概率密度。连续型随机变量的概率密度f(x)有如下性质：

（针对上述第3点性质，我重点说明下：
在上文第1.4节中，有此牛顿-莱布尼茨公式：如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则
.在上文，连续随机变量X 而言，对于任意实数a，b（a<b），有P{a<X<=b} = P{X <=b} - P{X <= a} = F(b) - F(a)；
故结合上述两点，便可得出上述性质3）

且如果概率密度函数在一点上连续，那么累积分布函数可导，并且它的导数：。如下图所示：

接下来，介绍三种连续型随机变量的分布，由于均匀分布及指数分布比较简单，所以，一图以概之，下文会重点介绍正态分布。

(一)、均匀分布

若连续型随机变量X具有概率密度

则称X 在区间(a，b)上服从均匀分布，记为X~U（a，b）。

易知，f(x) >= 0，且其期望值为（a + b）/ 2。

(二)、指数分布

若连续型随机变量X 的概率密度为

其中λ>0为常数，则称X服从参数为λ的指数分布。记为

(三)、正态分布
在各种公式纷至沓来之前，我先说一句：正态分布没有你想的那么神秘，它无非是研究误差分布的一个理论，因为实践过程中，测量值和真实值总是存在一定的差异，这个不可避免的差异即误差，而误差的出现或者分布是有规律的，而正态分布不过就是研究误差的分布规律的一个理论。

OK，若随机变量X服从一个位置参数μ为、尺度参数为δ的概率分布，记为：

则其概率密度函数为

我们便称这样的分布为正态分布或高斯分布，记为：

正态分布的数学期望值或期望值等于位置参数μ，决定了分布的位置；其方差的开平方，即标准差等于尺度参数，决定了分布的幅度。正态分布的概率密度函数曲线呈钟形，因此人们又经常称之为钟形曲线。它有以下几点性质，如下图所示：

正态分布的概率密度曲线则如下图所示：

当固定尺度参数δ，改变位置参数μ的大小时，f(x)图形的形状不变，只是沿着x轴作平移变换，如下图所示：

而当固定位置参数μ，改变尺度参数的δ大小时，f(x)图形的对称轴不变，形状在改变，越小，图形越高越瘦，越大，图形越矮越胖。如下图所示：

故有咱们上面的结论，在正态分布中，称μ为位置参数(决定对称轴位置)，而 σ为尺度参数(决定曲线分散性)。同时，在自然现象和社会现象中，大量随机变量服从或近似服从正态分布。

而我们通常所说的标准正态分布是位置参数μ=0, 尺度参数δ=1的正态分布，记为：
相关内容如下两图总结所示(来源：大嘴巴漫谈数据挖掘)：

5.各种分布的比较

上文中，从离散型随机变量的分布：（0-1）分布、泊松分布、二项分布，讲到了连续型随机变量的分布：均匀分布、指数分布、正态分布，那这么多分布，其各自的期望.方差(期望方差的概念下文将予以介绍)都是多少呢？虽说，还有不少分布上文尚未介绍，不过在此，提前总结下，如下两图所示(摘自盛骤版的概率论与数理统计一书后的附录中)：