数据挖掘之随机事件与随机变量

一、随机事件

1.基本概念释义

现实生活中，一个动作或一件事情，在一定条件下，所得的结果不能预先完全确定，而只能确定是多种可能结果中的一种，称这种现象为随机现象。

例如，抛掷一枚硬币，其结果有可能是出现正面，也有可能是出现反面；掷骰子游戏中，出现的数字可能是1,2,3,4,5,6其中的任意一个。以上这些现象都是随机现象。

使随机现象得以实现和对它观察的全过程称为随机试验，记为EEE。随机实验满足以下三个条件:

可以在相同条件下重复进行；
结果有多种可能性，并且所有可能结果事先已知；
作一次试验究竟哪个结果出现，事先不能确定。

接下来，我们给出如下关于样本空间，样本点，随机事件等的定义。

称随机试验的所有可能结果组成的集合为样本空间，记为Ω\OmegaΩ。
试验的每一个可能结果称为样本点，记为ω\omegaω。
称样本空间Ω\OmegaΩ中满足一定条件的子集为随机事件，用大写字母A,B,C...A,B,C...A,B,C...表示。另外，随机事件在随机试验中可能出现也可能不出现。
在试验中，称一个事件发生是指构成该事件的一个样本点出现。由于样本空间Ω\OmegaΩ包含了所有的样本点，所以在每次试验中，它总是发生，因此称Ω\OmegaΩ为必然事件。
空集ϕ\phiϕ不包含任何样本点，且在每次试验中总不发生，所以称为不可能事件。

举个栗子
掷骰子游戏中，我们知道出现的结果可能是1,2,3,4,5,6其中的任意一个数字。那么出现任何一个数字，都可以成为一个样本点；随机事件是什么呢，就是一些样本点的的集合，当然了，是在一定条件下。比如，出现的数字是偶数的结果。那么2,4,6就够成了一个随机事件A=2,4,6A={2,4,6}A=2,4,6。样本空间就是1到6的六个数字Ω=1,2,3,4,5,6\Omega={1,2,3,4,5,6}Ω=1,2,3,4,5,6。可以看到AAA 是Ω\OmegaΩ的一个子集。空集可以定义ϕ\phiϕ为结果的数字大于6，显然是不可能出现的。

2.概率

1.定义：
随机试验EEE的样本空间为Ω\OmegaΩ，对于每个事件AAA，定义一个实数P(A)P(A)P(A)与之对应，若函数P(.)P(.)P(.)满足条件：

对每个事件AAA，均有0<P(A)<=10<P(A)<=10<P(A)<=1;
P(Ω)=1P(\Omega)=1P(Ω)=1;
若事件A1,A2,A3,...A_1,A_2,A_3,...A1,A2,A3,...两两互斥，即对于i，j=1,2,...，i≠j,Ai∩Aj=ϕi，j=1,2,...，i \neq j ,A_i \cap A_j = \phii，j=1,2,...，i=j,Ai∩Aj=ϕ，均有

P(A1∪A2∪...)=P(A1)+P(A2)+...P(A_1 \cup A_2 \cup ...)=P(A_1) +P(A_2) +...P(A1∪A2∪...)=P(A1)+P(A2)+...

则称P(A)P(A)P(A)为事件AAA的概率。

2.主要性质：

对于任一事件AAA，均有P(A‾)=1−P(A)P(\overline{A})=1-P(A)P(A)=1−P(A).
对于两个事件AAA和BBB，若A⊂BA \subset BA⊂B，则有 P(B−A)=P(B)−P(A),P(B)>P(A)P(B-A) = P(B) - P(A), P(B) >P(A)P(B−A)=P(B)−P(A),P(B)>P(A).
对于任意两个事件AAA和BBB，有 P(A∪B)=P(A)+P(B)−P(A∩B)P(A \cup B) = P(A) + P(B) - P(A\cap B)P(A∪B)=P(A)+P(B)−P(A∩B).

举个栗子

掷骰子中，1,2,3,4,5,6出现的概率均为1/6。我们令 A=1,2,B=1,2,3A = { 1,2 },B = {1,2,3}A=1,2,B=1,2,3。那么有A‾=3,4,5,6\overline{A}={ 3,4,5,6}A=3,4,5,6。可以看到，出现1或2的概率为1/3，即P(A)=1/3P(A) =1/3P(A)=1/3；出现1或2或3的概率为1/2，即P(B)=1/2P(B) =1/2P(B)=1/2。根据性质我们有

P(A‾)=1−P(A)=1−1/3=2/3P(\overline{A})=1-P(A) =1-1/3=2/3P(A)=1−P(A)=1−1/3=2/3,也就是出现3或4或5或6的概率；
P(B−A)=P(B)−P(A)=1/2−1/3=1/6P(B-A)=P(B) -P(A) =1/2-1/3=1/6P(B−A)=P(B)−P(A)=1/2−1/3=1/6,也就是出现3的概率；
P(A∪B)=P(A)+P(B)−P(A∩B)=1/3+1/2−1/3=1/2P(A \cup B) = P(A) + P(B) - P(A\cap B) = 1/3 +1/2 -1/3 = 1/2P(A∪B)=P(A)+P(B)−P(A∩B)=1/3+1/2−1/3=1/2,也就是出现的1或2或3，也就是事件BBB的概率；因为A⊂BA \subset BA⊂B。这里的A∩B=A=1,2A \cap B = A ={ 1,2 }A∩B=A=1,2。

3.古典概型

我们将掷骰子游戏进行推广，设随机事件 EEE 的样本空间中只有有限个样本点，即 Ω=ω1,ω2,...,ωn\Omega= { \omega_1, \omega_2,..., \omega_n }Ω=ω1,ω2,...,ωn，其中， nnn 为样本点的总数。每个样本点ωi(i=1,2,...,n)\omega_i (i =1,2,...,n)ωi(i=1,2,...,n)出现是等可能的，并且每次试验有且仅有一个样本点发生，则称这类现象为古典概型。若事件 AAA 包含个mmm 个样本点，则事件 AAA 的概率定义为：

P(A)=mn=事件A包含的基本事件数基本事件总数P(A) = \frac{m} {n} = \frac{事件A包含的基本事件数} {基本事件总数}P(A)=nm=基本事件总数事件A包含的基本事件数。

基于古典概型进行例题的推广

假设有 kkk 个不同颜色的球，每个球以同样的概率 1/l1/l1/l 落到 lll 个格子 (l>=k)(l>=k)(l>=k) 的每个中，且每个格子可容纳任意多个球。问，分别求出如下两个事件 AAA 和 BBB 的概率。

AAA :指定的 kkk 个格子中各有一个球；
BBB :存在 kkk 个格子，其中各有一个球。

我们思考一下，由于每个球可以平均地落入 lll 个格子中的任一个，并且每一个格子中可落入任意多个球，所以 kkk 个球落入 lll 个格子中的分布情况相当于从 lll 个格子中选取 kkk 个的可重复排列，故样本空间共有 lkl^klk 种等可能的基本结果。

所以，事件 AAA 所含基本结果数应是 kkk 个球在指定的 lll 个格子中的全排列数，即 k!k!k!，那么有
P(A)=k!lkP(A) = \frac{k!} {l^k}P(A)=lkk!

为了算出事件 BBB 所含的基本事件数，我们可以分两步进行：因为 lll 个格子可以是任意选取的，故可先从 lll 个格子中任意选出 kkk 个出来，那么选法共有 ClkC^k_lClk 种。对于每种选定的 kkk 个格子，依上述各有一个球的推理，则有 k!k!k!个基本结果，故B含有 Clk∗k！C^k_l*k！Clk∗k！个基本结果。那么有

P(B)=Clkk！lk=l！lk（l−k）!P(B) = \frac {C^k_lk！} {l^k} = \frac {l！} {l^k（l-k）!}P(B)=lkClkk！=lk（l−k）!l！

我们把上述例子应有到具体的问题中，概率论的历史上有一个颇为著名的问题生日问题：求 kkk 个同班同学没有两人生日相同的概率。

如果把这 kkk 个同学看作上例中的 kkk 个球，而把一年365天看作格子，即 l=365l=365l=365 ，则上述的 P(B)P(B)P(B)就是所要求的概率。我们令 k=40k=40k=40 时，利用上面的公式，则 P(B)=0.109P(B) =0.109P(B)=0.109。换句话说，40个同学中至少两个人同一天过生日的概率是：P(B‾)=1−0.109=0.891P(\overline {B}) = 1 - 0.109 =0.891P(B)=1−0.109=0.891。其概率大的出乎意料。

这讲内容更多地是对概念知识的理解，不太涉及软件的实现，给出简单的 P(B)P(B)P(B) Python实现：

#我们采用函数的递归的方法计算阶乘：
def factorial(n):if n == 0:return 1;else:return (n*factorial(n-1)) l_fac = factorial(365);          #l的阶乘
l_k_fac = factorial(365-40)      #l-k的阶乘
l_k_exp = 365**40                #l的k次方P_B =  l_fac /(l_k_fac * l_k_exp)     #P(B）
print("事件B的概率为：",P_B)
print("40个同学中至少两个人同一天过生日的概率是：",1 - P_B)

4.条件概率

研究随机事件之间的关系时，在已知某些事件发生的条件下考虑另一些事件发生的概率规律有无变化及如何变化，是十分重要的。我们先给出定义，然后进行例子的讲解与描述。

定义：
设 AAA 和 BBB 是两个事件，且P(B)>0P(B)>0P(B)>0，称 P(A∣B)=P(AB)P(B)P(A|B) = \frac {P(AB)} {P(B)}P(A∣B)=P(B)P(AB) 为在事件 BBB 发生的条件下，事件 AAA 发生的概率。

例子：
某集体中有 NNN 个男人和 MMM 个女人，其中患色盲者男性 nnn 人，女性 mmm 人。我们用 Ω\OmegaΩ 表示该集体， AAA 表示其中全体女性的集合，BBB 表示其中全体色盲者的集合。如果从 Ω\OmegaΩ 中随意抽取一人，则这个人分别是女性、色盲者和同时既为女性又是色盲者的概率分别为：

P(A)=MM+N,P(B)=m+nM+N,P(AB)=mM+NP(A) = \frac {M} {M+N} , P(B) = \frac {m+n} {M+N} , P(AB) = \frac {m} {M+N} P(A)=M+NM,P(B)=M+Nm+n,P(AB)=M+Nm

如果限定只从女性中随机抽取一人(即事件 AAA 已发生)，那么这个女人为色盲者的(条件)概率为

P(B∣A)=mM=P(AB)P(A)P(B|A) = \frac {m} {M} = \frac {P(AB)} {P(A)} P(B∣A)=Mm=P(A)P(AB)

5.全概率公式和贝叶斯公式
准备知识 首先我们看一下概率乘法公式和样本空间划分的定义；

由条件概率公式，可以得到概率的乘法公式：P(AB)=P(B∣A)P(A)=P(A∣B)P(B)P(AB)=P(B|A)P(A) =P(A|B)P(B)P(AB)=P(B∣A)P(A)=P(A∣B)P(B)
如果事件组，满足
B1,B2,...B_1,B_2,...B1,B2,... 两两互斥，即Bi∩Bj=ϕ，i≠j,i,j=1,2,...B_i\cap B_j = \phi，i \neq j ,i,j = 1,2,...Bi∩Bj=ϕ，i=j,i,j=1,2,...，且P(Bi)>0,i=1,2,...P(B_i)>0,i=1,2,...P(Bi)>0,i=1,2,...
B1∪B2∪...=ΩB_1 \cup B_2 \cup ... = \OmegaB1∪B2∪...=Ω 则称事件组B1,B2,...B_1,B_2,...B1,B2,...是样本空间 Ω\OmegaΩ 的一个划分。

全概率公式

设B1,B2,...B_1,B_2,...B1,B2,...是样本空间 Ω\OmegaΩ 的一个划分，AAA 为任一事件，则P(A)∑i=1∞P(Bi)P(A∣Bi)P(A) \sum_{i=1}^{\infty } {P(B_i)}P(A|B_i)P(A)∑i=1∞P(Bi)P(A∣Bi)称为全概率公式。

根据全概率公式和概率乘法公式，我们可以得到：

贝叶斯公式

设B1,B2,...B_1,B_2,...B1,B2,...是样本空间 Ω\OmegaΩ 的一个划分，则对任一事件 A(P(A)>0)A(P(A)>0)A(P(A)>0) ,有P(Bi∣A)=P(BiA)P(A)=P(A∣Bi)P(Bi)∑j=1∞P(Bj)P(A∣Bj),i=1,2,...P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} ,i=1,2,...P(Bi∣A)=P(A)P(BiA)=∑j=1∞P(Bj)P(A∣Bj)P(A∣Bi)P(Bi),i=1,2,...称上式为贝叶斯公式，称P(Bi)(i=1,2,...)P(B_i)(i=1,2,...)P(Bi)(i=1,2,...) 为先验概率，P(Bi∣A)（i=1,2,...）P(B_i|A)（i=1,2,...）P(Bi∣A)（i=1,2,...）为后验概率。

我们看下面的例子

在实际中，常取对样本空间 Ω\OmegaΩ 的有限划分 B1,B2,...,BnB_1,B_2,...,B_nB1,B2,...,Bn 。 BiB_iBi 视为导致试验结果 AAA 发生的“原因”，而P(Bi)P(B_i)P(Bi) 表示各种“原因”发生的可能性大小，故称为先验概率；P(Bi∣A)P(B_i|A)P(Bi∣A) 则反应当试验产生了结果 AAA 之后，再对各种“原因”概率的新认识，故称为后验概率。

假定用血清甲胎蛋白法诊断肝癌。用 CCC 表示被检验者有肝癌这一事件，用 AAA 表示被检验者为阳性反应这一事件。当前有肝癌的患者被检测呈阳性反应的概率为0.95。即 P(A∣C)=0.95P(A|C) = 0.95P(A∣C)=0.95 。当前非肝癌的患者被检测呈阴性反应的概率为0.9。即 P(A‾∣C‾)=0.90P(\overline {A}|\overline {C}) = 0.90P(A∣C)=0.90 。若某人群中肝癌患者概率为0.0004，即P(C)=0.0004P(C) = 0.0004P(C)=0.0004，现在有一人呈阳性反应，求此人确为肝癌患者的概率是多少？

解：

P(C∣A)=P(C)P(A∣C)P(C)P(A∣C)+P(C‾)P(A∣C‾)=0.00040.950.00040.95+0.9996∗0.1=0.0038P(C|A) = \frac {P(C)P(A|C)} {P(C)P(A|C)+P(\overline {C} )P(A|\overline {C})} =\frac {0.00040.95}{0.00040.95 + 0.9996*0.1} =0.0038P(C∣A)=P(C)P(A∣C)+P(C)P(A∣C)P(C)P(A∣C)=0.00040.95+0.9996∗0.10.00040.95=0.0038

贝叶斯公式也是在机器学习中朴素贝叶斯的核心，请大家予以重视~！

二、随机变量

1.随机变量及其分布

随机变量定义：

设 EEE 是随机试验，Ω\OmegaΩ 是样本空间，如果对于每一个 ω∈Ω\omega \in \Omegaω∈Ω 。都有一个确定的实数 X(ω)X(\omega)X(ω) 与之对应，若对于任意实 x∈Rx \in Rx∈R , 有 ω：X(ω)<x∈F{\omega ：X(\omega) < x } \in Fω：X(ω)<x∈F ，则称 Ω\OmegaΩ 上的单值实函数 X(ω)X(\omega)X(ω) 为一个随机变量。

从定义可知随机变量是定义在样本空间 Ω\OmegaΩ 上，取值在实数域上的函数。由于它的自变量是随机试验的结果，而随机试验结果的出现具有随机性，因此，随机变量的取值也具有一定的随机性。这是随机变量与普通函数的不同之处。

描述一个随机变量，不仅要说明它能够取那些值，而且还要关心它取这些值的概率。因此，接下来引入随机变量的分布函数的概念。

随机变量的分布函数定义：

设 XXX 是一个随机变量，对任意的实数 xxx ，令 F(x)=PX<=x,x∈(−∞,+∞)F(x) = P { X<=x} ,x \in (- \infty ,+ \infty) F(x)=PX<=x,x∈(−∞,+∞) 则称 F(x)F(x)F(x) 为随机变量 xxx 的分布函数，也称为概率累积函数。

直观上看，分布函数 F(x)F(x)F(x) 是一个定义在 (−∞,+∞)(- \infty, + \infty)(−∞,+∞) 上的实值函数， F(x)F(x)F(x)在点 xxx 处取值为随机变量 XXX 落在区间 (−∞,+x)(- \infty, + x)(−∞,+x)上的概率。分布函数（概率累积函数）很好理解，就是在一个区间范围内概率函数的累加。这个区间就是负无穷到当前节点。

2. 离散型随机变量

如果随机变量 XXX 的全部可能取值只有有限多个或可列无穷多个，则称 XXX 为离散型随机变量。掷骰子的结果就是离散型随机变量。

对于离散型随机变量 XXX 可能取值为 xkx_kxk的概率为： PX=xk=pk,k=1,2,...P { X =x_k } =p_k,k=1,2,... PX=xk=pk,k=1,2,... 则称上式为离散型随机变量 XXX 的分布律。

我们可以用下表来表示分布律：

xxx	x1x_1x1	x2x_2x2	…	xnx_nxn	…
pkp_kpk	p1p_1p1	p2p_2p2	…	pnp_npn	…

离散型随机变量的分布函数为： F(x)=PX<=x=∑xk<=xPX=xk=∑xk<=xPkF (x) = P { X<=x } =\sum_{x_k <=x}{ P { X=x_k } } = \sum_{x_k <=x}{ P_k} F(x)=PX<=x=xk<=x∑PX=xk=xk<=x∑Pk

3.常见的离散型分布

1.(0-1)分布
设随机变量XXX只可能取0和1两个值，它分布律是
P{X=k}=pk(1−p)1−k,k=0,1(0<p<1)P\{X=k\}=p^{k}(1-p)^{1-k}, k=0,1 \quad(0<p<1)P{X=k}=pk(1−p)1−k,k=0,1(0<p<1)
则称XXX服从以ppp为参数的(0-1)分布或者两点分布。
对于一个随机试验，如果样本空间只包含两个元素，Ω={ω1,ω2}\Omega=\left\{\omega_{1}, \omega_{2}\right\}Ω={ω1,ω2}我们就能在Ω\OmegaΩ上定义一个服从(0-1)分布的随机变量
X=X(ω)={0,当 ω=ω11,当 ω=ω2X=X(\omega)=\left\{\begin{array}{ll} 0, & \text { 当 } \omega=\omega_{1} \\ 1, & \text { 当 } \omega=\omega_{2} \end{array}\right.X=X(ω)={0,1, 当 ω=ω1 当 ω=ω2
来描述随机试验的结果。比如抛硬币的试验，比如检验产品是否合格等。

2.伯努利实验，二项分布
定义：
如果一个随机试验只有两种可能的结果 AAA 和 A‾\overline AA，并且

P(A)=p，P(A‾)=1−p=qP(A) = p，P(\overline A) =1-p=q P(A)=p，P(A)=1−p=q

其中， 0<p<10<p<10<p<1 ，则称此试验为Bernoulli(伯努利)试验. Bernoulli试验独立重复进行 nnn 次，称为 nnn 重伯努利试验。

看例子

从一批产品中检验次品，在其中进行有放回抽样 nnn 次，抽到次品称为“成功”，抽到正品称为“失败“，这就是 nnn 重Bernoulli试验。

设 A=n重伯努利试验中A出现k次A = { n重伯努利试验中A出现k次} A=n重伯努利试验中A出现k次则 P(Ak）=Cnkpk(1−p)n−k,k=0,1,2,...n.P(A_k） =C^k_np^k(1-p)^{n-k},k=0,1,2,...n. P(Ak）=Cnkpk(1−p)n−k,k=0,1,2,...n. 这就是著名的二项分布，常记作 B(n，k）B(n，k）B(n，k）。

解释：一共抽了 nnn 次，k(k<n)k(k<n)k(k<n) 次抽中了 AAA ,概率为 ppp ,那么 n−kn-kn−k 次抽中了非 AAA，概率为 1−p1-p1−p 组合的次数就是 CnkC^k_nCnk 。所以 P(Ak）=Cnkpk(1−p)n−k,k=0,1,2,...n.P(A_k） =C^k_np^k(1-p)^{n-k},k=0,1,2,...n.P(Ak）=Cnkpk(1−p)n−k,k=0,1,2,...n.

分布函数：
若随机变量 XXX 的分布律为： PX=k=Cnkpk(1−p)n−k,k=0,1,2,...n.P { X =k } =C^k_np^k(1-p)^{n-k},k=0,1,2,...n. PX=k=Cnkpk(1−p)n−k,k=0,1,2,...n. 其分布函数为： F（x）=∑k=[x]Cnkpk(1−p)n−k,k=0,1,2,...n.F（x） = \sum_{k=}^{[x]} {C^k_np^k(1-p)^{n-k}},k=0,1,2,...n. F（x）=k=∑[x]Cnkpk(1−p)n−k,k=0,1,2,...n. 其中， [x][x][x] 表示下取整，即不超过 xxx 的最大整数。

numpy 中提供了产生二项分布的API：

np.random.binomial(n, p, size)

3,.泊松分布
设随机变量XXX所有可能取值为0, 1, 2,…，而取各个值的概率为
P{X=k}=λke−λk!,k=0,1,2,⋯P\{X=k\}=\frac{\lambda^{k} \mathrm{e}^{-\lambda}}{k !}, k=0,1,2, \cdotsP{X=k}=k!λke−λ,k=0,1,2,⋯

则称 XXX 服从参数为入的泊松分市, 记为 X∼π(λ)X \sim \pi(\lambda)X∼π(λ)

泊松定理：设λ>0\lambda > 0λ>0是一个常数， nnn 是任意正整数，设 npn=λ,n p_{n}=\lambda, \quadnpn=λ, 则对于任意固定非负整数 kkk, 有
lim⁡n→∞(nk)pnk(1−pn)n−k=λke−λk!\lim _{n \rightarrow \infty}\left(\begin{array}{c} n \\ k \end{array}\right) p_{n}^{k}\left(1-p_{n}\right)^{n-k}=\frac{\lambda^{k} \mathrm{e}^{-\lambda}}{k !}n→∞lim(nk)pnk(1−pn)n−k=k!λke−λ

这个东西也就是说以n,pn,pn,p为参数的二项分布的概率值可以又参数为λ=np\lambda=npλ=np的泊松分布来近似。

numpy中提供了产生泊松分布随机数的API：

numpy.random.poisson([lam, size])

4.随机变量的数字特征

1.数学期望

离散型：设离散型随机变量 XXX 的分布律为 PX=xi=pi,i=1，2，...，P { X=x_i} = p_i ,i =1，2，...，PX=xi=pi,i=1，2，...，若级数 ∑i∣xi∣pi\sum_{i} {|x_i|p_i}∑i∣xi∣pi 收敛，

（收敛指会聚于一点，向某一值靠近，相对于发散）。则称级数 ∑ixipi\sum_{i} {x_ip_i}∑ixipi 的和为随机变量 XXX 的数学期望。记为 E(X)E(X)E(X) ,即：

E(X)=∑ixipiE(X) = \sum_{i} {x_ip_i}E(X)=i∑xipi

设连续型随机变量 XXX 的概率密度函数为 f(x)f(x)f(x) ,若积分 ∫−∞+∞∣x∣f（x）dx\int_{- \infty}^{+ \infty}{|x|f（x）}dx∫−∞+∞∣x∣f（x）dx 收敛，称积分 ∫−∞+∞xf（x）dx\int_{- \infty}^{+ \infty}{xf（x）}dx∫−∞+∞xf（x）dx 的值为随机变量 XXX 的数学期望，记为 E(X)E(X)E(X) ,即： E(X)=∫−∞+∞xf（x）dxE(X)= \int_{- \infty}^{+ \infty}{xf（x）}dx E(X)=∫−∞+∞xf（x）dx E(X)E(X)E(X) 又称为均值。

数学期望代表了随机变量取值的平均值，是一个重要的数字特征。数学期望具有如下性质：

若 ccc 是常数，则 E(c)=cE(c) =cE(c)=c ;
E(aX+bY)=aE(X)+bE(Y)E(aX+bY) = aE(X) +bE(Y)E(aX+bY)=aE(X)+bE(Y) , 其中a, b为任意常数；
若 X,YX, YX,Y 相互独立，则E(XY)=E(X)E(Y)E(XY) = E(X)E(Y)E(XY)=E(X)E(Y) ; （相互独立就是没有关系，不相互影响）。

2.方差

设 XXX 为随机变量，如果 E[X−E(X)]2E{ [X-E(X)]^2}E[X−E(X)]2 存在，则称 E[X−E(X)]2E{ [X-E(X)]^2}E[X−E(X)]2 为 XXX 的方差。记为 Var(X)Var(X)Var(X) , 即：
Var（X）=E[X−E(X)]2Var （X） =E{ [X-E(X)]^2} Var（X）=E[X−E(X)]2

并且称 Var(X)\sqrt{Var(X)}Var(X) 为 XXX 的标准差或均方差。

方差是用来描述随机变量取值相对于均值的离散程度的一个量，也是非常重要的数字特征。方差有如下性质:

若 ccc 是常数，则 Var(c)=0Var(c) =0Var(c)=0 ;
Var(aX+b)=a2Var(X)Var(aX+b) = a^2Var(X)Var(aX+b)=a2Var(X) , 其中a, b为任意常数；
若 X,YX, YX,Y 相互独立，则Var(X+Y)=Var(X)+Var(Y)Var(X+Y) = Var(X) +Var(Y)Var(X+Y)=Var(X)+Var(Y) 。

3协方差和相关系数
协方差和相关系数都是描述随机变量 XXX 与随机变量 YYY 之间的线性联系程度的数字量。

设 X,YX, YX,Y 为两个随机变量，称 E[X−E(X)][Y−E(Y)]E{ [X-E(X)] [Y-E(Y)]}E[X−E(X)][Y−E(Y)] 为 XXX 和 YYY 的协方差，记为 Cov(X,Y)Cov(X, Y)Cov(X,Y)，即： Cov(X,Y)=E[X−E(X)][Y−E(Y)]Cov(X, Y) = E{ [X-E(X)] [Y-E(Y)]} Cov(X,Y)=E[X−E(X)][Y−E(Y)] 协方差有如下性质：

Cov(X,Y)=Cov(Y,X)Cov(X, Y) = Cov(Y, X)Cov(X,Y)=Cov(Y,X) ;

Cov(aX+b，cY+d)=acCov(X，Y)Cov(aX+b，cY+d) =ac Cov( X，Y)Cov(aX+b，cY+d)=acCov(X，Y) ,其中， a,b,c,da,b,c,da,b,c,d 为任意常数；

Cov(X1+X2，Y)=Cov(X1，Y)+Cov(X2，Y)Cov(X_1+X_2，Y) =Cov( X_1，Y) +Cov( X_2，Y)Cov(X1+X2，Y)=Cov(X1，Y)+Cov(X2，Y) ;

Cov(X，Y)=E(X，Y)−E(X)E(Y)Cov(X，Y) =E( X，Y) -E( X)E(Y)Cov(X，Y)=E(X，Y)−E(X)E(Y) ; 当 X,YX,YX,Y 相互独立时，有 Cov(X，Y)=0Cov(X，Y) = 0Cov(X，Y)=0;

∣Cov(X，Y)∣<=Var(X)Var(Y)|Cov(X，Y)| <= \sqrt {Var(X)} \sqrt {Var(Y)}∣Cov(X，Y)∣<=Var(X)Var(Y) ;

Cov(X，X)=Var(X)Cov(X，X) =Var( X)Cov(X，X)=Var(X) ;

当 Var(X)>0，Var(Y)>0\sqrt {Var(X)} >0 ，\sqrt {Var(Y)} >0Var(X)>0，Var(Y)>0 时，称 ρ（X,Y）=Cov(X，Y)Var(X)Var(Y)\rho（X,Y） = \frac{Cov(X，Y)}{\sqrt {Var(X)} \sqrt {Var(Y)}} ρ（X,Y）=Var(X)Var(Y)Cov(X，Y) 为 X,YX,YX,Y 的相关系数，它是无纲量的量（也就是说没有单位，只是个代数值）。
基本上我们都会用相关系数来衡量两个变量之间的相关程度。相关系数在-1到1之间，小于零表示负相关，大于零表示正相关。绝对值 ∣ρ（X,Y）∣|\rho（X,Y）|∣ρ（X,Y）∣ 表示相关度的大小。越接近1，相关度越大。

思维导图