详细介绍各种常见的分布

写在前面：本文主要介绍常见的分布，如伯努利分布、二项分布、负二项分布、几何分布、超几何分布、泊松分布、正态分布（也称高斯分布）、均匀分布、指数分布、β分布（贝塔分布）、Γ分布（伽马分布）、极值分布，其中前6个为离散随机变量的分布，后6个为连续随机变量的分布。
声明：本文写的较为详细，旨在为那些基础薄弱甚至是零基础的人提供帮助，因此对于有一定的基础的人，可能会觉得过于繁琐甚至是啰嗦。故大家可以根据自己的情况选择性的看。此外，由于个人水平限制，可能存在错误，如有发现错误请留言告知，不胜感激！
—————————————————————————————

1 随机变量

我们常说的分布基本都是这对随机变量而言的，那么什么是随机变量呢？大部分概率论书中的标准定义为：随机变量表示样本空间上实验结果的实值函数。也就是说随机变量其实是一个函数，这个应该怎么去理解呢？这个定义有三个关键点：一是样本空间，二是实验结果，三是实值函数。我们通过这三点来彻底理解随机变量。样本空间是指随机试验所有可能结果组合的集合。如一个骰（读tou）子，掷一次，所有可能出现的点数为1、2、3、4、5、6，那么样本空间即为这些结果组合的集合S={1,2,3,4,5,6}S = \{ 1,2,3,4,5,6\}S={1,2,3,4,5,6}。再如你在8:15分到达公共汽车站，你还需要等多久才有汽车才能来？假设公共汽车为15分钟一班的话，那么样本空间即为S={t∣0⩽t⩽15}S =\{t |0 \leqslant t \leqslant 15 \}S={t∣0⩽t⩽15}。实验结果即是样本空间中的元素，如骰子的点数，你等公共汽车的时间等。而样本空间的子集则构成了随机事件，如骰子点数为1，骰子点数大于4（即对应骰子点数为5或6）。实值函数是指实验结果是一个函数，但这个函数与我们常见的函数有点不一样。首先它是定义在样本空间中的，而非我们常见的实数轴上，即该函数的定于域为样本空间；其次是这个函数取值有一定的规律，这个规律就是概率。
抛开上面的细节，我们以一种非常简单的、不严谨的说法来解释随机变量，那就是：该变量取值不确定，有多个可能的取值，但每个取值有一定的规律（即概率）。
了解了随机变量之后，根据随机变量可能取值结果的性质，分为离散随机变量和连续随机变量，前者表示取值结果是离散的，如骰子的点数；后者表示变量取值结果是连续的，如你等公共汽车的时间。

2 随机变量的分布

所谓的随机变量的分布，即我们用一种统一的描述方法来描述随机变量的可能取值及其取值的规律，这种统一的方法就是**概率质量函数或分布函数或概率密度函数。**因此，这种统一的描述方法必须满足两点：一是能描述清楚随机变量所有可能的取值，二是每个取值对应的概率。我们常说某个随机变量服从某个分布，那就是说明我们通过这个分布可以知道随机变量可以取哪些值以及对应的取值概率。在得到某个分布的分布函数之后，我们还希望初步了解一下这个分布的特点，即随机变量取值的特点或性质，如 期望（E[X]E[X]E[X]）和方差（Var[X]Var[X]Var[X]），期望描述的是随着样本趋向于无穷大，该随机变量的平均取值是多少，方差描述的是实际取值与平均取值直接的偏离程度。
故接下来的讲解也主要围绕 分布函数、期望和方差这三个方面。
期望和方差的定义具体如下：
（1）离散随机变量
E[X]=∑xxP(X=x)E[X] = \sum\limits_x {xP(X = x)} E[X]=x∑xP(X=x)
Var[X]=E[(x−E[x])2]=E[X2]−(E[X])2Var[X] = E[{(x - E[x])^2}] = E[{X^2}] - {(E[X])^2} Var[X]=E[(x−E[x])2]=E[X2]−(E[X])2
（2）连续随机变量
E[X]=∫−∞∞xf(x)dxE[X] = \int_{ - \infty }^\infty {xf(x)dx} E[X]=∫−∞∞xf(x)dx
Var[X]=∫−∞∞(x−E[X])2f(x)dxVar[X] = \int_{ - \infty }^\infty {{{\left( {x - E[X]} \right)}^2}f(x)dx} Var[X]=∫−∞∞(x−E[X])2f(x)dx
注：（1）大写的字母表示随机变量，如XXX，小写的字母表示该随机变量具体取值，如xxx。因此X=xX=xX=x表示随机变量XXX取值为xxx。
（2）对于后文提到的伯努利试验，我们将混用事件A发生和试验成功，即这两个表述是同一个意思。

3 离散型随机变量的分布

3.1 伯努利分布（Bernoulli Distribution）

伯努利分布是指实验结果只有两种，如某种情况发生与不发生，病人康复与不康复，硬币的正面或反面，我们一般用0和1来表示这两种结果，因此伯努利分布有时也被称为0-1分布或是两点分布。通常假设事件发生的概率为ppp且0<p<10<p<10<p<1，那么不发生的概率是1−p1-p1−p（或称之为q=1−pq=1-pq=1−p），即Pr(X=1)=p{P_r}(X =1) = pPr(X=1)=p, Pr(X=0)=1−p{P_r}(X = 0) =1- pPr(X=0)=1−p。我们称ppp为伯努利分布的参数。
其相应的概率质量函数（此处注意：所谓的概率质量函数，是专门针对离散随机变量而言，是指随机变量取某个值的可能性，在连续随机变量的分布中，我们一般称之为概率密度函数）为P(X=x)=px(1−p)1−x={px=11−px=0P(X=x) = {p^x}{(1 - p)^{1 - x}} = \left\{ \begin{array}{l} p{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} x = 1\\ 1 - p{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} x = 0\end{array} \right.P(X=x)=px(1−p)1−x={px=11−px=0
好了，我们已经描述完了这个随机变量的取值以及它的取值规律，但通常情况下我们还想知道这个随机变量一些基本的性质，即期望和方差。根据前面的计算公式，可得到伯努利分布的期望和方差分别为：
E[X]=∑xxP(X=x)=1∗p+0∗(1−p)=pE[X] = \sum\limits_x {xP(X = x)}=1*p+0*(1-p) =pE[X]=x∑xP(X=x)=1∗p+0∗(1−p)=p
Var[X]=E[X2]−(E[X])2=p−p2=p(1−p)Var[X] = E[{X^2}] - {(E[X])^2}=p-p^2=p(1-p) Var[X]=E[X2]−(E[X])2=p−p2=p(1−p)

3.2 二项分布（Binomial Distribution）

将伯努利分布中的随机试验称为伯努利试验，将该试验的结果从1次推广到nnn次，即形成了二项分布。因此，二项分布是指在nnn次重复试验（此处称为重复试验是因为每一次试验都是完全一样的伯努利试验）中，事件A发生的次数服从的分布。如我们连续掷10次硬币，其中正面朝上的次数？如连续掷3次骰子，点数大于3的次数？
记事件{X=k}\{X=k\}{X=k}表示在nnn次试验中，事件XXX恰好发生kkk次。注意，我们只说了发生kkk次，却没有要求知道这kkk次是具体哪几次。由于伯努利试验中事件发生的概率是ppp，根据排列组合知识，事件发生了kkk次的概率为：
P{X=k}=Cnkpk(1−p)n−k=(nk)pk(1−p)n−k=n!(n−k)!k!pk(1−p)n−kP\{X=k\}=C_n^k{p^k}{(1-p)^{n - k}}=\left( \begin{array}{l} n\\ k \end{array} \right){p^k}{(1-p)^{n - k}}=\frac{n!}{(n-k)!k!}{p^k}{(1-p)^{n - k}}P{X=k}=Cnkpk(1−p)n−k=(nk)pk(1−p)n−k=(n−k)!k!n!pk(1−p)n−k
该式也是二项分布的概率质量函数。
二项分布的期望和方差分别为：
E[X]=np,Var[X]=np(1−p)E[X] =np,Var[X] = np(1-p)E[X]=np,Var[X]=np(1−p)
具体推导过程如下：
E[X]=∑k=0nk⋅P{X=k}=∑k=0nk⋅Cnkpk(1−p)n−k=∑k=1nnCn−1k−1pk(1−p)n−k=n∑k=1nCn−1k−1pk(1−p)n−k=np∑k=1nCn−1k−1pk−1(1−p)n−k=np(p+1−p)n−1=np\begin{array}{l} E[X] = \sum\limits_{k = 0}^n {k \cdot P\{ X = k\} } {\kern 1pt} = \sum\limits_{k = 0}^n {k \cdot C_n^k{p^k}{{(1 - p)}^{n - k}}} \\ {\kern 22pt} = \sum\limits_{k = 1}^n {nC_{n - 1}^{k - 1}{p^k}{{(1 - p)}^{n - k}}} = n\sum\limits_{k = 1}^n {C_{n - 1}^{k - 1}{p^k}{{(1 - p)}^{n - k}}} \\ {\kern 22pt} = np\sum\limits_{k = 1}^n {C_{n - 1}^{k - 1}{p^{k - 1}}{{(1 - p)}^{n - k}}} = np{(p + 1 - p)^{n - 1}} = np \end{array}E[X]=k=0∑nk⋅P{X=k}=k=0∑nk⋅Cnkpk(1−p)n−k=k=1∑nnCn−1k−1pk(1−p)n−k=nk=1∑nCn−1k−1pk(1−p)n−k=npk=1∑nCn−1k−1pk−1(1−p)n−k=np(p+1−p)n−1=np
其中第三个等号是因为k⋅Cnk=n⋅Cn−1k−1k \cdot C_n^k=n \cdot C_{n-1}^{k-1}k⋅Cnk=n⋅Cn−1k−1，倒数第二个等号是根据二项展开式(a+b)n=∑k=0nCnkakbn−k(a+b)^n=\sum\limits_{k=0}^n{C_n^ka^kb^{n-k}}(a+b)n=k=0∑nCnkakbn−k。
E[X2]=∑k=0nk2⋅P{X=k}=∑k=0nk2⋅Cnkpk(1−p)n−k=∑k=1nknCn−1k−1pk(1−p)n−k=np∑k=1nkCn−1k−1pk−1(1−p)n−k=np(∑k=1n(k−1)Cn−1k−1pk−1(1−p)n−k+∑k=1nCn−1k−1pk−1(1−p)n−k)=np(p∑k=2n(n−1)Cn−2k−2pk−2(1−p)n−k+∑k=1nCn−1k−1pk−1(1−p)n−k)=np(p(n−1)+1)=np(np+1−p)\begin{array}{l} E[{X^2}] = \sum\limits_{k = 0}^n {{k^2} \cdot P\{ X = k\} } {\kern 1pt} = \sum\limits_{k = 0}^n {{k^2} \cdot C_n^k{p^k}{{(1 - p)}^{n - k}}} \\ {\kern 26pt} = \sum\limits_{k = 1}^n {knC_{n - 1}^{k - 1}{p^k}{{(1 - p)}^{n - k}}} {\kern 1pt} {\kern 1pt} = np\sum\limits_{k = 1}^n {kC_{n - 1}^{k - 1}{p^{k - 1}}{{(1 - p)}^{n - k}}} \\ {\kern 26pt} = np\left( {\sum\limits_{k = 1}^n {(k - 1)C_{n - 1}^{k - 1}{p^{k - 1}}{{(1 - p)}^{n - k}}} + \sum\limits_{k = 1}^n {C_{n - 1}^{k - 1}{p^{k - 1}}{{(1 - p)}^{n - k}}} } \right)\\ {\kern 26pt} = np\left( {p\sum\limits_{k = 2}^n {(n - 1)C_{n - 2}^{k - 2}{p^{k - 2}}{{(1 - p)}^{n - k}}} + \sum\limits_{k = 1}^n {C_{n - 1}^{k - 1}{p^{k - 1}}{{(1 - p)}^{n - k}}} } \right)\\ {\kern 26pt} = np\left( {p(n - 1) + 1} \right) = np(np+1 - p) \end{array}E[X2]=k=0∑nk2⋅P{X=k}=k=0∑nk2⋅Cnkpk(1−p)n−k=k=1∑nknCn−1k−1pk(1−p)n−k=npk=1∑nkCn−1k−1pk−1(1−p)n−k=np(k=1∑n(k−1)Cn−1k−1pk−1(1−p)n−k+k=1∑nCn−1k−1pk−1(1−p)n−k)=np(pk=2∑n(n−1)Cn−2k−2pk−2(1−p)n−k+k=1∑nCn−1k−1pk−1(1−p)n−k)=np(p(n−1)+1)=np(np+1−p)
再根据前面推导的方差公式可得：
D[X]=E[X2]−(E[X])2=np(np−p+1)−(np)2=np(1−p)D[X]=E[X^2]-(E[X])^2 =np(np-p+1)-(np)^2=np(1-p) D[X]=E[X2]−(E[X])2=np(np−p+1)−(np)2=np(1−p)

我们称nnn和ppp为二项分布的参数，因此通常我们用X∼B(n,p)X \sim B(n,p)X∼B(n,p)来简记随机变量XXX服从参数为nnn和ppp的二项分布。有了这两个参数，我们就可以知道该分布的大致情况。为了让大家更直观的了解二项分布的特点，我用Python做了一个小小的模拟，具体代码如下：

#加载相关库
import numpy as np
import matplotlib.pyplot as plt
from scipy import statsfrom matplotlib import font_manager #加载相关字体模块#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname="C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置for n in range(5,30,5): #此处用for循环来表示试验的总次数p = 0.3 #伯努利试验的事件发生概率k = np.arange(0,20) #表示在n次试验中发生了k次binomial = stats.binom.pmf(k,n,p) #计算P{X=k}plt.plot(k, binomial, 'o-',label='n=%i'%n) #画图plt.legend() #显示图例plt.title('二项分布:p=0.3',fontproperties=my_font) #图名plt.xlabel('事件发生次数',fontproperties=my_font) #X轴名称plt.ylabel('事件发生次数对应的概率',fontproperties=my_font) #Y轴名称plt.grid(True) #显示网格线plt.show() #显示所画的图

注：本文所有代码使用的是Python3，每条语句都加了注释，是为了方便没有基础的人理解。
代码运行结果如下图所示：

在上面的模拟中，我们假设p=0.3p=0.3p=0.3，分别模拟了nnn为5、10、15、20、25的情况，在nnn次试验中，我们假设事件发生次数为kkk,我们模拟了kkk从0到20的情况。
从上图中我们发现一个现象，即随着nnn的增大，二项分布的图像越来越像正态分布，这说明我们采取一个足够大的nnn，就可以用二项分布来近似正态分布。其实这点是可以通过严格的数学来证明，本文就不证明了。在实际问题处理中，会经常碰到用二项分布来近似正态分布，使得问题便于求解计算。

3.3 多项式分布（Multinomial Distribution） …\ldots…

多项式分布在一般的概率书籍提及较少，但其在热力学领域使用较多。二项分布是将一次伯努利试验推广至nnn次试验，每次试验只有两个结果，求其中一个结果发生kkk次的概率，而多项式分布则是每次试验中有mmm个结果（m>2m >2m>2），求nnn次试验中每个结果发生的次数k1,k2,k_1,k_2,k1,k2, …\ldots…kmk_mkm的概率（其中k1+k2+…+km=nk_1+k_2+\ldots+k_m=nk1+k2+…+km=n），因此多项式分布是二项分布的推广。举个具体例子说明一下这个，抛一次硬币，正面朝上的概率，这是伯努利分布；抛nnn次硬币，正面朝上的次数为kkk次的概率，这是二项分布；掷nnn次骰子，出现1点的次数为k1k_1k1，出现2点的次数为k2k_2k2，……以及出现6点的次数为k6k_6k6的概率。
多项式分布的概率质量函数为：
P(X1=k1,⋯,Xm=km)={n!k1!,⋯,km!p1k1⋯pmkmwhen∑i=1mki=n0otherwiseP({X_1} = {k_1}, \cdots ,{X_m} = {k_m}) = \left\{ \begin{array}{l} \frac{{n!}}{{{k_1}!, \cdots ,{k_m}!}}{p_1^{{k_1}}} \cdots {p_m^{{k_m}}}{\kern 6pt}when{\kern 4pt} \sum\limits_{i = 1}^m {{k_i} = n} \\ 0{\kern 98pt} otherwise \end{array} \right.P(X1=k1,⋯,Xm=km)=⎩⎨⎧k1!,⋯,km!n!p1k1⋯pmkmwheni=1∑mki=n0otherwise
其中，p1+⋯+pm=1p_1+\cdots+p_m=1p1+⋯+pm=1。
        二项分布的概率公式理解起来比较直观，而多项式的概率公式理解起来可能费力一些，下面我们大致讲解一些多项式分布的由来。
首先，针对p1+⋯+pm=1p_1+\cdots+p_m=1p1+⋯+pm=1，因为一次试验会有mmm个结果，这些结果发生的概率相加为1，这是比较直观的。
其次，我们先推导一个多项式定理：
(x1+x2+⋯+xm)n=∑n!r1!r2!⋯rm!x1r1⋯xkrm{({x_1} + {x_2} + \cdots + {x_m})^n} = \sum {\frac{{n!}}{{{r_1}!{r_2}! \cdots {r_m}!}}x_1^{{r_1}} \cdots x_k^{{r_m}}} (x1+x2+⋯+xm)n=∑r1!r2!⋯rm!n!x1r1⋯xkrm
        我们知道(x1+x2+⋯+xm)n{(x_1+x_2+\cdots+x_m)^n}(x1+x2+⋯+xm)n是由nnn个(x1+x2+⋯+xm)(x_1+x_2+\cdots+x_m)(x1+x2+⋯+xm)相乘，根据多项式相乘的规律可知，相乘展开后的结果相当于从这nnn个(x1+x2+⋯+xm)(x_1+x_2+\cdots+x_m)(x1+x2+⋯+xm)中分别取一个xi{x_i}xi相乘，因此所有的展开项中肯定有x1r1⋯xmrmx_1^{{r_1}} \cdots x_m^{{r_m}}x1r1⋯xmrm项，且有r1+⋯+rm=nr_1+\cdots+r_m=nr1+⋯+rm=n。接下来的问题是x1r1⋯xkrmx_1^{{r_1}} \cdots x_k^{{r_m}}x1r1⋯xkrm的系数是多少？我们可以这样看待这个问题：x1r1⋯xmrmx_1^{{r_1}} \cdots x_m^{{r_m}}x1r1⋯xmrm就相当于我们从nnn个式子中选取r1r_1r1个x1x_1x1，选取r2r_2r2个x2x_2x2……选取rmr_mrm个xmx_mxm，这样的选法有多少种呢？根据排列组合相关知识，可知选法有：Cnr1Cn−r1r2⋯Cn−r1−r2−⋯rm−1rm=n!r1!(n−r1)!(n−r1)!r2!(n−r1−r2)!⋯(n−r1−⋯rm−1)!rm!(n−r1−r2⋯rm)!=n!r1!r2!⋯rm!\begin{array}{l} C_n^{{r_1}}C_{n - {r_1}}^{{r_2}} \cdots C_{n - {r_1} - {r_2} - \cdots {r_{m - 1}}}^{{r_m}} = \frac{{n!}}{{{r_1}!(n - {r_1})!}}\frac{{(n - {r_1})!}}{{{r_2}!(n - {r_1} - {r_2})!}} \cdots \frac{{(n - {r_1} - \cdots {r_{m - 1}})!}}{{{r_m}!(n - {r_1} - {r_2} \cdots {r_m})!}}\\ = \frac{{n!}}{{{r_1}!{r_2}! \cdots {r_m}!}} \end{array}Cnr1Cn−r1r2⋯Cn−r1−r2−⋯rm−1rm=r1!(n−r1)!n!r2!(n−r1−r2)!(n−r1)!⋯rm!(n−r1−r2⋯rm)!(n−r1−⋯rm−1)!=r1!r2!⋯rm!n!
注意因为有r1+⋯+rm=nr_1+\cdots+r_m=nr1+⋯+rm=n，所以第一个等式中的最后一项的分母为rm!r_m!rm!。所以我们得到x1r1⋯xmrmx_1^{{r_1}} \cdots x_m^{{r_m}}x1r1⋯xmrm的系数为n!r1!r2!⋯rm!\frac{{n!}}{{{r_1}!{r_2}! \cdots {r_m}!}}r1!r2!⋯rm!n!，而r1,⋯rmr_1,\cdots r_mr1,⋯rm的取值是从0到nnn，所以上述多项式的展开式需求和，即可得上述的多项式定理（令m=2m=2m=2时即可得到大家熟悉的二项式展开式的形式）(x1+x2+⋯+xm)n=∑n!r1!r2!⋯rm!x1r1⋯xmrm{({x_1} + {x_2} + \cdots + {x_m})^n} = \sum {\frac{{n!}}{{{r_1}!{r_2}! \cdots {r_m}!}}x_1^{{r_1}} \cdots x_m^{{r_m}}} (x1+x2+⋯+xm)n=∑r1!r2!⋯rm!n!x1r1⋯xmrm
        有了上述的二项式定理，我们回到多项式的概率公式中来，因为我们做nnn次试验，每次试验有mmm种结果，其对应的发生概率分别为p1,⋯pm,p_1,\cdots p_m,p1,⋯pm,那么nnn次试验中结果1发生的次数为k1k_1k1，结果2发生的次数为为k2k_2k2，结果mmm发生的次数为kmk_mkm的概率就相当于上述多项式定理中的某一项，因此可得多项式的概率公式。
        因为多项式分布的随机变量不止一个（有X1,⋯XmX_1,\cdots X_mX1,⋯Xm个），所以相比于其他分布的期望和方差，它还多一个协方差。由于该分布在经管领域使用不多，因此我们简单的给出期望、方差以及协方差（CovCovCov）的结果，需要具体推导过程的请留言。
        因为多项式分布是二项分布的推广，因此其期望和方差和二项分布一样：
E[Xi]=npiE[X_i]=np_iE[Xi]=npi D[Xi]=npi(1−pi)D[X_i]=np_i(1-p_i)D[Xi]=npi(1−pi) Cov(Xi,Xj)=E(Xi⋅Xj)−E(Xi)⋅E(Xj)=−npipjCov(X_i,X_j)=E(X_i\cdot X_j)-E(X_i)\cdot E(X_j)=-np_ip_jCov(Xi,Xj)=E(Xi⋅Xj)−E(Xi)⋅E(Xj)=−npipj

3.3 负二项分布（Negative Binomial Distribution）

从字面意义上理解，负二项分布和二项分布只有一字之差，那什么叫负二项分布（也称帕斯卡分布）呢？二项分布是指在nnn次试验中事件A发生的次数（或称试验成功的次数），而负二项分布是指当事件A累积没有发生rrr次时，事件A发生的次数。它的试验过程是这样的：将伯努利试验做了X=k+rX=k+rX=k+r次，在前k+r−1k+r-1k+r−1次试验中，事件A发生了kkk次，没有发生的次数是r−1r-1r−1，而在第k+rk+rk+r次试验时，事件A刚好又没有发生，此时事件A累积没有发生的次数为rrr次，而kkk即服从负二项分布，记为K∼NB(r,p)K∼NB(r,p)K∼NB(r,p)，r,pr,pr,p为负二项分布的参数。
注意：关于负二项分布，上面的定义不是唯一的。目前常见的大概有以下四种：（1）每次成功率为ppp的实验，达到rrr次成功所需的试验次数，此时该随机变量最小取值为rrr；（2）每次成功率为ppp的实验，达到rrr次成功前的失败次数，此时随机变量最小取值为0，本文采用这种定义；（3）每次失败率为ppp的实验，达到rrr次成功所需的试验次数，随机变量的最小取值为rrr；（4）每次失败率为ppp的实验，达到rrr次成功前的失败次数，随机变量的最小取值为0。其实前面两种和后面两种只是把试验成功的概率和失败的概率互换了一下而已。
根据上面的分析过程，我们可以得到负二项分布的概率质量函数为：
P{X=k}=Ck+r−1kpk(1−p)r=(k+r−1k)pk(1−p)rP\{ X = k\} = C_{k + r - 1}^k{p^k}{(1 - p)^r} = \left( \begin{array}{l} k + r - 1\\ k \end{array} \right){p^k}{(1 - p)^r}P{X=k}=Ck+r−1kpk(1−p)r=(k+r−1k)pk(1−p)r
我们将Ck+r−1kC_{k + r - 1}^kCk+r−1k展开得：
Ck+r−1k=(k+r−1)!k!(r−1)!=(k+r−1)(k+r−2)⋯(r)k!=(−1)k(−r)(−r−1)(−r−2)⋯(−r−k+1)k!=(−1)k(−rk)\begin{array}{l} C_{k + r - 1}^k = \frac{{(k + r - 1)!}}{{k!(r - 1)!}} = \frac{{(k + r - 1)(k + r - 2) \cdots (r)}}{{k!}} \\ ={( - 1)^k}\frac{{( - r)( - r - 1)( - r - 2) \cdots ( - r - k + 1)}}{{k!}} \\ ={( - 1)^k} \left( \begin{aligned} -r\\k \end{aligned} \right) \end{array}Ck+r−1k=k!(r−1)!(k+r−1)!=k!(k+r−1)(k+r−2)⋯(r)=(−1)kk!(−r)(−r−1)(−r−2)⋯(−r−k+1)=(−1)k(−rk)
也正是因为上面二项式系数部分又负的，所以才叫负二项分布。
其对应的期望和方差分别为：
E[X]=∑k=0∞kP{X=k}=∑k=0∞kCk+r−1kpk(1−p)r=∑k=0∞k(k+r−1)!k!(r−1)!pk(1−p)r=∑k=0∞(k+r−1)!(k−1)!(r−1)!pk(1−p)r=∑k=0∞(k+r−1)(k+r−2)⋯(r+1)(r)(k−1)!p(1−p)−1pk−1(1−p)r+1=rp(1−p)−1∑k=0∞(k+r−1)(k+r−2)⋯(r+1)(k−1)!pk−1(1−p)r+1=rp1−p∑k=0∞((k−1)+(r+1)−1)!r!(k−1)!pk−1(1−p)r+1=rp1−p\begin{array}{l} E[X] = \sum\limits_{k = 0}^\infty {kP\{ X = k\} } \\ = \sum\limits_{k = 0}^\infty {kC_{k + r - 1}^k{p^k}{{(1 - p)}^r}} \\ = \sum\limits_{k = 0}^\infty {k\frac{{\left( {k + r - 1} \right)!}}{{k!(r - 1)!}}{p^k}{{(1 - p)}^r}} \\ = \sum\limits_{k = 0}^\infty {\frac{{(k + r - 1)!}}{{(k - 1)!(r - 1)!}}{p^k}{{(1 - p)}^r}} \\ = \sum\limits_{k = 0}^\infty {\frac{{(k + r - 1)(k + r - 2) \cdots (r + 1)(r)}}{{(k - 1)!}}p{{(1 - p)}^{ - 1}}{p^{k - 1}}{{(1 - p)}^{r + 1}}} \\ = rp{(1 - p)^{ - 1}}\sum\limits_{k = 0}^\infty {\frac{{(k + r - 1)(k + r - 2) \cdots (r + 1)}}{{(k - 1)!}}{p^{k - 1}}{{(1 - p)}^{r + 1}}} \\ = \frac{{rp}}{{1 - p}}\sum\limits_{k = 0}^\infty {\frac{{((k - 1) + (r + 1) - 1)!}}{{r!(k - 1)!}}{p^{k - 1}}{{(1 - p)}^{r + 1}}} \\ = \frac{{rp}}{{1 - p}} \end{array}E[X]=k=0∑∞kP{X=k}=k=0∑∞kCk+r−1kpk(1−p)r=k=0∑∞kk!(r−1)!(k+r−1)!pk(1−p)r=k=0∑∞(k−1)!(r−1)!(k+r−1)!pk(1−p)r=k=0∑∞(k−1)!(k+r−1)(k+r−2)⋯(r+1)(r)p(1−p)−1pk−1(1−p)r+1=rp(1−p)−1k=0∑∞(k−1)!(k+r−1)(k+r−2)⋯(r+1)pk−1(1−p)r+1=1−prpk=0∑∞r!(k−1)!((k−1)+(r+1)−1)!pk−1(1−p)r+1=1−prp
上述推导中最为关键的是倒数第二个等于号中，那串求和计算结果是为1，因此才有了最后一个等式。至于为什么等于1，本人还在查资料，后面会进行更正。
方差让同样的方法即可推导出，先求E[X2]E[X^2]E[X2]，再用公式即可。
注意：此处有很多资料推导的结果是rp\frac{r}{p}pr,那是因为他将事件A发生概率记为ppp，当事件刚好发生rrr次时，总的试验次数为多少？也即使用的定义是上面说的第一个定义，而本文采用的是第二个定义。
关于负二项分布的Python模拟，这里就不模拟了，因为其分布图像和二项分布是差不多形状的。

3.4 几何分布（Geometric distribution）

几何分布是指重复进行成功率为ppp伯努利试验，进行到第kkk次试验才首次成功。回忆上面的注解中关于负二项分布的第二个定义，发现几何分布是负二项分布中r=1r=1r=1的特例。几何分布在实际生活中也比较常见，如某人打靶命中率为ppp，那么他打多少次才能打中靶？如加工某个零件，其不合格率为0.05，那么首次加工出不合格零件时已加工了多少个零件？我们一般将几何分布记为X∼GE(p)X∼GE(p)X∼GE(p)，ppp是其参数。
几何分布的概率质量函数或分布列为：
P{X=k}=(1−p)k−1p，k=1,2,⋯P\{ X = k\} = {(1-p)^{k-1}}{ p}，k=1,2,\cdots P{X=k}=(1−p)k−1p，k=1,2,⋯
几何分布的期望和方差分别为：
E[X]=∑k=1∞k(1−p)k−1p=p∑k=1∞k(1−p)k−1E[X] = \sum\limits_{k = 1}^\infty {k(1-p)^{k-1}}{p}=p \sum\limits_{k = 1}^\infty {k(1-p)^{k-1}} E[X]=k=1∑∞k(1−p)k−1p=pk=1∑∞k(1−p)k−1
令f(p)=−(1−p)kf(p)=-(1-p)^kf(p)=−(1−p)k，则f(p)f(p)f(p)对ppp求导得：k(1−p)k−1k(1-p)^{k-1}k(1−p)k−1，因此有
E[X]=p∑k=1∞k(1−p)k−1=p∑k=1∞f′(p)=−p(∑k=1∞−f(p))′E[X] = p \sum\limits_{k = 1}^\infty {k(1-p)^{k-1}}=p\sum\limits_{k=1}^\infty{{f^{'}}(p)} =-p\left(\sum\limits_{k=1}^\infty{-f(p)}\right)^{'}E[X]=pk=1∑∞k(1−p)k−1=pk=1∑∞f′(p)=−p(k=1∑∞−f(p))′
令q=1−pq=1-pq=1−p，然后根据等比数列的前nnn项和公式有：
∑k=1n(1−p)k=∑k=1nqk=q−qn+11−q=q(1−qn)1−q\sum\limits_{k=1}^{n}(1-p)^k=\sum\limits_{k=1}^{n}q^k=\frac{q-q^{n+1}}{1-q}=\frac{q(1-q^n)}{1-q}k=1∑n(1−p)k=k=1∑nqk=1−qq−qn+1=1−qq(1−qn)
因为0<q<10 < q < 10<q<1，故当n→∞n \to \inftyn→∞时，qn→1q^n\to 1qn→1，因此∑k=1∞qk=q1−q\sum\limits_{k=1}^\infty q^k=\frac{q}{1-q}k=1∑∞qk=1−qq，所以有：
(∑k=1∞−f(p))′=(∑k=1∞(1−p)k)′=(1−pp)′=−1p2\left(\sum\limits_{k=1}^\infty{-f(p)}\right)^{'}=\left(\sum\limits_{k=1}^\infty(1-p)^k\right)^{'}=\left(\frac{1-p}{p}\right)^{'}=-\frac{1}{p^2}(k=1∑∞−f(p))′=(k=1∑∞(1−p)k)′=(p1−p)′=−p21
综合以上有：
E[X]=−p(−1p2)=1pE[X]=-p(-\frac{1}{p^2})=\frac{1}{p}E[X]=−p(−p21)=p1
再利用求方差公式可得方差为：
D[X]=1−pp2D[X]=\frac{1-p}{p^2}D[X]=p21−p
用Python模拟几何分布的概率质量函数为如下所示：
代码为：

#加载相关库
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname="C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
p1=0.3
p2=0.5
p3=0.8
n = np.arange(0,10)
geometric1=stats.geom.pmf(n,p1)
geometric2=stats.geom.pmf(n,p2)
geometric3=stats.geom.pmf(n,p3)
plt.plot(n, geometric1, 'o-',label='p=0.3')#画图
plt.plot(n, geometric2, 'o-',label='p=0.5')
plt.plot(n, geometric3, 'o-',label='p=0.8')
plt.legend() #显示图例
plt.title('几何分布模拟',fontproperties=my_font) #图名
plt.xlabel('事件发生次数',fontproperties=my_font) #X轴名称
plt.ylabel('事件发生次数对应的概率',fontproperties=my_font) #Y轴名称
plt.grid(True) #显示网格线
plt.show()

模拟结果为：

3.5 超几何分布（Hypergeometric Distribution）

前面介绍的伯努利分布、二项分布、负二项分布都是建立在伯努利试验的基础上，而即将介绍的超几何分布、泊松分布则与伯努利试验无关了。超几何分布通常是指从NNN个有限的物品中不放回的抽出nnn个物品（假设NNN个物品中含有某种指定物品的个数为MMM个），那么其中指定的物品有多少个？具体例子如：黑球和白球一共有NNN个，其中黑球有MMM个，问抽nnn个球中黑球的个数？再如零件的合格率检查，在一批零件中抽检nnn个零件，其中不合格零件的个数是多少？
我们一般记超几何分布为X∼H(n,M,N)X∼H(n,M,N)X∼H(n,M,N)
因为NNN个球中，每个球被抽中是等概率的，所以有：
（1）从NNN个球中抽nnn个球的概率为CNnC_{N}^nCNn；
（2）假设nnn个球中黑球的个数为kkk，它们被抽到的概率为CMkC_{M}^kCMk;
（3）nnn个球中白球的个数为n−kn-kn−k，它们被抽到的概率为CN−Mn−kC_{N-M}^{n-k}CN−Mn−k;
故该随机变量的分布律为：P(X=k)=CMkCN−Mn−kCNnP(X=k)=\frac{C_{M}^kC_{N-M}^{n-k}}{C_{N}^n}P(X=k)=CNnCMkCN−Mn−k，其中k=0,1,2,⋯,nk=0,1,2,\cdots,nk=0,1,2,⋯,n
超几何分布的期望和方差分别为：
E[X]=∑k=0mkCMkCN−Mn−kCNn=1CNn∑k=0mkCMkCN−Mn−kE[X]= \sum\limits_{k = 0}^m k\frac{C_{M}^kC_{N-M}^{n-k}}{C_{N}^n}=\frac{1}{C_{N}^n} \sum\limits_{k = 0}^m kC_{M}^kC_{N-M}^{n-k}E[X]=k=0∑mkCNnCMkCN−Mn−k=CNn1k=0∑mkCMkCN−Mn−k
因为有kCMk=kM!k!(M−k)!=M(M−1)!(k−1)!(M−k)!=MCM−1k−1kC_{M}^k=\frac{kM!}{k!(M-k)!}=\frac{M(M-1)!}{(k-1)!(M-k)!}=MC_{M-1}^{k-1}kCMk=k!(M−k)!kM!=(k−1)!(M−k)!M(M−1)!=MCM−1k−1以及范德蒙恒等式（Vandermonde′sidentity）（Vandermonde's identity）（Vandermonde′sidentity）：
Cn+mk=∑i=0CniCmk−iC_{n+m}^k=\sum\limits_{i=0}C_n^iC_m^{k-i}Cn+mk=i=0∑CniCmk−i
所以有：
∑k=0mkCMkCN−Mn−k=0CM0CN−Mn+1CM1CN−Mn−1+⋯+mCMmCN−Mn−m=MCM−10CN−Mn−1+MCM−11CN−Mn−2+⋯+MCM−1m−1CN−Mn−m=M(CM−10CN−Mn−1+CM−11CN−Mn−2+⋯+CM−1m−1CN−Mn−m)=M∑k=0m−1CM−1kCN−Mn−1−k=MCN−1n−1\begin{array}{l} \sum\limits_{k = 0}^m kC_{M}^kC_{N-M}^{n-k}=0C_{M}^0C_{N-M}^{n}+1C_{M}^1C_{N-M}^{n-1}+\cdots+mC_{M}^mC_{N-M}^{n-m}\\ = MC_{M-1}^0C_{N-M}^{n-1}+ MC_{M-1}^1C_{N-M}^{n-2} +\cdots+ MC_{M-1}^{m-1}C_{N-M}^{n-m} \\ =M\left(C_{M-1}^0C_{N-M}^{n-1}+ C_{M-1}^1C_{N-M}^{n-2} +\cdots+ C_{M-1}^{m-1}C_{N-M}^{n-m} \right) \\ =M\sum\limits_{k=0}^{m-1}C_{M-1}^{k}C_{N-M}^{n-1-k}\\ =MC_{N-1}^{n-1}\end{array}k=0∑mkCMkCN−Mn−k=0CM0CN−Mn+1CM1CN−Mn−1+⋯+mCMmCN−Mn−m=MCM−10CN−Mn−1+MCM−11CN−Mn−2+⋯+MCM−1m−1CN−Mn−m=M(CM−10CN−Mn−1+CM−11CN−Mn−2+⋯+CM−1m−1CN−Mn−m)=Mk=0∑m−1CM−1kCN−Mn−1−k=MCN−1n−1
故期望计算结果为：
E[X]=1CNnMCN−1n−1=nMNE[X]=\frac{1}{C_N^n}MC_{N-1}^{n-1}=\frac{nM}{N}E[X]=CNn1MCN−1n−1=NnM
方差为D[X]=nMN(1−MN)N−nN−1D[X]=\frac{nM}{N}\left(1-\frac{M}{N}\right)\frac{N-n}{N-1}D[X]=NnM(1−NM)N−1N−n，具体推导过程此处略，如有需要请留言我再补上。
回顾一下二项分布的期望和方差（分别为npnpnp、npqnpqnpq），我们将会发现超几何分布和二项分布有一点点关联。在总数为NNN个球，黑球为MMM个，那么每个黑球被抽到的概率为MN\frac{M}{N}NM，如果将这个概率作为二项分布中的伯努利试验成功的概率ppp，你就会发现超几何分布和二项分布的期望形式是一样的，但方差的形式有一点点不一样，超几何分布多了N−nN−1\frac{N-n}{N-1}N−1N−n这一项。为什么会多这一项，是因为超几何分布是不放回的抽取，随着抽取的次数增加，随机变量的取值范围也逐步减小，从而导致方差的减小。
同样地，我们用Python去模拟超几何分布的情况。代码如下：

#加载相关库
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname="C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
for n in range(10,25,5):#用for循环确定抽取的次数N=100 #物品总数M=40 #具有某种属性物品的总数k = np.arange(0,n) #抽取n次，抽到具有该属性物品的个数hypergeom=stats.hypergeom.pmf(k,N,M,n) #用stats.hypergeom.pmf求概率plt.plot(k, hypergeom, 'o-',label='N=100,M=40,n=%i'%n)#画图plt.legend() #显示图例
plt.title('超几何分布模拟',fontproperties=my_font) #图名
plt.xlabel('抽到指定物品的个数',fontproperties=my_font) #X轴名称
plt.ylabel('抽到该个数指定物品对应的概率',fontproperties=my_font) #Y轴名称
plt.grid(True) #显示网格线
plt.show()

模拟结果如下图：

通过上图，可以看出超几何分布和二项分布的模拟图具有一定的相似性，这也从直观上验证了两种分布在期望和方差上的相似性。

3.6 泊松分布（Poisson Distribution）

泊松分布应该是最为常见的离散分布了，在很多领域都有应用。在概率论书籍中，关于泊松分布都是直接给出了其分布律，并没有详细说明该分布律的由来。关于这点，本人大力推荐看博主“马同学图解数学”写的关于泊松的理解《如何通俗易懂理解泊松分布》，该博主对泊松分布解释的非常到位，因此本文就不作详细介绍了。
一些常见的泊松分布例子为：
（1）某个商店在某段时间内到来的顾客人数；
（2）一天中拨错电话号码的总数；
（3）早餐店每天卖出早餐的份数；
（4）一本书中某页出现的印刷错误数量；
（5）某个城市居民活到100岁的人数；
（6）某放射性材料在一定时期内放射出来的α-粒子数；
（7）一年中联邦司法系统中空缺的位置数；
泊松分布的分布律为：
P(X=k)=e−λλkk!,k=0,1,2,⋯P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!},k=0,1,2,\cdots P(X=k)=e−λk!λk,k=0,1,2,⋯
其中λ\lambdaλ称为泊松分布的参数，描述的是单位时间内（或单位面积内）随机事件平均发生的次数。
根据分布律推导泊松分布的期望与方差分别为：
E[X]=∑k=0∞ke−λλkk!=e−λ∑k=1∞λk(k−1)!=λe−λ∑k=1∞λk−1(k−1)!\begin{array}{l} E[X]=\sum\limits_{k=0}^{\infty}ke^{-\lambda}\frac{\lambda^k}{k!}=e^{-\lambda}\sum\limits_{k=1}^{\infty}\frac{\lambda^k}{(k-1)!}=\lambda e^{-\lambda}\sum\limits_{k=1}^{\infty}\frac{\lambda^{k-1}}{(k-1)!} \end{array}E[X]=k=0∑∞ke−λk!λk=e−λk=1∑∞(k−1)!λk=λe−λk=1∑∞(k−1)!λk−1
回顾泰勒展开式有：
ex=1+x+x22!+⋯+xnn!+⋯=∑n=1∞xn−1(n−1)!e^x=1+x+\frac{x^2}{2!}+\cdots+\frac{x^n}{n!}+\cdots=\sum\limits_{n=1}^{\infty}\frac{x^{n-1}}{(n-1)!}ex=1+x+2!x2+⋯+n!xn+⋯=n=1∑∞(n−1)!xn−1
所以E[X]=λe−λ∑k=1∞λk−1(k−1)!=λe−λeλ=λE[X]=\lambda e^{-\lambda}\sum\limits_{k=1}^{\infty}\frac{\lambda^{k-1}}{(k-1)!}=\lambda e^{-\lambda}e^{\lambda}=\lambdaE[X]=λe−λk=1∑∞(k−1)!λk−1=λe−λeλ=λ
利用方差与期望的公式可求得方差为D[X]=λD[X]=\lambdaD[X]=λ
同样地，我们用Python去模拟超几何分布的情况。代码如下：

#泊松分布
#加载相关库
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname="C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
for r in range(1,5):#用for循环确定泊松分布的参数λn = np.arange(0,20) #随机变量的取值poisson=stats.poisson.pmf(n,r) #用stats.poisson.pmf求概率plt.plot(n, poisson, 'o-',label='λ=%i'%r)#画图plt.legend() #显示图例
plt.title('泊松分布模拟',fontproperties=my_font) #图名
plt.xlabel('事件发生的次数',fontproperties=my_font) #X轴名称
plt.ylabel('事件发生次数对应的概率',fontproperties=my_font) #Y轴名称
plt.grid(True) #显示网格线
plt.show()

模拟结果如下图：

可以发现，上图和二项分布的模拟图非常接近，事实上，当二项分布中的nnn足够大而ppp足够小时，此时二项分布可以近似看成为参数为λ=np\lambda=npλ=np的泊松分布。为了验证这点，假设随机变量XXX服从参数为nnn和ppp的二项分布，且有λ=np\lambda=npλ=np，则：
P(X=k)=n!(n−k)!k!pk(1−p)n−k=n(n−1)⋯(n−k+1)k!(λn)k(1−λn)n−k=n(n−1)⋯(n−k+1)nkλkk!(1−λn)n(1−λn)k\begin{array}{l} P(X=k)=\frac{n!}{(n-k)!k!}p^k(1-p)^{n-k} \\ =\frac{n(n-1)\cdots(n-k+1)}{k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}\\ =\frac{n(n-1)\cdots(n-k+1)}{n^k} \frac{\lambda^k}{k!} \frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^k} \end{array}P(X=k)=(n−k)!k!n!pk(1−p)n−k=k!n(n−1)⋯(n−k+1)(nλ)k(1−nλ)n−k=nkn(n−1)⋯(n−k+1)k!λk(1−nλ)k(1−nλ)n
当nnn足够大时，有：
(1−λn)n≈e−λ,n(n−1)⋯(n−k+1)nk≈1,(1−λn)k≈1(1-\frac{\lambda}{n})^n \approx e^{-\lambda},\frac{n(n-1)\cdots(n-k+1)}{n^k}\approx1,(1-\frac{\lambda}{n})^k \approx 1(1−nλ)n≈e−λ,nkn(n−1)⋯(n−k+1)≈1,(1−nλ)k≈1
即有：P(X=k)=n(n−1)⋯(n−k+1)nkλkk!(1−λn)n(1−λn)k≈e−λλkk!P(X=k)=\frac{n(n-1)\cdots(n-k+1)}{n^k} \frac{\lambda^k}{k!} \frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^k} \approx e^{-\lambda}\frac{\lambda^k}{k!}P(X=k)=nkn(n−1)⋯(n−k+1)k!λk(1−nλ)k(1−nλ)n≈e−λk!λk

4 连续型随机变量的分布

连续型随机变量是针对离散随机变量而言。离散型随机变量的取值是可数的无限的或是有限个，而连续型随机变量的取值是无限不可数的，如公交车到站的具体时间，晶体管的寿命，某个中学所有学生的身高等。

4.1 正态分布（Normal Distribution）

正态分布又称高斯分布（Gauss Distribution，主要在常见于外文文献），其原因是正态分布虽然由法国数学家棣莫弗（Abraham de Moivre）于1733年首次提出，但德国数学家高斯（Gauss）率先将其应用于天文研究，而他的这项工作对后世影响极大，因此很多人将其称为“高斯分布”。正态分布是我们日常生活最为常见的分布，如全国中学生的身高、学生的成绩，某批零件的质量等等。一般记正态分布为X∼N(μ,σ2)X∼N(\mu,\sigma^2)X∼N(μ,σ2)
与离散随机变量不同的是，我们一般用累积分布函数（Cumulative Distribution Function，CDF）和概率密度函数（Probability Density Function，PDF）来描述一个连续随机变量的分布情况。通常，将概率密度函数在样本空间中积分即可得到累积分布函数，故实际中我们只需要知道这两个函数的其中之一即可。正态分布的概率密度函数为：
f(x)=12πσe−(x−μ)22σ2f(x) = \frac{1}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {{(x - \mu )}^2}}}{{2{\sigma ^2}}}}}f(x)=2πσ1e2σ2−(x−μ)2
其中，μ\muμ是随机变量的均值，σ2\sigma^2σ2为随机变量的方差，具体证明过程如下：
由期望公式得：E[X]=∫−∞∞xf(x)dx=∫−∞∞x12πσe−(x−μ)22σ2dxE[X] = \int_{ - \infty }^\infty {xf(x)dx = \int_{ - \infty }^\infty {x\frac{1}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {{(x - \mu )}^2}}}{{2{\sigma ^2}}}}}} } dxE[X]=∫−∞∞xf(x)dx=∫−∞∞x2πσ1e2σ2−(x−μ)2dx
令y=x−μy=x-\muy=x−μ，则上述等式变为：
E[X]=∫−∞∞(y+μ)12πσe−y22σ2dy=∫−∞∞y2πσe−y22σ2dy+∫−∞∞μ2πσe−y22σ2dy=∫−∞∞y2πσe−y22σ2dy+μ2πσ∫−∞∞e−y22σ2dy\begin{array}{l} E[X] = \int_{ - \infty }^\infty {(y + \mu )\frac{1}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy\\ = \int_{ - \infty }^\infty {\frac{y}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy + \int_{ - \infty }^\infty {\frac{\mu }{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy\\ = \int_{ - \infty }^\infty {\frac{y}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy + \frac{\mu }{{\sqrt {2\pi } \sigma }}\int_{ - \infty }^\infty {{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy \end{array}E[X]=∫−∞∞(y+μ)2πσ1e2σ2−y2dy=∫−∞∞2πσye2σ2−y2dy+∫−∞∞2πσμe2σ2−y2dy=∫−∞∞2πσye2σ2−y2dy+2πσμ∫−∞∞e2σ2−y2dy
令I1=∫−∞∞y2πσe−y22σ2dy{I_1} = \int_{ - \infty }^\infty {\frac{y}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dyI1=∫−∞∞2πσye2σ2−y2dy，I2=∫−∞∞e−y22σ2dy{I_2} = \int_{ - \infty }^\infty {{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dyI2=∫−∞∞e2σ2−y2dy。注意到I1{I_1}I1中的被积函数y2πσe−y22σ2{\frac{y}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}}2πσye2σ2−y2是奇函数（即f(x)=−f(x)f(x)=-f(x)f(x)=−f(x)，关于原点对称），而奇函数在对称区间内的积分为0（回顾积分的本质是被积函数与坐标轴形成的区域的面积，那么关于原点对称的两个区域面积正好是一正一负，相加即为0），因此我们只需要关注I2{I_2}I2即可。下面进行I2{I_2}I2的求解。

I22=I2∗I2=∫−∞∞∫−∞∞e−x22σ2e−y22σ2dxdy{I_2}^2={I_2}*{I_2}=\int_{ - \infty }^\infty {\int_{ - \infty }^\infty {{e^{\frac{{ - {x^2}}}{{2{\sigma ^2}}}}}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dx} dyI22=I2∗I2=∫−∞∞∫−∞∞e2σ2−x2e2σ2−y2dxdy
将坐标转换为极坐标：x=rcosθx=rcos\thetax=rcosθ, y=rsinθy=rsin\thetay=rsinθ,代入到上面的式子可得：
I22=∫−∞∞∫−∞∞e−x22σ2e−y22σ2dxdy=∫02π∫0∞e−r22σ2rdrdθ=2π∫0∞e−r22σ212dr2=π[(−2σ2)e−r22σ2]0∞=2πσ2\begin{array}{l} {I_2}^2=\int_{ - \infty }^\infty {\int_{ - \infty }^\infty {{e^{\frac{{ - {x^2}}}{{2{\sigma ^2}}}}}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dx} dy=\int_{0 }^{2\pi} {\int_{0 }^\infty {{e^{\frac{{ - {r^2}}}{{{2\sigma ^2}}}}}} rdr} d\theta \\ \kern 15pt =2\pi \int_{0}^{\infty}e^{\frac{-r^2}{2\sigma^2}}\frac{1}{2}dr^2=\pi \left[(-2\sigma^2)e^{\frac{-r^2}{2\sigma^2}}\right]_{0}^{\infty}=2\pi \sigma^2 \end{array}I22=∫−∞∞∫−∞∞e2σ2−x2e2σ2−y2dxdy=∫02π∫0∞e2σ2−r2rdrdθ=2π∫0∞e2σ2−r221dr2=π[(−2σ2)e2σ2−r2]0∞=2πσ2
因此，I2=2πσ{I_2}=\sqrt{2\pi}\sigmaI2=2πσ，将其带回到期望公式E[X]E[X]E[X]可得：
E[X]=∫−∞∞y2πσe−y22σ2dy+μ2πσ∫−∞∞e−y22σ2dy=0+μ2πσ∗2πσ=μE[X]= \int_{ - \infty }^\infty {\frac{y}{{\sqrt {2\pi } \sigma }}{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy + \frac{\mu }{{\sqrt {2\pi } \sigma }}\int_{ - \infty }^\infty {{e^{\frac{{ - {y^2}}}{{2{\sigma ^2}}}}}} dy=0+ \frac{\mu }{{\sqrt {2\pi } \sigma }}*\sqrt {2\pi } \sigma =\muE[X]=∫−∞∞2πσye2σ2−y2dy+2πσμ∫−∞∞e2σ2−y2dy=0+2πσμ∗2πσ=μ
利用方差公式可以推出正态分布的方差为σ2\sigma^2σ2。
上面描述的是一般正态分布，在实际中我们常见的是标准正态分布，即X～N(0,1)X～N(0,1)X～N(0,1)。标准正态分布在假设误差分布时会经常遇见，且标准正态分布的概率取值已经被编制成了标准正态分布表，在计算时直接查表即可。而将一般正态分布转化为标准正态分布的过程是：
若X∼N(μ,σ2)X∼N(\mu,\sigma^2)X∼N(μ,σ2)，令Y=X−μσY=\frac{X-\mu}{\sigma}Y=σX−μ，则Y～N(0,1)Y～N(0,1)Y～N(0,1)，该证明过程比较简单，直接将YYY的表达式代入到XXX的概率密度函数中即可。
同样地，我们用Python去模拟超几何分布的情况。代码如下：

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname="C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
x=np.linspace(-10,10,100000)
y1=stats.norm.pdf(x,0,1)
y2=stats.norm.pdf(x,0,2)
y3=stats.norm.pdf(x,1,1)
y4=stats.norm.pdf(x,1,2)
y5=stats.norm.pdf(x,3,1)
y6=stats.norm.pdf(x,5,3)
plt.plot(x, y1,label='$\mu=0,\sigma^2=1$')
plt.plot(x, y2,label='$\mu=0,\sigma^2=2$')#画图
plt.plot(x, y3,label='$\mu=1,\sigma^2=1$')#画图
plt.plot(x, y4,label='$\mu=1,\sigma^2=2$')#画图
plt.plot(x, y5,label='$\mu=3,\sigma^2=1$')#画图
plt.plot(x, y6,label='$\mu=5,\sigma^2=3$')#画图
plt.legend() #显示图例
plt.title('正态分布概率密度函数',fontproperties=my_font) #图名
plt.grid(True) #显示网格线
plt.show()

模拟结果如下图：
通过上述模拟，可以看出正态分布的图像以下两个明显的特点：
（1）正态分布的图像是对称的，其对称轴为μ\muμ，即μ\muμ控制了正态分布图像的位置；
（2）正态分布图像是“高瘦”还是“矮胖”，取决于σ\sigmaσ，σ\sigmaσ越大，图像越“矮胖”。

4.2 均匀分布（Uniform Distribution）

均匀分布也称为矩形分布，一般记为X∼U(a,b)X∼U(a,b)X∼U(a,b)。它是一种对称的概率分布，即在相同的长度内，取值概率是相等的。在经管领域，均匀分布通常用来描述消费者对商品基本价值估计的分布。均匀分布的概率密度函数为：
f(x)={1b−aa<x<b0otherwisef(x) = \left\{ \begin{array}{l} \frac{1}{{b - a}}{\kern 5pt} a < x < b\\ 0{\kern 20pt} otherwise\end{array} \right.f(x)={b−a1a<x<b0otherwise
对概率密度函数进行积分即可得到累积分布函数为：
[F(x)={0x<ax−ab−aa≤x≤b1x>b[F(x) = \left\{ \begin{array}{l} 0{\kern 20pt} x < a\\ \frac{{x - a}}{{b - a}}{\kern 5pt} a \le x \le b\\ 1{\kern 20pt} x > b \end{array} \right.[F(x)=⎩⎨⎧0x<ab−ax−aa≤x≤b1x>b

其期望和方差比较容易求解，此处直接给出：E[X]=a+b2E[X]=\frac{a+b}{2}E[X]=2a+b,D[X]=(b−a)212D[X]=\frac{(b-a)^2}{12}D[X]=12(b−a)2
关于均匀分布的概率密度函数图像，此处就不模拟了，因为它就是在[a,b][a,b][a,b]上的一条直线。

4.3 指数分布（Exponential Distribution）

指数分布常用来描述独立随机事件发生的时间间隔。常见的应用有：泊松过程中两个事件发生的间隔时间、电子元器件的可靠性研究中发生缺陷数或系统故障数的测量结果、大型系统的平均故障间隔时间等。我们记指数分布为：X∼E(λ)X∼E(\lambda)X∼E(λ)，其中参数λ\lambdaλ常称为率参数（rate parameter），表示单位时间内事件发生的次数。指数分布的典型特征是“无记忆性”，这点我们在后面将予以详细说明。指数分布的概率密度函数（pdf）和累积分布函数（cdf）分别为：
f(x)={λe−λxx>00x≤0f(x) = \left\{ \begin{array}{l} \lambda {e^{ - \lambda x}}{\kern 6pt} x > 0\\ 0{\kern 26pt} x \le 0 \end{array} \right.f(x)={λe−λxx>00x≤0
F(x)={1−e−λxx≥00x<0F(x) = \left\{ \begin{array}{l} 1- {e^{ - \lambda x}}{\kern 6pt} x \ge 0\\ 0{\kern 35pt} x< 0 \end{array} \right.F(x)={1−e−λxx≥00x<0
        其期望和方差也比较容易求解：
E[X]=∫−∞∞xf(x)dx=∫0∞xλe−λxdx=∫0∞−xde−λx=−xe−λx∣∞0+∫0∞e−λxdx=−1λe−λx∣∞0=1λ\begin{array}{l} E[X] = \int_{ - \infty }^\infty {xf(x)dx} = \int_0^\infty {x\lambda {e^{ - \lambda x}}dx} = \int_0^\infty { - xd{e^{ - \lambda x}}} \\ {\kern 22pt} {\kern 1pt} = - x{e^{ - \lambda x}}\left| \begin{array}{l} \infty \\ 0 \end{array} \right. + \int_0^\infty {{e^{ - \lambda x}}dx} = - \frac{1}{\lambda }{e^{ - \lambda x}}\left| \begin{array}{l} \infty \\ 0 \end{array} \right. = \frac{1}{\lambda } \end{array}E[X]=∫−∞∞xf(x)dx=∫0∞xλe−λxdx=∫0∞−xde−λx=−xe−λx∣∣∣∣∞0+∫0∞e−λxdx=−λ1e−λx∣∣∣∣∞0=λ1
注意，上面的积分用到了分部积分法。下面求解方差：
E[X2]=∫−∞∞x2f(x)dx=∫0∞x2λe−λxdx=2λ2E[X^2] = \int_{ - \infty }^\infty x^2f(x)dx = \int_{ 0 }^\infty x^2\lambda {e^{ - \lambda x}}dx=\frac{2}{\lambda^2}E[X2]=∫−∞∞x2f(x)dx=∫0∞x2λe−λxdx=λ22
代入到方差公式中可知：
D[X]=E[X2]−(E[X])2=2λ2−1λ2=1λ2D[X]=E[X^2]-(E[X])^2=\frac{2}{\lambda^2}-\frac{1}{\lambda^2}=\frac{1}{\lambda^2}D[X]=E[X2]−(E[X])2=λ22−λ21=λ21
前面我们说指数分布有一个很重要的性质是“无记忆性”（也称“无后效性”和“马尔科夫性”），用数学语言描述是：
P(T>t+s∣T>t)=P(T>s)s,t>0P(T > t + s\left| {T > t} \right.) = P(T > s) {\kern 10pt} s,t>0P(T>t+s∣T>t)=P(T>s)s,t>0
        我们来证明上述等式：
P(T>t+s∣T>t)=P(T>s+t,T>t)P(T>t)=P(T>s+t)P(T>t)=1−(1−e−λ(t+s))1−(1−e−λt)=e−λs=P(T>s)\begin{aligned} P(T > t + s\left| {T > t} \right.)&=\frac{P(T>s+t,T>t)}{P(T>t)}=\frac{P(T>s+t)}{P(T>t)} \\ &=\frac{1-(1-e^{-\lambda(t+s)})}{1-(1-e^{-\lambda t})}=e^{-\lambda s}=P(T>s) \end{aligned}P(T>t+s∣T>t)=P(T>t)P(T>s+t,T>t)=P(T>t)P(T>s+t)=1−(1−e−λt)1−(1−e−λ(t+s))=e−λs=P(T>s)
        那么怎么去理解“无记忆性”呢？我们通过两个例子来说明。一是电子元器件的使用寿命：假设TTT是某个元件的寿命，已知该元件已经使用了ttt小时，那么它至少再使用t+st+st+s的条件概率和它从0时开始，至少使用sss小时的概率是相等的。另一个例子是银行工作人员等待客户：假设银行工作人员在等待客户上门办理业务，客户到达的过程一般是泊松过程，那么连续的两个客户到达的间隔时间服从指数分布，那么“无记忆性”是指无论前一个客户什么时间到达的，后一个客户到达的时间都与其无关。
        下面通过Python来看看指数分布的形状，具体代码如下：

#加载相关库
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname="C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
x=np.linspace(0,5000,10000)
lambda1,lambda2,lambda3=1/400,1/600,1/800
y1=stats.expon.pdf(x,scale=1/lambda1)
y2=stats.expon.pdf(x,scale=1/lambda2)
y3=stats.expon.pdf(x,scale=1/lambda3)plt.plot(x, y1,label='$\lambda_1=1/400$')
plt.plot(x, y2,label='$\lambda_2=1/600$')#画图
plt.plot(x, y3,label='$\lambda_3=1/800$')#画图plt.legend() #显示图例
plt.title('指数分布概率密度函数',fontproperties=my_font) #图名
plt.grid(True) #显示网格线
plt.show()

结果如下图：

通过上图可以看出，指数分布的参数λ\lambdaλ越大，图像倾斜的越厉害，其均值越小。

4.4 β分布（Beta Distribution，贝塔分布）

和前面所说的分布不同的是，β\betaβ分布更多的是作为伯努利分布和二项分布的共轭先验分布而存在，至于什么是共轭先验分布，请参见共轭先验分布（本人还在编辑中，所以暂时该链接为空）。简单的来说，β\betaβ分布就是概率的概率分布，例如伯努利试验中，事件成功的概率为ppp，从贝叶斯派的观点来看（这里涉及概率的两大学派：频率学派和贝叶斯学派），这个ppp是不确定的，也是一个随机变量，它服从的分布就是β\betaβ分布。另外，β\betaβ分布不是指某个具体分布，而是指在(0,1)(0,1)(0,1)之间的一系列连续分布，这是因为β\betaβ分布有两个参数α,β\alpha,\betaα,β，这两个参数的不同取值决定不同的概率密度函数。因为β\betaβ分布限制在(0,1)(0,1)(0,1)之间，因此，取值为(0,1)(0,1)(0,1)之间的随机变量才有可能服从β\betaβ分布，一个典型的例子是空气的相对湿度（实际含水量与空气的最大含水量（饱和含水量）的比值）。β\betaβ分布的概率密度函数为：
f(x;α,β)=1B(α,β)xα−1(1−x)β−1=Γ(α+β)Γ(α)Γ(β)xα−1(1−x)β−1f(x;\alpha ,\beta ) =\frac{1}{B(\alpha,\beta)}{x^{\alpha - 1}}{(1 - x)^{\beta - 1}}= \frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )\Gamma (\beta )}}{x^{\alpha - 1}}{(1 - x)^{\beta - 1}}f(x;α,β)=B(α,β)1xα−1(1−x)β−1=Γ(α)Γ(β)Γ(α+β)xα−1(1−x)β−1
其中，α,β>0\alpha,\beta>0α,β>0，1B(α,β)=∫01tα−1(1−t)β−1\frac{1}{B(\alpha,\beta)}=\int_0^1{{t^{\alpha - 1}}{(1 - t)^{\beta - 1}}}B(α,β)1=∫01tα−1(1−t)β−1, Γ(α)=∫0∞tα−1e−tdt\Gamma (\alpha ){\rm{ = }}\int_0^\infty {{t^{\alpha - 1}}{e^{ - t}}dt}Γ(α)=∫0∞tα−1e−tdt（称为Gamma函数）。那为什么β\betaβ分布的概率密度函数长成这个样子，本人推荐看认识beta函数这篇博文，该博主讲解的非常详细。
下面来求解β\betaβ分布的期望与方差：
E[X]=∫01x1B(α,β)xα−1(1−x)β−1dx=1B(α,β)∫01xα(1−x)β−1dx=B(α+1,β)B(α,β)=Γ(α+1)Γ(β)Γ(α+β+1)Γ(α+β)Γ(α)Γ(β)=Γ(α+1)Γ(α+β+1)Γ(α+β)Γ(α)=∫0∞tαe−tdt⋅∫0∞tα+β−1e−tdt∫0∞tα+βe−tdt⋅∫0∞tα−1e−tdt=αα+β\begin{aligned} E[X] &= \int_0^1 {x\frac{1}{{B(\alpha ,\beta )}}{x^{\alpha - 1}}{{(1 - x)}^{\beta - 1}}dx} = \frac{1}{{B(\alpha ,\beta )}}\int_0^1 {{x^\alpha }{{(1 - x)}^{\beta - 1}}dx}\\ &= \frac{{B(\alpha + 1,\beta )}}{{B(\alpha ,\beta )}} = \frac{{\Gamma (\alpha + 1)\Gamma (\beta )}}{{\Gamma (\alpha + \beta + 1)}}\frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )\Gamma (\beta )}} = \frac{{\Gamma (\alpha + 1)}}{{\Gamma (\alpha + \beta + 1)}}\frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )}}\\ &=\frac{\int_0^\infty {{t^{\alpha }}{e^{ - t}}dt}\cdot \int_0^\infty {{t^{\alpha+ \beta - 1}}{e^{ - t}}dt}}{\int_0^\infty {{t^{\alpha+ \beta }}{e^{ - t}}dt}\cdot \int_0^\infty {{t^{\alpha - 1}}{e^{ - t}}dt}}=\frac{\alpha }{{\alpha + \beta }} \end{aligned}E[X]=∫01xB(α,β)1xα−1(1−x)β−1dx=B(α,β)1∫01xα(1−x)β−1dx=B(α,β)B(α+1,β)=Γ(α+β+1)Γ(α+1)Γ(β)Γ(α)Γ(β)Γ(α+β)=Γ(α+β+1)Γ(α+1)Γ(α)Γ(α+β)=∫0∞tα+βe−tdt⋅∫0∞tα−1e−tdt∫0∞tαe−tdt⋅∫0∞tα+β−1e−tdt=α+βα
最后一个等式用到分部积分法。
E[X2]=∫01x21B(α,β)xα−1(1−x)β−1dx=1B(α,β)∫01xα+1(1−x)β−1dx=B(α+2,β)B(α,β)=Γ(α+2)Γ(β)Γ(α+β+2)Γ(α+β)Γ(α)Γ(β)=(α+1)α(α+β+1)(α+β)\begin{aligned} E[{X^2}] &= \int_0^1 {{x^2}\frac{1}{{B(\alpha ,\beta )}}{x^{\alpha - 1}}{{(1 - x)}^{\beta - 1}}dx} = \frac{1}{{B(\alpha ,\beta )}}\int_0^1 {{x^{\alpha + 1}}{{(1 - x)}^{\beta - 1}}dx} \\ &= \frac{{B(\alpha + 2,\beta )}}{{B(\alpha ,\beta )}} = \frac{{\Gamma (\alpha + 2)\Gamma (\beta )}}{{\Gamma (\alpha + \beta + 2)}}\frac{{\Gamma (\alpha + \beta )}}{{\Gamma (\alpha )\Gamma (\beta )}} = \frac{{(\alpha + 1)\alpha }}{{(\alpha + \beta + 1)(\alpha + \beta )}} \end{aligned}E[X2]=∫01x2B(α,β)1xα−1(1−x)β−1dx=B(α,β)1∫01xα+1(1−x)β−1dx=B(α,β)B(α+2,β)=Γ(α+β+2)Γ(α+2)Γ(β)Γ(α)Γ(β)Γ(α+β)=(α+β+1)(α+β)(α+1)α
所以有D[X]=E[X2]−(E[X])2=(α+1)α(α+β+1)(α+β)−(αα+β)2=αβ(α+β+1)(α+β)2\begin{aligned}D[X]&=E[X^2]-(E[X])^2=\frac{{(\alpha + 1)\alpha }}{{(\alpha + \beta + 1)(\alpha + \beta )}}-(\frac{\alpha }{{\alpha + \beta }})^2 \\&=\frac{\alpha \beta}{(\alpha+ \beta+1)(\alpha+ \beta)^2}\end{aligned}D[X]=E[X2]−(E[X])2=(α+β+1)(α+β)(α+1)α−(α+βα)2=(α+β+1)(α+β)2αβ
下面用Python画一下β\betaβ分布的概率密度函数，具体代码如下：

#加载相关库
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname="C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
x=np.linspace(0,1,1000)
alpha=[0.7,1,2,3,4,5] #确定参数alpha的取值
beta=[0.7,1,2,3,4,5]#确定参数beta的取值
y1=stats.beta(alpha[0], beta[0]).pdf(x)
y2=stats.beta(alpha[1], beta[1]).pdf(x)
y3=stats.beta(alpha[1], beta[2]).pdf(x)
y4=stats.beta(alpha[1], beta[3]).pdf(x)
y5=stats.beta(alpha[3], beta[4]).pdf(x)
y6=stats.beta(alpha[4], beta[2]).pdf(x)
y6=stats.beta(alpha[5], beta[2]).pdf(x)plt.plot(x, y1,'r',label=r'$\alpha=0.7$,$\beta =0.7$')#画图
plt.plot(x, y2,'g',label=r'$\alpha=1$,$\beta =1$')#画图
plt.plot(x, y3,'b',label=r'$ \alpha=1, \beta=2 $')#画图
plt.plot(x, y4,'y',label=r'$ \alpha=1, \beta=3 $')#画图
plt.plot(x, y5,'k',label=r'$ \alpha=3, \beta=4 $')#画图
plt.plot(x, y6,'m',label=r'$ \alpha=4, \beta=2 $')#画图
plt.plot(x, y6,'c',label=r'$ \alpha=5, \beta=2 $')#画图plt.legend() #显示图例
plt.title('贝塔分布概率密度函数',fontproperties=my_font) #图名
plt.grid(True) #显示网格线
plt.axes=[0,1,0,4]#设置y轴的显示范围
plt.show()

β\betaβ分布概率密度函数的图像如下：

4.5 Γ\GammaΓ分布（Gamma Distribution,伽马分布）

回顾我们讲泊松过程时，证明了第nnn个事件到来时，总的等待时间是服从Γ\GammaΓ分布。当时举的例子是包子店早上6点开始开门营业，第一个顾客达到时间为6:05，第二个顾客到达时间为6:12，所以店铺老板等待第一个顾客到来总共等了5分钟，等待第二个顾客到来总共等了12分钟，那么等待第nnn个顾客到来总共需要等多久呢?我们说这个等待时间是一个随机变量，且该变量服从Γ\GammaΓ分布，因此我们很自然的猜测出nnn应该是Γ\GammaΓ分布的一个参数。另外，我们注意到顾客的到达过程是一个泊松过程，泊松过程的参数是λ\lambdaλ，即到达率，因此我们有理由猜测λ\lambdaλ应该也和Γ\GammaΓ分布有关，事实上，nnn和λ\lambdaλ就是Γ\GammaΓ分布的两个参数。通过上面的叙述，我们可以很直观的看出Γ\GammaΓ分布就是等待第nnn个事件发生需要的时间。
        除了在泊松过程中见到Γ\GammaΓ分布，它通常还作为其他分布的先验分布，如指数分布（exponential distribution）、埃尔朗分布（Erlang distribution）以及χ2\chi^2χ2分布（chi-square distribution）都是Γ\GammaΓ分布的特例。
        在正式介绍Γ\GammaΓ分布之前，我们先介绍一下Γ\GammaΓ函数。从名字我们可以看出这两者肯定有联系，我们先看Γ\GammaΓ函数长成什么样子。
Γ(α)=∫0∞tα−1e−tdt,α>0\Gamma (\alpha ) = \int_0^\infty {{t^{\alpha - 1}}{e^{ - t}}dt} ,{\kern 4pt} \alpha > 0Γ(α)=∫0∞tα−1e−tdt,α>0

        我们将上面的Γ\GammaΓ函数做一个变形可得：
∫0∞tα−1e−tdtΓ(α)=1\int_0^\infty \frac{{{t^{\alpha - 1}}{e^{ - t}}dt}}{\Gamma (\alpha )} =1∫0∞Γ(α)tα−1e−tdt=1
我们从概率角度来看上述等式：我们知道对一个随机变量的概率密度函数求积分（在该随机变量的整个定义域内），其结果为1。因此，上式中的被积函数可以看做一个概率密度函数，而事实上它也正是Γ\GammaΓ分布的概率密度函数。但它看起来好像和我们常见的形式有点不一样，因此我们再做一点点的变形：
        令t=βxt=\beta xt=βx，代入到上述被积函数中有：
βαxα−1e−βxΓ(α)\frac{{{\beta ^\alpha }{x^{\alpha - 1}}{e^{ - \beta x}}}}{{\Gamma (\alpha )}}Γ(α)βαxα−1e−βx
这样是不是就和我们常见的Γ\GammaΓ分布的概率密度函数一样了？
        下面我们正式写出Γ\GammaΓ分布的概率密度函数：
f(x;α,β)=βαxα−1e−βxΓ(α)f(x;\alpha,\beta)=\frac{{{\beta ^\alpha }{x^{\alpha - 1}}{e^{ - \beta x}}}}{{\Gamma (\alpha )}}f(x;α,β)=Γ(α)βαxα−1e−βx
        在求解Γ\GammaΓ分布的期望和方差之前，我们先证明Γ\GammaΓ函数的一个性质：
∫0∞xp−1e−axdx=a−pΓ(p)\int_0^\infty {{x^{p - 1}}{e^{ - ax}}dx} = {a^{ - p}}\Gamma (p)∫0∞xp−1e−axdx=a−pΓ(p)
证明：令ax=tax=tax=t，则有dx=1adtdx=\frac{1}{a}dtdx=a1dt，故
∫0∞xp−1e−axdx=∫0∞1a(ta)p−1e−tdt=∫0∞(a)−p(t)p−1e−tdt=(a)−pΓ(p)\begin{aligned}\int_0^\infty {{x^{p - 1}}{e^{ - ax}}dx} =\int_0^\infty {{\frac{1}{a}(\frac{t}{a})^{p - 1}}{e^{ - t}}dt}=\int_0^\infty {{(a)^{-p}(t)^{p - 1}}{e^{ - t}}dt}=(a)^{-p}\Gamma (p)\end{aligned}∫0∞xp−1e−axdx=∫0∞a1(at)p−1e−tdt=∫0∞(a)−p(t)p−1e−tdt=(a)−pΓ(p)
Γ\GammaΓ分布的期望为：
E[X]=∫0∞xβαxα−1e−βxΓ(α)dx=1Γ(α)∫0∞βαxαe−βxdx=1Γ(α)∫0∞−βα−1xαde−βx=1Γ(α)(−βα−1xαe−βx)∣∞0+1Γ(α)∫0∞αβα−1xα−1e−βxdx=αβα−1Γ(α)∫0∞xα−1e−βxdx=αβα−1Γ(α)β−αΓ(α)=αβ\begin{aligned} E[X] &= \int_0^\infty {x\frac{{{\beta ^\alpha }{x^{\alpha - 1}}{e^{ - \beta x}}}}{{\Gamma (\alpha )}}dx} = \frac{1}{{\Gamma (\alpha )}}\int_0^\infty {{\beta ^\alpha }{x^\alpha }{e^{ - \beta x}}dx} \\ &= \frac{1}{{\Gamma (\alpha )}}\int_0^\infty { - {\beta ^{\alpha - 1}}{x^\alpha }d{e^{ - \beta x}}} \\ & = \frac{1}{{\Gamma (\alpha )}}( - {\beta ^{\alpha - 1}}{x^\alpha }{e^{ - \beta x}})\left| \begin{array}{l} \infty \\ 0 \end{array} \right. + \frac{1}{{\Gamma (\alpha )}}\int_0^\infty {\alpha {\beta ^{\alpha - 1}}{x^{\alpha - 1}}{e^{ - \beta x}}dx} \\ &= \frac{{\alpha {\beta ^{\alpha - 1}}}}{{\Gamma (\alpha )}}\int_0^\infty {{x^{\alpha - 1}}{e^{ - \beta x}}dx} = \frac{{\alpha {\beta ^{\alpha - 1}}}}{{\Gamma (\alpha )}}{\beta ^{ - \alpha }}\Gamma (\alpha ) = \frac{\alpha }{\beta } \end{aligned}E[X]=∫0∞xΓ(α)βαxα−1e−βxdx=Γ(α)1∫0∞βαxαe−βxdx=Γ(α)1∫0∞−βα−1xαde−βx=Γ(α)1(−βα−1xαe−βx)∣∣∣∣∞0+Γ(α)1∫0∞αβα−1xα−1e−βxdx=Γ(α)αβα−1∫0∞xα−1e−βxdx=Γ(α)αβα−1β−αΓ(α)=βα
方差为：
E[X2]=∫0∞x2βαxα−1e−βxΓ(α)]dx=1Γ(α)∫0∞βαxα+1e−βxdx=1Γ(α)∫0∞−βα−1xα+1de−βx=1Γ(α)(−βα−1xα+1e−βx)∣∞0+1Γ(α)∫0∞(α+1)βα−1xαe−βxdx=α+1Γ(α)∫0∞−βα−2xαde−βx=α+1Γ(α)(βα−2xαe−βx)∣∞0+α+1Γ(α)∫0∞αβα−2xα−1e−βxdx=α(α+1)βα−2Γ(α)β−αΓ(α)=α(α+1)β2\begin{aligned} E[{X^2}] &= \int_0^\infty {{x^2}\frac{{{\beta ^\alpha }{x^{\alpha - 1}}{e^{ - \beta x}}}}{{\Gamma (\alpha )}}]dx} = \frac{1}{{\Gamma (\alpha )}}\int_0^\infty {{\beta ^\alpha }{x^{\alpha + 1}}{e^{ - \beta x}}dx} \\ &= \frac{1}{{\Gamma (\alpha )}}\int_0^\infty { - {\beta ^{\alpha - 1}}{x^{\alpha + 1}}d{e^{ - \beta x}}} \\ & = \frac{1}{{\Gamma (\alpha )}}( - {\beta ^{\alpha - 1}}{x^{\alpha + 1}}{e^{ - \beta x}})\left| \begin{array}{l} \infty \\ 0 \end{array} \right. + \frac{1}{{\Gamma (\alpha )}}\int_0^\infty {(\alpha + 1){\beta ^{\alpha - 1}}{x^\alpha }{e^{ - \beta x}}dx} \\ & = \frac{{\alpha + 1}}{{\Gamma (\alpha )}}\int_0^\infty { - {\beta ^{\alpha - 2}}{x^\alpha }d{e^{ - \beta x}}} \\ & = \frac{{\alpha + 1}}{{\Gamma (\alpha )}}({\beta ^{\alpha - 2}}{x^\alpha }{e^{ - \beta x}})\left| \begin{array}{l} \infty \\ 0 \end{array} \right. + \frac{{\alpha + 1}}{{\Gamma (\alpha )}}\int_0^\infty {\alpha {\beta ^{\alpha - 2}}{x^{\alpha - 1}}{e^{ - \beta x}}dx} \\ & = \frac{{\alpha (\alpha + 1){\beta ^{\alpha - 2}}}}{{\Gamma (\alpha )}}{\beta ^{ - \alpha }}\Gamma (\alpha ) = \frac{{\alpha (\alpha + 1)}}{{{\beta ^2}}} \end{aligned}E[X2]=∫0∞x2Γ(α)βαxα−1e−βx]dx=Γ(α)1∫0∞βαxα+1e−βxdx=Γ(α)1∫0∞−βα−1xα+1de−βx=Γ(α)1(−βα−1xα+1e−βx)∣∣∣∣∞0+Γ(α)1∫0∞(α+1)βα−1xαe−βxdx=Γ(α)α+1∫0∞−βα−2xαde−βx=Γ(α)α+1(βα−2xαe−βx)∣∣∣∣∞0+Γ(α)α+1∫0∞αβα−2xα−1e−βxdx=Γ(α)α(α+1)βα−2β−αΓ(α)=β2α(α+1)
D[X]=E[X2]−(E[X])2=α(α+1)β2−α2β2=αβ2D[X]=E[X^2]-(E[X])^2=\frac{\alpha (\alpha+1)}{\beta^2}-\frac{\alpha^2}{\beta^2}=\frac{\alpha}{\beta^2}D[X]=E[X2]−(E[X])2=β2α(α+1)−β2α2=β2α
        下面同样用Python对Γ\GammaΓ分布进行可视化，代码如下：

#加载相关库
import numpy as np
from scipy.stats import gamma
import matplotlib.pyplot as plt
from matplotlib import font_manager #加载相关字体模块
#先确定字体，以免无法识别汉字
my_font = font_manager.FontProperties(fname="C:/Windows/Fonts/msyh.ttc")#此处文件地址是本人电脑上微软雅黑字体所在位置
alpha_value=[0.5,1,1,2,3,3,3] #参数α的取值
beta_value=[2,1,0.5,0.5,0.5,1,2] #参数β的取值
color=['b','r','y','m','g','k'] #绘图颜色的选取
x=np.linspace(1e-6,10,1000)
fig,ax=plt.subplots()
for k,t,c in zip(alpha_value,beta_value,color): #zip(a,b)表示将a和b中的元素按顺序一一对应形成一个可迭代的对象y=gamma(k, 0, t) #建立gamma的随机变量plt.plot(x,y.pdf(x),c=c,label=r'$\alpha=%.1f,\ \beta=%.1f$' %(k,t)) #绘图
plt.xlim(0,10) #x轴的显示范围
plt.ylim(0,2) #y轴的显示范围
plt.xlabel('$x$')
plt.ylabel(r'$p(x|\alpha,\beta)$')
plt.title('Gamma分布',fontproperties=my_font)
plt.legend(loc=0)
plt.show()

结果如下：

从上图可以看出：
（1）当α≤1\alpha \le1α≤1时，概率密度函数是单调递减的，而α>1\alpha >1α>1时，概率密度函数是一个单峰函数，因此参数α\alphaα决定了Γ\GammaΓ分布函数的形状，故叫α\alphaα为形状（shape）参数；
（2）对于β\betaβ，发现无论α\alphaα如何取值，都存在β\betaβ越大，密度函数图像就越平坦一些，反之则越陡，因此称β\betaβ为逆尺度参数（inverse scale parameter），而一般称θ=1β\theta=\frac{1}{\beta}θ=β1是尺度参数（scale parameter）；
（3）当α=1\alpha=1α=1时，f(x;1,β)=βαxα−1e−βxΓ(α)=βe−βx\begin{aligned}f(x;1,\beta)=\frac{{{\beta ^\alpha }{x^{\alpha - 1}}{e^{ - \beta x}}}}{{\Gamma (\alpha )}}=\beta e^{-\beta x}\end{aligned}f(x;1,β)=Γ(α)βαxα−1e−βx=βe−βx，这是一个参数为β\betaβ的指数分布；
（4）当α=n2且β=12\begin{aligned}\alpha=\frac{n}{2}且\beta=\frac{1}{2}\end{aligned}α=2n且β=21时，Γ\GammaΓ分布则变成一个自由度为nnn的卡方分布：χ2(n)\chi^2(n)χ2(n)。
———————————————————————————————————————
注：本文选取这些分布进行介绍是因为这些分布是非常常见的，实际上随机变量的分布还有很多很多。本文主要介绍分布的分布函数、期望以及方差，目的是期望能帮大家对常见的分布有个比较明晰的认知，至于分布背后还有很多其他的知识点，读者如有需要可以查阅相关资料，或者是给我留言，我再补充一下。最后，由于本人的知识水平有限以及个人能力的不足，文中可能存在错误，恳请大家批评指正，谢谢！