统计学：离散型和连续型随机变量的概率分布

主要随机变量一览表

随机变量	概率分布	均值	方差
一般离散型变量	p(x)的表、公式或者图p(x)的表、公式或者图	∑xxp(x)\sum_{x}xp(x)	∑x(x−μ)2p(x)\sum_{x}(x-\mu)^2p(x)
二项分布	p(x)=Cxnpxqn−x (x=0,1,2,3⋅⋅⋅,n)p(x)=C_{n}^{x} p^xq^{n-x} \space (x=0,1,2,3···,n)	npnp	npqnpq
泊松分布	p(x)=λxe−λx! (x=0,1,2,⋅⋅⋅)p(x)=\frac{\lambda^xe^{-\lambda}}{x!}\space (x=0,1,2,···)	λ\lambda	λ\lambda
超几何分布	p(x)=CxrCn−xN−rCnNp(x)=\frac{C_{r}^{x}C_{N-r}^{n-x}}{C_{N}^{n}}	nrN\frac{nr}{N}	r(N−r)n(N−n)N2(N−1)\frac{r(N-r)n(N-n)}{N^2(N-1)}
均匀分布	f(x）=1b−a (a≤x≤b)f(x）=\frac{1}{b-a}\space (a\leq x\leq b)	a+b2\frac{a+b}{2}	b−a12√\frac{b-a}{\sqrt {12}}
正态分布	f(x)=1σ2π√e−(1/2)[(x−μ)σ]2f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-(1/2)[(x-\mu)\sigma]^2}	μ\mu	σ2\sigma^2
标准正太分布	f(z)=12π√e−(1/2)z2f(z)=\frac{1}{\sqrt{2\pi}}e^{-(1/2)z^2}	0	1
指数分布	f(x)=1θe−x/θ(x>0)f(x)=\frac{1}{\theta}e^{-x/\theta}(x>0)	μ=θ\mu=\theta	σ=θ\sigma=\theta

1. 离散型和连续型随机变量的定义

离散型随机变量（discrete random variable）：取值是可数的个值的随机变量，比如投掷一枚骰子的朝上的点数，可能是1,2,3,4,5,6；比如南京大学四食堂吃饭的人数，可能是0,1,2···。
连续型随机变量（continuous random variable）：取值是一个区间中的任意一点（也就是不可数）的随机变量，比如南京大学同学身高。

2. 离散型随机变量的概率分布

基本概念的公式表达
均值（期望值expected value）：μ=E(x)=∑xp(x)\mu=E(x)=\sum xp(x)
方差（variance）：σ=E[(x−μ)2]=∑(x−μ)2p(x)\sigma=E[(x-\mu)^2]=\sum (x-\mu)^2p(x)
标准差（standard deviation):σ=σ2−−√\sigma =\sqrt {\sigma^2}
其中，可以证明到E[(x−μ2)]=E(x)2−μ2E[(x-\mu^2)]=E(x)^2-\mu^2
2. 二项分布
如果进行n次不同的实验，每次试验完全相同并且只有两种可能的结果，这样的实验结果分布情况就是二项分布。最简单的比如投掷一枚硬币，不管进行多少次实验，实验结果都只有正面朝上或者反面朝上，这就是一个简单的二项分布。
二项概率分布：

p(x)=Cxnpxqn−x (x=0,1,2,3⋅⋅⋅,n)

p(x)=C_{n}^{x} p^xq^{n-x} \space (x=0,1,2,3···,n)
```
其中：n代表n次实验，x表示实验结果为T的次数，q是实验结果为T的概率，q=1-p，表示实验结果为F的概率。
```
二项分布的
均值：μ=np\mu=np
方差：σ2=npq\sigma^2=npq
标准差:σ=npq−−−√\sigma=\sqrt {npq}
二项分布对于结果只有两种情况的随机事件有非常好的描述，属于日常生活中最常见、最简单的随机变量概率分布，在知道某种实验结果概率的情况下，能够很好推断实验次数后发生其中某一结果次数的概率。
3. 泊松分布
泊松分布的概率分布，均值和方差：

p(x)=λxe−λx! (x=0,1,2,⋅⋅⋅)

p(x)=\frac{\lambda^xe^{-\lambda}}{x!}\space (x=0,1,2,···)

μ=λ

\mu=\lambda

σ2=λ

\sigma^2=\lambda
4. 超几何分布
超结合分布和二项分布比较相似，二项分布每次实验完全一样，而超几何分布前一次的实验结果会影响后面的实验结果。简单地讲，二项分布抽取之后放回元素，而超几何分布是无放回的抽取。
超几何分布的概率分布，均值和方差：

p(x)=CxrCn−xN−rCnN

p(x)=\frac{C_{r}^{x}C_{N-r}^{n-x}}{C_{N}^{n}}

μ=nrN

\mu=\frac{nr}{N}

σ2=r(N−r)n(N−n)N2(N−1)

\sigma^2=\frac{r(N-r)n(N-n)}{N^2(N-1)}

3. 连续型随机变量的概率分布

概率密度函数（probability density function）：
又称之为频率函数（frequency function），或者概率分布（probability distribution），用来表示连续型随机变量的概率分布情况，一般是一条光滑的曲线。
1. 正太分布（normal distribution）

正态分布是统计学中常见的一种分布，表现为两边对称，是一种钟型的概率分布（bell curve）,正太分布有一下的特征：

概率密度函数：

f(x)=1σ2π−−√e−(1/2)[(x−μ)σ]2

f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-(1/2)[(x-\mu)\sigma]^2}

其中，μ\mu是正太随机变量的均值；
σ\sigma是标准差；
π\pi是圆周率，约等于3.1416···
e=2.71828⋅⋅⋅e=2.71828···

特别的，当μ=0且σ=1\mu=0且\sigma=1的正态分布，被称为标准正太分布（standard distribution），此时有：

f(z)=12π−−√e−(1/2)z2

f(z)=\frac{1}{\sqrt{2\pi}}e^{-(1/2)z^2}
标准正态分布有对应的标准正态分布表，通过该表可以找到对应值累积的概率。

正太分布转化为标准正态分布：
正太分布x,均值是μ，标准差是σ，z定义为z=（x−μ)/σx ,均值是\mu，标准差是\sigma，z定义为z=（x-\mu)/\sigma

正态分布来近似二项分布
当n足够大的时候，正态分布对于离散型二项分布能够很好地近似。

评价正态分布
如何来确定数据是否正态分布，主要有以下几种方法：
1. 图形感受法：建立直方图或者枝干图，看图像的形状是否类似正太曲线，既土墩形或者钟形，并且两端对称。
2. 计算区间x¯±s,x¯±2s,x¯±3s\bar x\pm s,\bar x\pm 2s,\bar x\pm 3s，看落在区间的百分比是否近似于68%，95%，100%。（切比雪夫法则和经验法则）
3. 求IQR和标准差s，计算IQR/s，如若是正态分布，则IQR/s≈1.3.求IQR和标准差s，计算IQR/s，如若是正态分布，则IQR/s\approx 1.3.
4. 建立正态概率图，如果近似正态分布，点会落在一条直线上。

2. 均匀分布
均匀概率分布（uniform probability distribution）是指连续随机变量所有可能出现值出现概率都相同。

均匀随机变量x概率分布特征：
概率密度函数：

f(x）=1b−a (a≤x≤b)

f(x）=\frac{1}{b-a}\space (a\leq x\leq b)
均值： μ=a+b2\mu=\frac{a+b}{2}
标准差： σ=b−a12√\sigma=\frac{b-a}{\sqrt {12}}

3. 指数分布
指数概率分布（exponential probability distribution），具有如下特征：
概率密度函数：

f(x)=1θe−x/θ(x>0)

f(x)=\frac{1}{\theta}e^{-x/\theta}(x>0)
均值： μ=θ\mu=\theta
标准差： σ=θ\sigma=\theta

更多文章：
概率论中基本概念回顾