正态分布定义解释及案例介绍

1. 从名字说起

为什么叫“正态分布”，也有地方叫“常态分布”，这两个名字都不太直观，但如果我们各取一字变为“正常分布”，就很白话了，而这正是“正态分布”的本质含义，Normal Distribution。

它太常见了，基本上能描述所有常见的事物和现象：正常人群的身高、体重、考试成绩、家庭收入等等。这里的描述是什么意思呢？就是说这些指标背后的数据都会呈现一种中间密集、两边稀疏的特征。以身高为例，服从正态分布意味着大部分人的身高都会在人群的平均身高上下波动，特别矮和特别高的都比较少见。

你可能不禁要问，这是为什么？因为我们研究的对象具有同质性（比如都是成年的中国男子），所以其特征往往是趋同的，即存在一个基准；但由于个体变异的存在（当然变异不会太大），这些特征又不是完全一致，所以会以一定的幅度在基准的上下波动，从而形成了中间密集，两侧稀疏的特征。

2. 连续型随机变量研究区间概率

了解了正态分布的基本思想，我们来看看实际应用中我们需要掌握的要点。

首先，正态分布属于“连续型随机变量分布”的一类。我们知道，对于连续型随机变量，我们不关注“点概率”，只关注 “区间概率” ，这是什么意思？

我们看这个例子：假定随机变量 X 指是“北京市成年男子的身高”，理论上它可以取任意正数，所以我们把它当做一个连续型随机变量（连续型变量，就是指可以取某一区间或整个实数轴上的任意一个值的变量）来看待。

这里，我们先想一想如何计算P(X =1.87)? 即身高恰好完全exactly等于1.87的概率是多少，这就是所谓的“点概率”。

更极端一点，让随机变量Y是 [0,1] 这个区间上的任意一点，那么Y的取值有多少个呢？无数多个，我们数不清楚，所以Y 取某一个具体的值的概率是1除以无数，即可以看做是0。

于是，这里透露一个很重要的结论：连续型随机变量取任意某个确定的值的概率均为0。因此，对于连续型随机变量，我们通常不研究它取某个特定值的概率，而研究它在某一段区间上的取值，比如身高在1.70～1.80的概率。

3. 概率密度函数

对于初学者来讲，“概率密度”可能是最不友好的一个概念，直接谈概率不行吗，好好的为什么要生出一个“密度”？

虽然文字和数学公式上你可能感觉很陌生，但我们特别熟知的那条中间高、两边低的“钟形曲线”恰恰就是正态分布的概率密度曲线。

前面我们讲了区间概率，这里你就可以通过区间的角度来理解概率密度曲线：曲线越高，也就代表着这个区别的概率越密集，简单理解成在同样大小的房子里，这个房间的人数更多、更挤。

除此之外，另一个关于概率密度函数的重要知识点是，积分（面积）等于概率。随机变量 X 在某个区间比如（a，b）即 a<X<b 的概率，就是概率密度曲线在这个区间下的面积，数学上的表达就是密度函数在区间（a， b）上的积分。所以，概率的大小就是“概率密度函数曲线下的面积”的大小，这个不太起眼的概念实际上就决定了你日后是否能理解假设假设中所谓的“拒绝域”。

概率密度函数，在离散型随机变量中可以理解成，随机变量 X 的任意一点 x0，求该点出现的概率 f(x0)，由于连续性随机变量是分区间的，比如 (a, b) 范围内，有无数个点，求这个区间的概率的话，需要把这个区间所有变量 x 对应的概率 f(x) 累加（积分）。

下图中的三条曲线f (x)，就是概率密度函数，各种形式的概率就是相对应的曲线下面积。这里，数学基础不太好的同学不用特别深挖积分的计算过程，但对这三张图与对应的概率表达形式，同学们要熟知。

4. 均值 μ\muμ 和标准差 σ\sigmaσ

前面说过，正态分布的概率密度函数以及积分不用特别关注，那真正需要关注的是什么呢？

是均数和标准差。一旦谈及正态分布，首先要想到它的两个参数：均数是多少和标准差是几。每次一遇到正态分布就迅速找这两个概念，因为这两个数才是我们日后运用正态分布解决实际问题的“利器”。

正态分布均数和标准差的性质：

1）概率密度曲线在均值 μ\muμ 处达到最大，并且对称；
2）一旦均值 μ\muμ 和标准差 σ\sigmaσ 确定，正态分布曲线也就确定；
3）当 X 的取值向横轴左右两个方向无限延伸时，曲线的两个尾端也无限渐近横轴，理论上永远不会与之相交；
4）正态随机变量在特定区间上的取值概率由正态曲线下的面积给出，而且其曲线下的总面积等于1 ；
5）均值 μ\muμ 可取实数轴上的任意数值，决定正态曲线的具体位置；
6）标准差 σ\sigmaσ 决定曲线的“陡峭”或“扁平”程度：标准差 σ\sigmaσ 越大，正态曲线越扁平；标准差 σ\sigmaσ 越小，正态曲线越陡峭。

这是因为

标准差越小，意味着大多数变量值离均数的距离越短，因此大多数值都紧密地聚集在均数周围，图形所能覆盖的变量值就少些（比如1±0.1涵盖[0.9，1.1]），于是都挤在一块，图形上呈现瘦高型。

相反，标准差越大，数据跨度就比较大，分散程度大，所覆盖的变量值就越多（比如1±0.5涵盖[0.5，1.5]），图形呈现“矮胖型”。

如下图，黄线为 A，蓝线为B，紫红线为 C。可以看到均值 μ\muμ 的大小决定了曲线的位置，标准差的大小决定了曲线的胖瘦。A和B的均值 μ\muμ 一样，但标准差 σ\sigmaσ 不同，所以形状不同，根据我们的描述，图形越瘦高，标准差 σ\sigmaσ 越小，图形越扁平，标准差 σ\sigmaσ 越大。确实如此，图中B的标准差是 1/2，小于 A 的标准差 1。

5.标准化与查表求概率（举例）

如何通过查表法计算正态分布变量在某个区间的概率？

看这个问题，首先，说小明每天上学的通勤时间是一个随机变量 XXX，这个变量服从正态分布。统计他过去 20 天的通勤时间（单位：分钟）：26、33、65、28、34、55、25、44、50、36、26、37、43、62、35、38、45、32、28、34。现在我们想知道他上学花 30~45 分钟的概率。

首先，求均值 μ\muμ 和标准差 σ\sigmaσ ——将问题转化为数学表达式，要算他上学花30~45分钟的概率，就是求P（30 < X < 45）。之前我们一直强调，一个变量服从正态分布，就要立马考虑到它的均数 μ\muμ 和标准差 σ\sigmaσ 是多少。这里简化一下，用他过去20天的样本数据来代替。所以，我们首先计算这20天通勤时间的样本均数 μ\muμ 及标准差 σ\sigmaσ ，分别为38.8（分钟）和11.4（分钟）。

然后，进行标准化，这一步很重要，也称z变换。通过标准化，所有服从一般正态分布的随机变量都变成了服从均数为 0，标准差为 1 的标准正态分布{\color{Teal} 标准正态分布}标准正态分布。对于服从标准正态分布的随机变量，专门用 zzz 表示。因此，求P（30<X<45）P（30 < X < 45）P（30<X<45），就转换成了求 P（−0.77<Z<0.54）P（-0.77 < Z < 0.54）P（−0.77<Z<0.54），标准化的具体计算为：

30→（30−38.8）/11.4=−0.7730 → （30-38.8）/ 11.4 = - 0.7730→（30−38.8）/11.4=−0.77
45→（45−38.8）/11.4=0.5445 → （45-38.8）/ 11.4 = 0.5445→（45−38.8）/11.4=0.54
X→ZX → ZX→Z
P（30≤X≤45）=P（−0.77≤Z≤0.54）P（30 ≤ X ≤ 45）= P （-0.77 ≤ Z ≤ 0.54）P（30≤X≤45）=P（−0.77≤Z≤0.54）

提醒一下，经过标准化后，原来的曲线的形状不会变化，即不会改变胖瘦，只是位置发生平移，如下图，经过标准化实际上只是均数 μ\muμ 从 1010 移到了 0。

完成 zzz 变换，我们就通过可以利用 zzz 值表找到对应的概率值。下图就是z值表，一般的统计教科书后面都有，也可以在网上查到。

参考链接：
[1] 一文搞懂“正态分布”所有需要的知识点 2020.4.23
[2] 第三讲统计学核心思维与统计描述 2020.6
[3] 标准正态分布和正态分布的区别 2019.2.21