『统计学』第二部分：中心极限定理及其应用

『中心极限定理』

首先，我们来探讨下什么是中心极限定理？

有时候统计概率就像魔术一样，能够从少量数据中得出不可思议的强大结论。我们只需要对1000个美国人进行电话调查，就能去预测美国总统大选的得票数。

通过对为肯德基提供鸡肉的加工厂生产的100块鸡肉进行病毒（沙门氏菌）检测，就能得出这家工厂的所有肉类产品是否安全的结论。

这些“一概而论”的强大能力，到底是从哪里来的？这背后的秘密武器就是统计概率的第2大护法：中心极限定理。第1大护法就是：大数定律。

中心极限定理是许多统计活动的“动力源泉”，这些活动存在着一个共同的特点，那就是使用样本对总体进行估计，例如我们经常看到的民意调查就是这方面的经典案例。那么，什么是中心极限定理呢？

中心极限定理是说：

样本的均值约等于总体的平均值。

不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的整体平均值周围，并且随着抽取样本容量n的增加呈正态分布。

如下所示：

如上图：

这里第1行是3种不同分布类型的总体，用于比较不同类型下的样本均值的分布;

第2行每个样本大小是2，然后对每个样本求平均值，横轴表示每个样本的平均值，纵轴表示该平均值出现了多少次，最后平均值分布很不规则;

第3行每个样本大小是5，然后对每个样本求平均值，最后平均值分布有点接近于正态分布，但是总体3对应的第3行却不是正态分布;

第4行每个样本大小是30，然后对每个样本求平均值，最后平均值分布是正态分布。

这也验证了中心极限定理，不管总体是什么分布，任意一个总体的样本均值都会围绕在总体的平均值周围，并且呈正态分布。

下面从一个例子出发来理解下中心极限定理：

假设有一个群体，如我们之前提到的清华毕业的人，我们对这类人群的收入感兴趣。怎么知道这群人的收入呢？我会做这样4步：

第1步：随机抽取1个样本，求该样本的平均值。例如我们抽取了100名毕业于清华的人，然后对这些人的收入求平均值。该样本里的100名清华的人，这里的100就是该样本的大小。有一个经验是，样本大小必须达到30，中心极限定理才能保证成立。
第2步：我将第1步样本抽取的工作重复再三，不断地从毕业的人中随机抽取100个人，例如我抽取了5个样本，并计算出每个样本的平均值，那么5个样本，就会有5个平均值。这里的5个样本，就是指样本数量是5。
第3步：根据中心极限定理，这些样本平均值中的绝大部分都极为接近总体的平均收入。有一些会稍高一点，有一些会稍低一点，只有极少数的样本平均值大大高于或低于群体平均值。
第4步：中心极限定理告诉我们，不论所研究的群体是怎样分布的，这些样本平均值会在总体平均值周围呈现一个正态分布。

我们对中心极限定理有个基本理解之后，我们已经可以用样本均值来估计出总体均值。现在我们想用样本来估计出总体的标准差，该怎么办呢？

我们已经知道，一个数据集的标准差是数据与平均值的偏离程度。当你选择一个样本后，相比总体，你拥有数据的数量是变少了，因此，与总体中的数据偏离平均值的程度相比，样本中很有可能把较为极端的数值排除在外，这样使得数据更有可能以更紧密的方式聚集在均值周围。所以样本的标准差要小于总体标准差。所以：

总体的标准差：

σ=∑(X−μ)2n\sigma = \sqrt{\sum(X-\mu)^2 \over n}σ=n∑(X−μ)2

样本的标准差（用样本估计总体标准差）：

s=∑(X−μ)2ns = \sqrt{\sum(X-\mu)^2 \over n}s=n∑(X−μ)2

如前面的例子，通过抽样我们可以得到很多组样本均值（例子里是5组），而样本均值又构成一个新的分布，这个分布的均值等于总体均值，这个分布的方差等于总体方差除以n，于是就得到了下面的公式：
σX‾2=σ2n\sigma^2_{\overline X} = {\sigma^2 \over n}σX2=nσ2

σX‾=σn\sigma_{\overline X} = {\sigma \over \sqrt n}σX=nσ

根据前面那张图，n越大，样本均值就会越接近总体均值，例如100万个样本值就是对总体均值很好的估计。直观上也很好理解，对于样本的均值，如果我们使用越多数据的均值，那这个均值肯定就更接近总体均值，当然最终的分布更集中在均值周围，数据的方差更小。

所以，当n越大：

抽样分布更接近于正态分布；

分布的标准差更小；

于是，通过抽样，我们可以得到样本均值的抽样分布。

『样本均值的抽样分布』

样本均值的抽样分布是所有的样本均值形成的分布，即μ的概率分布。样本均值的抽样分布在形状上是对称的。随着样本量n的增大，不论原来的总体是否服从正态分布，样本均值的抽样分布都将趋于正态分布，其分布的数学期望为总体均值μ，方差为总体方差的1/n，这就是中心极限定理。

下面来看个用抽样分布估计概率的例子：

例1：
假设成年男同学户外运动需要喝2L水（标准差为0.7升），在一次全天的户外旅途中，你计划为50个男同学提供110L水，请问水不够喝的概率是多少？

分析：
对上图做个简单讲解：

首先，男同学户外运动喝水的量肯定服从某种分布，但可惜我们并不知道服从的是哪种稀奇古怪的分布，不妨就画成第一个图的样子。但是，好在我们知道这种分布的均值和标准差。分别是μ=2L\mu = 2Lμ=2L和σ=0.7L\sigma = 0.7Lσ=0.7L。
 \;
由于我们不知道这种分布，所以没法套用之前说"模板"来计算概率（四种常用分布），那怎么办呢？
 \;
一个想法就是用样本来估计总体。现在假设我们对该总体做抽样，抽样的样本容量为50，我们可以计算得到50个男同学喝水的均值，根据中心极限定理，这个样本均值是服从正态分布的（不管原来是啥分布），于是就得到样本均值的抽样分布，如第二张图所示。
 \;
于是，对于为50个男同学提供110L水这个事件，我们可以计算得到样本均值为2.2L，而这个样本均值可以认为就是来自样本均值的抽样分布，可以在图中画出样本均值2.2L这个点。
 \;
根据前面的介绍，我们可以求出抽样分布的均值和标准差：μX‾=μ=2L\mu_{\overline X} = \mu = 2LμX=μ=2L和σX‾=0.099\sigma_{\overline X} = 0.099σX=0.099。
 \;
既然样本均值X=2.2LX = 2.2LX=2.2L是来自抽样分布中的点，那么对于正态分布中的样本点，知道均值和标准差，我们可以求出z分数，通过z分数表读出该点的累积概率为0.9783，那么大于该z分数的概率就是0.0217。

这个例子就是使用中心极限定理用样本来估计总体。下面再看个例子：

例2：从农场的20万个苹果中随机抽样36个苹果，样本的平均重量为112g，样本标准差为40g，请问20万个苹果的平均重量在100g到124g之间的概率是多少？

对于这个问题，我们不知道总体是什么分布，甚至都不知道总体的均值和标准差，那么，我们只有通过样本来估计总体均值和标准差：X‾=112g\overline X = 112gX=112g和S=40gS = 40gS=40g，这两个值认为是总体的最好估计。

有了总体的均值和方差，接下来跟前面一样，根据中心极限定理，可以得到样本均值的抽样分布，得到抽样分布的均值和标准差，然后就可以求出总体均值在100g到124g之间的概率p=0.9282p = 0.9282p=0.9282。

根据这一题，我们知道：

采用抽样样本的统计量作为总体的估计值；

对于样本均值，通过抽样分布服从正态分布来估计概率。

『伯努利分布』

伯努利分布，又名两点分布或者0-1分布，是一个离散型概率分布。若伯努利试验成功，则伯努利随机变量取值为1。若伯努利试验失败，则伯努利随机变量取值为0。记其成功概率为p(0≤p≤1)p(0 ≤ p ≤ 1)p(0≤p≤1)，失败概率为q=1−pq=1-pq=1−p。

首先，来看一个例子：在美国总统选举时，如果民众对一个总统候选人的支持度是60%，不支持度为40%，随机变量分别是1和0，此时我们随机访问一名美国人，那么这名美国人是否会支持该总统？

现在我们根据期望和方差的定义来计算：
μ=0.4⋅0+0.6⋅1=0.6\mu = 0.4·0 + 0.6·1 = 0.6μ=0.4⋅0+0.6⋅1=0.6

σ2=0.4∗(0−0.6)2+0.6∗(1−0.6)2=0.24\sigma^2 = 0.4*(0 - 0.6)^2 + 0.6*(1 - 0.6)^2 = 0.24σ2=0.4∗(0−0.6)2+0.6∗(1−0.6)2=0.24

σ=(0.24)=0.49\sigma = \sqrt(0.24) = 0.49σ=(0.24)=0.49

这样的分布就是伯努利分布。

假设支持的概率为ppp，不支持的概率为1−p1-p1−p，采用同样的过程可以推导出伯努利分布的均值与方差的一般公式：
μ=(1−p)⋅0+p⋅1=p\mu = (1-p)·0 + p·1 = pμ=(1−p)⋅0+p⋅1=p

σ2=(1−p)∗(0−p)2+p∗(1−p)2=p(1−p)\sigma^2 = (1-p)*(0 - p)^2 + p*(1 - p)^2 = p(1-p)σ2=(1−p)∗(0−p)2+p∗(1−p)2=p(1−p)

σ=σ2=p(1−p)\sigma = \sqrt{\sigma^2} = \sqrt{p(1-p)}σ=σ2=p(1−p)

『置信区间』

现在我们随机抽样调查100个人（相当于做了100次伯努利试验），其中支持者有43人，不支持者有57人，现在用这个样本去估计全国民众有多大比例支持该总统候选人，并且这个估计结果有多少置信度？

由上面的计算可以知道：支持该总统候选人的比例为0.43。

如果我们想要找到一个置信区间，使得有95%的概率确信总体的真是均值在此区间内，那么可以得到：
P(X‾  is  within  2σX‾  of  μX‾)=95%P(\overline X \;\; is \;\; within \;\; 2\sigma_{\overline X} \;\; of \;\; \mu_{\overline X}) = 95\%P(Xiswithin2σXofμX)=95%

P(μX‾  is  within  2σX‾  of  X‾)=95%P(\mu_{\overline X} \;\; is \;\; within \;\; 2\sigma_{\overline X} \;\; of \;\; \overline X) = 95\%P(μXiswithin2σXofX)=95%

P(p  is  within  2σX‾  of  X‾)=95%P(p \;\; is \;\; within \;\; 2\sigma_{\overline X} \;\; of \;\; \overline X) = 95\%P(piswithin2σXofX)=95%

P(p  is  within  2⋅(0.05)  of  0.43)=95%P(p \;\; is \;\; within \;\; 2·(0.05) \;\; of \;\; 0.43) = 95\%P(piswithin2⋅(0.05)of0.43)=95%

P(p  is  within  0.43±0.1)=95%P(p \;\; is \;\; within \;\; 0.43 ± 0.1) = 95\%P(piswithin0.43±0.1)=95%

从而，我们具有95%的信心认为p落在33%到53%之内，由计算过程可知，当样本数量增加时，样本的置信区间会减小。

对该结果的另一种说法是：有43%的民众支持候选人B，有57%的民众支持候选人A，并且估计误差为10%，增加样本量可以减小估计误差。

我们有必要知道一下下面这个3σ3\sigma3σ的概率图：

有68%的样本均值会在总体均值一个标准误差的范围之内；
取值范围：[总体均值-1个标准误差，总体平均值+1个标准误差]

有95%的样本均值会在总体均值的两个标准误差的范围之内；
取值范围：[总体平均值-2个标准误差，总体平均值+2个标准误差]

有99.7%的样本均值会在总体均值3个标准误差的范围之内；
取值范围：[总体平均值-3个标准误差，总体平均值+3个标准误差]
 \;
本例的2σ2\sigma2σ区间就是从这里来的。

『小样本容量置信区间』

但是，实际采样样本时，可能我们的样本容量比较小，那么就无法满足中心极限定理的要求，那么对于小样本容量的抽样，如何来估计呢？

一般来讲，当n<30时，不能进行好的估计，针对这种情况，给出 t 分布对样本均值的分布进行修正。

t 分布和正态分布相似，但是具有fatter tail（因为低估了S）。对应的，我们在估计概率时，不再去查 z 分数表，而是去查 t 分数表，t 分数表的列为自由度（即 n - 1）。下面是 t 分布的概率分布图：

在概率论和统计学中，t 分布（t-distribution）用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知（例如在样本数量足够多时），则应该用正态分布来估计总体均值。

t 分布曲线形态与 n（确切地说与自由度 df ）大小有关。与标准正态分布曲线相比，自由度 df 越小，t 分布曲线愈平坦，曲线中间愈低，曲线双侧尾部翘得愈高；自由度 df 愈大，t 分布曲线愈接近正态分布曲线，当自由度 df = ∞ 时，t 分布曲线为标准正态分布曲线。

我们平常说的t分布，都是指小样本的分布。但是，其实正态分布可以算作t分布的特例。也就是说，t分布，在大小样本中都是通用的。所以，当样本量大于30或者大于50，就不能用t分布了呀？完全不是！t分布，大小通吃！当t分布的自由度 df = ∞ 时，t 分布曲线就是标准正态分布曲线。

例题：7名学生在服用新研制的钙片3个月后，他们的血液中的钙含量分别上升了1.5, 2.9, 0.9, 3.9, 3.2, 2.1, 1.9。求所有使用新钙片的学生的钙含量增加的平均值的95%的置信区间。

分析：

首先，我们有一个抽样样本，样本的容量为7，均值为：2.34，无偏方差为1.04。

我们知道，样本的无偏方差可以认为是总体方差，所以总体方差为1.04，抽样样本均值的方差即为1.04 / 7 = 0.149，抽样样本均值的标准差为：0.385。

因为样本小于30，所以样本均值的分布服从 t 分布，下图是t分布表：

我们看双侧，同时需要看自由度：（n-1）= 6，得到的值为：2.447。所以意味着需要离开均值2.447个标准差的置信区间是95%。

所以本题相当于：
P(X‾1  in  μX‾1±2.447∗σX‾1)=95%P(\overline X_1 \;\; in \;\; \mu_{\overline X_1} ± 2.447*\sigma_{\overline X_1}) = 95\%P(X1inμX1±2.447∗σX1)=95%

P(X‾1  in  μ±2.447∗σX‾1)=95%P(\overline X_1 \;\; in \;\; \mu ± 2.447*\sigma_{\overline X_1}) = 95\%P(X1inμ±2.447∗σX1)=95%

P(μ  in  X‾1±2.447∗σX‾1)=95%P(\mu \;\; in \;\; \overline X_1 ± 2.447*\sigma_{\overline X_1}) = 95\%P(μinX1±2.447∗σX1)=95%

所以总体的真实均值为[2.34−2.447∗0.385,2.34+2.447∗0.385][2.34-2.447*0.385, 2.34+2.447*0.385][2.34−2.447∗0.385,2.34+2.447∗0.385]，即总体均值在[1.39,3.28][1.39, 3.28][1.39,3.28]的置信度为95%。

所以，95%的几率μ\muμ也就是总体均值在样本均值 2.34 周围 0.96 范围内，即所有使用新钙片的学生的钙含量增加的平均值的95%的置信区间为[1.39,3.28][1.39, 3.28][1.39,3.28]。

注：
由于n太小，这里抽样分布不能像原来那样认为是正态分布，我们不再假设抽样分布是正态分布，因为这是不好的估计。这里我们用到t分布，t 分布是专门为小样本容量时置信区间的更好估计所设计的，它和正态分布很像，不过尾部比较肥（肥尾是因为低估了抽样分布的标准差）。

最后，来总结一下中心极限定理有什么用呢？

（1）在没有办法得到总体全部数据的情况下，我们可以用样本来估计总体

如果我们掌握了某个正确抽取样本的平均值和标准差，就能对估计出总体的平均值和标准差。

举个例子，如果你是北京西城区的领导，想要对西城区里的各个学校进行教学质量考核。

同时，你并不相信各个学校的的统考成绩，因此就有必要对每所学校进行抽样测试，也就是随机抽取100名学生参加一场类似统考的测验。

作为主管教育的领导，你觉得仅参考100名学生的成绩就对整所学校的教学质量做出判断是可行的吗？

答案是可行的。中心极限定理告诉我们，一个正确抽取的样本不会与其所代表的群体产生较大差异。也就是说，样本结果（随机抽取的100名学生的考试成绩）能够很好地体现整个群体的情况（某所学校全体学生的测试表现）。

当然，这也是民意测验的运行机制所在。通过一套完善的样本抽取方案所选取的1200名美国人能够在很大程度上告诉我们整个国家的人民此刻正在想什么。

（2）根据总体的平均值和标准差，判断某个样本是否属于总体

如果我们掌握了某个总体的具体信息，以及某个样本的数据，就能推理出该样本是否就是该群体的样本之一。

通过中心极限定理的正态分布，我们就能计算出某个样本属于总体的概率是多少。如果概率非常低，那么我们就能自信满满地说该样本不属于该群体。

这也是统计概率中假设检验的原理，假设检验会在后面介绍。

参考文献：

[1] 知乎猴子
[2] 可汗学院统计
[3] t分布, 卡方x分布，F分布