你真的知道什么是置信区间吗？

在商业环境中，数据人员通常会收集一些数据，比如用户在网站上花费的时间，然后计算关于这些数据的一些统计数据，比如在网站上花费的平均或中值时间，最后呈现这些总结向业务提供统计数据。然而假设检查了 500 个会话，并计算出用户在网站上平均花费 10 分钟。你确定如果收集更多的数据，这个 10 分钟的平均值不会改变吗？是否偶然目睹了一个不可代表的样本？如果等到周末也收集数据，这会不会可能有所不同。我们怎么知道我们是否有足够的数据呢？如何量化我们对其计算的平均值、中位数等的信心？

数据方差和标准差

低标准偏差表明数据点往往接近平均值。很明显，如果我们收集的数据点更接近真实的平均值，我们往往对这个平均值更有信心。直观地演示一下，将生成两组 500 个正态分布的数据点，均值为 10，但一组的标准差为 1，另一组的标准差为 3。然后使用直方图绘制它们。

不同标准差的正态分布图

我们不需要广泛的统计知识就可以得出结论，我们可以对标准差较低的数据集（蓝色直方图）与标准差较高的数据集（橙色直方图）的平均值更有信心。

数据量大小（N）

当我们有数百万用户访问我们的网站时，我们计算他们花费的平均时间，结果是 10 分钟；如果我们随机抽取几个会话，比如说 5 个会话，它们的平均值不会正好是 10 分钟。如果我们抽取了 10,000 个会话的样本，那么平均持续时间将更接近 10 分钟的实际平均值。

直观地演示这一点。从均值 = 10，标准差 = 3 的正态分布中生成 10 个样本，每个样本包含 5 个数据点。

小样本；均值差异更大

正如预期的那样，样本均值无处不在。现在，如果使用更大的样本 50 个数据点，则均值将向真实均值收敛，如下图所示。

大样本；均值差异较小

标准差和样本量是影响计算统计量置信度的两种因素，标准误是一种测量方法来组合这两种因素。

标准误

标准误是标准差除以样本量的平方根。

数据的方差越大，对计算统计量的置信度就越低；样本量越小，置信度就越低。在这里，我们从具有恒定均值 (10) 但不同标准差 (1 或 3) 的总体中抽取 4 个样本。样本也有不同的大小（5 或 50）。

置信区间

我们可以使用标准误差来判断均值可能在 [Mean — STD.Error, Mean + STD.Error]。然而，为什么不扩大我们的范围成为 [Mean — 2STD.Error, Mean + 2STD.Error]。对于正态分布，大约 68% 的数据落在一个标准差（这里指抽样分布的标准差，即标准误）内，大约 95% 的数据落在均值的两个标准差内。这些数字来自正态分布的形状，并表示为 Z 分数。如果检查这些分数，会发现 Z-Score 为 1 的置信度约为 68%，分数为 2（准确地说是 1.96）给出的置信度为 95%，而分数为 2.58 的置信度为 99%。

简单地说，我们有 95% 的信心认为均值落在 [Mean — 1.96STD.Error, Mean + 1.96STD.Error]，并且有 99% 的信心认为均值落在更宽的范围内 [Mean — 2.58STD.Error, Mean + 2.58STD.Error]。这些范围就是我们所说的置信区间。

如果是非正态数据呢？

到目前为止，我们一直在使用来自正态分布的数据。在现实生活中，数据很少来自正态分布。该如何处理这些情况呢？中心极限定理指出，如果我们有一个均值为 μ 的数据，我们从这些数据中取出多个样本，并计算每个样本的均值，无论原始数据的形状，这个均值的抽样分布将是正态分布，其分布的均值等于 μ。因此，无论原始数据的形状如何，这里重要的分布都将是正态分布。然而，中心极限定理不适用于中位数或分位数，因为它适用于均值或总和。