如何理解总体标准差、样本标准差与标准误

1 总体标准差

已知随机变量 XXX 的数学期望为 μ\muμ，标准差为 σ\sigmaσ，则其方差为：
σ2=E[(X−μ)2]\sigma^2=E[(X-\mu)^2] σ2=E[(X−μ)2]此处 σ\sigmaσ 即为随机变量 XXX 的总体标准差！

2 样本标准差

上面的式子中，我们需要准确的了解随机变量 XXX 的总体分布，从而可以计算出其总体的期望和标准差。

但在一般情况下，对总体的每一个个体都进行观察或试验是不可能的。因此，必须对总体进行抽样观察（采样）。由于我们是利用抽样来对总体的分布进行推断，所以抽样必须是随机的，抽样值（X1,X2,⋯,Xn）（X_1,X_2,\cdots,X_n）（X1,X2,⋯,Xn）应视为一组随机变量。由于抽样的目的是为了对总体的分布进行统计推断，为了使抽取的样本能很好地反映总体信息，必须考虑抽样方法。最常用的一种抽样方法叫作 “简单随机抽样”，得到的样本称为简单随机样本，它要求抽取的样本满足以下两点：

代表性：X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 中每一个与所考察的总体有相同的分布；
独立性：X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 是相互独立的随机变量。

此外，满足以上两点要求的样本一般被称为 i.i.d.样本，即独立同分布(independent and identically distributed)样本。在概率统计理论中，如果变量序列或者其他随机变量有相同的概率分布，并且互相独立，那么这些随机变量是独立同分布。在西瓜书中的解释是：输入空间中的所有样本服从一个隐含未知的分布，训练数据所有样本都是独立地从这个分布上采样而得。

所以在实践中采样得到i.i.d.样本之后，可以用样本方差 S2S^2S2 来近似总体方差 σ2\sigma^2σ2:
S2=1n−1∑i=1n(Xi−X‾)2S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 S2=n−11i=1∑n(Xi−X)2其中，nnn 为样本容量，X‾\overline{X}X 为样本均值。

上述公式的证明请参考：为什么样本方差（sample variance）的分母是 n-1？

3 标准误

实例：已知某学校有初三学生共200名，这200名学生的平均身高为160cm.我们以这200名初三学生作为总体，欲通过抽样调查来了解所有初三学生的平均身高。现在假定我们共做了10次抽样，每次抽样量都是100人。此时我们可以分别计算出每次抽样样本的身高均数和标准差，可以得到10个均数和标准差。这里10个均数和标准差都是样本统计量，如果我们把10个样本的均数作为原始数据，然后计算这10个值的标准差，那么我们得到的指标就是标准误。

即：标准误是样本统计量的标准差，它反映了每次抽样样本之间的差异。如果标准误较小，则说明多次重复抽样得到的统计量差别不大，提示抽样误差小；反之，如果标准误较大，则说明样本统计量之间差别较大，提示抽样误差较大。标准误和标准差的区别主要体现在以下几个方面：

标准误的英文是Standard Error，是一种误差；而标准差的英文是Standard Deviation，只是一种对均数的偏离而已。偏离和误差根本不是一个概念。
标准差只是一个描述性指标，只是描述原始数据的波动情况；而标准误是跟统计推断有关的指标。描述性指标和推断性指标根本不是一个层次上的概念。
它们针对计算的对象不同。标准差是根据某次抽样的原始数据计算的；而标准误是根据多次抽样的样本统计量（如均数、率等）计算的。理论上，计算标准差只需要一个样本，而计算标准误需要多个样本。

尽管从理论上来讲，标准误的计算是通过多次抽样的多个样本统计量而获得的，但在实际中仅依靠一次抽样来计算标准误也是可行的。事实上，在绝大多数情况下，我们也别无选择，只能利用一次抽样数据来计算标准误。此时标准误的计算公式为：
Se=SnSe=\frac{S}{\sqrt{n}} Se=nS 其中，s表示样本标准差，n为样本的例数。不难看出，样本例数越大，标准误越小，即抽样误差越小。
上述公式可由中心极限定理证明得到。