引入

方差概念

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量，用来度量随机变量和其数学期望（即均值）之间的偏离程度。

方差计算

定义：
DX=E(X−EX)2=EX2−(EX)2D X=E(X-E X)^{2}=E X^{2}-(E X)^{2} DX=E(X−EX)2=EX2−(EX)2
离散型和连续型的随机变量计算公式分别为：
D(X)={∑k=1∞[xk−E(X)]2pk,∫−∞∞[xk−E(X)]2f(x)dx\boldsymbol{D}(\boldsymbol{X})=\left\{\begin{array}{c} {\sum_{k=1}^{\infty}\left[\boldsymbol{x}_{k}-\boldsymbol{E}(\boldsymbol{X})\right]^{2} p_{k},} \\ {\int_{-\infty}^{\infty}\left[\boldsymbol{x}_{k}-\boldsymbol{E}(\boldsymbol{X})\right]^{2} f(\boldsymbol{x}) d \boldsymbol{x}} \end{array}\right. D(X)={∑k=1∞[xk−E(X)]2pk,∫−∞∞[xk−E(X)]2f(x)dx
当给出具体数据进行分析时我们常用到如下两个公式
总体方差：
σ2=∑i=1N(xi−μ)2N\sigma^{2}=\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N} σ2=N∑i=1N(xi−μ)2
样本方差：
S2=1n−1∑i=1n(xi−Xˉ)2S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{X}\right)^{2} S2=n−11i=1∑n(xi−Xˉ)2

那么为什么总体方差和样本方差的分母不同呢？

首先应该明确
1、在用样本方差公式进行计算时，我们并不知道x的分布情况，也不知道μ\muμ。Xˉ\bar{X}Xˉ是所给样本的平均值，其值并不一定等于μ\muμ。
2、总体方差是确定的，是综合所有数据后得到的方差，同理，μ\muμ也是由所有数据得到的确数。而Xˉ\bar{X}Xˉ和S2S^{2}S2是根据部分数据对μ\muμ和σ2\sigma^{2}σ2进行估计。
3、总体方差：
也叫做有偏估计，其实就是我们从初高中就学到的那个标准定义的方差，除数是N。如果实现已知期望值，比如测水的沸点，那么测量10次，测量值和期望值之间是独立的（期望值不依测量值而改变，随你怎么折腾，温度计坏了也好，看反了也好，总之，期望值应该是100度），那么E『（X-期望）^2』，就有10个自由度。事实上，它等于（X-期望）的方差，减去（X-期望）的平方。” 所以叫做有偏估计，测量结果偏于那个”已知的期望值“。
样本方差：
无偏估计、无偏方差（unbiased variance）。对于一组随机变量，从中随机抽取N个样本，这组样本的方差就是Xi^2平方和除以N-1。这可以推导出来的。如果现在往水里撒把盐，水的沸点未知了，那我该怎么办？我只能以样本的平均值，来代替原先那个期望100度。同样的过程，但原先的（X-期望），被（X-均值）所代替。设想一下（Xi-均值）的方差，它不在等于Xi的方差，而是有一个协方差，因为均值中，有一项Xi/n是和Xi相关的，这就是那个"偏"的由来
样本方差与总体方差的区别

我们先讨论一个样本时：
（此段引自 link.）
对于样本方差来说，假如从总体中只取一个样本，即n=1，那么样本方差公式的分子分母都为0——方差完全不确定。这很好理解，因为样本方差是用来估计总体中个体之间的变化大小，只拿到一个个体，当然完全看不出变化大小。反之，如果公式的分母不是n-1而是n，计算出的方差就是0——这是不合理的，因为不能只看到一个个体就断定总体的个体之间变化大小为0。

对于总体方差来说，假如总体中只有一个个体，即N=1，那么方差，即个体的变化，当然是0。如果分母是N-1，总体方差为0/0，即不确定，却是不合理的——总体方差不存在不确定的情况。

以上可帮助理解两式的正确性，关于样本方差的理论推导如下：
首先回顾一下无偏估计

无偏估计

无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值，则称此此估计量为被估计参数的无偏估计，即具有无偏性，是一种用于评价估计量优良性的准则。无偏估计的意义是：在多次重复下，它们的平均数接近所估计的参数真值。
估计总体平均值μ时，若以样本平均值ξ’为估计量，则可算得ξ’的数学期望E(ξ’)=μ，这说明ξ’是总体平均值μ的无偏估计。

介绍无偏估计的意义就是，我们计算的样本方差，希望它是总体方差的一个无偏估计

样本方差公式

假如样本方差公式为如下形式
S2=1n∑i=1n(xi−Xˉ)2S^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{X}\right)^{2} S2=n1i=1∑n(xi−Xˉ)2
此时我们可以判断一下它是否为总体方差的一个无偏估计，即判断E(S2)E\left(S^{2}\right)E(S2)是否为σ2\sigma^{2}σ2。

E[S2]=E[1n∑i=1n(Xi−Xˉ)2]=E[1n∑i=1n((Xi−μ)−(Xˉ−μ))2]=E[1n∑i=1n((Xi−μ)2−2(Xˉ−μ)(Xi−μ)+(Xˉ−μ)2)]=E[1n∑i=1n(Xi−μ)2−2n(Xˉ−μ)∑i=1n(Xi−μ)+1n(Xˉ−μ)2∑i=1n1]=E[1n∑i=1n(Xi−μ)2−2n(Xˉ−μ)∑i=1n(Xi−μ)+(Xˉ−μ)2]=E[1n∑i=1n(Xi−μ)2−2n(Xˉ−μ)∑i=1n(Xi−μ)+(Xˉ−μ)2]\begin{aligned} \mathrm{E}\left[S^{2}\right] &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right]=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(\left(X_{i}-\mu\right)-(\bar{X}-\mu)\right)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(\left(X_{i}-\mu\right)^{2}-2(\bar{X}-\mu)\left(X_{i}-\mu\right)+(\bar{X}-\mu)^{2}\right)\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+\frac{1}{n}(\bar{X}-\mu)^{2} \sum_{i=1}^{n} 1\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+(\bar{X}-\mu)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+(\bar{X}-\mu)^{2}\right] \end{aligned} E[S2]=E[n1i=1∑n(Xi−Xˉ)2]=E[n1i=1∑n((Xi−μ)−(Xˉ−μ))2]=E[n1i=1∑n((Xi−μ)2−2(Xˉ−μ)(Xi−μ)+(Xˉ−μ)2)]=E[n1i=1∑n(Xi−μ)2−n2(Xˉ−μ)i=1∑n(Xi−μ)+n1(Xˉ−μ)2i=1∑n1]=E[n1i=1∑n(Xi−μ)2−n2(Xˉ−μ)i=1∑n(Xi−μ)+(Xˉ−μ)2]=E[n1i=1∑n(Xi−μ)2−n2(Xˉ−μ)i=1∑n(Xi−μ)+(Xˉ−μ)2]

其中∑i=1n(Xi−μ)\sum_{i=1}^{n}\left(X_{i}-\mu\right)∑i=1n(Xi−μ)=∑i=1nXi\sum_{i=1}^{n} X_{i}∑i=1nXi–∑i=1nμ\sum_{i=1}^{n} \mu∑i=1nμ=∑i=1nXi\sum_{i=1}^{n} X_{i}∑i=1nXi–nμ\muμ=nXˉ\bar{X}Xˉ–nμ\muμ
故E[S2]=E[1n∑i=1n(Xi−μ)2−2n(Xˉ−μ)∑i=1n(Xi−μ)+(Xˉ−μ)2]=E[1n∑i=1n(Xi−μ)2−2n(Xˉ−μ)⋅n⋅(Xˉ−μ)+(Xˉ−μ)2]=E[1n∑i=1n(Xi−μ)2−2(Xˉ−μ)2+(Xˉ−μ)2]=E[1n∑i=1n(Xi−μ)2]−E[(Xˉ−μ)2]=σ2−E[(Xˉ−μ)2]\begin{aligned} \mathrm{E}\left[S^{2}\right] &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+(\bar{X}-\mu)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \cdot n \cdot(\bar{X}-\mu)+(\bar{X}-\mu)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-2(\bar{X}-\mu)^{2}+(\bar{X}-\mu)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}\right]-\mathrm{E}\left[(\bar{X}-\mu)^{2}\right] \\ &=\sigma^{2}-\mathrm{E}\left[(\bar{X}-\mu)^{2}\right] \end{aligned} E[S2]=E[n1i=1∑n(Xi−μ)2−n2(Xˉ−μ)i=1∑n(Xi−μ)+(Xˉ−μ)2]=E[n1i=1∑n(Xi−μ)2−n2(Xˉ−μ)⋅n⋅(Xˉ−μ)+(Xˉ−μ)2]=E[n1i=1∑n(Xi−μ)2−2(Xˉ−μ)2+(Xˉ−μ)2]=E[n1i=1∑n(Xi−μ)2]−E[(Xˉ−μ)2]=σ2−E[(Xˉ−μ)2]
其中
E[(Xˉ−μ)2]=1nσ2\mathrm{E}\left[(\bar{X}-\mu)^{2}\right]=\frac{1}{n} \sigma^{2} E[(Xˉ−μ)2]=n1σ2
故:
E[1n∑i=1n(Xi−Xˉ)2]=σ2−1nσ2=n−1nσ2E\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right]=\sigma^{2}-\frac{1}{n} \sigma^{2}=\frac{n-1}{n} \sigma^{2} E[n1i=1∑n(Xi−Xˉ)2]=σ2−n1σ2=nn−1σ2
但我们要得到总体方差的一个无偏估计
nn−1E[1n∑i=1n(Xi−Xˉ)2]=E[1n−1∑i=1n(Xi−Xˉ)2]=σ2\frac{n}{n-1} E\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right]=E\left[\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right]=\sigma^{2} n−1nE[n1i=1∑n(Xi−Xˉ)2]=E[n−11i=1∑n(Xi−Xˉ)2]=σ2
所以样本方差的分母为n–1而不是n。

样本方差的自由度是n-1

参看自由度（为什么样本方差自由度是n-1）

其中讨论了离差平方和 SS=∑(xi−xˉ)2S S=\sum\left(x_{i}-\bar{x}\right)^{2}SS=∑(xi−xˉ)2，
总体方差D(x)=SSnD(x)=\frac{S S}{n}D(x)=nSS，样本方差D(x)=SSn−1D(x)=\frac{S S}{n-1}D(x)=n−1SS

生动举例解释为什么样本方差自由度为n-1

总体方差与样本方差分母的小小区别，n还是n-1？相关推荐

总体方差和样本方差大小值的比较
总体方差和样本方差的区别用样本方差去估计总体方差.因为总体数据量太大,总体方差很难计算得到. 当样本的容量和总体的容量相等时,样本的方差和总体的方差也是相等的. 对于总体方差,除以n:而对于样本方差 ...
(史上最全总结)总体方差，样本方差，标准差，抽样方差，标准误差，均方误差，协方差 ...........
文章目录数学期望 \color{blue}数学期望数学期望总体和样本 \color{blue}总体和样本总体和样本方差 \color{blue} 方差方差 1. 总体方差 \color{b ...
总体方差、样本方差、自由度的理解
对于一组数据,它有两个方差可以求#总体方差和样本方差#叫样本方差以为着先得称为样本,样本个数必须要小于总体个数,因此样本所能取得的最大数量就是总体N-1就是自由度.
【random库与math库】python程序对一组随机数求平均值，标准差，中位数，离差，离差方，总体方差，样本方差，样本标准差
基本统计值计算,使用random库生成随机数100个[1,100]的整数,同时借用math库进行了简单的计算,对生成的一组随机数求平均值,标准差,中位数,离差,离差方,总体方差,样本方差,样本标准差. ...
样本方差分母为什么是n-1？——无偏估计
文章目录 1 总体方差和样本方差 2 方差的无偏估计 3 从自由度角度理解样本方差为什么除以n−1n-1n−1? 1 总体方差和样本方差首先要分清总体和样本: 总体:研究对象的整个群体比如总共10 ...
样本方差与总体方差的区别
为什么80%的码农都做不了架构师?>>> 之前一直对于样本方差与总体方差的概念区分不清,对于前者不仅多了"样本"两个字,而且公式中除数是N-1,而不是N.现 ...
统计学---之样本方差与总体方差的区别
前段日子重新整理了一下这个问题的解答,跟大家分享一下,如果有什么错误的话希望大家能够提出来,我会及时改正的,话不多说进入正题: 首先,我们来看一下样本方差的计算公式: 刚开始接触这个公式的话可能会有一 ...
统计学基础之样本方差和总体方差
统计学基础之样本方差与总体方差文章目录统计学基础之样本方差与总体方差 1. 方差(variance)的定义 2. 样本方差 3. 总体方差公式的有偏性证明 4. 样本方差公式分母为n-1的推导参 ...
C语言实现总体方差，总体标准差，样本方差，样本标准差
/**方差计算 *****注意数据类型 *参数 data[] 数据 *使用注意需要重定义数据类型 typedef unsigned char uint8; typedef unsigned int ...

总体方差与样本方差分母的小小区别，n还是n-1？