超详细推导样本方差和总体方差(n-1的由来)

本文分析为什么样本方差要除以n-1

举例一个应用场景，例如想要知道全市高中生数学成绩的平均分和方差，全市共有N个高中生，想把所有学生的成绩都统计出来比较难，所以我们只在其中取n个学生的成绩，用这n个学生成绩的平均分和方差来估计全市N个学生的平均分和方差，并希望尽量估计的准确。

首先明确几个定义：

μ=1N∑i=1NXi\mu=\frac{1}{N}\sum\limits_{i=1}^N X_iμ=N1i=1∑NXi：总体均值，未知的（NNN:总体个数）

Xˉ=1n∑i=1nXi\bar{X}=\frac{1}{n} \sum\limits_{i=1}^n X_iXˉ=n1i=1∑nXi：样本均值（n→Nn\rightarrow Nn→N时，Xˉ=μ\bar{X}=\muXˉ=μ；nnn：样本个数）

σ2=1N∑i=1N(Xi−μ)2\sigma^2=\frac{1}{N}\sum\limits_{i=1}^N (X_i-\mu)^2σ2=N1i=1∑N(Xi−μ)2：总体方差，注意这里减的是μ\muμ

S2S^2S2：样本方差，有无偏估计和有偏估计两种形式

{S2=1n∑i=1n(Xi−Xˉ)2,有偏估计S2=1n−1∑i=1n(Xi−Xˉ)2,无偏估计\begin{cases} S^2=\frac{1}{n} \sum\limits_{i=1}^n (X_i-\bar{X})^2, & \text{有偏估计} \\ S^2=\frac{1}{n-1} \sum\limits_{i=1}^n (X_i-\bar{X})^2, & \text{无偏估计} \\ \end{cases} ⎩⎨⎧S2=n1i=1∑n(Xi−Xˉ)2,S2=n−11i=1∑n(Xi−Xˉ)2,有偏估计无偏估计

我们希望样本方差等于总体方差，也就是样本方差的期望等于总体方差，即E(S2)=σ2E(S^2)=\sigma^2E(S2)=σ2，取有偏估计的公式来计算：

E(S2)=E[1n∑i=1n(Xi−Xˉ)2]=1nE[∑i=1n(Xi−μ+μ−Xˉ)2]=1nE∑i=1n[(Xi−μ)−(Xˉ−μ)]2=1nE∑i=1n[(Xi−μ)2+(Xˉ−μ)2−2(Xi−μ)(Xˉ−μ)]=1nE[∑i=1n(Xi−μ)2+∑i=1n(Xˉ−μ)2−2∑i=1n(Xi−μ)(Xˉ−μ)]1◯=1nE[∑i=1n(Xi−μ)2+n(Xˉ−μ)2−2n(Xˉ−μ)2]2◯=1nE[∑i=1n(Xi−μ)2−n(Xˉ−μ)2]=1nE∑i=1n(Xi−μ)2−E(Xˉ−μ)23◯=D(X)−1nD(X)4◯=n−1nσ2E(S^2) =E[\frac{1}{n} \sum\limits_{i=1}^n (X_i-\bar{X})^2]\\ = \frac{1}{n}E[ \sum\limits_{i=1}^n (X_i-\mu+\mu-\bar{X})^2]\\ = \frac{1}{n}E\sum\limits_{i=1}^n [(X_i-\mu)-(\bar{X}-\mu)]^2\\ = \frac{1}{n}E\sum\limits_{i=1}^n [(X_i-\mu)^2+(\bar{X}-\mu)^2-2(X_i-\mu)(\bar{X}-\mu)]\\ = \frac{1}{n}E [\sum\limits_{i=1}^n(X_i-\mu)^2+\sum\limits_{i=1}^n(\bar{X}-\mu)^2-2\sum\limits_{i=1}^n(X_i-\mu)(\bar{X}-\mu)] \textcircled{\scriptsize{1}}\\ = \frac{1}{n}E[\sum\limits_{i=1}^n (X_i-\mu)^2+n(\bar{X}-\mu)^2-2n(\bar{X}-\mu)^2]\textcircled{\scriptsize{2}}\\ = \frac{1}{n}E[\sum\limits_{i=1}^n (X_i-\mu)^2-n(\bar{X}-\mu)^2]\\ = \frac{1}{n}E\sum\limits_{i=1}^n (X_i-\mu)^2-E(\bar{X}-\mu)^2\textcircled{\scriptsize{3}}\\ = D(X)-\frac{1}{n}D(X)\textcircled{\scriptsize{4}}\\ = \frac{n-1}{n}\sigma^2E(S2)=E[n1i=1∑n(Xi−Xˉ)2]=n1E[i=1∑n(Xi−μ+μ−Xˉ)2]=n1Ei=1∑n[(Xi−μ)−(Xˉ−μ)]2=n1Ei=1∑n[(Xi−μ)2+(Xˉ−μ)2−2(Xi−μ)(Xˉ−μ)]=n1E[i=1∑n(Xi−μ)2+i=1∑n(Xˉ−μ)2−2i=1∑n(Xi−μ)(Xˉ−μ)]1◯=n1E[i=1∑n(Xi−μ)2+n(Xˉ−μ)2−2n(Xˉ−μ)2]2◯=n1E[i=1∑n(Xi−μ)2−n(Xˉ−μ)2]=n1Ei=1∑n(Xi−μ)2−E(Xˉ−μ)23◯=D(X)−n1D(X)4◯=nn−1σ2

解释1：1◯\textcircled{\scriptsize{1}}1◯到2◯\textcircled{\scriptsize{2}}2◯的推导
∑i=1n(Xi−μ)(Xˉ−μ)=(Xˉ−μ)∑i=1n(Xi−μ)\sum\limits_{i=1}^n(X_i-\mu)(\bar{X}-\mu)=(\bar{X}-\mu)\sum\limits_{i=1}^n(X_i-\mu)i=1∑n(Xi−μ)(Xˉ−μ)=(Xˉ−μ)i=1∑n(Xi−μ)，且
∑i=1n(Xi−μ)=∑i=1n(Xˉ−μ)\sum\limits_{i=1}^n(X_i-\mu)=\sum\limits_{i=1}^n(\bar{X}-\mu)i=1∑n(Xi−μ)=i=1∑n(Xˉ−μ)
可举例，如样本1，2，3，4，5，其中假设总体均值μ=1\mu=1μ=1，样本均值Xˉ=3\bar{X}=3Xˉ=3
∑i=1n(Xi−μ)=0+1+2+3+4=10\sum\limits_{i=1}^n(X_i-\mu)=0+1+2+3+4=10i=1∑n(Xi−μ)=0+1+2+3+4=10
∑i=1n(Xˉ−μ)=2+2+2+2+2=10\sum\limits_{i=1}^n(\bar{X}-\mu)=2+2+2+2+2=10i=1∑n(Xˉ−μ)=2+2+2+2+2=10

解释2：3◯\textcircled{\scriptsize{3}}3◯到4◯\textcircled{\scriptsize{4}}4◯的推导
D(X)=1N∑i=1N(Xi−μ)2=1nE∑i=1n(Xi−μ)2=σ2D(X)=\frac{1}{N}\sum\limits_{i=1}^N (X_i-\mu)^2=\frac{1}{n}E\sum\limits_{i=1}^n (X_i-\mu)^2=\sigma^2D(X)=N1i=1∑N(Xi−μ)2=n1Ei=1∑n(Xi−μ)2=σ2，减的是μ\muμ，代表样本方差的期望值是总体方差
E(Xˉ−μ)2=E(Xˉ−E(Xˉ))2=D(Xˉ)=D(1n∑i=1nXi)=1n2∑i=1nD(Xi)=1nD(X)=1nσ2E(\bar{X}-\mu)^2\\ =E(\bar{X}-E(\bar{X}))^2\\ =D(\bar{X})\\ =D(\frac{1}{n} \sum\limits_{i=1}^n X_i)\\ =\frac{1}{n ^ 2} \sum\limits_{i=1}^n D(X_i)\\ =\frac{1}{n}D(X)\\ =\frac{1}{n}\sigma^2E(Xˉ−μ)2=E(Xˉ−E(Xˉ))2=D(Xˉ)=D(n1i=1∑nXi)=n21i=1∑nD(Xi)=n1D(X)=n1σ2

可见，除非n→∞n\rightarrow\inftyn→∞，否则就差一个nn−1\frac{n}{n-1}n−1n的倍数，所以要对S2S^2S2进行补偿，故引出新的无偏估计：

S2=nn−11n∑i=1n(Xi−Xˉ)2=1n−1∑i=1n(Xi−Xˉ)2S^2=\frac{n}{n-1} \frac{1}{n} \sum\limits_{i=1}^n (X_i-\bar{X})^2= \frac{1}{n-1} \sum\limits_{i=1}^n (X_i-\bar{X})^2S2=n−1nn1i=1∑n(Xi−Xˉ)2=n−11i=1∑n(Xi−Xˉ)2

自由度：在这里经常会听到自由度的概念，可以理解为线性无关的量。

在样本中，已知样本均值和前n-1个样本值，就可以计算出第n个样本的值，可见最后一个样本与前n-1个样本线性相关，故自由度为n-1。

而如果已经总体均值 μ\muμ 和前 n−1n-1n−1 个样本值，无法计算出第 nnn 个样本的值，故在D(x)=1nE∑i=1n(Xi−μ)2=σ2D(x)=\frac{1}{n}E\sum\limits_{i=1}^n(X_i-\mu)^2=\sigma^2D(x)=n1Ei=1∑n(Xi−μ)2=σ2中除的是nnn

～～～～～～～～～～～～～～～分割线～～～～～～～～～～～～～～～～

额外记录向量方差

设向量 x=[x1x2...xn]x=\begin{bmatrix} x_1\\ x_2 \\ ... \\ x_n\\ \end{bmatrix}x=⎣⎡x1x2...xn⎦⎤，E(x)=[E(x1)E(x2)...E(xn)]E(x)=\begin{bmatrix} E(x_1)\\ E(x_2) \\ ... \\ E(x_n)\\ \end{bmatrix}E(x)=⎣⎡E(x1)E(x2)...E(xn)⎦⎤，

Var(x)=E[(x−μ)(x−μ)T]=[var(x1)cov(x1,x2)⋯cov(x1,xn)cov(x2,x1)cov(x2,x2)⋯cov(x2,xn)⋮⋮⋱⋮cov(xn,x1)cov(xn,x2)⋯cov(xn,xn)]Var(x)=E[(x-\mu)(x-\mu)^T]\\ =\begin{bmatrix} var(x_1) & cov(x_1,x_2) & \cdots & cov(x_1, x_n)\\ cov(x_2,x_1) & cov(x_2,x_2) & \cdots & cov(x_2, x_n) \\ \vdots & \vdots & \ddots & \vdots \\ cov(x_n,x_1) & cov(x_n,x_2) & \cdots & cov(x_n,x_n)\\ \end{bmatrix}Var(x)=E[(x−μ)(x−μ)T]=⎣⎡var(x1)cov(x2,x1)⋮cov(xn,x1)cov(x1,x2)cov(x2,x2)⋮cov(xn,x2)⋯⋯⋱⋯cov(x1,xn)cov(x2,xn)⋮cov(xn,xn)⎦⎤

Var(Ax)=E[(Ax−Aμ)(Ax−Aμ)T]=E[A(x−μ)(x−μ)TAT]=AE[(x−μ)(x−μ)T]AT=AVar(x)ATVar(Ax)=E[(Ax-A\mu)(Ax-A\mu)^T]\\ =E[A(x-\mu)(x-\mu)^TA^T]\\ =AE[(x-\mu)(x-\mu)^T]A^T\\ =AVar(x)A^TVar(Ax)=E[(Ax−Aμ)(Ax−Aμ)T]=E[A(x−μ)(x−μ)TAT]=AE[(x−μ)(x−μ)T]AT=AVar(x)AT

超详细推导样本方差和总体方差(n-1的由来)相关推荐

样本方差与总体方差的区别
为什么80%的码农都做不了架构师?>>> 之前一直对于样本方差与总体方差的概念区分不清,对于前者不仅多了"样本"两个字,而且公式中除数是N-1,而不是N.现 ...
统计学基础之样本方差和总体方差
统计学基础之样本方差与总体方差文章目录统计学基础之样本方差与总体方差 1. 方差(variance)的定义 2. 样本方差 3. 总体方差公式的有偏性证明 4. 样本方差公式分母为n-1的推导参 ...
样本服从正态分布，证明样本容量n乘样本方差与总体方差之比服从卡方分布x^2(n)...
样本服从正态分布,证明样本容量n乘样本方差与总体方差之比服从卡方分布x^2(n) 正态分布的n阶中心矩参见: http://www.doc88.com/p-334742692198.html 转载于: ...
简单抽样技术——简单随机样本方差是总体方差的无偏估计
来一点废话,帮助大家理解概率的精髓: 1) 只要谈估计,那就是告诉你一种方法,利用这个方法可以管中规豹似的获取某个统计量(这个统计量很可能限于人力物力无法真正获取,而我们又很想知道). 2) 只要是谈 ...
傅里叶级数和傅里叶变换超详细推导（DR_CAN）
傅里叶级数和傅里叶变换超详细推导(DR_CAN) Part I 三角函数的正交性 Part Ⅱ周期为2π\piπ的 f(x)的傅里叶展开 Part Ⅲ 周期为"2L"的函数展开为傅 ...
图像处理——几种简单的旋转变换的超详细推导过程（点在同一坐标系的变换）（一）
图像处理--几种简单的旋转变换的超详细推导过程(同一坐标系)(一) 本文主要推导了二维和三维坐标系中的绕点和绕轴的旋转变换,推导过程比较详细,希望可以给大家提供一些帮助. 一.绕原点的旋转(二维) 二 ...
一文让你彻底搞懂最小二乘法（超详细推导）
要解决的问题在工程应用中,我们经常会用一组观测数据去估计模型的参数,模型是我们根据先验知识定下的.比如我们有一组观测数据(xi,yi)(x_i,y_i)(xi,yi)(一维),通过一些数据分析我 ...
为什么用样本方差估计总体方差的统计量除以n-1
1.结论 1 n ∑ i = 1 n ( X i − X ˉ ) 2 \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2 n1∑i=1n(Xi−Xˉ)2 是有偏估计 ...
样本方差是总体方差的无偏估计
总体均值 μ=1N∑xi\mu = \frac{1}{N}\sum x_iμ=N1∑xi, 总体方差 σ2=1N∑i(xi−μ)2\sigma^2 = \frac{1}{N}\sum_i (x_i ...

超详细推导样本方差和总体方差(n-1的由来)

超详细推导样本方差和总体方差(n-1的由来)相关推荐

最新文章

热门文章