样本方差分母为什么是n-1?——无偏估计
文章目录
- 1 总体方差和样本方差
- 2 方差的无偏估计
- 3 从自由度角度理解样本方差为什么除以n−1n-1n−1?
1 总体方差和样本方差
首先要分清总体和样本:
- 总体:研究对象的整个群体
比如总共10名玩家的年龄。 - 样本:总体的一个子集
比如其中5名队员玩家的年龄。
方差(Variance),衡量随机变量或一组数据离散程度的度量。根据总体和样本的区别分为总体方差和样本方差两种。
- 总体方差定义为:
σ2=∑i=1n(Xi−μ)2n\sigma^{2}=\frac{\sum_{i=1}^{n}(X_{i}-\mu)^{2}}{n} σ2=n∑i=1n(Xi−μ)2
- 样本方差被定义为:
S2=∑i=1n(Xi−xˉ)2n−1S^{2}=\frac{\sum_{i=1}^{n}(X_{i}-\bar{x})^{2}}{n-1} S2=n−1∑i=1n(Xi−xˉ)2
在实际应用中是通过在总体中取样本,用其样本均值和样本方差S2S^{2}S2来估计总体的均值σ2\sigma^{2}σ2:
S2→σ2S^{2}\rightarrow\sigma^{2} S2→σ2
但是这样会产生一个问题,这两个在什么情况下能够等价?
下面举一个例子,假设我们抽取一个样本包含三个数据点:x1,x2,x3x_{1},x_{2},x_{3}x1,x2,x3,然后我们可以计算它的方差,当然这个方差还是除以nnn意义下的方差:
S2=(x1−μ)2+(x2−μ)2+(x3−μ)23=3nμ2−2x1+x2+x33μ+x12+x22+x323\begin{aligned} S^{2} &=\frac{(x_{1}-\mu)^{2}+(x_{2}-\mu)^{2}+(x_{3}-\mu)^{2}}{3}\\ &=\frac{3}{n}\mu^{2}-2\frac{x_{1}+x_{2}+x_{3}}{3}\mu+\frac{x_{1}^{2}+x_{2}^{2}+x_{3}^{2}}{3} \end{aligned} S2=3(x1−μ)2+(x2−μ)2+(x3−μ)2=n3μ2−23x1+x2+x3μ+3x12+x22+x32
由上可见这是一个二次函数,我们可以将其画出来:
上图中,横坐标为均值μ\muμ,纵坐标为方差S2S^{2}S2。当均值在变动的时候,方差也随之变化:
方差最小的地方对应的值为:
b−2a=−2x1+x2+x33−233=xˉ\frac{b}{-2a}=\frac{-2\frac{x_{1}+x_{2}+x_{3}}{3}}{-2\frac{3}{3}}=\bar{x} −2ab=−233−23x1+x2+x3=xˉ
所以发现用样本均值算出的样本方差S2S^{2}S2是其所有可能取值的下限。所以有关系:
∑(x−xˉ)2n<∑(x−μ)2N\frac{\sum(x-\bar{x})^{2}}{n}<\frac{\sum(x-\mu)^{2}}{N} n∑(x−xˉ)2<N∑(x−μ)2
其中nnn为样本个数,NNN为总体个数,或者:
∑i=1n(Xi−Xˉ)2<∑i=1n(Xi−μ)2\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}<\sum_{i=1}^{n}(X_{i}-\mu)^{2} i=1∑n(Xi−Xˉ)2<i=1∑n(Xi−μ)2
这里需要分析一下是哪种情况??????
这会导致:
S2=∑i=1n(Xi−xˉ)2n<σ2=∑i=1n(Xi−μ)2nS^{2}=\frac{\sum_{i=1}^{n}(X_{i}-\bar{x})^{2}}{n}<\sigma^{2}=\frac{\sum_{i=1}^{n}(X_{i}-\mu)^{2}}{n} S2=n∑i=1n(Xi−xˉ)2<σ2=n∑i=1n(Xi−μ)2
所以直观来说需要调节S2S^{2}S2中的分母的大小(调小)。
2 方差的无偏估计
- 无偏估计
当我们用样本统计量来估计总体参数时,如果估计量的数学期望等于被估计参数的真实值,我们该估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。
而在这里我们就是希望:
E(S2)=σ2E(S^{2})=\sigma^{2} E(S2)=σ2
假设总体有10个数据,然后我们抽取5个数据来计算方差S12S_{1}^{2}S12,然后重复这个步骤,最终得到S12,S22,⋯,S2522S_{1}^{2},S_{2}^{2},\cdots,S_{252}^{2}S12,S22,⋯,S2522,然后我们希望:
E(Si2)=S12+S22+⋯+S2522252=σ2E(S_{i}^{2})=\frac{S_{1}^{2}+S_{2}^{2}+\cdots+S_{252}^{2}}{252}=\sigma^{2} E(Si2)=252S12+S22+⋯+S2522=σ2
即用样本的方差去估计真实的总体方差
- 公式推导
E(S2)=E(∑i=1n(Xi−xˉ)2n−1)=1n−1E(∑i=1n(Xi−xˉ)2)=1n−1E(∑i=1n((Xi−μ)+(μ−xˉ))2)=1n−1E(∑i=1n((Xi−μ)2+2(Xi−μ)(μ−xˉ)+(μ−xˉ)2))\begin{aligned} E(S^{2}) &=E\left(\frac{\sum_{i=1}^{n}(X_{i}-\bar{x})^{2}}{n-1}\right)\\ &=\frac{1}{n-1}E\left(\sum_{i=1}^{n}(X_{i}-\bar{x})^{2}\right)\\ &=\frac{1}{n-1}E\left(\sum_{i=1}^{n}((X_{i}-\mu)+(\mu-\bar{x}))^{2}\right)\\ &=\frac{1}{n-1}E\left(\sum_{i=1}^{n}\left((X_{i}-\mu)^{2}+2(X_{i}-\mu)(\mu-\bar{x})+(\mu-\bar{x})^{2}\right)\right)\\ \end{aligned} E(S2)=E(n−1∑i=1n(Xi−xˉ)2)=n−11E(i=1∑n(Xi−xˉ)2)=n−11E(i=1∑n((Xi−μ)+(μ−xˉ))2)=n−11E(i=1∑n((Xi−μ)2+2(Xi−μ)(μ−xˉ)+(μ−xˉ)2))
1)其中上式的第一项可以化简为:
σ2=∑i=1n(Xi−μ)2n→nσ2=∑i=1n(Xi−μ)2\sigma^{2}=\frac{\sum_{i=1}^{n}(X_{i}-\mu)^{2}}{n}\rightarrow n\sigma^{2}=\sum_{i=1}^{n}(X_{i}-\mu)^{2} σ2=n∑i=1n(Xi−μ)2→nσ2=i=1∑n(Xi−μ)2
由于nσ2n\sigma^{2}nσ2为常数,则:
1n−1E(∑i=1n(Xi−μ)2)=1n−1E(nσ2)=nn−1σ2\frac{1}{n-1}E\left(\sum_{i=1}^{n}(X_{i}-\mu)^{2}\right)=\frac{1}{n-1}E(n\sigma^{2})=\frac{n}{n-1}\sigma^{2} n−11E(i=1∑n(Xi−μ)2)=n−11E(nσ2)=n−1nσ2
2)前式第二项可以化简为:
1n−1E(∑i=1n2(Xi−μ)(μ−xˉ))=2n−1E((μ−xˉ)(∑i=1n(Xi−μ)))=2n−1E((μ−xˉ)(∑i=1nXi−nμ))=2n−1E((μ−xˉ)(nxˉ−nμ))=−2nn−1E((μ−xˉ)2)\begin{aligned} &\ \ \ \ \ \frac{1}{n-1}E\left(\sum_{i=1}^{n}2(X_{i}-\mu)(\mu-\bar{x})\right)\\ &=\frac{2}{n-1}E\left((\mu-\bar{x})\left(\sum_{i=1}^{n}(X_{i}-\mu)\right)\right)\\ &=\frac{2}{n-1}E\left((\mu-\bar{x})\left(\sum_{i=1}^{n}X_{i}-n\mu\right)\right)\\ &=\frac{2}{n-1}E\left((\mu-\bar{x})\left(n\bar{x}-n\mu\right)\right)\\ &=-\frac{2n}{n-1}E\left((\mu-\bar{x})^{2}\right)\\ \end{aligned} n−11E(i=1∑n2(Xi−μ)(μ−xˉ))=n−12E((μ−xˉ)(i=1∑n(Xi−μ)))=n−12E((μ−xˉ)(i=1∑nXi−nμ))=n−12E((μ−xˉ)(nxˉ−nμ))=−n−12nE((μ−xˉ)2)
3)第三项可以化简为:
1n−1E(∑i=1n(μ−xˉ)2)=nn−1E((μ−xˉ)2)\begin{aligned} &\ \ \ \ \ \frac{1}{n-1}E\left(\sum_{i=1}^{n}(\mu-\bar{x})^{2}\right)\\ &=\frac{n}{n-1}E\left((\mu-\bar{x})^{2}\right)\\ \end{aligned} n−11E(i=1∑n(μ−xˉ)2)=n−1nE((μ−xˉ)2)
4)合并第二项和第三项得:
−nn−1E((μ−xˉ)2)-\frac{n}{n-1}E\left((\mu-\bar{x})^{2}\right)\\ −n−1nE((μ−xˉ)2)
而
E((μ−xˉ)2)=E((1n∑i=1nxi−1nnμ)2)=1n2E((∑i=1nxi−nμ)2)=1n2E((∑i=1nxi−E(∑i=1nxi))2)\begin{aligned} &\ \ \ \ \ E\left((\mu-\bar{x})^{2}\right)\\ &=E\left(\left(\frac{1}{n}\sum_{i=1}^{n}x_{i}-\frac{1}{n}n\mu\right)^{2}\right)\\ &=\frac{1}{n^{2}}E\left(\left(\sum_{i=1}^{n}x_{i}-n\mu\right)^{2}\right)\\ &=\frac{1}{n^{2}}E\left(\left(\sum_{i=1}^{n}x_{i}-E\left(\sum_{i=1}^{n}x_{i}\right)\right)^{2}\right)\\ \end{aligned} E((μ−xˉ)2)=E⎝⎛(n1i=1∑nxi−n1nμ)2⎠⎞=n21E⎝⎛(i=1∑nxi−nμ)2⎠⎞=n21E⎝⎛(i=1∑nxi−E(i=1∑nxi))2⎠⎞
此时将∑i=1nxi\sum_{i=1}^{n}x_{i}∑i=1nxi看作变量,则:
E((∑i=1nxi−E(∑i=1nxi))2)=var(∑i=1nxi)E\left(\left(\sum_{i=1}^{n}x_{i}-E\left(\sum_{i=1}^{n}x_{i}\right)\right)^{2}\right)=var\left(\sum_{i=1}^{n}x_{i}\right) E⎝⎛(i=1∑nxi−E(i=1∑nxi))2⎠⎞=var(i=1∑nxi)
当xix_{i}xi之间是相互独立的时候:
var(∑i=1nxi)=∑i=1nvar(xi)var\left(\sum_{i=1}^{n}x_{i}\right)=\sum_{i=1}^{n}var\left(x_{i}\right) var(i=1∑nxi)=i=1∑nvar(xi)
所以:
E((∑i=1nxi−E(∑i=1nxi))2)=∑i=1nvar(xi)=∑i=1nσ2E\left(\left(\sum_{i=1}^{n}x_{i}-E\left(\sum_{i=1}^{n}x_{i}\right)\right)^{2}\right)=\sum_{i=1}^{n}var\left(x_{i}\right)=\sum_{i=1}^{n}\sigma^{2} E⎝⎛(i=1∑nxi−E(i=1∑nxi))2⎠⎞=i=1∑nvar(xi)=i=1∑nσ2
所以:
E((μ−xˉ)2)=1n2E((∑i=1nxi−E(∑i=1nxi))2)=1n2∑i=1nσ2=1nσ2\begin{aligned} &\ \ \ \ \ E\left((\mu-\bar{x})^{2}\right)\\ &=\frac{1}{n^{2}}E\left(\left(\sum_{i=1}^{n}x_{i}-E\left(\sum_{i=1}^{n}x_{i}\right)\right)^{2}\right)\\ &=\frac{1}{n^{2}}\sum_{i=1}^{n}\sigma^{2}\\ &=\frac{1}{n}\sigma^{2}\\ \end{aligned} E((μ−xˉ)2)=n21E⎝⎛(i=1∑nxi−E(i=1∑nxi))2⎠⎞=n21i=1∑nσ2=n1σ2
所以:
−1n−1E((μ−xˉ)2)=−nn−11nσ2=−1n−1σ2-\frac{1}{n-1}E\left((\mu-\bar{x})^{2}\right)=-\frac{n}{n-1}\frac{1}{n}\sigma^{2}=-\frac{1}{n-1}\sigma^{2} −n−11E((μ−xˉ)2)=−n−1nn1σ2=−n−11σ2
5)所以原式得:
E(S2)=nn−1σ2−1n−1σ2=σ2\begin{aligned} E(S^{2}) &=\frac{n}{n-1}\sigma^{2}-\frac{1}{n-1}\sigma^{2}\\ &=\sigma^{2} \end{aligned} E(S2)=n−1nσ2−n−11σ2=σ2
由此证毕。
3 从自由度角度理解样本方差为什么除以n−1n-1n−1?
现在从自由度的角度解释为何样本方差为什么除n−1n-1n−1。首先明确自由度的概念:自由度(degree of freedom,df)指的是计算某一统计量时,取值不受限制的变量个数,比如取三个变量x,y,zx,y,zx,y,z,然后计算平均值为x+y+z3\frac{x+y+z}{3}3x+y+z,则此时自由度为3个。但是给定约束x+y+z=10x+y+z=10x+y+z=10之后,假设x,yx,yx,y为自由变量,则此时zzz不再是自由变量,平均值的自由度降为2个。
应用在样本方差的公式中:
S2=∑i=1n(Xi−xˉ)2nS^{2}=\frac{\sum_{i=1}^{n}(X_{i}-\bar{x})^{2}}{n} S2=n∑i=1n(Xi−xˉ)2
假设抽取三个数据,其中xˉ=x1+x2+x33\bar{x}=\frac{x_{1}+x_{2}+x_{3}}{3}xˉ=3x1+x2+x3,则计算方差的公式的分母(x1−xˉ)2+(x2−xˉ)2+(x3−xˉ)2(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+(x_{3}-\bar{x})^{2}(x1−xˉ)2+(x2−xˉ)2+(x3−xˉ)2的自由度不再是3个,而应该是2个,应为当给定x1,x2x_{1},x_{2}x1,x2或者其中两项时,(x3−xˉ)2(x_{3}-\bar{x})^{2}(x3−xˉ)2已经确定了。
值得注意的是,这里样本方差分母上的自由度不再是变量的自由度,而是以(xi−xˉ)2(x_{i}-\bar{x})^{2}(xi−xˉ)2的自由度,否则的话,变量的自由度依旧为3不变!
所以当样本量为nnn的时候,计算样本方差需要除以自由度n−1n-1n−1。
统计量 | 自由度 | 公式 |
---|---|---|
样本平均数 | nnn | ∑i=1nxin\frac{\sum_{i=1}^{n}x_{i}}{n}n∑i=1nxi |
样本方差 | n−1n-1n−1 | ∑i=1n(Xi−xˉ)2n−1\frac{\sum_{i=1}^{n}(X_{i}-\bar{x})^{2}}{n-1}n−1∑i=1n(Xi−xˉ)2 |
一元回归 | n−2n-2n−2 | σ^2=∑i=1nei2n−2\hat{\sigma}^{2}=\frac{\sum_{i=1}^{n}e_{i}^{2}}{n-2}σ^2=n−2∑i=1nei2 |
多元回归 | n−k−1n-k-1n−k−1 | σ^2=∑i=1nei2n−k−1\hat{\sigma}^{2}=\frac{\sum_{i=1}^{n}e_{i}^{2}}{n-k-1}σ^2=n−k−1∑i=1nei2 |
参考资料:
样本方差为什么要除以n-1
样本方差分母为什么是n-1\自由度\无偏估计量\公式推导
样本方差分母为什么是n-1?——无偏估计相关推荐
- 总体方差与样本方差分母的小小区别,n还是n-1?
总体方差与样本方差分母的小小区别,n还是n-1? 引入 方差概念 方差计算 无偏估计 样本方差公式 相关参考链接 样本方差的自由度是n-1 引入 方差概念 方差是在概率论和统计方差衡量随机变量或一组数 ...
- 关于样本方差分母为什么是n-1理解
样本方差计算公式里分母为n-1的目的是为了让方差的估计是无偏的.无偏估计(unbiased estimator)比有偏估计(biased estimator)是更符合数学推导的.在这里最让我们困惑的地 ...
- Pytorch归一化方法讲解与实战:BatchNormalization、LayerNormalization、nn.BatchNorm1d和LayerNorm()和F.normalize()
文章目录 LayerNormalization BatchNormalization F.normalize 这些Normalization的作用都是让数据保持一个比较稳定的分布,从而加速收敛.Bat ...
- 转载:概率与梳理统计||数学基础
导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过 ...
- MLE, MAP and LSM
文章目录 1 最大似然估计法 1.1 似然函数 1.2 最大似然估计 1.3 求解步骤 1.4 Demo(高斯函数的均值和方差) 2 最大似然估计和最小二乘法的联系 3 最大后验概率估计 [补充] 最 ...
- 概率论与数理统计知识
导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过 ...
- 使用numpy和pandas计算平均值、方差、标准差
使用numpy和pandas计算平均值.方差.标准差 numpy和pandas都可以实现计算平均值.方差.标准差.但numpy默认的是总体方差,pandas默认的样本方差,即分母是n-1,是总体的无偏 ...
- 据挖掘中所需的概率论与数理统计知识
据挖掘中所需的概率论与数理统计知识 ( 关键词:微积分.概率分布.期望.方差.协方差.数理统计简史.大数定律.中心极限定理.正态分布) 导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识, ...
- 数据挖掘中所需的概率论与数理统计知识,上
http://www.cnblogs.com/v-July-v/archive/2012/12/17/3125418.html 数据挖掘中所需的概率论与数理统计知识.上 ( 关键词:微积分.概率分布. ...
最新文章
- java找图最短路径_查找有向图最短路径
- 《赢道:成功创业者的28条戒律》成都签售会魅力登场(背景)
- 正则爬取京东商品信息并打包成.exe可执行程序。
- 转:Siri之父:语音交互或将主导未来十年发展
- python中的set函数、列表的操作
- 静态链接中的那点事儿(2):C++二进制兼容性及跨平台初步
- 关于Html中jsp调用Android中方法无效的一点建议
- 拨号云服务器怎么自动配置网关_如何解决路由器静态IP+PPPoE拨号双链路负载分担问题...
- u盘 linux centos 5.3,鸟哥linux私房菜学习笔记,U盘安装centos5.3不能正常进入图形界面的问题...
- Markdown--表格语法
- 关于秩的等式与不等式总结
- 文件系统 和 网络附接存储(NAS: Network Attached Storage)
- hive建表设置如果为null_hive建表语句
- Ogre 正常初始化(0xc0150002)失败 解决办法
- mysql添加字段 说明_MYSQL数据库MSSQL 添加字段说明
- 分布式服务架构原理、设计
- 生活中的设计模式之状态(State)模式
- 深度摄像头linux环境下,嵌入式Linux环境下USB摄像头应用程序设计.pdf
- 可用NVI模式替换virtual函数继承方式
- 曝光的原理 自动曝光
热门文章
- gif动图制作软件下载(ScreenToGif)
- 百度 android 市场,百度
- Flutter 小技巧之 3.7 性能优化background isolate
- Firefox Chrome访问6666 556 6667 87等特定端口
- 各大搜索引擎提交入口(百度,谷歌,雅虎...)
- jQuery基础知识整理
- 【就业必备知识】大学毕业如何处理档案和户口,小心变成死档和黑户
- 智能卡操作(非接触CPU卡又称智能卡) 总结
- 计算机科学主题 一亩三分地 考试 中心 满分95大米 (只适用于2019年 之后注册的新人) 答案
- ARM嵌入式linux培训班视频 全集