按照直观的理解,在给定一系列样本值的时候,计算样本均值和样本方差所除以的应该是样本数nnn,而事实上我们计算样本均值的时候是除以nnn,计算样本方差的时候是除以n−1n-1n−1. 这个反直觉的计算公式曾一度令我困惑不已,好在接触到数理统计课程,终于使我醍醐灌顶. 于是我结合[1, 2, 3]的相关部分,以初学者的角度学习并总结成此文,希望能为有类似困惑的同学提供参考. 因本人水平有限,文章难免有不足之处,烦请读者指出,联系方式:penguinpi@163.com.

目录

  • 样本均值与样本方差
  • 估计量的无偏性
  • 自由度的一种解释
  • 总结
  • 参考文献

样本均值与样本方差

对于给定的若干个样本X1,X2,⋯,XnX_1, X_2, \cdots, X_nX1​,X2​,⋯,Xn​,假设它们是独立同分布的,且对于每个Xi(i=1,2,⋯,n)X_i(i = 1, 2, \cdots, n)Xi​(i=1,2,⋯,n),其均值为μ\muμ,方差为σ2\sigma^2σ2. 当我们不确定μ\muμ和σ2\sigma^2σ2的具体值的时候,我们希望通过这nnn个样本来计算样本均值MnM_nMn​和样本方差Sn2S_n^2Sn2​,并尽可能地逼近真实值. 根据均值和方差的概念,直观上我们会这样计算样本均值和样本方差:
Mn=X1+X2+⋯+Xnn,Sn2=∑i=1n(Xi−Mn)2n.M_n = \frac{X_1 + X_2 + \cdots + X_n}{n},\\ S_n^2 = \frac{\sum_{i=1}^{n}\left(X_i - M_n\right)^2}{n}. Mn​=nX1​+X2​+⋯+Xn​​,Sn2​=n∑i=1n​(Xi​−Mn​)2​.
然而,与直觉相违背的是,把样本方差定义为Sn2S_n^2Sn2​并不是最佳方案,更优的样本方差定义应该是将分母的nnn改为n−1n-1n−1,这里我们记作S^n2\hat{S}_n^2S^n2​,即
S^n2=∑i=1n(Xi−Mn)2n−1,\hat{S}_n^2 = \frac{\sum_{i=1}^{n}\left(X_i - M_n\right)^2}{n - 1}, S^n2​=n−1∑i=1n​(Xi​−Mn​)2​,
我的困惑正是从这个n−1n-1n−1开始. 好在我们可以从理论上讨论Sn2S_n^2Sn2​和S^n2\hat{S}_n^2S^n2​分别回归到什么值,由此分析修改前后带来的影响,从而理解为什么作此修改. 换句话说,我们可以对两种不同方式定义的样本方差求期望,以检验到底哪一个更加合适. 不妨先看看直观定义的样本方差的期望
E[Sn2]=E[∑i=1n(Xi−Mn)2n]=E[∑i=1n(Xi−Mn)2]n=E[∑i=1n(Xi2−2XiMn+Mn2)]n=E[∑i=1nXi2−2nMn2+nMn2]n=∑i=1nE[Xi2]−nE[Mn2]n=nE[Xi2]−nE[Mn2]n=E[Xi2]−E[Mn2],\begin{aligned} E[S_n^2] & = E\left[\frac{\sum_{i=1}^{n}(X_i - M_n)^2}{n}\right]\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i - M_n)^2\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i^2 - 2X_iM_n + M_n^2)\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}X_i^2 - 2nM_n^2 + nM_n^2\right]}{n}\\ & = \frac{\sum_{i=1}^{n}E[X_i^2] - nE[M_n^2]}{n}\\ & = \frac{nE[X_i^2] - nE[M_n^2]}{n}\\ & = E[X_i^2] - E[M_n^2], \end{aligned} E[Sn2​]​=E[n∑i=1n​(Xi​−Mn​)2​]=nE[∑i=1n​(Xi​−Mn​)2]​=nE[∑i=1n​(Xi2​−2Xi​Mn​+Mn2​)]​=nE[∑i=1n​Xi2​−2nMn2​+nMn2​]​=n∑i=1n​E[Xi2​]−nE[Mn2​]​=nnE[Xi2​]−nE[Mn2​]​=E[Xi2​]−E[Mn2​],​
根据随机变量的方差与矩的关系,有
var(X)=E[X2]−(E[X])2,var(X) = E[X^2] - (E[X])^2, var(X)=E[X2]−(E[X])2,
且样本均值MnM_nMn​满足
E[Mn]=E[X1+X2+⋯+Xnn]=E[X1]+E[X2]+⋯+E[Xn]n=nμn=μ,var(Mn)=var(X1+X2+⋯+Xnn)=var(X1)+var(X2)+⋯+var(Xn)n2=nσ2n2=σ2n,E[M_n] = E\left[\frac{X_1 + X_2 + \cdots + X_n}{n}\right] = \frac{E[X_1] + E[X_2] + \cdots + E[X_n]}{n} = \frac{n\mu}{n} = \mu,\\ var(M_n) = var\left(\frac{X_1 + X_2 + \cdots + X_n}{n}\right) = \frac{var(X_1) + var(X_2) + \cdots + var(X_n)}{n^2} = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}, E[Mn​]=E[nX1​+X2​+⋯+Xn​​]=nE[X1​]+E[X2​]+⋯+E[Xn​]​=nnμ​=μ,var(Mn​)=var(nX1​+X2​+⋯+Xn​​)=n2var(X1​)+var(X2​)+⋯+var(Xn​)​=n2nσ2​=nσ2​,
所以
E[Sn2]=(var(Xi)+(E[Xi])2)−(var(Mn)+(E[Mn])2)=(σ2+μ2)−(σ2n+μ2)=n−1nσ2.\begin{aligned} E[S_n^2] & = \left(var(X_i) + \left(E[X_i]\right)^2\right) - \left(var(M_n) + \left(E[M_n]\right)^2\right)\\ & = \left(\sigma^2 + \mu^2\right) - \left(\frac{\sigma^2}{n} + \mu^2\right)\\ & = \frac{n-1}{n}\sigma^2. \end{aligned} E[Sn2​]​=(var(Xi​)+(E[Xi​])2)−(var(Mn​)+(E[Mn​])2)=(σ2+μ2)−(nσ2​+μ2)=nn−1​σ2.​
果然,按照我们直觉定义出来的样本方差Sn2S_n^2Sn2​是不会回归到真实方差σ2\sigma^2σ2的,其存在一定的偏差,尽管在样本数nnn非常大的时候能忽略这个偏差. 不过我们很容易就可以避免这个理论上的偏差,只需要在上式两边同乘系数n/(n−1)n / (n-1)n/(n−1),等式的右边仅有σ2\sigma^2σ2,等式左边正是修改后的样本方差S^n2\hat{S}_n^2S^n2​.

与其说是计算公式,不如说是在直觉的基础上,根据理论推敲稍作修改得到的定义. 事实上,数学的定义并非天然形成,而是经过反复的推敲和修改,才得以成形.

估计量的无偏性

若我们进一步思考,所谓样本均值MnM_nMn​,不过是将一系列的随机变量X1,X2,⋯,XnX_1, X_2, \cdots, X_nX1​,X2​,⋯,Xn​经过简单的加和求平均得到的,即从一些已知的随机变量通过一个映射得到的一个新的随机变量,我们将这个新的随机变量称作估计量,如果其具有统计意义,也称作统计量. 对于估计量,我们当然希望它越准确越好,也就是希望估计量能回归真实值,此时我们称这样的估计量是无偏的. 下面以MnM_nMn​简单介绍估计量的相关术语[1].

  • 估计量的期望值依赖于真实的参数,即E[Mn]E[M_n]E[Mn​](也记作Eμ[Mn]E_\mu[M_n]Eμ​[Mn​])依赖于真实的μ\muμ.
  • 若Eμ[Mn]=μE_\mu[M_n] = \muEμ​[Mn​]=μ对于μ\muμ所有可能的取值都成立,则称MnM_nMn​无偏.
  • 若lim⁡n→∞Eμ[Mn]=μ\lim_{n\to\infty}E_\mu[M_n] = \mulimn→∞​Eμ​[Mn​]=μ对于μ\muμ所有可能的取值都成立,则称MnM_nMn​渐近无偏.

显然,MnM_nMn​是无偏的,而直觉定义的Sn2S_n^2Sn2​是渐进无偏的,经修改后的S^n2\hat{S}_n^2S^n2​是无偏的. 无偏并不意味着估计量在任何时候都能给出正确无误的估计,而是在大量次数使用该估计量并取平均时,能以十足的把握无限逼近被估计的量. 如果没有无偏性,则无论使用多少次该估计量,其平均也会与真实值保持一定距离——这个距离就是系统误差[2]. 由此可见将S^n2\hat{S}_n^2S^n2​定义为样本方差是多么明智的选择.

自由度的一种解释

通过前两节的讨论,我们对分母n−1n-1n−1的来龙去脉已经非常清楚了,但这究竟是巧合还是具有一定规律的呢?或许牵扯到自由度的概念,茆诗松老先生等人在书[3]中对自由度的概念最初是这么引入的

χ2(n)\chi^2(n)χ2(n)分布中的参数nnn就体现在:nnn是独立的标准正态变量的个数,因此人们称这个参数nnn为自由度.

而陈希孺老先生在书[2]中证明S^n2\hat{S}_n^2S^n2​的无偏性之后这样解释道

在这里我们还可以对“自由度”这个概念赋予另一种解释:一共有nnn个样本,有nnn个自由度. 用S2S^2S2估计方差σ2\sigma^2σ2,自由度本应为nnn. 但总体均值μ\muμ也未知,用MnM_nMn​去估计,用掉了一个自由度,故只剩下n−1n-1n−1个自由度.

乍一看是比较抽象的,不妨再回顾我们是如何计算样本均值和样本方差的
{Mn=X1+X2+⋯+XnnS^n2=∑i=1n(Xi−Mn)2n−1,\left\{\begin{aligned} M_n & = \frac{X_1 + X_2 + \cdots + X_n}{n}\\ \hat{S}_n^2 & = \frac{\sum_{i=1}^{n}(X_i - M_n)^2}{n - 1} \end{aligned}\right., ⎩⎪⎪⎨⎪⎪⎧​Mn​S^n2​​=nX1​+X2​+⋯+Xn​​=n−1∑i=1n​(Xi​−Mn​)2​​,
就像解方程组一样,我们先用一系列的样本“定住”了MnM_nMn​才得以计算Sn2S_n^2Sn2​,而换个角度看,这一系列的样本Xi(i=1,2,⋯,n)X_i(i= 1, 2, \cdots, n)Xi​(i=1,2,⋯,n)也同样被MnM_nMn​给限制住了. 也就是在已知MnM_nMn​和n−1n-1n−1个样本值的情况下,剩余的111个样本值已经被确定了. 由此自由度衰减为n−1n-1n−1.

那么是不是当我们已知具体的μ\muμ,就不必用这些样本估计MnM_nMn​,进而不必用MnM_nMn​计算Sn2S_n^2Sn2​,最终不会丢掉这个自由度,即可以用Sn2S_n^2Sn2​作为真实方差σ2\sigma^2σ2的无偏估计量呢?答案是肯定的,如下
E[Sn2]=E[∑i=1n(Xi−μ)2n]=E[∑i=1n(Xi2−2Xiμ+μ2)]n=E[∑i=1nXi2−2nMnμ+nμ2]n=∑i=1nE[Xi2]−2nμE[Mn]+nμ2n=n(var(Xi)+(E[Xi])2)−2nμ2+nμ2n=nσ2+nμ2−2nμ2+nμ2n=σ2.\begin{aligned} E[S_n^2] & = E\left[\frac{\sum_{i=1}^{n}(X_i - \mu)^2}{n}\right]\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i^2 - 2 X_i \mu + \mu^2)\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}X_i^2 - 2 n M_n \mu + n \mu^2\right]}{n}\\ & = \frac{\sum_{i=1}^{n}E[X_i^2] - 2 n \mu E[M_n] + n \mu^2}{n}\\ & = \frac{n\left(var(X_i) + \left(E[X_i]\right)^2\right) - 2 n \mu^2 + n \mu^2}{n}\\ & = \frac{n \sigma^2 + n \mu^2 - 2 n \mu^2 + n \mu^2}{n}\\ & = \sigma^2. \end{aligned} E[Sn2​]​=E[n∑i=1n​(Xi​−μ)2​]=nE[∑i=1n​(Xi2​−2Xi​μ+μ2)]​=nE[∑i=1n​Xi2​−2nMn​μ+nμ2]​=n∑i=1n​E[Xi2​]−2nμE[Mn​]+nμ2​=nn(var(Xi​)+(E[Xi​])2)−2nμ2+nμ2​=nnσ2+nμ2−2nμ2+nμ2​=σ2.​

故此时Sn2S_n^2Sn2​是一个无偏估计. 通过对自由度的理解,我们能够建立更好的数学直觉,判断出何时为n−1n-1n−1,何时为nnn,甚至n+1n+1n+1. 尽管严谨的证明不能只依赖于数学直觉,但对我们学习更多的估计量(统计量)以及推断它们的性质是大有脾益的.

总结

我们从样本均值和样本方差的计算公式为切入点,探究其为何会如此定义,之后更一般地介绍了估计量与无偏性,明确样本方差定义之优是因为修改后的样本均值是无偏的估计量,最后从自由度的角度再次思考分母n−1n-1n−1的含义,有助于培养我们的数学直觉,更好地通过自由度理解其他复杂估计量(统计量)的系数.

参考文献

[1] [美]伯特瑟卡斯(Bertsekas, D. P.), [美]齐齐克利斯(Tsitsiklis, J. N.). 概率导论[M]. 郑忠国, 童行伟译. 北京:人民邮电出版社, 2016.
[2] 陈希孺. 概率论与数理统计[M]. 合肥:中国科学技术大学出版社, 2009.
[3] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计[M]. 北京:高等教育出版社, 2019.

【浅谈】样本方差的分母“n”为什么要改为“n-1”相关推荐

  1. java的throw_浅谈Java的throw与throws

    浅谈Java异常 以前虽然知道一些异常的处理,也用过一些,但是对throw和throws区别还是有不太清楚.今天用实例测试一下 异常处理机制 异常处理是对可能出现的异常进行处理,以防止程序遇到异常时被 ...

  2. python读取json数据格式问题_浅谈Python中的异常和JSON读写数据的实现

    异常可以防止出现一些不友好的信息返回给用户,有助于提升程序的可用性,在java中通过try ... catch ... finally来处理异常,在Python中通过try ... except .. ...

  3. 机器学习 —— 浅谈贝叶斯和MCMC

    ‍‍Abstract:最近课业内的任务不是很多,又临近暑假了,就在网上搜了一些有关于机器学习和深度学习的课程进行学习.网上的资料非常繁多,很难甄别,我也是货比三家进行学习.这是这个系列的第一个笔记,是 ...

  4. 浅谈MaxCompute资源规划管理及评估

    简介: 本文主要介绍如何进行MaxCompute存储资源和计算资源的评估及规划管理. 一.MaxCompute资源规划背景介绍 MaxCompute资源主要有两类:存储资源.计算资源(包含cpu和内存 ...

  5. java编译异常和运行时异常_浅谈异常结构图、编译期异常和运行期异常的区别...

    异常处理一般有2种方式,要么捕获异常try-catch,要么抛出异常throws 如果一个方法后面抛出一个运行时期异常(throws RuntimeException),调用者无须处理 如果一个方法后 ...

  6. 机器学习:浅谈先验概率,后验概率

    机器学习:浅谈先验概率,后验概率 在学习贝叶斯网络模型的时候,接触到好多比较麻烦的概念,今天又复习了一下,就写一下笔记,用来巩固一下. 主题模型LDA算法是自PLSA之后一个重大提升.PLSA的mod ...

  7. 深度学习 | BN层原理浅谈

    深度学习 | BN层原理浅谈 文章目录 深度学习 | BN层原理浅谈 一. 背景 二. BN层作用 三. 计算原理 四. 注意事项 为什么BN层一般用在线性层和卷积层的后面,而不是放在激活函数后 为什 ...

  8. 利息浅谈(三)——定期存款利息的秘密

    上期文章中,我们谈到了存贷款业务中的五要素模型,其核心自然是利息和利率,但计息方式/周期,支取周期和到期时间这些因素同样关键,相关内容回顾请戳: 利息浅谈(二)--利息到底是怎么算的? 利息浅谈(一) ...

  9. 浅谈估值模型:PB指标与剩余收益估值

    摘要及声明 1:本文简单介绍PB指标的推导以及剩余收益的估值方式: 2:本文主要为理念的讲解,模型也是笔者自建,文中假设与观点是基于笔者对模型及数据的一孔之见,若有不同见解欢迎随时留言交流: 3:笔者 ...

  10. 泰勒公式浅谈原理(转) ----- 深度好文, 一点是如何蕴含整个世界

    泰勒公式浅谈原理(转) 上周写完了<<三体>读后思考-泰勒展开/维度打击/黑暗森林>后收到一些邮件,进一步思考了关于泰勒展开的意义.也许我掌握的那些网络技术比如Linux Ne ...

最新文章

  1. 迪杰斯特拉算法——PAT 1003
  2. [云炬创业学笔记]第一章创业是什么测试5
  3. 【机器学习】线性回归之梯度下降、多元线性回归概述
  4. 移动端适配的几种解决办法
  5. getSystemService
  6. Android开发问题集锦-Button初始为disable状态时自定义的selector不生效问题
  7. 金秋10月丰收季,送3本Java书New一个秋天的对象
  8. 吴恩达教授机器学习笔记【一】- 线性回归(2)
  9. springMVC接受括号乱码
  10. 目标管理 - SMART原则
  11. html5在线画板菱形怎么画,HTML5 Canvas 制作一个“在线画板”
  12. 网络流量在线分析系统的设计与实现
  13. zblog实现评论显示IP归属地方法
  14. 非服务器模式下运行getImageData函数出现 the operation is insecure
  15. 【致远FAQ】致远OA宕机之内存溢出
  16. Android 替换应用内so文件避免每次都要重新打包的麻烦
  17. 2023最新可用QQ机器人框架整理
  18. JVM垃圾回收器-G1垃圾收集器
  19. 建立桌面文件管理格子_告别混乱!5分钟get电脑桌面整理术!
  20. Mac OS系统进不去,重装也不行,只能抹盘安装,Espionage的加密文件如何救出?

热门文章

  1. lego ev3 c语言编程,乐高 EV3 高级编程 – 第一课:安装
  2. 阿里云运行python_使用阿里云运行python
  3. Python线程安全的单例模式
  4. 深度学习caffe教程
  5. 阿里矢量库的图标使用教程(在线,下载)
  6. python pywin32模块详解_python模块win32com用法详解
  7. 软件观念革命:交互设计精髓_交互的学习与应用指南
  8. 计算机专业搜题软件免费,QuestionHelper(pc搜题工具)
  9. 在知乎上被100万人推荐的黑科技网站,究竟有何神奇之处?
  10. C# Winform开发人脸识别小程序 (基于百度接口)