样本方差递推公式

  • 起源
  • 异变
  • 本源
    • 样本均值
    • 样本方差
  • 天演
  • 千古

起源

对于来自同一总体的随机样本 X1,X2,⋯,Xn−1X_1,X_2,\cdots,X_{n-1}X1​,X2​,⋯,Xn−1​,我们能够轻易地算出这个样本下的两个统计量:样本均值以及样本方差

此时,样本均值为:Xˉn−1=1n−1∑i=1n−1Xi\bar X_{n-1}=\cfrac{1}{n-1}\sum_{i=1}^{n-1}X_iXˉn−1​=n−11​∑i=1n−1​Xi​
样本方差为:Sn−12=1n−2∑i=1n−1(Xi−Xˉn−1)2S_{n-1}^2=\cfrac{1}{n-2}\sum_{i=1}^{n-1}(X_i-\bar X_{n-1})^2Sn−12​=n−21​∑i=1n−1​(Xi​−Xˉn−1​)2

*[样本均值/样本方差]:应当注意的是此处样本均值和样本方差是随机变量而非一个固定的数。因为各个XiX_iXi​都是随机变量,样本均值样本方差都是随机变量的函数,因此都是随机变量了。

异变

人类只要还活着,就必须向前进,不要停下来啊!

——沃·斯基硕德

当抽了n-1个样本之后,不满足的人类在同样的总体中,再次使用随机抽样的方法抽得一个新的样本:XnX_nXn​。

由于样本Xn是遵循随机抽样的原则抽出的样本。因此X1,…,Xn互相独立。并且都同分布于总体的分布。

于是,一个有吸引力的问题诞生了:新抽取的样本,会怎样改变样本均值和样本方差呢?

我们知道,再次抽取了一个样本后:
样本均值变为:Xˉn=1n∑i=1nXi\bar X_{n}=\cfrac{1}{n}\sum_{i=1}^{n}X_iXˉn​=n1​∑i=1n​Xi​
样本方差变为:Sn2=1n−1∑i=1n(Xi−Xˉn)2S_{n}^2=\cfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X_{n})^2Sn2​=n−11​∑i=1n​(Xi​−Xˉn​)2

本源

样本均值

对于增加样本之后的样本均值,我们进行适当的展开:
Xˉn=1n(∑i=1n−1Xi+Xn)=n−1nXˉn−1+1nXn(1.1)\bar X_n=\cfrac{1}{n}(\sum_{i=1}^{n-1}X_i+X_n)=\cfrac{n-1}{n}\bar X_{n-1}+\cfrac{1}{n}X_n \tag{1.1}Xˉn​=n1​(i=1∑n−1​Xi​+Xn​)=nn−1​Xˉn−1​+n1​Xn​(1.1)

由于只考虑样本均值的变化,我只希望出现Xˉn−1\bar X_{n-1}Xˉn−1​以及Xˉn\bar X_nXˉn​。不希望出现XnX_nXn​。于是我们对上述公式进行变换:

Xn=nXˉn−(n−1)Xˉn−1(1.2)X_n=n\bar X_n-(n-1)\bar X_{n-1} \tag{1.2}Xn​=nXˉn​−(n−1)Xˉn−1​(1.2)

样本方差

由于样本方差的计算需要借助样本均值,所以有了(1.2)式之后,我们就能更好地观察增加一个样本对于方差的改变了。

在这里,使用一个统计学推导过程中经常能用到的小技巧:

Sn2=1n−1∑i=1n(Xi−Xˉn)2=1n−1∑i=1n[(Xi−Xˉn−1)+(Xˉn−1−Xˉn)]2S_n^2=\cfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X_{n})^2 \\ =\cfrac{1}{n-1}\sum_{i=1}^{n}[(X_i-\bar X_{n-1})+(\bar X_{n-1}-\bar X_n)]^2Sn2​=n−11​i=1∑n​(Xi​−Xˉn​)2=n−11​i=1∑n​[(Xi​−Xˉn−1​)+(Xˉn−1​−Xˉn​)]2

通过加一项减一项,我们成功地把样本方差与改变前后的样本均值联系起来。
为了表述方便,我们把分数移到等式另一边,并做展开:

(n−1)Sn2=∑i=1n[(Xi−Xˉn−1)2+2(Xi−Xˉn−1)(Xˉn−1−Xˉn)+(Xˉn−1−Xˉn)2](n-1)S_n^2=\sum_{i=1}^n[(X_i-\bar X_{n-1})^2+2(X_i-\bar X_{n-1})(\bar X_{n-1}-\bar X_n)\\+(\bar X_{n-1}-\bar X_n)^2](n−1)Sn2​=i=1∑n​[(Xi​−Xˉn−1​)2+2(Xi​−Xˉn−1​)(Xˉn−1​−Xˉn​)+(Xˉn−1​−Xˉn​)2]

分配加和号:

(n−1)Sn2=∑i=1n(Xi−Xˉn−1)2+2∑i=1n(Xi−Xˉn−1)(Xˉn−1−Xˉn)+∑i=1n(Xˉn−1−Xˉn)2(2.0)(n-1)S_n^2=\sum_{i=1}^n(X_i-\bar X_{n-1})^2+2\sum_{i=1}^n(X_i-\bar X_{n-1})(\bar X_{n-1}-\bar X_n)\\+\sum_{i=1}^n(\bar X_{n-1}-\bar X_n)^2 \tag{2.0}(n−1)Sn2​=i=1∑n​(Xi​−Xˉn−1​)2+2i=1∑n​(Xi​−Xˉn−1​)(Xˉn−1​−Xˉn​)+i=1∑n​(Xˉn−1​−Xˉn​)2(2.0)

  • 对于展开式的第一项,我们做如下处理:
    ∑i=1n(Xi−Xˉn−1)2=∑i=1n−1(Xi−Xˉn−1)2+(Xn−Xˉn−1)2\sum_{i=1}^n(X_i-\bar X_{n-1})^2=\sum_{i=1}^{n-1}(X_i-\bar X_{n-1})^2+(X_n-\bar X_{n-1})^2i=1∑n​(Xi​−Xˉn−1​)2=i=1∑n−1​(Xi​−Xˉn−1​)2+(Xn​−Xˉn−1​)2
    带入变换前的样本方差:
    ∑i=1n(Xi−Xˉn−1)2=(n−2)Sn−12+(Xn−Xˉn−1)2(2.1)\sum_{i=1}^n(X_i-\bar X_{n-1})^2=(n-2)S_{n-1}^2+(X_n-\bar X_{n-1})^2 \tag{2.1}i=1∑n​(Xi​−Xˉn−1​)2=(n−2)Sn−12​+(Xn​−Xˉn−1​)2(2.1)

  • 观察中间的交叉项,由于Xˉn−1−Xˉn\bar X_{n-1}-\bar X_nXˉn−1​−Xˉn​与计数器iii没有关系,所以可以当做常数提出来:

2∑i=1n(Xi−Xˉn−1)(Xˉn−1−Xˉn)=2(Xˉn−1−Xˉn)∑i=1n(Xi−Xˉn−1)=2(Xˉn−1−Xˉn)[∑i=1n−1(Xi−Xˉn−1)+(Xn−Xˉn−1)]2\sum_{i=1}^n(X_i-\bar X_{n-1})(\bar X_{n-1}-\bar X_n)=2(\bar X_{n-1}-\bar X_n)\sum_{i=1}^n(X_i-\bar X_{n-1})\\=2(\bar X_{n-1}-\bar X_n)[\sum_{i=1}^{n-1}(X_i-\bar X_{n-1})+(X_n-\bar X_{n-1})]2i=1∑n​(Xi​−Xˉn−1​)(Xˉn−1​−Xˉn​)=2(Xˉn−1​−Xˉn​)i=1∑n​(Xi​−Xˉn−1​)=2(Xˉn−1​−Xˉn​)[i=1∑n−1​(Xi​−Xˉn−1​)+(Xn​−Xˉn−1​)]

我们把∑i=1n−1(Xi−Xˉn−1)\sum_{i=1}^{n-1}(X_i-\bar X_{n-1})∑i=1n−1​(Xi​−Xˉn−1​)展开为:∑i=1n−1Xi−(n−1)Xˉn−1=(n−1)Xˉn−1−(n−1)Xˉn−1=0\sum_{i=1}^{n-1}X_i-(n-1)\bar X_{n-1}=(n-1)\bar X_{n-1}-(n-1)\bar X_{n-1}=0∑i=1n−1​Xi​−(n−1)Xˉn−1​=(n−1)Xˉn−1​−(n−1)Xˉn−1​=0。带回上式:

2∑i=1n(Xi−Xˉn−1)(Xˉn−1−Xˉn)=2(Xˉn−1−Xˉn)(Xn−Xˉn−1)2\sum_{i=1}^n(X_i-\bar X_{n-1})(\bar X_{n-1}-\bar X_n)=2(\bar X_{n-1}-\bar X_n)(X_n-\bar X_{n-1})2i=1∑n​(Xi​−Xˉn−1​)(Xˉn−1​−Xˉn​)=2(Xˉn−1​−Xˉn​)(Xn​−Xˉn−1​)

本来挺优美的一个式子,因为XnX_nXn​的捣乱不美观了,所幸我们在本源篇的开篇有一个(1.2)式,能够消掉Xn,保留我们大家都喜爱的Xˉn−1,Xˉn\bar X_{n-1},\bar X_nXˉn−1​,Xˉn​。

2∑i=1n(Xi−Xˉn−1)(Xˉn−1−Xˉn)=2(Xˉn−1−Xˉn)[nXˉn−(n−1)Xˉn−1−Xˉn−1]=2n(Xˉn−1−Xˉn)(Xˉn−Xˉn−1)2\sum_{i=1}^n(X_i-\bar X_{n-1})(\bar X_{n-1}-\bar X_n)\\=2(\bar X_{n-1}-\bar X_n)[n\bar X_n-(n-1)\bar X_{n-1}-\bar X_{n-1}] \\=2n(\bar X_{n-1}-\bar X_n)(\bar X_{n}-\bar X_{n-1})2i=1∑n​(Xi​−Xˉn−1​)(Xˉn−1​−Xˉn​)=2(Xˉn−1​−Xˉn​)[nXˉn​−(n−1)Xˉn−1​−Xˉn−1​]=2n(Xˉn−1​−Xˉn​)(Xˉn​−Xˉn−1​)

于是得到:

2∑i=1n(Xi−Xˉn−1)(Xˉn−1−Xˉn)=−2n(Xˉn−1−Xˉn)2(2.2)2\sum_{i=1}^n(X_i-\bar X_{n-1})(\bar X_{n-1}-\bar X_n)=-2n(\bar X_{n-1}-\bar X_n)^2 \tag{2.2}2i=1∑n​(Xi​−Xˉn−1​)(Xˉn−1​−Xˉn​)=−2n(Xˉn−1​−Xˉn​)2(2.2)

  • 最后一项,加和号里的式子和计数器完全无关,得到:
    ∑i=1n(Xˉn−1−Xˉn)2=n(Xˉn−1−Xˉn)2(2.3)\sum_{i=1}^n(\bar X_{n-1}-\bar X_n)^2=n(\bar X_{n-1}-\bar X_n)^2 \tag{2.3}i=1∑n​(Xˉn−1​−Xˉn​)2=n(Xˉn−1​−Xˉn​)2(2.3)

将(2.1),(2.2),(2.3)带回到(2.0)
有:
(n−1)Sn2=(n−2)Sn−12+(Xn−Xˉn−1)2−2n(Xˉn−1−Xˉn)2+n(Xˉn−1−Xˉn)2(n-1)S_n^2=(n-2)S_{n-1}^2+(X_n-\bar X_{n-1})^2 -2n(\bar X_{n-1}-\bar X_n)^2\\+n(\bar X_{n-1}-\bar X_n)^2 (n−1)Sn2​=(n−2)Sn−12​+(Xn​−Xˉn−1​)2−2n(Xˉn−1​−Xˉn​)2+n(Xˉn−1​−Xˉn​)2

进一步使用(1.2),划去Xn:

(n−1)Sn2=(n−2)Sn−12+(n2−n)(Xˉn−1−Xˉn)2(§1)(n-1)S_n^2=(n-2)S_{n-1}^2+(n^2-n)(\bar X_{n-1}-\bar X_n)^2\tag{\S1}(n−1)Sn2​=(n−2)Sn−12​+(n2−n)(Xˉn−1​−Xˉn​)2(§1)

天演

但是考虑实际时,我们在一次抽样后,算得Xˉn−1,Sn−12\bar X_{n-1},S_{n-1}^2Xˉn−1​,Sn−12​之后,在进行一次抽样,得到了XnX_nXn​。

如果按照上式的式子,要计算多抽一个样本之后的样本方差时,还得计算一次Xˉn\bar X_nXˉn​,这增加了计算量。

如果能用Xˉn−1,Sn−12,Xn\bar X_{n-1},S_{n-1}^2,X_nXˉn−1​,Sn−12​,Xn​来表达Sn2S_n^2Sn2​,那么一旦抽出一个新的样本,我们就可以立马根据过去的信息推断出新的样本方差,这看上去无疑更具吸引力。

于是根据(1.1)式,就有:

(n−1)Sn2=(n−2)Sn−12+n−1n(Xn−Xˉn−1)2(§2)(n-1)S_n^2=(n-2)S_{n-1}^2+\cfrac{n-1}{n}(X_n-\bar X_{n-1})^2 \tag{\S2}(n−1)Sn2​=(n−2)Sn−12​+nn−1​(Xn​−Xˉn−1​)2(§2)

千古

某位前辈通过努力得到了上式,留给千古之后的后人的东西,就是挖掘他的价值。上式作用有二:

  • 一在于可以通过新抽样的值立马算出新的样本方差,这一点与矩阵求逆的Sherman-Morrison公式有异曲同工之妙。
  • 二在于把样本方差表述为一个与自然数n一一对应的数列。这样涉及某些与样本方差相关的结论证明是时,可以通过该递推公式使用数学归纳法。

样本方差递推公式的推导及其意义浅说相关推荐

  1. 贝叶斯公式推导及意义

    条件概率公式 设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为: P(A|B)=P(AB)/P(B) 乘法公式 ...

  2. 错排的递推公式及推导

    嘻嘻~~~刚用电脑的Photoshop做出来         f(n)=(n-1)*(f(n-2)+f(n-1)); 颜书先生<"装错信封问题"的数学模型与求解>一文( ...

  3. 矩阵的相似推导及其意义

    前言   这篇文章从上一篇文章李宏毅<Linear Algebra>学习笔记中单摘出来的一部分,由于上一篇篇幅较长,所以单拿出来记录在这里.   本文从坐标系 → 函数在不同坐标系的不同表 ...

  4. 均值方差递推公式推导 + 求取两组数据合并后的均值和方差

    文章目录 一.均值方差递推公式推导 1.递推公式 2.均值递推公式推导 3.方差递推公式推导 4.RMSE 方递推公式推导 二.求取两组数据合并后的均值和方差 一.均值方差递推公式推导 在计算机处理一 ...

  5. 总体方差与样本方差分母的小小区别,n还是n-1?

    总体方差与样本方差分母的小小区别,n还是n-1? 引入 方差概念 方差计算 无偏估计 样本方差公式 相关参考链接 样本方差的自由度是n-1 引入 方差概念 方差是在概率论和统计方差衡量随机变量或一组数 ...

  6. 第十一届蓝桥杯国赛题目题解

    试题 A: 美丽的 2 [问题描述]   小蓝特别喜欢 2,今年是公元 2020 年,他特别高兴.他很好奇,在公元 1 年到公元 2020 年(包含)中,有多少个年份的数位中包含数字 2? 题解    ...

  7. 思维导图整理大厂面试高频数组23: 股票问题大总结, 彻底搞懂股票问题

    此专栏文章是对力扣上算法题目各种方法的总结和归纳, 整理出最重要的思路和知识重点并以思维导图形式呈现, 当然也会加上我对导图的详解. 目的是为了更方便快捷的记忆和回忆算法重点(不用每次都重复看题解), ...

  8. 不使用数学函数开方运算的情况下,求解开方运算

    1 二分法 浮点开方也就是给定一个浮点数x,求.这个简单的问题有很多解,我们从最简单最容易想到的二分开始讲起.利用二分进行开平方的思想很简单,就是假定中值为最终解.假定下限为0,上限为x,然后求中值: ...

  9. 学习笔记之——VIO与VINS-Mono

    本博文为本人学习VIO与VINS的学习笔记,部分内容来源于网上的资料,文末给出参考.本博文仅仅为本人学习记录用,不作任何商业用途~ 先给出复现的demo 视觉惯导紧融合VINS-Mono的复现 目录 ...

最新文章

  1. vs code linux opencv,ubuntu+vscode 测试运行opencv
  2. 移动硬盘函数不正确要如何寻回资料
  3. [Project Euler] 来做欧拉项目练习题吧: 题目017
  4. rust 睡袋怎么用_婴儿晚上用睡袋好吗?带过娃的告诉你正确答案!
  5. CSS学习笔记(四)CSS字体属性
  6. java计算两个时间段的重合天数
  7. matlab没有曲线,有个程序,运行后只有坐标没有曲线,是怎么回事呢 望大神们解答...
  8. 路由器和交换机的原理
  9. 为什么看不起trap_【全国电子音乐交流中心】为什么年轻人全听Trap去了?
  10. 【数据处理】正则匹配指定字符传后面的字符
  11. 如何优化小红书笔记?教你三个小技巧,让你快速提高笔记排名
  12. SpringMVC工作原理 侵立删
  13. 微信小程序+SpringBoot实现校园快递代收平台
  14. 计算机视觉论文速递(七)FAN:提升ViT和CNN的鲁棒性和准确性
  15. MATLAB颜色的使用(转)
  16. Ruby On Rails的傻瓜安装
  17. 迷你小包包成为时尚新宠,手掌包成为LV品牌潮流款式
  18. 记录一个有关QT生成PDF的过程
  19. 锁定计算机后怎样解锁,如何在锁定键盘时解锁计算机键盘. 详细的方法介绍
  20. 使用vscode做笔记

热门文章

  1. 非法破坏计算机系统罪,如何区分破坏计算机信息系统罪与非法控制计算机信息系统罪...
  2. Android 拦截或屏蔽返回键
  3. 寒武纪 4.5笔试题
  4. python-程序的控制结构
  5. php function 返回值_PHP函数引用返回的实例详解
  6. tcp 三次握手,一句话概括
  7. Python--toml配置文件
  8. matlab 灰度图与索引图
  9. 史上最好理解的Unicode编码讲解(Unicode的前世今生)
  10. 如何批量提取文件名?