方差、标准差都是在概率论(probability)和统计学(statistic)中常用的内容,它们之间彼此联系又互相有差别

独立性和相关性

对于两组随机变量\(X\)和\(Y\)而言:如果对\(X\)的取值不改变对\(Y\)的取值,反之亦然,那么这两组变量是独立的

如果对\(X\)的取值和对\(Y\)的取值服从某一函数\(f(x,y)=0\),那么称它们是不独立的

统计学上指相关性为线性相关,即\(y=ax+b\)

所以如果\(X\)对\(Y\)的关系是\(y=x^{2}\),那么它是没有独立性同时没有相关性

独立同分布

独立同分布(independent and identically distributed (i.i.d.))指多组随机变量服从同一分布,但是彼此相互独立

数学期望和平均数

数学期望又称均值,即所有随机变量的平均数;而平均数是对当前已知样本集进行求和平均的值

数学期望是一个概率论概念,而平均数是一个统计学的概念,当样本集趋近于所有随机变量时,平均数会趋近于数学期望

所以对于总体随机变量而言,它的均值是数学期望;而对于样本随机变量而言,它的均值是平均数

假定总体随机变量为\(X\),均值为\(\mu\);独立同分布的样本随机变量为\(x\),均值为\(\overline{x}\)。它们之间有以下关系:对于总体随机变量而言,其数学期望\(E(X)=\mu\)

对于样本随机变量而言,其数学期望\(E(x)=\overline{x}\)

对于样本均值而言,其数学期望\(E(\overline{x})=\mu\)

均值

对于独立分布的随机变量\(X/Y\)有\(E[XY]=E[X]E[Y]\)

\(E[aX]=aE[X]\)

\(E[X+Y]=E[X]+E[Y]\)

方差

方差(variance)指随机变量对其数学期望的平方偏差。用于衡量一组随机变量相对于期望值的离散程度(偏离程度),值多大,表示其分布越广

常用数学符号:\(\sigma ^ { 2 }\)、\(s^{2}\)、\(Var(X)\)、\(D(x)\),方差计算公式:

\[ D ( X ) = \mathrm { E } \left[ ( X - \mu ) ^ { 2 } \right] \]

其中\(X\)是随机变量,\(\mu\)是均值,计算如下

\[ \mu=E[X] \]

离散随机变量的方差公式:

\[ D( X ) = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \left( x _ { i } - \mu \right) ^ { 2 } \]

其中\(D(X)\)指离散方差,\(X\)是一组随机变量,\(\mu\)是均值,\(N\)指变量个数

均值\(\mu\)的计算公式如下:

\[ \mu = \frac { 1 } { N } \sum _ { i = 1 } ^ { N} x _ { i } \]

基本属性

下面介绍一些关于方差/协方差的基本属性

方差方差值永远大于0:\(D ( X ) \geq 0\)

如果一组变量均为同一值,那么其方差为0,换句话说,如果方差为0,那么这组随机变量为同一值:\(P ( X = a ) = 1 \Longleftrightarrow D( X ) = 0\)

对随机变量增加一个数,不改变方差值:\(D ( X + a ) = D( X )\)

对随机变量同乘以一个数,相当于对方差乘以该值平方:\(D( a X ) = a ^ { 2 } D( X )\)

两组随机变量和的方差可通过各组方差以及协方差计算得到:

\[ D ( a X + b Y ) = a ^ { 2 } D ( X ) + b ^ { 2 } D ( Y ) + 2 a b \operatorname { Cov } ( X , Y ) \]

\[ D ( a X - b Y ) = a ^ { 2 }D ( X ) + b ^ { 2 } D ( Y ) - 2 a b \operatorname { Cov } ( X , Y ) \]

其中\(Cov(*,*)\)是协方差,对于\(N\)组随机变量\({X_{1},X_{2},...,X_{N}}\)的和的方差如下:

\[ D(\sum_{i=1}^{n}X_{i})=\sum_{i,j=1}^{n}Cov(X_{i},X_{j})=\sum_{i=1}^{N}D(X_{i})+\sum_{i\neq j}Cov(X_{i},X_{j}) \]

协方差

变量\(X/Y\)属于同一组独立分布的随机变量,那么有

\[\operatorname { Cov } \left( X _ { i } , X _ { j } \right) = 0 , \forall ( i \neq j )\]

所以对于独立分布的随机变量\(X_{1},X_{2},...,X_{N}\)有

\[ D(\sum_{i=1}^{n}X_{i})=\sum_{i=1}^{N}D(X_{i}) \]

不相关变量和的方差

对于不相关分布的随机变量\(X\),其和的方差等同于方差的和

\[ \operatorname { Var } \left( \sum _ { i = 1 } ^ { n } X _ { i } \right) = \sum _ { i = 1 } ^ { n } \operatorname { Var } \left( X _ { i } \right) \]

所以计算均值的方差等同于方差除以随机变量数目

\[ \operatorname { Var } ( \overline { X } ) = \operatorname { Var } \left( \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i } \right) = \frac { 1 } { n ^ { 2 } } \sum _ { i = 1 } ^ { n } \operatorname { Var } \left( X _ { i } \right) = \frac { 1 } { n ^ { 2 } } n \sigma ^ { 2 } = \frac { \sigma ^ { 2 } } { n } \]

总体方差和样本方差

通过统计所有随机变量来计算其偏离平均值的平方偏差称为总体方差(population variance)

通过计算样本集得到的方差称为样本方差(sample variance)

在很多情况下,总体随机变量的采集无法实现,通常使用样本集来代替,即使用样本方差来作为总体方差估计(estimate)

假定以下数学符号:总体均值:\(\mu\)

总体方差:\(\sigma ^{2}\)

总体随机变量:\(X=(x_{1},x_{2},...,x_{N})\)

样本均值:\(\overline { x }\)

样本方差:\(s^{2}\)

样本随机变量:\(X=(x_{1},x_{2},...,x_{n})\)

总体方差计算公式

\[ \mu=\frac{1}{N}\sum_{i=1}^{N}x_{i} \]

\[ \sigma ^{2} =\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu)^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}^{2}-2x_{i}\mu +\mu^{2}) \]

\[ =\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\frac{2}{N}\sum_{i=1}^{N}x_{i}\mu+\frac{1}{N}\mu^{2} =\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-2\mu(\frac{1}{N}\sum_{i=1}^{N}x_{i})+\mu^{2} \]

\[ =\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-2\mu^{2}+\mu^{2} =\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu^{2} =E[X^{2}]-(E[X])^{2} \]

由上式也可推导出如下公式:

\[ E[X^{2}]=\sigma ^{2}+\mu^{2} \]

样本方差计算公式

\[ \overline {x}=\frac{1}{N}\sum_{i=1}^{N}x_{i} \]

\[ s^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline {x})^{2} \]

但是上述样本方差计算公式是一个有偏差(biased)的总体方差估计,证明如下:

\[ s^{2}=\frac{1}{n}\sum_{i=1}^{n}[(x_{i}-\overline {x})^{2}]=\frac{1}{n}\sum_{i=1}^{n}[((x_{i}-\mu)-(\overline {x}-\mu))^{2}] \]

\[ =\frac{1}{n}\sum_{i=1}^{n}[(x_{i}-\mu)^{2}-2(x_{i}-\mu)(\overline {x}-\mu)+(\overline {x}-\mu)^{2}] \]

\[ =\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}-\frac{2}{n}\sum_{i=1}^{n}(x_{i}-\mu)(\overline {x}-\mu)+\frac{1}{n}\sum_{i=1}^{n}(\overline {x}-\mu)^{2} \]

其中\(\mu\)和\(\overline { x }\)是常量,所以上述公式转换为

\[ s^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}-2(\frac{1}{n}\sum_{i=1}^{n}x_{i}-\mu)(\bar{x}-\mu)+(\bar{x}-\mu)^{2} \]

\[ =\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}-2(\bar{x}-\mu)(\bar{x}-\mu)+(\bar{x}-\mu)^{2} \]

\[ =\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}-(\bar{x}-\mu)^{2} \leq \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2} \]

样本方差一直小于等于总体方差,为得到正确的总体方差的无偏估计,需要对有偏的样本方差公式乘以一个缩放因子

假定存在\(n\)组独立同分布的随机变量\(X={X_{1},X_{2},...,X_{n}}\),每个随机变量均值和方差为\(\mu\)和\(\sigma ^{2}\),那么

\[ E(s^{2})=\sigma ^{2} \]

\[ E(\overline X)=\mu \]

计算如下:

\[ E[s^{2}]=E[\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\overline {X})^{2}]=E[\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\frac{1}{n}\sum_{j=1}^{n}X_{j})^{2}] \]

\[ =E[\frac{1}{n}\sum_{i=1}^{n}(X_{i}^{2}-\frac{2}{n}X_{i}\sum_{j=1}^{n}X_{j}+\frac{1}{n^{2}}\sum_{j=1}^{n}\sum_{k=1}^{n}X_{j}X_{k})] \]

\[ =E[\frac{1}{n}\sum_{i=1}^{n}(X_{i}^{2}-\frac{2}{n}X_{i}^{2}-\frac{2}{n}X_{i}\sum_{j=1,j\neq i}^{n}X_{j}+\frac{1}{n^{2}}\sum_{j=1}^{n}X_{j}^{2}+\frac{1}{n^{2}}\sum_{j=1}^{n}\sum_{k=1,k\neq j}^{n}X_{j}X_{k})] \]

\[ =\frac{1}{n}\sum_{i=1}^{n}(\frac{n-2}{n}E[X_{i}^{2}]-\frac{2}{n}E[X_{i}\sum_{j=1,j\neq i}^{n}X_{j}]+\frac{1}{n^{2}}E[\sum_{j=1}^{n}X_{j}^{2}]+\frac{1}{n^{2}}E[\sum_{j=1}^{n}\sum_{k=1,k\neq j}^{n}X_{j}X_{k}]) \]

因为随机变量\(X\)是独立同分布,所以

\[ E[X_{i}^{2}]=D(X_{i})+(E[X_{i}])^{2}=\sigma ^{2}+\mu^{2} \]

\[ E[X_{i}\sum_{j=1,j\neq i}^{n}X_{j}]=E[X_{i}]\sum_{j=1,j\neq i}^{n}E[X_{j}]=\mu \cdot(n-1)\cdot\mu=(n-1)\mu^{2} \]

\[ E[\sum_{j=1}^{n}X_{j}^{2}]=\sum_{j=1}^{n}E[X_{j}^{2}]=\sum_{j=1}^{n}(D(X_{j})+(E[X_{j}])^{2})=n(\sigma ^{2}+\mu^{2}) \]

\[ E[\sum_{j=1}^{n}\sum_{k=1,k\neq j}^{n}X_{j}X_{k}]=\sum_{j=1}^{n}\sum_{k=1,k\neq j}^{n}E[X_{j}]E[X_{k}]=n\cdot (n-1) \cdot \mu \cdot \mu=n(n-1)\mu^{2} \]

所以上述公式转换为

\[ E[s^{2}]=\frac{1}{n}\sum_{i=1}^{n}(\frac{n-2}{n}(\sigma ^{2}+\mu^{2})-\frac{2(n-1)}{n}\mu^{2}+\frac{1}{n}(\sigma ^{2}+\mu^{2})+\frac{n-1}{n}\mu^{2})=\frac{n-1}{n}\sigma^{2} \]

可以通过贝塞尔校正(Bessel Correction)方法来修正原先的样本方差计算公式得到一个无偏(unbiased)的估计,即对样本方差再乘以一个因子\(n/(n-1)\),那么

\[ \frac{n}{n-1}E[s^{2}]=\frac{n}{n-1}\cdot\frac{n-1}{n}\sigma^{2}=\sigma^{2} \]

所以无偏样本方差公式为

\[ s^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\overline x)^{2} \]

标准差

标准差(standard deviation),又称为均方差(Mean square deviation),是方差的算术平方根,用\(\sigma\)表示

标准差用于衡量数据的离散程度,数值越低表示数据点分布更接近期望值

方差是数据偏离平均值距离的平方,而标准差是方差的算术平方根,所以标准差的单位和数据一致,易于直观理解

相关阅读

海定计算机计算标准差,方差 标准差相关推荐

  1. 海定计算机计算标准差,标准差怎么算公式(标准差的计算例题)

    中式排名.标准差分析考试成绩 今天我们家小屁孩的考试成绩公布了,中午利用午休的时间对他们班的成绩进行了二次整理和简要分析.现在分析给大家. 核心要点是:利用标准差函数对偏科程度进行绝对值分析和偏科程度 ...

  2. python 标准差_标准差python

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 方差是每个值与均值的差值的平方的平均值,标准差是方差的平方根(这是有用的,因为取 ...

  3. python使用numpy中的np.mean函数计算数组的均值、np.var函数计算数据的方差、np.std函数计算数组的标准差

    python使用numpy中的np.mean函数计算数组的均值.np.var函数计算数据的方差.np.std函数计算数组的标准差 目录

  4. 使用java计算数组方差和标准差

    使用java计算数组方差和标准差 觉得有用的话,欢迎一起讨论相互学习~ 首先给出方差和标准差的计算公式 代码 public class Cal_sta {double Sum(double[] dat ...

  5. 标准差计算机怎么按,如何使用计算机计算平均值及禁标准差

    <如何使用计算机计算平均值及禁标准差>由会员分享,可在线阅读,更多相关<如何使用计算机计算平均值及禁标准差(7页珍藏版)>请在人人文库网上搜索. 1.如何使用計算機計算平均值及 ...

  6. java 方差_使用java计算数组方差和标准差

    使用java计算数组方差和标准差 觉得有用的话,欢迎一起讨论相互学习~ 首先给出方差和标准差的计算公式 代码 public class Cal_sta { double Sum(double[] da ...

  7. hive -- stddev , stddev_pop , stddev_samp , var_pop , var_samp(计算方差标准差等)

    标准差是方差的平方根  1.方差公式:  m为x1,x2-xn数列的期望值(平均数)  s^2 = [(x1-m)^2 + (x2-m)^2 + - (xn-m)^2]/n  s即为标准差  s^2为 ...

  8. MATLAB的var与std函数 与 均值,方差,标准差,均方差,均分误差

    从定义上来讲,(样本)均值,方差,标准差,均方差,均分误差分别为: 均值: 方差: 标准差: 均方差=标准差 均方误差: matlab中的var函数和std函数用来计算方差 var函数计算使用的公式为 ...

  9. linux 计算标准差,shell计算均值和标准差的工具:datamash

    前言 shell下经常需要处理数据,需要计算均值和标准差,最近在分析EXT4的r_await的分布情况,需要计算下在一定的读写模式下,块设备的读延迟分布. 这已不是第一次有类似的需求了,每次都要awk ...

  10. 统计学基础之:均值-中位数-众数-极差-中程数-方差-标准差-变异系数

    转载自:http://blog.sina.com.cn/s/blog_62ded7bf0101aqba.html 本文大纲: 数据挖掘分析&算法前奏之data exploration做什么 基 ...

最新文章

  1. 设计模式之简单工厂模式(Simply Factory)摘录
  2. 算法--------翻转字符串里的单词(Java版本)
  3. 轮滑---1、动作和杂记
  4. php curl模拟post提交,php curl模拟post提交数据示例
  5. 包装严重的 IT 行业,作为面试官,我是如何甄别应聘者的包装程度
  6. android微信电话锁屏,iPhone的微信更新锁屏下呼叫提醒,终于可以直接代替电话了...
  7. 4G通信模块在ARM平台下的应用
  8. Centos 7和 Centos 6开放查看端口 防火墙关闭打开
  9. [win7] 去除将窗口拖到屏幕边缘时“自动最大化”
  10. Node.js web应用模块之forever
  11. JavaScript技巧[转载]
  12. Eclipse中不使用内嵌Maven
  13. 智慧楼宇管理运营端app、运维管理、工单管理、报修管理、维保管理、巡检查询、巡检管理、能源管理、维保查询、智慧社区、巡检统计、工单统计、能源管理、智能楼宇、设备监控、智能社区、系统运营、楼宇运维小程序
  14. 获取Java对象中所有的属性名称和属性值
  15. 不到70行 Python 代码,轻松玩转 RFM 用户分析模型(附案例数据和代码)
  16. HCIE-Security Day27:IPSec:实验(二)两个网关之间通过手工方式创建IPSec PN隧道
  17. 呼吸灯 裸机 S3C2416
  18. 安卓程序代写 网上程序代写[原]Android开发技巧--ListView
  19. 酒店管理系统(前台后台管理)
  20. win10一键激活,解除SymantecEndpointProtection的自动拦截

热门文章

  1. 机器学习和python学习之路精心整理技术书从入门到进阶
  2. word2010怎样显示分节符?
  3. 多频子量子计算机,量子计算机研究:纠错和容错计算
  4. c语言的area的用法,area的用法说明
  5. java怎么保留两位小数_Java中怎样保留两位小数。是不是要用Math.round()啊?
  6. Linux下格式化sd卡和重新分区
  7. c语言求布尔矩阵的乘积,离散数学 关系矩阵的布尔乘法的简便方法
  8. xfs文件系统修复问题
  9. 协同软件解决方案集合
  10. Heartbeat配置方案