海定计算机计算标准差,方差标准差

方差、标准差都是在概率论(probability)和统计学(statistic)中常用的内容，它们之间彼此联系又互相有差别

独立性和相关性

对于两组随机变量\(X\)和\(Y\)而言:如果对\(X\)的取值不改变对\(Y\)的取值，反之亦然，那么这两组变量是独立的

如果对\(X\)的取值和对\(Y\)的取值服从某一函数\(f(x,y)=0\)，那么称它们是不独立的

统计学上指相关性为线性相关，即\(y=ax+b\)

所以如果\(X\)对\(Y\)的关系是\(y=x^{2}\)，那么它是没有独立性同时没有相关性

独立同分布

独立同分布(independent and identically distributed (i.i.d.))指多组随机变量服从同一分布，但是彼此相互独立

数学期望和平均数

数学期望又称均值，即所有随机变量的平均数；而平均数是对当前已知样本集进行求和平均的值

数学期望是一个概率论概念，而平均数是一个统计学的概念，当样本集趋近于所有随机变量时，平均数会趋近于数学期望

所以对于总体随机变量而言，它的均值是数学期望；而对于样本随机变量而言，它的均值是平均数

假定总体随机变量为\(X\)，均值为\(\mu\)；独立同分布的样本随机变量为\(x\)，均值为\(\overline{x}\)。它们之间有以下关系：对于总体随机变量而言，其数学期望\(E(X)=\mu\)

对于样本随机变量而言，其数学期望\(E(x)=\overline{x}\)

对于样本均值而言，其数学期望\(E(\overline{x})=\mu\)

均值

对于独立分布的随机变量\(X/Y\)有\(E[XY]=E[X]E[Y]\)

\(E[aX]=aE[X]\)

\(E[X+Y]=E[X]+E[Y]\)

方差

方差(variance)指随机变量对其数学期望的平方偏差。用于衡量一组随机变量相对于期望值的离散程度(偏离程度)，值多大，表示其分布越广

常用数学符号：\(\sigma ^ { 2 }\)、\(s^{2}\)、\(Var(X)\)、\(D(x)\)，方差计算公式：

\[ D ( X ) = \mathrm { E } \left[ ( X - \mu ) ^ { 2 } \right] \]

其中\(X\)是随机变量，\(\mu\)是均值，计算如下

\[ \mu=E[X] \]

离散随机变量的方差公式：

\[ D( X ) = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \left( x _ { i } - \mu \right) ^ { 2 } \]

其中\(D(X)\)指离散方差，\(X\)是一组随机变量，\(\mu\)是均值，\(N\)指变量个数

均值\(\mu\)的计算公式如下：

\[ \mu = \frac { 1 } { N } \sum _ { i = 1 } ^ { N} x _ { i } \]

基本属性

下面介绍一些关于方差/协方差的基本属性

方差方差值永远大于0：\(D ( X ) \geq 0\)

如果一组变量均为同一值，那么其方差为0，换句话说，如果方差为0，那么这组随机变量为同一值：\(P ( X = a ) = 1 \Longleftrightarrow D( X ) = 0\)

对随机变量增加一个数，不改变方差值：\(D ( X + a ) = D( X )\)

对随机变量同乘以一个数，相当于对方差乘以该值平方：\(D( a X ) = a ^ { 2 } D( X )\)

两组随机变量和的方差可通过各组方差以及协方差计算得到：

\[ D ( a X + b Y ) = a ^ { 2 } D ( X ) + b ^ { 2 } D ( Y ) + 2 a b \operatorname { Cov } ( X , Y ) \]

\[ D ( a X - b Y ) = a ^ { 2 }D ( X ) + b ^ { 2 } D ( Y ) - 2 a b \operatorname { Cov } ( X , Y ) \]

其中\(Cov(*,*)\)是协方差，对于\(N\)组随机变量\({X_{1},X_{2},...,X_{N}}\)的和的方差如下：

\[ D(\sum_{i=1}^{n}X_{i})=\sum_{i,j=1}^{n}Cov(X_{i},X_{j})=\sum_{i=1}^{N}D(X_{i})+\sum_{i\neq j}Cov(X_{i},X_{j}) \]

协方差

变量\(X/Y\)属于同一组独立分布的随机变量，那么有

\[\operatorname { Cov } \left( X _ { i } , X _ { j } \right) = 0 , \forall ( i \neq j )\]

所以对于独立分布的随机变量\(X_{1},X_{2},...,X_{N}\)有

\[ D(\sum_{i=1}^{n}X_{i})=\sum_{i=1}^{N}D(X_{i}) \]

不相关变量和的方差

对于不相关分布的随机变量\(X\)，其和的方差等同于方差的和

\[ \operatorname { Var } \left( \sum _ { i = 1 } ^ { n } X _ { i } \right) = \sum _ { i = 1 } ^ { n } \operatorname { Var } \left( X _ { i } \right) \]

所以计算均值的方差等同于方差除以随机变量数目

\[ \operatorname { Var } ( \overline { X } ) = \operatorname { Var } \left( \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i } \right) = \frac { 1 } { n ^ { 2 } } \sum _ { i = 1 } ^ { n } \operatorname { Var } \left( X _ { i } \right) = \frac { 1 } { n ^ { 2 } } n \sigma ^ { 2 } = \frac { \sigma ^ { 2 } } { n } \]

总体方差和样本方差

通过统计所有随机变量来计算其偏离平均值的平方偏差称为总体方差(population variance)

通过计算样本集得到的方差称为样本方差(sample variance)

在很多情况下，总体随机变量的采集无法实现，通常使用样本集来代替，即使用样本方差来作为总体方差估计(estimate)

假定以下数学符号：总体均值：\(\mu\)

总体方差：\(\sigma ^{2}\)

总体随机变量：\(X=(x_{1},x_{2},...,x_{N})\)

样本均值：\(\overline { x }\)

样本方差：\(s^{2}\)

样本随机变量：\(X=(x_{1},x_{2},...,x_{n})\)

总体方差计算公式

\[ \mu=\frac{1}{N}\sum_{i=1}^{N}x_{i} \]

\[ \sigma ^{2} =\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu)^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}^{2}-2x_{i}\mu +\mu^{2}) \]

\[ =\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\frac{2}{N}\sum_{i=1}^{N}x_{i}\mu+\frac{1}{N}\mu^{2} =\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-2\mu(\frac{1}{N}\sum_{i=1}^{N}x_{i})+\mu^{2} \]

\[ =\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-2\mu^{2}+\mu^{2} =\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu^{2} =E[X^{2}]-(E[X])^{2} \]

由上式也可推导出如下公式：

\[ E[X^{2}]=\sigma ^{2}+\mu^{2} \]

样本方差计算公式

\[ \overline {x}=\frac{1}{N}\sum_{i=1}^{N}x_{i} \]

\[ s^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline {x})^{2} \]

但是上述样本方差计算公式是一个有偏差(biased)的总体方差估计，证明如下：

\[ s^{2}=\frac{1}{n}\sum_{i=1}^{n}[(x_{i}-\overline {x})^{2}]=\frac{1}{n}\sum_{i=1}^{n}[((x_{i}-\mu)-(\overline {x}-\mu))^{2}] \]

\[ =\frac{1}{n}\sum_{i=1}^{n}[(x_{i}-\mu)^{2}-2(x_{i}-\mu)(\overline {x}-\mu)+(\overline {x}-\mu)^{2}] \]

\[ =\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}-\frac{2}{n}\sum_{i=1}^{n}(x_{i}-\mu)(\overline {x}-\mu)+\frac{1}{n}\sum_{i=1}^{n}(\overline {x}-\mu)^{2} \]

其中\(\mu\)和\(\overline { x }\)是常量，所以上述公式转换为

\[ s^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}-2(\frac{1}{n}\sum_{i=1}^{n}x_{i}-\mu)(\bar{x}-\mu)+(\bar{x}-\mu)^{2} \]

\[ =\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}-2(\bar{x}-\mu)(\bar{x}-\mu)+(\bar{x}-\mu)^{2} \]

\[ =\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}-(\bar{x}-\mu)^{2} \leq \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2} \]

样本方差一直小于等于总体方差，为得到正确的总体方差的无偏估计，需要对有偏的样本方差公式乘以一个缩放因子

假定存在\(n\)组独立同分布的随机变量\(X={X_{1},X_{2},...,X_{n}}\)，每个随机变量均值和方差为\(\mu\)和\(\sigma ^{2}\)，那么

\[ E(s^{2})=\sigma ^{2} \]

\[ E(\overline X)=\mu \]

计算如下：

\[ E[s^{2}]=E[\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\overline {X})^{2}]=E[\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\frac{1}{n}\sum_{j=1}^{n}X_{j})^{2}] \]

\[ =E[\frac{1}{n}\sum_{i=1}^{n}(X_{i}^{2}-\frac{2}{n}X_{i}\sum_{j=1}^{n}X_{j}+\frac{1}{n^{2}}\sum_{j=1}^{n}\sum_{k=1}^{n}X_{j}X_{k})] \]

\[ =E[\frac{1}{n}\sum_{i=1}^{n}(X_{i}^{2}-\frac{2}{n}X_{i}^{2}-\frac{2}{n}X_{i}\sum_{j=1,j\neq i}^{n}X_{j}+\frac{1}{n^{2}}\sum_{j=1}^{n}X_{j}^{2}+\frac{1}{n^{2}}\sum_{j=1}^{n}\sum_{k=1,k\neq j}^{n}X_{j}X_{k})] \]

\[ =\frac{1}{n}\sum_{i=1}^{n}(\frac{n-2}{n}E[X_{i}^{2}]-\frac{2}{n}E[X_{i}\sum_{j=1,j\neq i}^{n}X_{j}]+\frac{1}{n^{2}}E[\sum_{j=1}^{n}X_{j}^{2}]+\frac{1}{n^{2}}E[\sum_{j=1}^{n}\sum_{k=1,k\neq j}^{n}X_{j}X_{k}]) \]

因为随机变量\(X\)是独立同分布，所以

\[ E[X_{i}^{2}]=D(X_{i})+(E[X_{i}])^{2}=\sigma ^{2}+\mu^{2} \]

\[ E[X_{i}\sum_{j=1,j\neq i}^{n}X_{j}]=E[X_{i}]\sum_{j=1,j\neq i}^{n}E[X_{j}]=\mu \cdot(n-1)\cdot\mu=(n-1)\mu^{2} \]

\[ E[\sum_{j=1}^{n}X_{j}^{2}]=\sum_{j=1}^{n}E[X_{j}^{2}]=\sum_{j=1}^{n}(D(X_{j})+(E[X_{j}])^{2})=n(\sigma ^{2}+\mu^{2}) \]

\[ E[\sum_{j=1}^{n}\sum_{k=1,k\neq j}^{n}X_{j}X_{k}]=\sum_{j=1}^{n}\sum_{k=1,k\neq j}^{n}E[X_{j}]E[X_{k}]=n\cdot (n-1) \cdot \mu \cdot \mu=n(n-1)\mu^{2} \]

所以上述公式转换为

\[ E[s^{2}]=\frac{1}{n}\sum_{i=1}^{n}(\frac{n-2}{n}(\sigma ^{2}+\mu^{2})-\frac{2(n-1)}{n}\mu^{2}+\frac{1}{n}(\sigma ^{2}+\mu^{2})+\frac{n-1}{n}\mu^{2})=\frac{n-1}{n}\sigma^{2} \]

可以通过贝塞尔校正(Bessel Correction)方法来修正原先的样本方差计算公式得到一个无偏(unbiased)的估计，即对样本方差再乘以一个因子\(n/(n-1)\)，那么

\[ \frac{n}{n-1}E[s^{2}]=\frac{n}{n-1}\cdot\frac{n-1}{n}\sigma^{2}=\sigma^{2} \]

所以无偏样本方差公式为

\[ s^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\overline x)^{2} \]

标准差

标准差(standard deviation)，又称为均方差(Mean square deviation)，是方差的算术平方根，用\(\sigma\)表示

标准差用于衡量数据的离散程度，数值越低表示数据点分布更接近期望值

方差是数据偏离平均值距离的平方，而标准差是方差的算术平方根，所以标准差的单位和数据一致，易于直观理解

海定计算机计算标准差,方差标准差相关推荐

海定计算机计算标准差,标准差怎么算公式（标准差的计算例题）
中式排名.标准差分析考试成绩今天我们家小屁孩的考试成绩公布了,中午利用午休的时间对他们班的成绩进行了二次整理和简要分析.现在分析给大家. 核心要点是:利用标准差函数对偏科程度进行绝对值分析和偏科程度 ...
python 标准差_标准差python
广告关闭腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 方差是每个值与均值的差值的平方的平均值,标准差是方差的平方根(这是有用的,因为取 ...
python使用numpy中的np.mean函数计算数组的均值、np.var函数计算数据的方差、np.std函数计算数组的标准差
python使用numpy中的np.mean函数计算数组的均值.np.var函数计算数据的方差.np.std函数计算数组的标准差目录
使用java计算数组方差和标准差
使用java计算数组方差和标准差觉得有用的话,欢迎一起讨论相互学习~ 首先给出方差和标准差的计算公式代码 public class Cal_sta {double Sum(double[] dat ...
标准差计算机怎么按,如何使用计算机计算平均值及禁标准差
<如何使用计算机计算平均值及禁标准差>由会员分享,可在线阅读,更多相关<如何使用计算机计算平均值及禁标准差(7页珍藏版)>请在人人文库网上搜索. 1.如何使用計算機計算平均值及 ...
java 方差_使用java计算数组方差和标准差
使用java计算数组方差和标准差觉得有用的话,欢迎一起讨论相互学习~ 首先给出方差和标准差的计算公式代码 public class Cal_sta { double Sum(double[] da ...
hive -- stddev , stddev_pop , stddev_samp , var_pop , var_samp（计算方差标准差等）
标准差是方差的平方根 1.方差公式: m为x1,x2-xn数列的期望值(平均数) s^2 = [(x1-m)^2 + (x2-m)^2 + - (xn-m)^2]/n s即为标准差 s^2为 ...
MATLAB的var与std函数与均值,方差,标准差,均方差,均分误差
从定义上来讲,(样本)均值,方差,标准差,均方差,均分误差分别为: 均值: 方差: 标准差: 均方差=标准差均方误差: matlab中的var函数和std函数用来计算方差 var函数计算使用的公式为 ...
linux 计算标准差,shell计算均值和标准差的工具：datamash
前言 shell下经常需要处理数据,需要计算均值和标准差,最近在分析EXT4的r_await的分布情况,需要计算下在一定的读写模式下,块设备的读延迟分布. 这已不是第一次有类似的需求了,每次都要awk ...
统计学基础之：均值-中位数-众数-极差-中程数-方差-标准差-变异系数
转载自:http://blog.sina.com.cn/s/blog_62ded7bf0101aqba.html 本文大纲: 数据挖掘分析&算法前奏之data exploration做什么基 ...

海定计算机计算标准差,方差标准差

海定计算机计算标准差,方差标准差相关推荐

最新文章

热门文章

海定计算机计算标准差,方差 标准差

海定计算机计算标准差,方差 标准差相关推荐

最新文章

热门文章

海定计算机计算标准差,方差标准差

海定计算机计算标准差,方差标准差相关推荐