偏差、方差、标准差、协方差
目录
- 1 期望值(Expectation)
- 2 偏差(Bias)
- 3 方差(Variance)
- 3.1 总体方差(Population Variance)
- 3.2 样本方差(Sample Variance)
- 4 标准差(Deviation)
- 4.1 总体标准差(Population Standard Deviation)
- 4.2 样本标准差(Sample Standard Deviation)
- 5 协方差(Covariance)
- 5.1 协方差(Covariance)
- 5.2 协方差矩阵(Covariance Matrix)
- 5.3 相关系数
1 期望值(Expectation)
一件事情有n种结果,每一种结果值为xix_ixi,发生的概率记为pip_ipi,那么该事件发生的期望为:
E=∑i=1nxipiE=\sum_{i=1}^{n}{x_i}{p_i} E=i=1∑nxipi
2 偏差(Bias)
定义: 描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据。
S2=1n∑i=1n(yi−f(xi))2S^2=\frac{1}{n}\sum_{i=1}^{n}{(y_i-f(x_i))}^2 S2=n1i=1∑n(yi−f(xi))2
yiy_iyi 表示预测值,f(xi)f(x_i)f(xi) 表示真实值。 偏差描述了准确性。
3 方差(Variance)
3.1 总体方差(Population Variance)
定义: 描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。
σ2=E[(X−μ)2]\sigma^2=E[(X-\mu)^2] σ2=E[(X−μ)2]
其中: μ\muμ 为全体平均数。方差描述了稳定性。
注:
上面的式子需要知道 XXX的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。
3.2 样本方差(Sample Variance)
定义: 在真实世界中,除非在某些特殊情况下,找到一个总体的真实的方差是不现实的。因此,从总体中取出nnn个样本 ,用各样本值与样本算数平均数的离差平方的平均数对σ2\sigma^2σ2进行估计。
有偏估计: 现实中往往并不清楚XXX服从什么分布,但若知道μ\muμ的真值,则可对 XXX采样,并通过下式来估计σ2\sigma^2σ2:
S2=1n∑i=1n(Xi−μ)2S^2=\frac{1}{n}\sum_{i=1}^{n}{(X_i-\mu)}^2 S2=n1i=1∑n(Xi−μ)2
无偏估计: 更多的情况,我们不知道μ\muμ是多少的,只能计算出 X‾\overline{X}X。用下式子进行估计,得到的样本方差是总体方差的无偏估计。
S2=1n−1∑i=1n(Xi−X‾)2S^2=\frac{1}{n-1}\sum_{i=1}^{n}{(X_i-\overline{X})}^2 S2=n−11i=1∑n(Xi−X)2
推导过程参见为什么样本方差(sample variance)的分母是 n-1?
4 标准差(Deviation)
4.1 总体标准差(Population Standard Deviation)
定义: 标准差为方差的算术平方根,能反映数据的离散程度。
σ=D(X)\sigma=\sqrt{D(X)} σ=D(X)
注:
D(X)D(X)D(X)为总体方差。
4.2 样本标准差(Sample Standard Deviation)
定义: 即样本方差的算术平方根。
有偏估计:
S=∑i=1n(Xi−X‾)2nS=\sqrt{\frac{\sum_{i=1}^{n}{(X_i-\overline{X})}^2}{n}} S=n∑i=1n(Xi−X)2
无偏估计:
S=∑i=1n(Xi−X‾)2n−1S=\sqrt{\frac{\sum_{i=1}^{n}{(X_i-\overline{X})}^2}{n-1}} S=n−1∑i=1n(Xi−X)2
5 协方差(Covariance)
5.1 协方差(Covariance)
定义: 协方差代表了两个变量之间的关系。如果 协方差为正值,说明两个变量呈正相关;如果协方差为负值,则两个变量呈负相关;若 协方差为0,两个变量相互独立。
期望值分别为 E(X)E(X)E(X) 和 E(Y)E(Y)E(Y) 的两个实随机变量 XXX 和 YYY 之间的协方差 Cov(X,Y)Cov(X,Y)Cov(X,Y) 定义为:
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[Y]E[X]+E[X]E[Y]=E[XY]−E[X]E[Y]\begin{aligned} Cov(X, Y) &=E[(X-E[X]) (Y-E[Y])] \\ & =E[XY]-2E[Y]E[X]+E[X]E[Y] \\ & =E[XY]-E[X]E[Y] \end{aligned} Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[Y]E[X]+E[X]E[Y]=E[XY]−E[X]E[Y]
计算公式:
σ(X,Y)=1n−1∑i=1n(Xi−X‾)(Yi−Y‾)\sigma(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n}{(X_i-\overline{X})(Y_i-\overline{Y})} σ(X,Y)=n−11i=1∑n(Xi−X)(Yi−Y)
注:
方差是一种特殊的协方差。当X=Y时:Cov(x,y)=D(X)=D(Y)Cov(x,y)=D(X)=D(Y)Cov(x,y)=D(X)=D(Y)
直观理解:
协方差表示的是两个变量总体误差的方差,这与只表示一个变量误差的方差不同。两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?
XXX变大,同时YYY也变大,说明两个变量是同向变化的,这时协方差就是正的。
XXX变大,同时YYY变小,说明两个变量是反向变化的,这时协方差就是负的。
从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。
5.2 协方差矩阵(Covariance Matrix)
概念: 设 为nnn维随机变量X=(X1,X2,...XN)TX=(X_1,X_2,...X_N)^TX=(X1,X2,...XN)T,称矩阵
为nnn维随机变量XXX的协方差矩阵(covariance matrix),也记为D(X)D(X)D(X) ,其中
为XXX的分量XiX_iXi和XjX_jXj的协方差(设它们都存在)。
注:
上述矩阵中,对角线上的元素为各个随机变量的方差,非对角线上的元素为两两随机变量之间的协方差,根据协方差的定义,我们可以认定协方差矩阵为对称矩阵(symmetric matrix),其大小为n×nn×nn×n(即方阵)。
参考如何直观地理解「协方差矩阵」?
5.3 相关系数
概念: 就是用 XXX、YYY 的协方差除以 XXX 的标准差和 YYY 的标准差。
ρxy=r(X,Y)=Cov(X,Y)σXσY=∑i=1n(Xi−X‾)(Yi−Y‾)∑i=1n(Xi−X‾)2∑i=1n(Yi−Y‾)2\begin{aligned} \rho_{xy}&=r(X,Y) \\ & =\frac{Cov(X,Y)}{\sigma_X\sigma_Y} \\ & =\frac{\sum_{i=1}{n}{(X_i-\overline{X})(Y_i-\overline{Y})}}{\sqrt{\sum_{i=1}^{n}{(X_i-\overline{X})^2}}\sqrt{\sum_{i=1}^{n}{(Y_i-\overline{Y})^2}}} \end{aligned} ρxy=r(X,Y)=σXσYCov(X,Y)=∑i=1n(Xi−X)2∑i=1n(Yi−Y)2∑i=1n(Xi−X)(Yi−Y)
性质:
- 有界性
相关系数的取值范围为-1到1,其可以看成是无量纲、标准化后的协方差。 - 统计意义
值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。
参考如何通俗易懂地解释「协方差」与「相关系数」的概念?
偏差、方差、标准差、协方差相关推荐
- 数理统计-方差标准差协方差相关系数
Q1. 方差.标准差.协方差.有什么区别 方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数,描述样本偏离均值的平均程度或者说是样本的分散程度: 标准差是总体各单位标准值与其平均数离 ...
- 方差、协方差、标准差、均方差、均方根值、均方误差、均方根
转载自https://blog.csdn.net/cqfdcw/article/details/78173839 方差(Variance) 方差用于衡量随机变量或一组数据的离散程度,方差在在统计描述和 ...
- 方差、协方差、标准差、均方差、均方根值、均方误差、均方根误差对比分析
方差.协方差.标准差(标准偏差/均方差).均方误差.均方根误差(标准误差).均方根值 本文由博主经过查阅网上资料整理总结后编写,如存在错误或不恰当之处请留言以便更正,内容仅供大家参考学习. 方差(Va ...
- 方差、协方差、标准差、均方差、均方根值、均方误差、均方根误差
方差(Variance) 方差用于衡量随机变量或一组数据的离散程度,方差在在统计描述和概率分布中有不同的定义和计算公式.①概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度:②统计中的方 ...
- 标准差、方差、协方差的简单说明
在一个样本中,样本的无偏估计的均值.标准差和方差如下: 对于单个变量,它的协方差可以表示为: 其实它即是方差,所以呢,当只有一个变量时,方差是协方差的一种特殊情况: 举例:有一个变量 X的样本为:0. ...
- 求均值方差_协方差,方差,标准差
要深度理解定义!!!要深度理解定义!!!要深度理解定义!!! 协方差,如下定义: 方差如下定义: 标准差就是sqrt(方差) 之前总是有个混淆的点. 故在这里mark一下.(要理解好定义的想表达的深层 ...
- 标准差、方差、协方差的区别
公式: 标准差: 方差: 协方差: 意义: 方差(Variance):度量随机变量和其数学期望(即均值)之间的偏离程度.针对一维数据. 标准差:方差开根号.标准差和方差一般是用来描述一维数据的. 协方 ...
- 标准差、方差、协方差三者的表示意义
三者都是统计学中,对于样本的集合描述. 定义公式 标准差: 方差: 协方差: 协方差相关系数: 数学实际含义 方差(Variance):用来度量随机变量和其数学期望(即均值)之间的偏离程度. 标准差: ...
- 期望, 方差, 协方差,标准差
#期望, 方差, 协方差,标准差 期望 概率论中描述一个随机事件中的随机变量的平均值的大小可以用数学期望这个概念,数学期望的定义是实验中可能的结果的概率乘以其结果的总和. 定义 设P(x) 是一个离散 ...
- 期望、方差、协方差、协方差矩阵
原 期望.方差.协方差和协方差矩阵 2018年06月07日 17:10:58 siucaan 阅读数:6231 </div><div class="operating&qu ...
最新文章
- 新登月计划!阿里云ET城市大脑成为国家AI开放创新平台
- 新建文件夹html文件,JS实现新建文件夹功能
- c语言 自动包含头文件,C语言不要重复包含.h头文件和.c文件
- Linux基础优化之SElinux和iptables项
- python查看数据类型nonetype_python 查询数据库数据 NoneType报错
- 序列每天从0开始_序列比对(十一)——计算符号序列的全概率
- Tornado web开发之简单文件上传
- Leetcode每日一题:38.Count and Say(外观数列)
- MySql 建表出现的问题:[ERR] 1064 - You have an error in your SQL syntax; check the manual..........
- 集成电路总设计(Ⅴ)
- LDA算法和PCA算法的总结(原理和思想)
- pdf文件插入电子签名
- 数字图像处理实验六 图像复原
- 基于 DolphinDB 的行情中心解决方案
- DGraphDTA训练部分源码解读分析(一)2021SC@SDUSC
- 聚苯乙烯荧光单分散微球|Monodispersepolystyrenemicrospheres
- h510主板怎么样 h510配什么cpu
- python画界面的插件_ImagePy——UI界面支持开放插件的Python开源图像处理框架
- 遇到bug我们如何分析定位?
- 07 Django组件-中间件