方差和协方差机器学习中常见的两个概念,公式也几乎是随处可见,但是每见一次都像是初次见面,又去想半天各种公式、概念和意义,所以下定决心整理一下。

方差和协方差

定义

方差

度量单个随机变量的离散程度,公式如下:
σ x 2 = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 \sigma^2_x = \frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2 σx2​=n−11​i=1∑n​(xi​−x)2

协方差

度量两个随机变量(变化趋势)的相似程度,定义如下:
σ ( x , y ) = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) \sigma(x,y)= \frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) σ(x,y)=n−11​i=1∑n​(xi​−x)(yi​−y​)

C o v ( X , Y ) = E [ ( X − μ x ) ( Y − μ y ) ] Cov(X,Y) = E[(X-\mu_x)(Y-\mu_y)] Cov(X,Y)=E[(X−μx​)(Y−μy​)]

以上两个公式就可以看出,方差和协方差的定义同宗。

图解

那么方差是怎么衡量随机变量的离散程度的呢?协方差又怎么衡量变量的变化趋势的呢?

方差

图1

离散程度具体来说衡量的是随机变量偏离均值的幅度大小,单个数据点x的偏离幅度为x与x均值的距离平方和。

上图中的右上图和右下图,两个随机变量的均值虽然都为0,但是很明显右下图中随机变量偏离均值的幅度更大,各自的方差为:
( 2 ∗ ( 70 − 0 ) 2 + 2 ∗ ( − 70 − 0 ) 2 + ( − 200 − 0 ) 2 + ( 200 − 0 ) 2 ) = 99600 (2*(70-0)^2+2*(-70-0)^2+(-200-0)^2+(200-0)^2)=99600 (2∗(70−0)2+2∗(−70−0)2+(−200−0)2+(200−0)2)=99600

( 2 ∗ ( 0.01 − 0 ) 2 + 2 ∗ ( − 0.01 − 0 ) 2 + ( − 0.02 − 0 ) 2 + ( 0.02 − 0 ) 2 ) = 0.001 (2*(0.01-0)^2+2*(-0.01-0)^2+(-0.02-0)^2+(0.02-0)^2)=0.001 (2∗(0.01−0)2+2∗(−0.01−0)2+(−0.02−0)2+(0.02−0)2)=0.001

所以右上图的离散变量分布的更紧凑。

协方差

对于变量X、Y,协方差的定义为每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”的均值(其实是求“期望”)。因此,如果x与x的均值差与y与y的均值差的符号相同,则协方差值大于0,符号相反,则协方差值小于0,总结如下:

图2

图3

图4

在图2、3、4中的区域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;

在图2、3、4中的区域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;

在图2、3、4中的区域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;

在图2、3、4中的区域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。

当X 与Y 正相关时,它们的分布大部分在区域(1)和(3)中,小部分在区域(2)和(4)中,所以平均来说,有E(X-EX)(Y-EY)>0 。

当 X与 Y负相关时,它们的分布大部分在区域(2)和(4)中,小部分在区域(1)和(3)中,所以平均来说,有(X-EX)(Y-EY)<0 。

当 X与 Y不相关时,它们在区域(1)和(3)中的分布,与在区域(2)和(4)中的分布几乎一样多,所以平均来说,有(X-EX)(Y-EY)=0 。

所以,我们可以定义一个表示X, Y 相互关系的数字特征,也就是协方差
cov(X, Y) = E(X-EX)(Y-EY)。

当 cov(X, Y)>0时,表明 X与Y 正相关;

当 cov(X, Y)<0时,表明X与Y负相关;

当 cov(X, Y)=0时,表明X与Y不相关。


图5

图6

而大多数情况下,变量X,Y的变化趋势不会像图一一样严格的同增大同减小,大多如图5和图6一样,这时只要求期望就可以了。

相关系数

由协方差的概念相关系数,其定义如下:
ρ = C o v ( X , Y ) σ X σ Y \rho = \frac{Cov(X,Y)}{\sigma_X\sigma_Y} ρ=σX​σY​Cov(X,Y)​

就是用X、Y的协方差除以X的标准差和Y的标准差。

在图一中,情况一和情况二的协方差计算如下:

情况一
[ ( 100 − 0 ) × ( 70 − 0 ) + ( − 100 − 0 ) × ( − 70 − 0 ) + ( − 200 − 0 ) × ( − 200 − 0 ) . . . ] ÷ 6 ≈ 17999.33 [(100-0)\times(70-0)+(-100-0)\times(-70-0)+(-200-0)\times(-200-0)...]\div6\approx 17999.33 [(100−0)×(70−0)+(−100−0)×(−70−0)+(−200−0)×(−200−0)...]÷6≈17999.33
情况二:
[ ( 0.01 − 0 ) × ( 70 − 0 ) + ( − 0.01 − 0 ) × ( − 70 − 0 ) + ( − 0.02 − 0 ) × ( − 200 − 0 ) . . . ] ÷ 7 ≈ 1.799999 [(0.01-0)\times(70-0)+(-0.01-0)\times(-70-0)+(-0.02-0)\times(-200-0)...]\div7\approx 1.799999 [(0.01−0)×(70−0)+(−0.01−0)×(−70−0)+(−0.02−0)×(−200−0)...]÷7≈1.799999
由以上计算可知,除了协方差的正负号表示变量的变化趋势是否一致之外,数值的大小还表示变化相似的程度,而相关系数则是协方差的标准化,两种情况的相关系数如下:

情况一:
ρ 1 = 17999.33 ÷ ( 130.9307 × 119.2836 ) ≈ 1.1524 \rho_1 = 17999.33 \div (130.9307 \times 119.2836) \approx 1.1524 ρ1​=17999.33÷(130.9307×119.2836)≈1.1524
情况二:
ρ 2 = 1.799999 ÷ ( 0.01309307 × 119.2836 ) ≈ 1.1525 \rho_2 = 1.799999 \div (0.01309307 \times 119.2836) \approx 1.1525 ρ2​=1.799999÷(0.01309307×119.2836)≈1.1525

因此相关系数:

1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。

2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

参考:

如何通俗易懂地解释「协方差」与「相关系数」的概念? - GRAYLAMB的回答 - 知乎
https://www.zhihu.com/question/20852004/answer/134902061

终于明白协方差的意义了

方差、协方差、相关系数的理解相关推荐

  1. 标准差 方差 协方差 相关系数

    一.统计学的基本概念 统计学里最基本的概念就是样本的均值.方差.标准差.首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告 ...

  2. 随机变量的期望 方差 协方差 相关系数的性质

    期望性质:E(C)=C,C为任意常数 E(aX+bY)=aE(X)+bE(Y) E(aX+C)=aE(X)+C X,Y独立 E(XY)=E(X)E(Y) 方差:D(X)=E(X*X)-E(X)*E(X ...

  3. 机器学习:协方差的全面理解

    主成分分析最大方差解释https://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html 主成分分析最小平方误差解释 https://w ...

  4. 协方差公式性质证明过程_论文推荐 | 刘志平:等价条件平差模型的方差-协方差分量最小二乘估计方法...

    <测绘学报> 构建与学术的桥梁 拉近与权威的距离 等价条件平差模型的方差-协方差分量最小二乘估计方法 刘志平1, 朱丹彤1, 余航1, 张克非1,2 1. 中国矿业大学环境与测绘学院, 江 ...

  5. python计算样本方差_Python计算库numpy进行方差/标准方差/样本标准方差/协方差的计算...

    使用numpy可以做很多事情,在这篇文章中简单介绍一下如何使用numpy进行方差/标准方差/样本标准方差/协方差的计算. variance: 方差 方差(Variance)是概率论中最基础的概念之一, ...

  6. python方差的计算公式_Python计算库numpy进行方差/标准方差/样本标准方差/协方差的计算...

    使用numpy可以做很多事情,在这篇文章中简单介绍一下如何使用numpy进行方差/标准方差/样本标准方差/协方差的计算. variance: 方差 方差(Variance)是概率论中最基础的概念之一, ...

  7. 期望、方差、协方差、相关系数的理解

    目录 1.数学期望(均值) 2.方差 D(X) 或 Var(X) 3.协方差 Cov(X,Y) 4.相关系数 ρ 5.协方差矩阵 一句话概括:期望反映了平均水平,方差反映了数据波动程度,协方差反映了两 ...

  8. 数理统计-方差标准差协方差相关系数

    Q1. 方差.标准差.协方差.有什么区别 方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数,描述样本偏离均值的平均程度或者说是样本的分散程度: 标准差是总体各单位标准值与其平均数离 ...

  9. 方差、协方差的几何理解

    在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异.为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度.总体方差计算公式: σ2=∑ ...

最新文章

  1. map vs hash_map
  2. Linux 系统编程
  3. python函数教程:global 和 nonlocal的详细用法
  4. JUnit3 结合一个除法的单元测试说明Assert.fail()的用法
  5. mysql delete 表关联删除数据_mysql delete 多表连接删除功能
  6. 鳞翅目动物的诅咒:玩java.time
  7. SendMessage、PostMessage原理和源代码详解
  8. python现有两个磁盘文件a和b_有两个磁盘文件A和B,各存放一行字母,今要求把这两个文件中的信息合并,输出到一个新文件C中。...
  9. 你读过的最心酸的句子有哪些?
  10. 谈谈头条创作者最近几个月的一些改变吧
  11. 终端 ssh 上传文件_记一次将文件添加到github
  12. 服务器中文档存储在哪,云服务器存储在哪
  13. Netty源码分析第3章(客户端接入流程)----第3节: NioSocketChannel的创建
  14. Differential Privacy差分隐私
  15. gcc for linux安装失败,安装错误的gcc导致一些错误
  16. summery(一)
  17. 原神紫晶块采集点位置在哪 紫晶块采集点路线图详情
  18. 基于51单片机的体脂检测系统设计(51+oled+hx711+us100)
  19. Java若伊是啥_java运行环境和运行机制
  20. 帝国cms如何导入php模板,帝国cms模板导入导出及模板组功能介绍

热门文章

  1. PythonWeb全栈开发介绍
  2. python 修改图片尺寸_Python实现更改图片尺寸大小的方法(基于Pillow包)
  3. JDBC jar下载
  4. 控制台报400、500内部服务器错误是什么原因?怎么解决?
  5. BUUCTF 2021-10-4 Pwn
  6. 语音识别-人工智能实验室旗下语音识别频道,汇集最新最全的语音识别新闻及资讯,让您掌握语音识别第一手的资讯-中国人工智能网-Powered by www.AiLab.cn
  7. java技术学习交流群,诚邀您的加入
  8. yum-utils与yum-config-manager
  9. C语言字符串函数strcat | strcpy | strlen | strcmp的用法及原型
  10. MySQL UUID函数的详解