来源:硬数据本文约1900字,建议阅读5分钟 本文为你介绍协方差和相关系数的关系。

Part1 方差

之前介绍了方差是用来刻画数据波动性的统计量,那么协方差就是描述两个变量之间的变动关系。

通俗地理解为:两个变量是同向变化?还是反向变化?同向或反向程度有多少?

X变大,Y也变大,说明两个变量是同向变化的,这时协方差就是正的。

X变大,Y变小,说明两个变量是反向变化的,这时协方差就是负的。

并且从数值大小来看,协方差的绝对值越大,则两个变量同向或反向的程度也越大,即有较强的相关。

公式的计算很简单,每个X与其均值之差乘以Y与其均值之差得到一个乘积,再将其都加起来求个均值即可。

比如有两个变量X,Y,观察7个样本,画出他们的变化情况,并且很明显是同向变化的。

可以发现每一时刻的值与的值的正负号相同(比如t1时刻,他们同为正,t2时刻他们同为负):

于是当他们同向变化时,与的乘积为正。这样,当你把7个时刻的乘积加在一起,求平均后也就是正数了。

如果反向运动

很明显,的值与的值的正负号相反,于是其乘积就是负值,计算出来的协方差也就是负数了。

上面说的两种情况比较特殊,很多时候XY两个变量的变动没有规律,比如:

这种情况下某些的值与的值乘积为正,某些的值与的值乘积为负。

加在一起后,其中的一些正负项就会抵消掉,最后平均得出的值就是协方差,通过协方差的数值大小,就可以判断这两个变量同向或反向的程度了。

所以,在7个样本中,与的乘积为正的越多,说明同向变化的次数越多,亦即同向程度越高,反之亦然。

总而言之,

若协方差为正,则X和Y同向变化;

反之协方差为负,则反向变化;

协方差绝对值越大表示同向或反向的程度越深。

其实方差也是一种特殊的协方差,只不过是X和X之间的协方差。

Part2 相关系数

相关系数的公式为:

其实就是用X、Y的协方差除以X和Y的标准差。

所以相关系数可以看成剔除了两个变量单位的影响、标准化后的特殊协方差。它可以反映两个变量变化是同向还是反向的,同向为正,反向为负。

并且它又是标准化后的协方差,则它出现最重要的目的来了,就是消除两个变量单位的影响,使得不同变量的相关系数之间具有可比性。

比如下面两种情况,关注一下纵轴的刻度:

很容易可以看出两种情况下X和Y都是同向变化的,并且它们变化的方式都大致相同,在特定的样本点同为正或同为负,那么它们理应具有相同的相关关系。于是可以计算一下他们的协方差:

第一种情况下:

[(100-0)×(70-0)+(-100-0)×(-70-0)+(-200-0)×(-200-0)…]÷7≈15428.57

第二种情况下:

[(0.01-0)×(70-0)+(-0.01-0)×(-70-0)+(-0.02-0)×(-200-0)…]÷7≈1.542857

协方差差了一万倍,只能看出两种情况都是正相关的,但是我们能说第一种情况就相关性更强吗?

在上面两种情况中,虽然X和Y的变化方向都相同,但是每次变化的幅度不相同,主要原因是单位的不一致引起的。

所以,为了能准确比较两个变量的相关程度,我们就要把变化幅度对协方差的影响中剔除掉,也就是要去掉单位的影响,于是就要使用相关系数。

那么如何剔除变量变化幅度的影响呢?很自然的就应该使用前面提到的方差和标准差了!

相关系数是协方差除以标准差,当X或Y的波动变大的时候,它们的协方差会变大,标准差也会变大,这样相关系数的分子分母都变大,相互抵消,变小时也亦然。

于是相关系数不像协方差一样可以在实数域上取值,它只能在+1到-1之间变化,具体为什么是+1和-1,可以自行Google柯西-斯瓦茨不等式。

总之,对于两个变量X、Y,

当他们的相关系数为1时,说明两个变量线性相关程度最大,两个变量存在线性关系。

随着相关系数减小,两个变量相关程度也变小。

当相关系数为0时,两个变量的线性无关,但要注意,无关不一定独立。

当相关系数继续变小,小于0时,两个变量开始出现反向相关。

当相关系数为-1时,说明两个变量线性相关程度也最强,不过是相反的线性相关,反相变化。

让我们再回到前面X和Y的例子,用相关系数来衡量相关程度:

X的标准差为

Y的标准差为

于是相关系数为

说明第一种情况下,X和Y有极强的相关性,几乎是线性相关。

那第二种情况:

X的标准差为

Y的标准差为

于是相关系数为

在第二种情况下,X的标准差较第一种小了10000倍,即变化幅度小了,但是并不改变X和Y线性高度相关的事实。

两种情况的相关系数相等,X和Y具有相同的相关性,故而使用相关系数来衡量和比较相关性,要比协方差合适很多。

在第二种情况下,X的标准差较第一种小了10000倍,即变化幅度小了,但是并不改变X和Y线性高度相关的事实。

两种情况的相关系数相等,X和Y具有相同的相关性,故而使用相关系数来衡量和比较相关性,要比协方差合适很多。

编辑:王菁

校对:林亦霖

统计计量 | 协方差和相关系数的暧昧关系:共性与个性相关推荐

  1. 期望值、方差、协方差与相关系数之间的关系

    https://www.zhihu.com/question/20852004 方差和标准差是刻画随机变量在其中心位置附近散布程度的数字特征. 协方差用来刻画两个随机变量X,YX, YX,Y之间的相关 ...

  2. 方差 标准差_方差、标准差、协方差、相关系数

    一.定义.公式 二.方差.标准差 vs 协方差.相关系数 区别 一.定义.公式 1.方差 定义:用于衡量一组数据的离散程度.在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异. 公式: ...

  3. 5. 统计学基础2:协方差、相关系数、协方差矩阵

    文章目录 1. 协方差 2. 相关系数[就是使 |协方差|<=1] 3. 协方差矩阵 1. 协方差 标准差和方差一般是用来描述一维数据的, 具体介绍见:5. 统计学基础1:平均值-四分位数.方差 ...

  4. 4.3 协方差及相关系数、矩

    学习目标: 我正在学习协方差.相关系数和矩,我会采取以下措施: 理解基本概念:首先,我会努力理解协方差.相关系数和矩的基本概念.我会查阅参考资料,例如课本或在线教程,以便深入了解这些概念的定义和特点. ...

  5. 期望值、方差、协方差、相关系数,numpy 计算均值、方差、协方差,相关系数

    文章目录 期望值.方差.协方差.相关系数 一.期望值 二.方差 1. 概念: 2. 示例: 三.协方差 1. 概念: 2. 示例: 四.协方差矩阵 1. 概念: 2. 示例: 五.协方差的相关系数 1 ...

  6. 数学期望,方差,标准差,样本方差,协方差,相关系数概念扫盲

    数学期望 在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一.它反映随机变量平均取值的大小. 再举个例子理解一下数学期望: ...

  7. 方差 标准差_均值、方差、标准差、协方差、相关系数的概念及意义

    一.均值(期望).方差.标准差 下面给出这些概念的公式描述: 均值(期望): 方差: 标准差: 均值(期望)描述的是样本集合的中间点(平均值),但是它告诉我们的信息是有限的,而标准差给我们描述的是样本 ...

  8. 随机变量的数字特征(数学期望,方差,协方差与相关系数)

    戳这里:概率论思维导图 !!! 数学期望 离散型随机变量的数学期望 (这里要求级数绝对收敛,若不绝对收敛,则E(X)不存在) 如果有绝对收敛,则有 ,其中 连续型随机变量的数学期望 (这里要求绝对收敛 ...

  9. AI:几张图理清人工智能与机器学习、知识发现、数据挖掘、统计学、模式识别、神经计算学、数据库之间的暧昧关系

    AI:几张图理清人工智能与机器学习.知识发现.数据挖掘.统计学.模式识别.神经计算学.数据库之间的暧昧关系 目录 几张图理清人工智能与机器学习.知识发现.数据挖掘.统计学.模式识别.神经计算学.数据库 ...

最新文章

  1. 盖茨、奥巴马、马斯克账号被黑,推特遭大规模黑客攻击
  2. opengl从入门到精通
  3. Redis工具类封装讲解和实战
  4. Cortex-M3-MPU(存储器保护单元)
  5. Ribbon自带负载均衡策略比较
  6. 小米路由器 梅林_WIFI6真的有用吗?小米ALOT路由器AX3600上手体验!小米智能家居生态之选及选购分析...
  7. 数据挖掘课程笔记6 : Numpy、Pandas和Matplotlib包基础知识
  8. c# textbox和listbox多行显示
  9. Unity3D-后期处理 Post-process Volume Profile
  10. 整理好全球半导体公司,看看哪些你的上下游厂家
  11. 火车头采集伪原创插件
  12. curl api接口获取当前IP地址
  13. JAVA导出EXCEL实现
  14. 武汉工程大计算机学校地址,武汉工程学院
  15. css+js解决文本两端对齐以及分散对齐
  16. 计算机素养作文,文明素养的作文优秀范文
  17. Oracle 11g重建控制文件——控制文件全部丢失,从零开始
  18. 如何轻松搞定 笔记本搜不到WIFI信号问题
  19. 基于asp.net校园二手物品交易平台-计算机毕业设计
  20. 张家口北方学院计算机是专科,河北北方学院有哪些专科专业

热门文章

  1. matlab中gen2par函数,R语言中绘图par()函数用法
  2. vue读取redis 值_Jmeter连接Redis,一定很容易学会吧
  3. Mvc多级Views目录 asp.net mvc4 路由重写及 修改view 的寻找视图的规则
  4. [Git] git log命令
  5. SSI —— 开源的人类行为分析解决方案
  6. mac上安装ta-lib
  7. JavaScript splice() 方法
  8. keepalived_nginx实现discuz负载均衡和高可用
  9. [C# 网络编程系列]专题十一:实现一个基于FTP协议的程序——文件上传下载器...
  10. C#设计模式(8)-Builder Pattern