相关系数和协方差实际上是相同的概念,都是用来描述两个随机变量之间的相似程度的。这篇文章将详细说明协方差和相关系数的相关知识。

首先声明,此篇的内容是来自"马同学高等数学"微信公众号的内容。

1、事物之间的关系

事物之间有两种关系,有关系和没关系。

1.1 、有关系

据专家表示,要买房的人越多(下图的城镇化率可以简单理解为进城买房的人数),房价就越高(数据来源):

从上图可以看出,房价与进城买房的人数成正比,两者的关系是正相关

城镇化除了推升城市房价之外,还有另外一个作用,降低出生率。城镇化和出生率之间的关系就是负相关

所以说,“城镇化是最好的避孕药”,不管在新加坡、日本、中国、美国都有这样的规律。城镇化一方面是推动买房人口的增加,一方面是出生人口的减少,那么未来房价会怎样?预测未来就是统计学家的重要工作。

1.2、没关系

比如说买彩票,跟是否求神拜佛,是否洗手这些事没有关系的。

协方差、相关系数就是尝试找出两个随机变量之间具有什么样的关系。

2、距离与关系

在线性代数里面是用距离来描述关系的。比如,几米的漫画《向左走,向右走》,讲述了一对都市男女,比邻而居:

却总是擦肩而过:

用句文艺的话来说就是,“距离那么近,相隔那么远”。

这里面就包含了两个数学中的距离:

  • “距离那么近”:欧式距离,也就是两点之间的直线距离

  • “相隔那么远”:余弦距离,也就是本文想说的,表示关系用的距离

2.1 欧式距离

欧式距离是我们接触最多的距离,实际上他就是直线距离。比如,之间的欧式距离就是下图中的许下:

欧式距离可以通过勾股定理,或者点积来计算:

2.2 余弦距离

比如,向量的余弦距离就是下图中角的余弦

根据线性代数的知识,余弦也可以通过点积和模长来计算:

2.3 通过余弦距离来计算关系

举一个在实际应用中,通过余弦距离来计算关系的例子。下面是某书评网站,用户对一些书籍进行了相应的评分:

第一个用户的信息用向量来表示,第二个用户的信息用向量来表示,那么他们之间的相似性可以用余弦距离来表示:

带入数据,结果保留到小数点后两位:

余弦最大即为1,所以两者之间应该是挺有关系的,我们可以考虑把第一个用户喜欢的书推荐给第二个用户,或者反之。以此类推,我们就可以做出如下表格,表明各个用户的相关性:

但是这有一个问题,比如第一个用户喜好假如是:,也就是说他对所有书籍的评分都是1.

第二个用户的喜好是:,也就是说他对所有书籍的评分都是5。这两个人的喜好不是很相同,但是:

余弦距离表明两个人的喜好是完全相同的。

我们来改进一下:

  • 5分,表示很喜欢,实际值为2

  • 4分,表示喜欢,实际值为1

  • 3分,表示中性态度,实际值为0

  • 2分,表示讨厌,实际值为-1

  • 1分,表示很讨厌,实际值为-2

  • 不打分,默认实际值为0

因此,第一个用户喜好的实际值为:

同样的,第二个用户的喜好的实际值为:

余弦距离的结果为:                    

-1表示两人的喜好是相反的。-1,也就是相反的喜好不代表不相关,而是负相关。我们可以这么来看,比如我们知道第一个用户和第二个用户的余弦距离为-1,那么第一个用户喜欢的就不要推荐给第二个用户,第一个用户讨厌的可以推荐给第二个用户,所以实际两人是相关的,而且还非常相关。

3、协方差和相关系数

扯了这么多有的没的,我们该回到正题了。先假设有两个随机量  ,其均值分别为  。

由这两个随机量及其均值组成两个向量(可以这么认为,对于随机变量组成的向量,其均值才是原点):              好,准备好了,我们往下走。

3.1 、样本方差

对于 X ,其样本方差为:

通过向量表示为:                        方差看起来很像是欧式距离。

3.2 、样本协方差

对于X,Y,其样本协方差为:

通过向量表示为:                           协方差看起来很像点积。

其实协方差已经可以表示两个向量之间的关系了,但是会受到向量长度的影响,比如:

虽然两个向量的夹角相等,但是算出来的协方差,除了符号相同外,数值却相差较大,为了解决这个问题,我们把协方差归一化,也就是相关系数。

3.3、样本相关系数

对于 X,Y ,样本相关系数为:                       其中  为标准差。

通过向量表示为:

相关系数其实就是之前说的余弦距离,表示事物之间的相关性。对比之前关于网站书评的例子,容易知道:

  • ,则正相关

  •  ,则负相关

  • ,则不相关 .要说明的一点是,  代表不相关,并不一定独立。这和线代的独立含义还是有所不同。

4、通过散点图来看待相关系数

之前是通过向量来解释了相关系数,不过随机变量 X,Y, 一般数值都很多,组成的向量都超过三维,这样就没有直观的几何意义了,所以我们一般用散点图来表示。比如说,我这里有一组身高、体重的数据:

相关系数为:    和我们直觉相符,体重和身高确实是有强烈的正相关关系。把(身高,体重)作为一个点,画成散点图:

从散点图也可以看出,这些点并非随机,其实是有规律的,可以认为它们贴合在下面红色直线的周围:

而下面这样的点才是散乱无章的,所以相关系数接近于零:

最后用维基百科给出的散点图来结束,该散点图给出了不同形态的点分布与相关系数之间的关系:

参考文献:

如何理解协方差、相关系数?         https://mp.weixin.qq.com/s/oejfQS-705PI5DhmC4AAug

协方差(covariance)和相关系数(correlation coefficient)相关推荐

  1. 概率论-协方差Covariance相关系数Correlation Coefficient

    目录 协方差Covariance 定义 性质 相关系数Correlation Coefficient 定义 性质 独立和相关 相关公式 协方差Covariance 定义 定义:Gov(X,Y)=E[( ...

  2. 协方差Covariance 相关系数correlation coefficient 和 方差-协方差矩阵variance-covariance matrix

    一 协方差 Covariance 协方差一般刻画两个随机变量的相似程度.方差是协方差的一种特殊情况,即当两个变量是相同的情况.计算公式如下. 取值范围 R域当协方差Cov(X,Y)>0时,称X与 ...

  3. 相关系数 Correlation Coefficient 的理解

    相关系数 Correlation Coefficient 这张图描绘的是电影的评分跟时间的关系,我们可以借助这样图通过三个步骤来解释相关系数.通过这三个步骤我们可以直观的判断相关系数的大小. 对数据进 ...

  4. 皮尔逊相关系数丨Pearson’s correlation coefficient

    皮尔逊相关系数丨Pearson's correlation coefficient 皮尔逊相关系数丨Pearson's correlation coefficient 什么是相关系数 相关系数与相关距 ...

  5. 皮尔森(Pearson correlation coefficient)相关系数—统计学三大相关系数之一

    概述 皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数,是最常用的一种相关系数.记为r,用来反 ...

  6. 【统计学】三大相关系数之皮尔逊相关系数(person correlation coefficient)

    统计学中的三大相关性系数:pearson, spearman, kendall,他们反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1. 0表示两个变量不相关,正值表示正相关,负值表示 ...

  7. 相关系数(correlation coefficient)是什么?相关的类型有哪些?有哪些常用的计算方法?不同形态的点分布与相关系数之间的关系?如何评判相关性的强弱?

    相关系数(correlation coefficient)是什么?相关的类型有哪些?有哪些常用的计算方法?不同形态的点分布与相关系数之间的关系?如何评判相关性的强弱? pandas api: pand ...

  8. ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient)、Spearman相关系数的简介、案例应用之详细攻略

    ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient).Spearman相关系数的简介.案例应用之详细攻略 目录 PPMCC皮尔逊相关系数的简介 ...

  9. matlab相关值计算公式,相关系数计算公式(Correlation coefficient calculation formula).doc...

    相关系数计算公式(Correlation coefficient calculation formula) 相关系数计算公式(Correlation coefficient calculation f ...

最新文章

  1. centos python2.7升级到3.7_centos系统升级python 2.7.3
  2. Windows上使用bat实现备份一个月内的数据库数据到文件
  3. 基于RSA的WEB前端密码加密方案
  4. Java实用面试题及参考答案分享
  5. Bitmap Index
  6. 使用postman模拟百度通用文字识别
  7. 细数阿里云服务器的十二种典型应用场景
  8. 细胞(信息学奥赛一本通-T1329)
  9. git push 失败出现error: src refspec master does not match any.解决方案
  10. Java加密算法(十一)——双向认证
  11. 雷达原理---时频分析--1.基本概念
  12. HP UINX磁带管理
  13. CMSInitiatingOccupancyFraction计算释疑
  14. 拓嘉辰丰:拼多多限时折扣怎样设置?注意事项
  15. 如何选择适合你的兴趣爱好(一),拉丁舞
  16. 靶机渗透测试实战(三)——Bulldog1渗透实战
  17. Python pandas 筛选 Excel 特定行和列全集
  18. 入职国企外包第一个星期,实感
  19. linux firefox 背景色,火狐Firefox 72浏览器滚动条将自适应网页背景色
  20. mpvue开发微信小程序多级联动功能

热门文章

  1. 深度学习也可以取悦女友
  2. 基于LSTMGRU的微博突发事件分析与谣言检测(附完整的代码+报告)
  3. [附源码]JAVA+ssm计算机毕业设计白果园网上水果超市(程序+Lw)
  4. scrapy框架爬取古诗文网的名句
  5. 云联会企业认证_“云联惠”到底是不是传销?法官评析传销罪名的主体认定问题...
  6. Texmaker中“弹出单独的界面”模式查看生成的PDF文件
  7. centos 做lvm及扩容
  8. HTML5导航下划线,CSS导航下划线实现
  9. 在NCBI数据库下载基因表达数据
  10. overflow属性