协方差(covariance)和相关系数(correlation coefficient)
相关系数和协方差实际上是相同的概念,都是用来描述两个随机变量之间的相似程度的。这篇文章将详细说明协方差和相关系数的相关知识。
首先声明,此篇的内容是来自"马同学高等数学"微信公众号的内容。
1、事物之间的关系
事物之间有两种关系,有关系和没关系。
1.1 、有关系
据专家表示,要买房的人越多(下图的城镇化率可以简单理解为进城买房的人数),房价就越高(数据来源):
从上图可以看出,房价与进城买房的人数成正比,两者的关系是正相关。
城镇化除了推升城市房价之外,还有另外一个作用,降低出生率。城镇化和出生率之间的关系就是负相关:
所以说,“城镇化是最好的避孕药”,不管在新加坡、日本、中国、美国都有这样的规律。城镇化一方面是推动买房人口的增加,一方面是出生人口的减少,那么未来房价会怎样?预测未来就是统计学家的重要工作。
1.2、没关系
比如说买彩票,跟是否求神拜佛,是否洗手这些事没有关系的。
协方差、相关系数就是尝试找出两个随机变量之间具有什么样的关系。
2、距离与关系
在线性代数里面是用距离来描述关系的。比如,几米的漫画《向左走,向右走》,讲述了一对都市男女,比邻而居:
却总是擦肩而过:
用句文艺的话来说就是,“距离那么近,相隔那么远”。
这里面就包含了两个数学中的距离:
“距离那么近”:欧式距离,也就是两点之间的直线距离
“相隔那么远”:余弦距离,也就是本文想说的,表示关系用的距离
2.1 欧式距离
欧式距离是我们接触最多的距离,实际上他就是直线距离。比如,和之间的欧式距离就是下图中的许下:
欧式距离可以通过勾股定理,或者点积来计算:
2.2 余弦距离
比如,向量和的余弦距离就是下图中角的余弦
根据线性代数的知识,余弦也可以通过点积和模长来计算:
2.3 通过余弦距离来计算关系
举一个在实际应用中,通过余弦距离来计算关系的例子。下面是某书评网站,用户对一些书籍进行了相应的评分:
第一个用户的信息用向量来表示,第二个用户的信息用向量来表示,那么他们之间的相似性可以用余弦距离来表示:
带入数据,结果保留到小数点后两位:
余弦最大即为1,所以两者之间应该是挺有关系的,我们可以考虑把第一个用户喜欢的书推荐给第二个用户,或者反之。以此类推,我们就可以做出如下表格,表明各个用户的相关性:
但是这有一个问题,比如第一个用户喜好假如是:,也就是说他对所有书籍的评分都是1.
第二个用户的喜好是:,也就是说他对所有书籍的评分都是5。这两个人的喜好不是很相同,但是:
余弦距离表明两个人的喜好是完全相同的。
我们来改进一下:
5分,表示很喜欢,实际值为2
4分,表示喜欢,实际值为1
3分,表示中性态度,实际值为0
2分,表示讨厌,实际值为-1
1分,表示很讨厌,实际值为-2
不打分,默认实际值为0
因此,第一个用户喜好的实际值为:
同样的,第二个用户的喜好的实际值为:
余弦距离的结果为:
-1表示两人的喜好是相反的。-1,也就是相反的喜好不代表不相关,而是负相关。我们可以这么来看,比如我们知道第一个用户和第二个用户的余弦距离为-1,那么第一个用户喜欢的就不要推荐给第二个用户,第一个用户讨厌的可以推荐给第二个用户,所以实际两人是相关的,而且还非常相关。
3、协方差和相关系数
扯了这么多有的没的,我们该回到正题了。先假设有两个随机量 ,其均值分别为 。
由这两个随机量及其均值组成两个向量(可以这么认为,对于随机变量组成的向量,其均值才是原点): 好,准备好了,我们往下走。
3.1 、样本方差
对于 X ,其样本方差为:
通过向量表示为: 方差看起来很像是欧式距离。
3.2 、样本协方差
对于X,Y,其样本协方差为:
通过向量表示为: 协方差看起来很像点积。
其实协方差已经可以表示两个向量之间的关系了,但是会受到向量长度的影响,比如:
虽然两个向量的夹角相等,但是算出来的协方差,除了符号相同外,数值却相差较大,为了解决这个问题,我们把协方差归一化,也就是相关系数。
3.3、样本相关系数
对于 X,Y ,样本相关系数为: 其中 为标准差。
通过向量表示为:
相关系数其实就是之前说的余弦距离,表示事物之间的相关性。对比之前关于网站书评的例子,容易知道:
,则正相关
,则负相关
,则不相关 .要说明的一点是, 代表不相关,并不一定独立。这和线代的独立含义还是有所不同。
4、通过散点图来看待相关系数
之前是通过向量来解释了相关系数,不过随机变量 X,Y, 一般数值都很多,组成的向量都超过三维,这样就没有直观的几何意义了,所以我们一般用散点图来表示。比如说,我这里有一组身高、体重的数据:
相关系数为: 和我们直觉相符,体重和身高确实是有强烈的正相关关系。把(身高,体重)作为一个点,画成散点图:
从散点图也可以看出,这些点并非随机,其实是有规律的,可以认为它们贴合在下面红色直线的周围:
而下面这样的点才是散乱无章的,所以相关系数接近于零:
最后用维基百科给出的散点图来结束,该散点图给出了不同形态的点分布与相关系数之间的关系:
参考文献:
如何理解协方差、相关系数? https://mp.weixin.qq.com/s/oejfQS-705PI5DhmC4AAug
协方差(covariance)和相关系数(correlation coefficient)相关推荐
- 概率论-协方差Covariance相关系数Correlation Coefficient
目录 协方差Covariance 定义 性质 相关系数Correlation Coefficient 定义 性质 独立和相关 相关公式 协方差Covariance 定义 定义:Gov(X,Y)=E[( ...
- 协方差Covariance 相关系数correlation coefficient 和 方差-协方差矩阵variance-covariance matrix
一 协方差 Covariance 协方差一般刻画两个随机变量的相似程度.方差是协方差的一种特殊情况,即当两个变量是相同的情况.计算公式如下. 取值范围 R域当协方差Cov(X,Y)>0时,称X与 ...
- 相关系数 Correlation Coefficient 的理解
相关系数 Correlation Coefficient 这张图描绘的是电影的评分跟时间的关系,我们可以借助这样图通过三个步骤来解释相关系数.通过这三个步骤我们可以直观的判断相关系数的大小. 对数据进 ...
- 皮尔逊相关系数丨Pearson’s correlation coefficient
皮尔逊相关系数丨Pearson's correlation coefficient 皮尔逊相关系数丨Pearson's correlation coefficient 什么是相关系数 相关系数与相关距 ...
- 皮尔森(Pearson correlation coefficient)相关系数—统计学三大相关系数之一
概述 皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数,是最常用的一种相关系数.记为r,用来反 ...
- 【统计学】三大相关系数之皮尔逊相关系数(person correlation coefficient)
统计学中的三大相关性系数:pearson, spearman, kendall,他们反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1. 0表示两个变量不相关,正值表示正相关,负值表示 ...
- 相关系数(correlation coefficient)是什么?相关的类型有哪些?有哪些常用的计算方法?不同形态的点分布与相关系数之间的关系?如何评判相关性的强弱?
相关系数(correlation coefficient)是什么?相关的类型有哪些?有哪些常用的计算方法?不同形态的点分布与相关系数之间的关系?如何评判相关性的强弱? pandas api: pand ...
- ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient)、Spearman相关系数的简介、案例应用之详细攻略
ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient).Spearman相关系数的简介.案例应用之详细攻略 目录 PPMCC皮尔逊相关系数的简介 ...
- matlab相关值计算公式,相关系数计算公式(Correlation coefficient calculation formula).doc...
相关系数计算公式(Correlation coefficient calculation formula) 相关系数计算公式(Correlation coefficient calculation f ...
最新文章
- centos python2.7升级到3.7_centos系统升级python 2.7.3
- Windows上使用bat实现备份一个月内的数据库数据到文件
- 基于RSA的WEB前端密码加密方案
- Java实用面试题及参考答案分享
- Bitmap Index
- 使用postman模拟百度通用文字识别
- 细数阿里云服务器的十二种典型应用场景
- 细胞(信息学奥赛一本通-T1329)
- git push 失败出现error: src refspec master does not match any.解决方案
- Java加密算法(十一)——双向认证
- 雷达原理---时频分析--1.基本概念
- HP UINX磁带管理
- CMSInitiatingOccupancyFraction计算释疑
- 拓嘉辰丰:拼多多限时折扣怎样设置?注意事项
- 如何选择适合你的兴趣爱好(一),拉丁舞
- 靶机渗透测试实战(三)——Bulldog1渗透实战
- Python pandas 筛选 Excel 特定行和列全集
- 入职国企外包第一个星期,实感
- linux firefox 背景色,火狐Firefox 72浏览器滚动条将自适应网页背景色
- mpvue开发微信小程序多级联动功能
热门文章
- 深度学习也可以取悦女友
- 基于LSTMGRU的微博突发事件分析与谣言检测(附完整的代码+报告)
- [附源码]JAVA+ssm计算机毕业设计白果园网上水果超市(程序+Lw)
- scrapy框架爬取古诗文网的名句
- 云联会企业认证_“云联惠”到底是不是传销?法官评析传销罪名的主体认定问题...
- Texmaker中“弹出单独的界面”模式查看生成的PDF文件
- centos 做lvm及扩容
- HTML5导航下划线,CSS导航下划线实现
- 在NCBI数据库下载基因表达数据
- overflow属性