转自: http://www.cnblogs.com/zhangchaoyang/articles/2631907.html 本文给出两种相关系数,系数越大说明越相关。

皮尔森相关系数

皮尔森相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(Pearson product-moment correlation coefficient),是用来反应两个变量相似程度的统计量。或者说可以用来计算两个向量的相似度(在基于向量空间模型的文本分类、用户喜好推荐系统中都有应用)。

皮尔森相关系数计算公式如下:

ρX,Y=cov(X,Y)σXσY=E((X−μX)(Y−μY))σXσY=E(XY)−E(X)E(Y)E(X2)−E2(X)√E(Y2)−E2(Y)√ \rho_{X,Y}=\frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}=\frac{E((X-\mu_X)(Y-\mu_Y))}{\sigma_{X}\sigma_{Y}}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}\sqrt{E(Y^2)-E^2(Y)}}

分子是协方差,分子是两个变量标准差的乘积。显然要求X和Y的标准差都不能为0。

当两个变量的线性关系增强时,相关系数趋于1或-1。正相关时趋于1,负相关时趋于-1。当两个变量独立时相关系统为0,但反之不成立。比如对于 y=x2 y=x^2,X服从[-1,1]上的均匀分布,此时E(XY)为0,E(X)也为0,所以 ρX,Y=0 \rho_{X,Y}=0,但x和y明显不独立。所以“不相关”和“独立”是两回事。当Y 和X服从联合正态分布时,其相互独立和不相关是等价的。

对于居中的数据来说(何谓居中?也就是每个数据减去样本均值,居中后它们的平均值就为0),E(X)=E(Y)=0,此时有:

ρX,Y=E(XY)E(X2)√E(Y2)√=1N∑Ni=1XiYi1N∑Ni=1X2i√1N∑Ni=1Y2i√=∑Ni=1XiYi∑Ni=1X2i√∑Ni=1Y2i√=∑Ni=1XiYi||X||||Y|| \rho_{X,Y}=\frac{E(XY)}{\sqrt{E(X^2)}\sqrt{E(Y^2)}}=\frac{\frac{1}{N}\sum_{i=1}^N{X_{i}Y_{i}}}{\sqrt{\frac{1}{N}\sum_{i=1}^N{X_i^2}}\sqrt{\frac{1}{N}\sum_{i=1}^N{Y_i^2}}}=\frac{\sum_{i=1}^N{X_{i}Y_{i}}}{\sqrt{\sum_{i=1}^N{X_i^2}}\sqrt{\sum_{i=1}^N{Y_i^2}}}=\frac{\sum_{i=1}^N{X_{i}Y_{i}}}{||X|| ||Y||}

即相关系数可以看作是两个随机变量中得到的样本集向量之间夹角的cosine函数。

进一步当X和Y向量归一化后,||X||=||Y||=1,相关系数即为两个向量的乘积 ρX,Y=X∙Y \rho_{X,Y}=X\bullet{Y}。

Spearman秩相关系数

首先说明秩相关系数还有其他类型,比如kendal秩相关系数。

使用Pearson线性相关系数有2个局限:

  1. 必须假设数据是成对地从正态分布中取得的。
  2. 数据至少在逻辑范围内是等距的。

对于更一般的情况有其他的一些解决方案,Spearman秩相关系数就是其中一种。Spearman秩相关系数是一种无参数(与分布无关)检验方法,用于度量变量之间联系的强弱。在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,则Spearman秩相关系数就是+1或-1,称变量完全Spearman秩相关。注意这和Pearson完全相关的区别,只有当两变量存在线性关系时,Pearson相关系数才为+1或-1。

对原始数据xi,yi按从大到小排序,记x’i,y’i为原始xi,yi在排序后列表中的位置,x’i,y’i称为xi,yi的秩次,秩次差di=x’i-y’i。Spearman秩相关系数为:

ρs=1−6∑d2in(n2−1) \rho_s=1-\frac{6\sum{d_i^2}}{n(n^2-1)}

位置 原始X 排序后 秩次 原始Y 排序后 秩次 秩次差
1 12 546 5 1 78 6 1
2 546 45 1 78 46 1 0
3 13 32 4 2 45 5 1
4 45 13 2 46 6 2 0
5 32 12 3 6 2 4 1
6 2 2 6 45 1 3 -3

对于上表数据,算出Spearman秩相关系数为:1-6*(1+1+1+9)/(6*35)=0.6571

查阅秩相关系数检验的临界值表

n 显著水平
0.05 0.01
5 0.9 1
6 0.829 0.943
7 0.714 0.893

置信度=1-显著水平。上表显示在n=6的时候,当spearman秩相关系数>=0.829时我们有95%的置信度认为两个随机变量相关,当spearman秩相关系数>=0.943时我们有99%的置信度认为两个随机变量相关。由于0.6571<0.829,即置信度达不到95%,所以我们不能认为X和Y相关。

如果原始数据中有重复值,则在求秩次时要以它们的平均值为准,比如:

原始X 秩次 调整后的秩次
0.8 5 5
1.2 4 (4+3)/2=3.5
1.2 3 (4+3)/2=3.5
2.3 2 2
18 1 1

Spearman秩相关系数应该是从秩和检验延伸过来的,因为它们很像。

相关性和相似度的区别

X=(1,2,3)跟Y=(4,5,6)的皮尔森相关系数等于1,说明X和Y是严格线性相关的(事实上Y=X+3)。

但是X和Y的相似度却不是1,如果用余弦距离来度量,X和Y之间的距离明显大于0。

相关性检验–Spearman秩相关系数和皮尔森相关系数相关推荐

  1. 相关性检验--Spearman秩相关系数和皮尔森相关系数

    本文给出两种相关系数,系数越大说明越相关.你可能会参考另一篇博客独立性检验. 皮尔森相关系数 皮尔森相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(P ...

  2. Pearson、Spearman秩相关系数、kendall等级相关系数

    p>统计相关系数简介 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数. 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度. 如果有两个变量:X.Y,最终 ...

  3. 三大相关系数:Pearson、Spearman秩相关系数、kendall等级相关系数的联系与区别

    三大统计相关系数:Pearson.Spearman秩相关系数.kendall等级相关系数 统计相关系数简介 Pearson(皮尔逊)相关系数 1.简介 2.适用范围 3.使用方法 Spearman R ...

  4. python质量数据关联性分析_相关性检验之Pearson系数及python实现

    相关性检验之Pearson系数及python实现 一.Pearson相关系数 皮尔森相关系数是用来反应俩变量之间相似程度的统计量,在机器学习中可以用来计算特征与类别间的相似度,即可判断所提取到的特征和 ...

  5. SPSS——相关分析——Spearman秩相关系数

    简介 斯皮尔曼等级相关(Spearman's correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题.适用于两列变量,而且具有等级变量 ...

  6. 相关性检验之Pearson系数及python实现

    一.Pearson相关系数 皮尔森相关系数是用来反应俩变量之间相似程度的统计量,在机器学习中可以用来计算特征与类别间的相似度,即可判断所提取到的特征和类别是正相关.负相关还是没有相关程度. Pears ...

  7. 三大统计相关系数:Pearson、Spearman秩相关系数、kendall等级相关系数

    统计相关系数简介 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数. 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度. 如果有两个变量:X.Y,最终计算出的相 ...

  8. 皮尔森相关系数_追逐梦想的顾咏丰_新浪博客

    皮尔森相关系数是统计学中比较重要的概念,它能够计算衡量出 2 个随机变量的相关性.在我们特征选择时特别重要,现在给出维基百科上的介绍 In statistics, the Pearson correl ...

  9. python实现spearman相关性检验

    python实现spearman相关性检验 Spearman秩相关系数  对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用.但其属于非参数方法,检验效能较Pear ...

最新文章

  1. Java项目:新闻发布系统(java+Springboot+ssm+mysql+maven)
  2. 13,matlab中的 classdef定义类的使用
  3. vue+springboot-前台怎么回显本地文件夹下的图片
  4. 20172329 2017-2018-2 《程序设计与数据结构》实验四报告
  5. 购房占比47.54%,数据揭秘女性偏爱婚前买房背后原因
  6. python九九乘法表求和,平均数,最大值,最小值、金字塔、等边三角形
  7. 中职一年级计算机英语课件,中职生一年级英语.doc
  8. 全志A33-USB虚拟网卡的配置与使用
  9. 第10章尚硅谷SpringBoot检索
  10. 小组会谈(2019.3.14)
  11. Linux用户管理案例(第二版)
  12. 跟我学ASP.NET MVC之五:SportsStrore开始
  13. 使用Java对sftp带有中文路径的文件夹进行下载,乱码打不开文件夹
  14. springMVC学习(1)
  15. 昆明二级计算机考试报名时间2015,2015年国家司法考试昆明考区公告
  16. 聊天记录没了怎么办?苹果手机微信聊天记录怎么恢复
  17. 联发科:心态决定未来走势
  18. Ubuntu指令失效解决问题之一——错误配置环境变量
  19. 怎么用计算机打吃鸡,想要用电脑玩绝地求生手游吗?这几个模拟器满足你
  20. 描写火车站场景_描写春运火车拥挤的作文_火车站上

热门文章

  1. java 进销存系统_基于SSM框架搭建的java web商家进销存网站系统
  2. 毕业生必须知道:干部身份、三方协议、派遣证、人事代理、户口迁移 、编制、工龄、签约、档案 1
  3. 远程连接Remote Desktop Manager Mac版 2022最新
  4. 推荐一些免费可用的热门 API
  5. 记录一次生产事故MYSQL执行语句错误,回滚数据
  6. SpringBoot 调用python接口
  7. 告别,去创造更大的世界
  8. 123个Pandas常用基础指令,真香!
  9. 最难忘的一节计算机课,最难忘的一节课作文八篇
  10. 前端js与jq常用网站