相关性检验--Spearman秩相关系数和皮尔森相关系数
本文给出两种相关系数,系数越大说明越相关。你可能会参考另一篇博客独立性检验。
皮尔森相关系数
皮尔森相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(Pearson product-moment correlation coefficient),是用来反应两个变量相似程度的统计量。或者说可以用来计算两个向量的相似度(在基于向量空间模型的文本分类、用户喜好推荐系统中都有应用)。
皮尔森相关系数计算公式如下:
$\rho_{X,Y}=\frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}=\frac{E((X-\mu_X)(Y-\mu_Y))}{\sigma_{X}\sigma_{Y}}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}\sqrt{E(Y^2)-E^2(Y)}}$
分子是协方差,分母是两个变量标准差的乘积。显然要求X和Y的标准差都不能为0。
当两个变量的线性关系增强时,相关系数趋于1或-1。正相关时趋于1,负相关时趋于-1。当两个变量独立时相关系统为0,但反之不成立。比如对于$y=x^2$,X服从[-1,1]上的均匀分布,此时E(XY)为0,E(X)也为0,所以$\rho_{X,Y}=0$,但x和y明显不独立。所以“不相关”和“独立”是两回事。当Y 和X服从联合正态分布时,其相互独立和不相关是等价的。
对于居中的数据来说(何谓居中?也就是每个数据减去样本均值,居中后它们的平均值就为0),E(X)=E(Y)=0,此时有:
$\rho_{X,Y}=\frac{E(XY)}{\sqrt{E(X^2)}\sqrt{E(Y^2)}}=\frac{\frac{1}{N}\sum_{i=1}^N{X_{i}Y_{i}}}{\sqrt{\frac{1}{N}\sum_{i=1}^N{X_i^2}}\sqrt{\frac{1}{N}\sum_{i=1}^N{Y_i^2}}}=\frac{\sum_{i=1}^N{X_{i}Y_{i}}}{\sqrt{\sum_{i=1}^N{X_i^2}}\sqrt{\sum_{i=1}^N{Y_i^2}}}=\frac{\sum_{i=1}^N{X_{i}Y_{i}}}{||X|| ||Y||}$
即相关系数可以看作是两个随机变量中得到的样本集向量之间夹角的cosine函数。
进一步当X和Y向量归一化后,||X||=||Y||=1,相关系数即为两个向量的乘积$\rho_{X,Y}=X\bullet{Y}$。
Spearman秩相关系数
首先说明秩相关系数还有其他类型,比如kendal秩相关系数。
使用Pearson线性相关系数有2个局限:
- 必须假设数据是成对地从正态分布中取得的。
- 数据至少在逻辑范围内是等距的。
对于更一般的情况有其他的一些解决方案,Spearman秩相关系数就是其中一种。Spearman秩相关系数是一种无参数(与分布无关)检验方法,用于度量变量之间联系的强弱。在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,则Spearman秩相关系数就是+1或-1,称变量完全Spearman秩相关。注意这和Pearson完全相关的区别,只有当两变量存在线性关系时,Pearson相关系数才为+1或-1。
对原始数据xi,yi按从大到小排序,记x'i,y'i为原始xi,yi在排序后列表中的位置,x'i,y'i称为xi,yi的秩次,秩次差di=x'i-y'i。Spearman秩相关系数为:
$\rho_s=1-\frac{6\sum{d_i^2}}{n(n^2-1)}$
位置 | 原始X | 排序后 | 秩次 | 原始Y | 排序后 | 秩次 | 秩次差 |
1 | 12 | 546 | 5 | 1 | 78 | 6 | 1 |
2 | 546 | 45 | 1 | 78 | 46 | 1 | 0 |
3 | 13 | 32 | 4 | 2 | 45 | 5 | 1 |
4 | 45 | 13 | 2 | 46 | 6 | 2 | 0 |
5 | 32 | 12 | 3 | 6 | 2 | 4 | 1 |
6 | 2 | 2 | 6 | 45 | 1 | 3 | -3 |
对于上表数据,算出Spearman秩相关系数为:1-6*(1+1+1+9)/(6*35)=0.6571
查阅秩相关系数检验的临界值表
n | 显著水平 | |
0.05 | 0.01 | |
5 | 0.9 | 1 |
6 | 0.829 | 0.943 |
7 | 0.714 | 0.893 |
置信度=1-显著水平。上表显示在n=6的时候,当spearman秩相关系数>=0.829时我们有95%的置信度认为两个随机变量相关,当spearman秩相关系数>=0.943时我们有99%的置信度认为两个随机变量相关。由于0.6571<0.829,即置信度达不到95%,所以我们不能认为X和Y相关。
如果原始数据中有重复值,则在求秩次时要以它们的平均值为准,比如:
原始X | 秩次 | 调整后的秩次 |
0.8 | 5 | 5 |
1.2 | 4 | (4+3)/2=3.5 |
1.2 | 3 | (4+3)/2=3.5 |
2.3 | 2 | 2 |
18 | 1 | 1 |
Spearman秩相关系数应该是从秩和检验延伸过来的,因为它们很像。
相关性和相似度的区别
X=(1,2,3)跟Y=(4,5,6)的皮尔森相关系数等于1,说明X和Y是严格线性相关的(事实上Y=X+3)。
但是X和Y的相似度却不是1,如果用余弦距离来度量,X和Y之间的距离明显大于0。
相关性检验--Spearman秩相关系数和皮尔森相关系数相关推荐
- 相关性检验–Spearman秩相关系数和皮尔森相关系数
转自: http://www.cnblogs.com/zhangchaoyang/articles/2631907.html 本文给出两种相关系数,系数越大说明越相关. 皮尔森相关系数 皮尔森相关系数 ...
- Pearson、Spearman秩相关系数、kendall等级相关系数
p>统计相关系数简介 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数. 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度. 如果有两个变量:X.Y,最终 ...
- 三大相关系数:Pearson、Spearman秩相关系数、kendall等级相关系数的联系与区别
三大统计相关系数:Pearson.Spearman秩相关系数.kendall等级相关系数 统计相关系数简介 Pearson(皮尔逊)相关系数 1.简介 2.适用范围 3.使用方法 Spearman R ...
- python质量数据关联性分析_相关性检验之Pearson系数及python实现
相关性检验之Pearson系数及python实现 一.Pearson相关系数 皮尔森相关系数是用来反应俩变量之间相似程度的统计量,在机器学习中可以用来计算特征与类别间的相似度,即可判断所提取到的特征和 ...
- SPSS——相关分析——Spearman秩相关系数
简介 斯皮尔曼等级相关(Spearman's correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题.适用于两列变量,而且具有等级变量 ...
- 相关性检验之Pearson系数及python实现
一.Pearson相关系数 皮尔森相关系数是用来反应俩变量之间相似程度的统计量,在机器学习中可以用来计算特征与类别间的相似度,即可判断所提取到的特征和类别是正相关.负相关还是没有相关程度. Pears ...
- 三大统计相关系数:Pearson、Spearman秩相关系数、kendall等级相关系数
统计相关系数简介 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数. 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度. 如果有两个变量:X.Y,最终计算出的相 ...
- 皮尔森相关系数_追逐梦想的顾咏丰_新浪博客
皮尔森相关系数是统计学中比较重要的概念,它能够计算衡量出 2 个随机变量的相关性.在我们特征选择时特别重要,现在给出维基百科上的介绍 In statistics, the Pearson correl ...
- python实现spearman相关性检验
python实现spearman相关性检验 Spearman秩相关系数 对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用.但其属于非参数方法,检验效能较Pear ...
最新文章
- jackson stax2-api
- 小学六年级下册计算机计划,小学六年级科学下册教学计划(通用5篇)
- java调试报告_java实验一报告
- blood vessel 图像分割_单图像九宫格形式发送朋友圈
- php 5.4.25,php5.4.25的c核心用vs2008sp1编译无法通过。解决思路
- 笔记| 计算机数据表示实验(HUST)| 汉字机内码获取实验
- 银行卡卡号归属地汇总
- typecho与WordPress博客程序评测及推荐
- 怎么在计算机上搭建远程桌面,创建远程桌面连接的方法
- 从零开始之uboot、移植uboot2017.01(三、lowlevel_init)
- 什么是机器学习里的优化?
- (待补)(递归)九连环问题*
- Apache httpd 几个报错的解决记录
- Xiuno 简约白色主题
- centos7 oracle 打补丁
- 初级开发人员的缺点_成为成功的初级开发人员的10条最佳建议
- Configure交叉编译
- 基于STM32单片机的天然气甲烷硫化氢气体检测仪原理图PCB
- 2021-2027全球与中国锂电池三元正极材料市场现状及未来发展趋势
- Extjs4循序渐进(一)—开始Ext