Pearson相关系数

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差标准差的商

从式子(1)能看到,Pearson 系数的取值范围在-1~+1之间,其中1是总正线性相关性,0是非线性相关性,并且-1是总负线性相关性。Pearson相关系数的一个关键数学特性是它在两个变量的位置和尺度的单独变化下是不变的。也就是说,我们可以将X变换为a+bX并将Y变换为c+dY,而不改变相关系数,其中a,b,c和d是常数,b,d > 0。请注意,更一般的线性变换确实会改变相关性。

Pearson 系数的使用场景:

  • 适用于线性相关的情形
  • 样本中存在的极端值对Pearson积差相关系数的影响极大,因此要慎重考虑和处理,必要时可以对其进行剔出,或者加以变量变换,以避免因为一两个数值导致出现错误的结论。
  • Pearson积差相关系数要求相应的变量呈双变量正态分布,注意双变量正态分布并非简单的要求x变量和y变量各自服从正态分布,而是要求服从一个联合的双变量正态分布

Spearman相关系数

Spearman相关系数衡量两个变量依赖性无母数 指标,定义如下

原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。 如下表所示:

实际应用中, 变量间的连结是无关紧要的, 于是可以通过简单的步骤计算

。被观测的两个变量的等级的差值
,则

Spearman相关系数对数据的分布没有要求,所以应用范围相比Pearson更加广泛,但是统计效能相比Pearson对更低一些,也就是不容易检测出两个变量之间存在相关关系。如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为 +1 或 −1 。

Kendall相关系数

Kendall 是一种秩相关系数,用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情况。Kendall 系数是基于协同的思想。对于

的两对观察值
,如果
并且
或者
并且
则称这两对观察值是和谐的,否则就是不和谐。kendall相关系数的计算公式如下

相关性质:

  • 如果两个排名之间的一致性是完美的(即两个排名相同),则系数的值为1。
  • 如果两个排名之间的分歧是完美的(即,一个排名与另一个排名相反),则系数具有值-1。
  • 如果XY独立的,那么我们期望系数近似为零。

各种系数的计算

这里我们使用 python 来实战各种系数的计算,输入的数据如下

import numpy as np
import pandas as pdA = np.array([[1,2,3],[4,5,6],[3,2,4],[-4,2,9]
])
A = pd.DataFrame(A)

Pearson相关系数

import seaborn as snssns.heatmap(A.corr("pearson"),annot=True,cmap="coolwarm",fmt='.2f'
)

Spearman相关系数

import seaborn as snssns.heatmap(A.corr("spearman"),annot=True,cmap="coolwarm",fmt='.2f'
)

Kendall相关系数

import seaborn as snssns.heatmap(A.corr("kendall"),annot=True,cmap="coolwarm",fmt='.2f'
)

注意:三种相关系数都是对变量之间相关程度的度量,由于其计算方法不一样,用途和特点也不一样。

  • Pearson相关系数是在原始数据的方差和协方差基础上计算得到,所以对离群值比较敏感,它度量的是线性相关。因此,即使Pearson相关系数为0,也只能说明变量之间不存在线性相关,但仍有可能存在曲线相关。
  • Spearman相关系数和Kendall相关系数都是建立在秩和观测值的相对大小的基础上得到,是一种更为一般性的非参数方法,对离群值的敏感度较低,因而也更具有耐受性,度量的主要是变量之间的联系。

参考

[1] 维基百科:皮尔逊积矩相关系数

[2] 维基百科:斯皮尔曼等级相关系数

[3] CSDN:肯德尔等级相关系数

[4] 知乎:统计学习--三种常见的相关系数

斯皮尔曼相关系数范围_数据的相关系数相关推荐

  1. R计算两列数据的相关系数_数据特征分析·相关性分析

    相关性分析 相关分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个因素的的相关密切程度,相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析. 1. 如何利用相关系数判断数据之间 ...

  2. R计算两列数据的相关系数_Python+pandas计算数据相关系数(person、Kendall、spearman)...

    pandas中DataFrame对象corr()方法的用法,该方法用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数.Kendall Tau相关系数和spearman秩相 ...

  3. 语言相关系数显著性_相关性分析在SPSS中的具体操作,一文读懂相关系数的含义及使用——【杏花开生物医药统计】...

    相关性分析介绍 生物和医学统计中,相关分析属于流程前端的探索性分析,研究变量间关系及性质,其结果在为下一步采取何种方法做出指引,为数据挖掘之前的基础工作. 相关系数的选择 相关分析之前,需要先确认变量 ...

  4. 相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)(第一部分)

    0.前言 一开始学这里的时候我感觉真的完犊子了,因为这部分的内容涉及到了概率论和数理统计的东西,概率论和数理统计虽然我现在在学,但我学的一团糟,翻书也毫无头绪,完了,现在就写一写自己怎么学的这两个系数 ...

  5. 面向数据科学家的实用统计学_数据科学家必知的统计数据

    面向数据科学家的实用统计学 Beginners usually ignore most foundational statistical knowledge. To understand differ ...

  6. r怎么对两组数据统计检验_数据科学中最常用的统计检验是什么

    r怎么对两组数据统计检验 Business analytics and data science is a convergence of many fields of expertise. Profe ...

  7. 数据预处理_数据相关性分析

    相关性分析 1.相关性分析是指对多个具备相关关系的变量进行分析,从而衡量变量间的相关程度或密切程度 2.相关性可以应用到所有数据的分析过程中,任何事物之间都是存在一定的联系 3.为了更准确描述变量之间 ...

  8. 取值方法_数据维度爆炸怎么办?详解 5 大常用的特征选择方法

    公众号关注 "ML_NLP"设为 "星标",重磅干货,第一时间送达! 转自 | DataWhale 在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特 ...

  9. 手把手教你用Keras进行多标签分类(附代码)_数据派THU-CSDN博客 (翻译:程思衍校对:付宇帅)

    手把手教你用Keras进行多标签分类(附代码)_数据派THU-CSDN博客 手把手教你用Keras进行多标签分类(附代码)_数据派THU-CSDN博客

最新文章

  1. DBUtils 笔记
  2. 我是如何将网站全站启用Https的?-记录博客安装配置SSL证书全过程
  3. WIN2000 Apache php mysql 安装及安全手册
  4. Activity Recognition行为识别
  5. Mysql与Sql server,Sum函数跟Count函数
  6. python函数代码_如何显示Python函数的代码?
  7. python iloc iat_Python Pandas Dataframe.iat[ ]用法及代码示例
  8. 思考一下http.ListenAndServe + echo+gorm+xorm的可行性?
  9. 甲骨文谷歌继续打官司:美最高法院同意复审 Java API 版权诉讼案
  10. jdk下载--操作系统
  11. BZOJ.3144.[HNOI2013]切糕(最小割)
  12. 创业者如何防止合伙股东退出,给公司造成损失?
  13. Maven实战05_背景案例学Maven模块化
  14. 请画出一个抓虫系统的架构图并说明你的爬虫需要如何优化来提升性能
  15. JavaScript 常用技巧收集
  16. Bagging与Boosting的区别与联系
  17. jQuery的五种初始化加载写法
  18. 目录类搜索引擎和全文搜索引擎的区别
  19. 模糊综合评价在实际问题中的应用(案例)
  20. MAC常用进入文件夹剪贴粘贴打开文件夹快捷键

热门文章

  1. 中国 12 个工科世界第一,网友:全是不吃香的|软科 2021 世界一流学科排名
  2. CNN如何用于NLP任务?一文简述文本分类任务的7个模型
  3. 曾经的全国重点大学,如今表现如何?2020年最新排名出炉!
  4. 最新调查,48%的美国人表示不会乘坐自动驾驶汽车
  5. 2019天猫双11成交额达2684亿,盘点今年双11有哪些亮点!
  6. GitHub超4.1万星,最全Python入门算法来了
  7. Python查找-二分查找
  8. Flask-RESTful的简单使用
  9. 数字证书采用公钥体制进行加密和解密。每个用户有一个私钥,用它进行 (46)。。。
  10. 什么是“单播”“组播”和“多播”