最近做相关性分析提高模型性能遇到不少问题,这里总结下:

Correlation (Pearson, Spearman, and Kendall)​www.kaggle.com

1. Pearson correlation

假设:

每个观察值应具有一对值。

每个变量应该是连续的。

每个变量应为正态分布。

应该没有异常值。

假设线性和均方差

2. Spearman rank correlation

假设:

两对数据的观察是独立的。

应按序数,区间或比率测量两个变量。

假定两个变量之间存在单调关系。

3. Kendall rank correlation

假设同spearman

kendall秩相关系数_百度百科​baike.baidu.com

3每种相关性的比较

皮尔森相关与Spearman和Kendall相关

非参数相关(指 spearman和hendall)的表达能力相对较弱,因为它们在计算中使用的信息较少。在Pearson的情况下,相关性使用有关均值和均值偏差的信息,而非参数相关性仅使用序数信息和成对分数。

在非参数相关的情况下,X和Y值可能是连续的或有序的,并且不需要X和Y的近似正态分布。但在皮尔逊相关的情况下,它假定X和Y的分布应该是正态分布,并且也应该是连续的(因此做spearman之前要做一些对数变换之类的尽量接近正态分布)。

相关系数 测量线性(皮尔逊)或单调(Spearman和Kendall)关系。

Spearman相关与Kendall相关

在正常情况下,Kendall相关性比Spearman相关性更强健和有效。这意味着当样本量较小或存在一些异常值时,首选Kendall相关。

下面是一些非常nice的图:

4 Correlation in Simulation Data

在线性关系中,所有相关系数均为1。

在指数关系中,只有两个非参数相关系数为1或-1。 在对数关系中,结果与指数关系相同。

在对称的U形关系中,所有相关系数均为零。

5 Correlation in Iris Data

在所有情况下,Kendall相关系数的绝对值均小于其他绝对值。 可以看出,肯德尔相关性比其他相关性更为保守。

pearson相关系数_三个相关系数的注意事项相关推荐

  1. R计算两列数据的相关系数_数据特征分析·相关性分析

    相关性分析 相关分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个因素的的相关密切程度,相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析. 1. 如何利用相关系数判断数据之间 ...

  2. ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient)、Spearman相关系数的简介、案例应用之详细攻略

    ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient).Spearman相关系数的简介.案例应用之详细攻略 目录 PPMCC皮尔逊相关系数的简介 ...

  3. R计算两列数据的相关系数_相关系数简介及R计算

    变量间Pearson.Spearman.Kendall.Polychoric.Tetrachoric.Polyserial.Biserial相关系数简介及R计算对于给定数据集中,变量之间的关联程度以及 ...

  4. 筛数方法相关系数_相关系数怎么计算

    展开全部 若Y=a+bX,则有: 令E(X) = μ,D(X) = σ 则E(Y) = bμ + a,D(Y) = bσ E(XY) = E(aX + bX) = aμ + b(σ + μ) Cov( ...

  5. python计算线性相关系数_Python+pandas计算数据相关系数(person、Kendall、spearman)

    pandas中DataFrame对象corr()方法的用法,该方法用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数.Kendall Tau相关系数和spearman秩相 ...

  6. R计算两列数据的相关系数_Python+pandas计算数据相关系数(person、Kendall、spearman)...

    pandas中DataFrame对象corr()方法的用法,该方法用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数.Kendall Tau相关系数和spearman秩相 ...

  7. python求相关系数_python pandas 计算相关系数

    pandas 中df 对象自带相关性计算方法corr() , 可以用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数.Kendall Tau相关系数和spearman秩相 ...

  8. 递归_三要素_基础算法必备

    递归_三要素_基础算法必备 目录 第一要素:明确函数作用 第二要素:递归结束条件 第三要素:函数等价关系 第一要素:明确函数作用 对于递归,我觉得很重要的一个事就是,这个函数的功能是什么,他要完成什么 ...

  9. FANUC机器人_三点法设置工具坐标系的具体方法步骤(图文)

    FANUC机器人_三点法设置工具坐标系的具体方法步骤 设置步骤可参考如下: 如下图所示,按下MENU键,选择"设定"-"坐标系"进入设置画面,

最新文章

  1. 我平常整理了CString的一些用法,很实用,发给你共享,相信你以后遇到CString的问题都会迎刃而解:...
  2. 自然语言处理NLP,如何使用AMBERT算法建立多粒度token预训练语言模型
  3. 三维重建PCL:点云单侧面正射投影
  4. 从0到1简易区块链开发手册V0.3-数据持久化与创世区块
  5. Python--第2次平时作业
  6. 施一公:带好学生,是特别要紧的事
  7. python入门指南阅读答案_【python】入门指南1
  8. 图像处理与计算机视觉的论文创新点总结(二)
  9. window10设置文件夹备注
  10. BZOJ2157旅游——树链剖分+线段树
  11. SpringBoot 一个依赖搞定 session 共享,没有比这更简单的方案了!
  12. linux高级编程进程,linux高级编程(五、进程)
  13. 点线面的意义_如何运用设计中的点线面?
  14. iphone6出信号 无服务器,iPhone6手机无服务(非常见故障点)维修
  15. 手机阅读“宝”——Apabi Reader for Android
  16. CCF CSP 201903-1 小中大
  17. C++报错 invalid operands to binary expression
  18. 2021 HTML面试题(最新)不定时更新
  19. 寒武纪上半年营收1.7亿扣非后亏7.6亿 招银减持套现超3亿
  20. MyEclipse 10 注册码 破解 到期限制

热门文章

  1. ModuleNotFoundError: No module named ‘pandas.rpy‘
  2. 交叉熵损失函数、修正Huber损失、极大似然估计、负对数似然、似然与交叉熵、KL散度
  3. 测序仪的序列:DNA测序的历史
  4. 计算机网络(谢希仁)-第一章:概述
  5. 如何快速而准确的获取生物体的遗传信息一直是生命科学 中的一个非常重要的研究点
  6. 结合实例与代码谈数字图像处理都研究什么?
  7. linux日期日增,Linux日期
  8. 改变div php,js改变div样式
  9. 随机邮箱_万豪随机发50美刀的礼券,看看你的邮箱有没有!英国航空BA里程缩水在即...
  10. sqlalchemy.exc.InternalError: (pymysql.err.InternalError) Packet sequence number wrong - got 40 expe