机器学习——统计学三大相关性系数(pearson、spearman、kendall)
应用场景
当想要比较变量间变化趋势时,可以先做出散点图从视觉上判断是否存在相关性(趋势一致)。然后再采用相关性分析从统计角度衡量。
1. pearson correlation coefficient(皮尔森相关性系数)
定义
两个变量X,Y的皮尔森相关系数等于它们的协方差cov(X,Y)cov(X,Y)cov(X,Y)除以各自的标准差乘积σXσY\sigma_X \sigma_YσXσY
ρ(X,Y)=cov(X,Y)σXσY\rho(X,Y)=\frac{cov(X,Y)}{\sigma_X \sigma_Y} ρ(X,Y)=σXσYcov(X,Y)
反应了两个向量变化趋势的方向以及程度。输出范围为-1到1,0代表无相关性,负值为负相关,正值为正相关。
要求
- 向量X,Y的标准差不能为0(分母不能为0),即向量不能由相同元素组成。
- 实验数据之间的差距不能太大,皮尔森相关性系数受异常值的影响比较大
- 实验数据假设是成对的来自于正态分布的总体。
实现
基于pandas.dataFrame实现
import numpy as np
import pandas as pdx = np.arange(10)
y = np.random.randint(0, 11, 10)
df = pd.DataFrame({'A': x,'B': y
})
df.corr() # .corr()默认实现皮尔森相关系数
2. Spearman correlation coefficient(斯皮尔曼秩相关系数)
定义
“秩”可以理解为一种排序或顺序,它就是根据原始数据排序位置进行求解。这种表征形式就没有了皮尔森相关系数的限制(不会因为异常值或者元素值相同而导致结果的异常)。
rs=1−6∑di2n(n2−1)r_s = 1- \frac{6\sum d_i^2}{n(n^2-1)} rs=1−n(n2−1)6∑di2
实现
import numpy as np
import pandas as pdx = np.arange(10)
y = np.random.randint(0, 11, 10)
df = pd.DataFrame({'A': x,'B': y
})
df.corr('spearman') # .corr('spearman')
3. Kendall correlation coefficient(肯德尔相关系数)
定义
肯德尔相关性系数,又称肯德尔秩相关系数。它也是一种秩相关系数。计算对象是分类变量(无序、有序分类变量)
实现
import numpy as np
import pandas as pdx = np.arange(10)
y = np.random.randint(0, 11, 10)
df = pd.DataFrame({'A': x,'B': y
})
df.corr('kendall')
4. 综合应用
import numpy as np
import pandas as pddef Pearson(df):return df.corr()def Spearman(df):return df.corr('spearman')def Kendall(df):return df.corr('kendall')if __name__ == '__main__':df = pd.DataFrame({'A': np.arange(10),'B': np.random.randint(0, 11, 10)})print('Pearson')print(Pearson(df))print('Spearman')print(Spearman(df))print('Kendall')print(Kendall(df))
Pearson
A B
A 1.000000 0.083736
B 0.083736 1.000000
Spearman
A B
A 1.000000 0.048781
B 0.048781 1.000000
Kendall
A B
A 1.000000 0.068199
B 0.068199 1.000000
参考资料
[1]统计学之三大相关性系数(pearson、spearman、kendall)_t15600624671的博客-CSDN博客_统计学之三大相关性系数
[2]统计学中三大相关系数_Li_318的博客-CSDN博客_三大相关系数
[3]W. XU, C. CHANG, Y. S. HUNG, S. K. KWAN, AND P. C. W. FUNG, Order statistics correlation coeffificient as a novel association measurement with applications to biosignal analysis, IEEE Transactions on Signal Processing, 55 (2007), pp. 5552–5563.
机器学习——统计学三大相关性系数(pearson、spearman、kendall)相关推荐
- 斯皮尔 皮尔森 肯德尔_统计学-三大相关性系数 | 生物统计学基础系列课
原标题:统计学-三大相关性系数 | 生物统计学基础系列课 什么是生物统计学 生物统计学是一种很有用的工具,正确使用这一工具可以使科学研究更加有效,使科学研究可以更加高效的开展.因此,它是每位生物科学工 ...
- 统计学三大相关性系数:pearson,spearman,kendall
目录 person correlation coefficient(皮尔森相关性系数-r) spearman correlation coefficient(斯皮尔曼相关性系数-p) kendall ...
- python求解典型相关系数_三大相关系数: pearson, spearman, kendall(python示例实现)...
三大相关系数:pearson, spearman, kendall 统计学中的三大相关性系数:pearson, spearman, kendall,他们反应的都是两个变量之间变化趋势的方向以及程度,其 ...
- 统计学之三大相关性系数简介(pearson、spearman、kendall)
三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表 ...
- 统计学之三大相关性系数(pearson、spearman、kendall)
(转自 微信公众号克里克学苑) 三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示 ...
- 统计学之三大相关性系数(pearson、spearman、kendall)matlab实现
(转自 微信公众号克里克学苑,修改成MATLAB语言实现) 三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0 ...
- python相关性分析_python实践统计学中的三大相关性系数,并绘制相关性分析的热力图...
本文首发地址: https://yishuihancheng.blog.csdn.net/article/details/83547648 欢迎关注我的博客[Together_CZ],我是沂水寒城! ...
- pd.Series.cor的三大相关性系数
相关性系数;滤除缺失值:平均值等. 统计学中的三大相关性系数:pearson, spearman, kendall: 更加准确地描述变量之间的线性相关程度,可以通过pearson, spearman计 ...
- 数据挖掘01-相关性分析及可视化【Pearson, Spearman, Kendall】
数据挖掘01-相关性分析及可视化[Pearson, Spearman, Kendall] 简介 一.什么是相关性分析 二.常见的相关性分析方法 三.Pearson相关系数 使用pandas对数据做Pe ...
最新文章
- 简介+原理+绘制,详解 Python「瀑布图」的整个制作流程!
- P3293 [SCOI2016]美味
- 使用KNN时出现非数值属性和缺失值
- 一:HTTP协议(超详解)
- HDU1232 畅通工程【并查集】
- spellcheck 属性 html5的新属性,对元素内容进行拼写检查
- php读取 Excel文件
- 【中医学】8 中药-3
- mac怎么压缩pdf文件最小
- oracle数据投毒,Oracle Database Server 'TNS Listener'远程数据投毒漏洞
- EndNote选择特定期刊的样式
- Mybatis时区问题
- 《算法基础》线性枚举(一)——最值算法
- (零基础)入门python学习四步骤,附上Python全栈学习路线大刚!
- 生产注意事项(分片集群)
- 云服务器核和g的区别,云服务器几核几g什么意思?
- glob模块中的glob.glob和golb.iglob
- wr720n刷成网络打印_wr720n v4 折腾笔记(一):安装Openwrt
- Win8安装程序出现2502、2503错误解决方法
- 最新阿里、腾讯、华为、字节跳动等大厂的薪资和职级对比