数据挖掘01-相关性分析及可视化【Pearson, Spearman, Kendall】

  • 简介
  • 一、什么是相关性分析
  • 二、常见的相关性分析方法
  • 三、Pearson相关系数
    • 使用pandas对数据做Pearson相关性分析
  • 四、Spearman等级相关系数
    • 4.1 什么是等级相关
    • 4.2 为什么要运用等级相关?
    • 4.3 使用pandas对数据做Spearman相关性分析
  • 五、Kendall相关系数
    • 使用pandas对数据做Kendall相关性分析
  • 六、下三角相关性矩阵
  • 七、重点相关性矩阵
  • 八、参考资料:

简介

​ 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

​ 因此,数据挖掘在人工智能和大数据的时代下显得尤为重要。本人在工作中也会经常为数据挖掘方面的任务头疼,所以想将所见、所学、所整理的数据挖掘学习资料进行总结。

​ 首先,就来说一下数据挖掘最常见的手段:相关性分析

一、什么是相关性分析

​ 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异。

二、常见的相关性分析方法

​ 常见的相关性分析方法有三种:Pearson相关系数、Spearman等级相关系数和Kendall相关系数。现实场景中使用Pearson相关系数的情况比较多。

相关分析系数 适用场景 备注
Pearson 定量数据,数据满足正态分布 正态图可查看正态性,散点图展示数据关系
Spearman 定量数据,数据不满足正态分布 正态图可查看正态性,散点图展示数据关系
Kendall 定量数据一致性判断 通常用于评分数据一致性水平研究【非关系研究】
如评委打分,数据排名等

三、Pearson相关系数

​ Pearson相关性系数可以看做是升级版的欧式距离平方,因为它提供了对于变量取值范围不同的处理步骤。因此对不同变量间的取值范围没有要求,最后得到的相关性所衡量的是趋势,而不同变量量纲上的差别在计算过程中去掉了,等价于z-score标准化。【源自:如何理解皮尔逊相关系数(Pearson Correlation Coefficient)?】

使用pandas对数据做Pearson相关性分析

import pandas  as pd
import numpy   as np
import matplotlib.pyplot as plt
import seaborn as sns# 1.造数据
df = pd.DataFrame()
df["x"] = np.random.uniform(-2, 2, 1_000_000)
df["error"] = np.random.uniform(-0.5, 0.5, 1_000_000)
df["y"] = df["x"] * df["x"] + df["error"]
df["y_perfect"] = df["x"] * df["x"]# 2.相关分析热力图可视化, df.corr()默认参数为pearson
plt.figure(figsize=[10, 6])
sns.heatmap(df.corr(), vmin=0, vmax=1, cmap="Reds", linewidths=0.5, annot=True)
plt.show()

四、Spearman等级相关系数

4.1 什么是等级相关

等级相关,也称为秩相关,属于非参数统计方法,但对原变量的分布不作要求。适用于那些不服从正态分布的数据,还有总体分布未知和原始数据用等级表示的数据。

4.2 为什么要运用等级相关?

实际中,如果遇到定类变量或者定序变量的“相关系数”,就需要用到Spearman(斯皮尔曼)等级相关系数和Kendall(肯德尔)的tau相关系数。

4.3 使用pandas对数据做Spearman相关性分析

import pandas  as pd
import numpy   as np
import matplotlib.pyplot as plt
import seaborn as sns# 1.造数据
df = pd.DataFrame()
df["x"] = np.random.uniform(-2, 2, 1_000_000)
df["error"] = np.random.uniform(-0.5, 0.5, 1_000_000)
df["y"] = df["x"] * df["x"] + df["error"]
df["y_perfect"] = df["x"] * df["x"]# 2.相关分析热力图可视化, df.corr() method=spearman指定系数
plt.figure(figsize=[10, 6])
sns.heatmap(df.corr(method='spearman'), vmin=0, vmax=1, cmap="Reds", linewidths=0.5, annot=True)
plt.show()

五、Kendall相关系数

Kendall协调系数,也称作Kendall和谐系数,或Kendall一致性系数。通常用于比较多组数据的一致性程度

kendall 相关是反映顺序变量之间的相关程度的量,使用该相关分析方法时不需要变量所在的总体一定要呈正态分布,也不需要样本容量大于30,可见,Kendall相关归属于非参数检验

使用pandas对数据做Kendall相关性分析

import pandas  as pd
import numpy   as np
import matplotlib.pyplot as plt
import seaborn as sns# 1.造数据
df = pd.DataFrame()
df["x"] = np.random.uniform(-2, 2, 1_000_000)
df["error"] = np.random.uniform(-0.5, 0.5, 1_000_000)
df["y"] = df["x"] * df["x"] + df["error"]
df["y_perfect"] = df["x"] * df["x"]# 2.相关分析热力图可视化, df.corr() method=kendall指定系数
plt.figure(figsize=[10, 6])
sns.heatmap(df.corr(method='kendall'), vmin=0, vmax=1, cmap="Reds", linewidths=0.5, annot=True)
plt.show()

六、下三角相关性矩阵

相关性矩阵绘制的是两两变量之间的相关性,所以是一个对称的矩阵,所以只需保留上三角矩阵或者下三角矩阵的内容即可。

import pandas  as pd
import numpy   as np
import matplotlib.pyplot as plt
import seaborn as sns# 1.造数据
df = pd.DataFrame()
df["x"] = np.random.uniform(-2, 2, 1_000_000)
df["error"] = np.random.uniform(-0.5, 0.5, 1_000_000)
df["y"] = df["x"] * df["x"] + df["error"]
df["y_perfect"] = df["x"] * df["x"]# 2.下三角相关矩阵热力图
plt.figure(figsize=[10, 6])
matrix = df.corr()
cmap = sns.diverging_palette(250, 15, s=75, l=40, n=9, center="light", as_cmap=True)
# mask掉上三角部分
mask = np.triu(np.ones_like(matrix, dtype=bool))
plt.figure(figsize=(12, 8))
sns.heatmap(matrix,  mask=mask, center=0, annot=True, fmt='.2f', square=True, cmap=cmap)
plt.show()

七、重点相关性矩阵

在相关矩阵热力图中,我们可以依据颜色的深浅来判别特征之间的强弱相关性,但是在实际场景中我们只想关注相关性较高的那块,可以通过过滤来实现。

import pandas  as pd
import numpy   as np
import matplotlib.pyplot as plt
import seaborn as sns# 1.造数据
df = pd.DataFrame()
df["x"] = np.random.uniform(-2, 2, 1_000_000)
df["error"] = np.random.uniform(-0.5, 0.5, 1_000_000)
df["y"] = df["x"] * df["x"] + df["error"]
df["y_perfect"] = df["x"] * df["x"]# 2.重点相关性矩阵热力图
plt.figure(figsize=[10, 6])
matrix = df.corr()
cmap = sns.diverging_palette(250, 15, s=75, l=40, n=9, center="light", as_cmap=True)
# mask掉上三角 & 小于某个阈值的值
mask1 = np.triu(np.ones_like(matrix, dtype=bool))
mask2 = np.abs(matrix) <= 0.1
mask = mask1 | mask2plt.figure(figsize=(12, 8))
sns.heatmap(matrix, mask=mask, center=0, annot=True, fmt='.2f', square=True, cmap=cmap)
plt.show()

八、参考资料:

【知乎】皮尔逊相关性分析怎么看?

【知乎】斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)

【知乎】Spearman等级相关

【微信公众号-kaggle竞赛宝典】特征相关性挖掘神器-线性非线性关系一键挖掘!

数据挖掘01-相关性分析及可视化【Pearson, Spearman, Kendall】相关推荐

  1. r语言kendall协和系数_数据挖掘|R相关性分析及检验

    相关系数可以用来描述定量变量之间的关系.结果的正负号分别表明正相关或负相关,数值的大小则表示相关关系的强弱程度. R可以计算多种相关系数,今天主要介绍常见的三种:Pearson相关系数.Spearma ...

  2. R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战

    R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战 目录 R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战

  3. 业务数据分析中可能用到的简单的数据挖掘方法——相关性分析、主成分分析、因子分析

    业务数据分析中可能用到的简单的数据挖掘方法--相关性分析.主成分分析.因子分析 相关性分析 相关性分析通过相关系数来描述两个变量之间的相关性程度. 通过相关系数判断两者会不会相互影响,影响是正相关还是 ...

  4. python求解典型相关系数_三大相关系数: pearson, spearman, kendall(python示例实现)...

    三大相关系数:pearson, spearman, kendall 统计学中的三大相关性系数:pearson, spearman, kendall,他们反应的都是两个变量之间变化趋势的方向以及程度,其 ...

  5. 相关性分析方法(Pearson、Spearman)

    有时候我们根据需要要研究数据集中某些属性和指定属性的相关性,显然我们可以使用一般的统计学方法解决这个问题,下面简单介绍两种相关性分析方法,不细说具体的方法的过程和原理,只是简单的做个介绍,由于理解可能 ...

  6. 一文数学数模-相关性分析(二)斯皮尔曼相关(spearman)相关性分析一文详解+python实例代码

    前言 相关性分析算是很多算法以及建模的基础知识之一了,十分经典.关于许多特征关联关系以及相关趋势都可以利用相关性分析计算表达.其中常见的相关性系数就有三种:person相关系数,spearman相关系 ...

  7. 利用R语言进行相关性分析及可视化

    写这个主题是因为自己需要对多个表型性状进行相关性分析,计算性状之间的相关性系数并可视化. R语言中cor函数,只能计算相关系数,如果想要计算显著性,需要两两用cor.test进行,如果是多列数据,操作 ...

  8. 皮尔森 统计学相关性分析_pearson相关系数和spearman相关系数的区别

    展开全部 区别: 1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,效率没有62616964757a686964616fe78988e69d83 ...

  9. 【宝可梦数据分析–数据相关性分析及可视化】

    #数据集链接:https://pan.baidu.com/s/1U0XDJmi_lYI84UkPHgpDfA #提取码:1234 #导入相关库并打开CSV文件 import matplotlib.py ...

最新文章

  1. 你见过哪些意想不到的bug ?(常见代码使用误区,下次一定还犯)
  2. php后台无法登入,PHP magento后台无法登录问题解决方法
  3. 生成UUID作为主键
  4. Flink Forward Asia 2021 正式启动!议题火热征集中!
  5. Entity Framework Core 执行SQL语句和存储过程
  6. 数据属性和访问器属性
  7. java 日期相减得分钟_java日期相减得到分钟??????
  8. Hive ntile函数
  9. 中国计划建设自己的卫星导航系统
  10. 达梦SQL格式化(美化器)
  11. 【转载】哇!!!这个真的是我见过最全的端口介绍了
  12. html读取在线文件,javascript中如何读取文件?
  13. Gitlab-IDEA使用教程
  14. 分形理论与波动理论研究
  15. 工作十年的程序员,却拿着毕业三年的工资,再不开窍就真晚了!
  16. 【精华】超详细的Win10安装步骤,菜鸟福音
  17. android scrollview滚动条初始位置,ScrollView 设置滚动条的位置
  18. Python Numpy.std() - 标准差函数
  19. 使用树莓派制作一套“NAS+私有云盘+下载机”
  20. 如何在word里里面打勾

热门文章

  1. oc中block的本质及底层原理
  2. java criteria and_在java中Criteria 的具体使用方法
  3. 支付宝错误 ALIN10146 排查
  4. RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读
  5. 猜数字小游戏(java代码编写)
  6. python中文件的简单操作
  7. Cozylife智能通断器
  8. 国信长天单片机竞赛训练之通过iic光敏,电位器采样(五)
  9. Richardson成熟度模型
  10. matlab画间断坐标轴,Matlab制图中如何实现坐标轴的打断