Heatmap热力图、pandas.DataFrame.corr()、皮尔森相关系数
Heatmap热力图
Heatmap热力图是一个以颜色变化来显示数据的矩阵。
matplotlib可通过以下两种方法绘制heamap;
matplotlib.axes.Axes.imshow
matplotlib.pyplot.imshow
我们以天池上的精灵宝可梦数据为例:
https://pai-public-data.oss-cn-beijing.aliyuncs.com/pokemon/pokemon.csvhttps://pai-public-data.oss-cn-beijing.aliyuncs.com/pokemon/pokemon.csv导入数据之后,对其进行热力图操作
plt.subplots(figsize=(20,15))
ax = plt.axes()
ax.set_title("Correlation Heatmap")
corr = df.corr()
sns.heatmap(corr, xticklabels=corr.columns.values,yticklabels=corr.columns.values)
从上面可以很直观的看出每项之间的关系系数,在左边是表示的颜色指数,绝对值越靠近1表示关系越靠近。
pandas.DataFrame.corr()
在上述代码中,有一个corr(),它的使用方法一般是
pandas.DataFrame.corr()
DataFrame.corr(self, method, min_periods=1)
method是计算相关系数的方法,默认是皮尔森相关系数;
min_periods是说,最小样本数,因为相关系数有些缺点,比如样本数太少的话,相关系数的意义就不是很大。
皮尔森相关系数
COV为两个变量的协方差,分母为两个变量标准差的乘积。 ux是X的平均值, uy 是Y的平均值,E为期望。皮尔森相关系数是一个线性相关的系数,反映两个量之间的线性相关程度的。这个值常用小写字母r来表示。r值范围在-1到1之间,绝对值越接近于1,相关性越强(负相关/正相关)。
总之,热力图是数据处理很常见的图像,在做数据处理的过程中,可以比较直观看出各项特征之间的关系,皮尔森相关系数也是一项有力的助手。
Heatmap热力图、pandas.DataFrame.corr()、皮尔森相关系数相关推荐
- pandas dataframe column_Python数据分析——Pandas 教程(下)
Python数据分析--Pandas 教程(上) 上节,我们讲了 Pandas 基本的数据加载与检索,这节我们讲讲如何进行数据比较. Pandas系列对象 在 Pandas 中我们获取指定列的数据有多 ...
- 【python】pandas库pd.DataFrame.corr、numpy库np.corrcoef求解相关系数
- 一.首先生成数据: 1.df 数据: import pandas as pd from pandas import DataFrame,Series df = pd.DataFrame(np.ra ...
- python 皮尔森相关系数
皮尔森理解 皮尔森相关系数(Pearson correlation coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coeffic ...
- heatmap热力图
heatmap 热力图 热力图在实际中常用于展示一组变量的相关系数矩阵,在展示列联表的数据分布上也有较大的用途,通过热力图我们可以非常直观地感受到数值大小的差异状况.heatmap的API如下所示: ...
- python corrwith_python – pandas.DataFrame corrwith()方法
我最近开始和熊猫一起工作.任何人都可以用Series和DataFrame来解释函数.corrwith()的行为差异吗? 假设我有一个DataFrame: frame = pd.DataFrame(da ...
- 重新理解pandas.DataFrame.ewm
Overview <理解pandas.DataFrame.ewm> <理解exponential weighted || 指数> 通过上述两文初步了解了ewm,但还是没能很清楚 ...
- pandas使用tabulate函数将pandas dataframe以类似于plsql表格的方式打印出来(printing dataframe in tabular format)
pandas使用tabulate函数将pandas dataframe以类似于plsql表格的方式打印出来(printing dataframe in tabular format) 目录
- python将scikit-learn自带数据集转换为pandas dataframe格式
python将scikit-learn自带数据集转换为pandas dataframe格式 目录 python将scikit-learn自带数据集转换为pandas dataframe格式 #仿真数据
- R语言ggplot2可视化:使用热力图可视化dataframe数据
R语言ggplot2可视化:使用热力图可视化dataframe数据 目录 R语言ggplot2可视化:使用热力图可视化dataframe数据
最新文章
- 解决Mysql错误Too many connections的方法
- 一位技术人员成长的烦恼及我的分析(转)
- Progressive Web App是一个利用现代浏览器的能力来达到类似APP的用户体验的技术——不就是chrome OS吗?...
- python重要函数eval
- tensorflow教程 开始——Premade Estimators(预制评估器)
- springboot 权限管理 后台框架源码 java 项目 shiro FHAddmin
- 手写自己的MyBatis框架-V2.0 可优化之处
- Effective Java之消除过期的引用(六)
- iView 一周年了,同时发布了 2.0 正式版,但这只是开始...
- C语言模拟实现标准库函数之qsort()
- python epoll 写数据到数据库_Python--day40(EPOLL的使用、数据库基础)
- python filter过滤器的使用_Python filter过滤器原理及实例应用
- 【python笔记】:python面向对象实现学生管理系统
- httprequest存储的是字符内容 而文本内容是以字节形式上传的;所以普通的取值方式无法从httprequest取到值...
- bex5执行oracle语句,BeX5
- 南京大学计算机学院刘向阳,刘向阳 南京大学计算机科学与技术系教授_光通信名人录_光邻网...
- 无人机——像素坐标系转世界坐标系(NED)
- 著名TED演讲 《用肢体语言塑造你自己》 - Amy Cuddy
- 《彩虹屁》快夸夸我!彩虹屁生成器
- VMware 网络环境配置(win7系统)
热门文章
- 自动驾驶漫谈之二:无人驾驶与高精度地图
- RabbitMQ(三)发布确认 Publisher Confirms
- 软考网络工程师如何复习?
- AndroidManifest.xml中常用属性及含义
- Screen exposed for less than 1000 ms. Event not sent. time:
- vscode让代码敲出火焰
- twitter下载网络教程_糟糕的主意:喜p Twitter广告网络
- 看linux centos版本信息,Linux CentOS查看操作系统版本信息
- Android给Activity取消title标题
- 盘点那些冷门又有趣的大学专业,你的学校有啥奇葩专业?