对数据进行理解的最快最有效的方式是:数据的可视化。

单一图表

  • 直方图
  • 密度图
  • 箱线图

直方图

通过直方图可以非常直观地看出每个属性的分布状况:高斯分布,指数分布还是偏态分布。

from pandas import read_csv
import matplotlib.pyplot as pltfilename = 'data/pima_data.csv'
# names = ['Number of times pregnant',
#          'Plasma glucose concentration a 2 hours in an oral glucose tolerance test',
#          'Diastolic blood pressure (mm Hg)',
#          'Triceps skin fold thickness (mm)',
#          '2-Hour serum insulin (mu U/ml)',
#          'Body mass index (weight in kg/(height in m)^2)',
#          'Diabetes pedigree function',
#          'Age (years)',
#          'Class variable (0 or 1)'
#         ]
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names) # 手动指定头部
# 直方图
data.hist()
plt.show()

密度图

也是用于显示数据分布的图表,类似于对直方图进行抽象,用平滑的曲线来描述数据的分布。

data.plot(kind='density', subplots=True, layout=(3,3), sharex=False)
plt.show()

箱线图

用于显示数据分布, 中位线 + 上下四分数线 + 上下边缘线。

data.plot(kind='box', subplots=True, layout=(3,3), sharex=False, sharey=False)
plt.show()

多重图表

主要是两种图表:

  • 相关矩阵图
  • 散点矩阵图

相关矩阵图

用于展示两个不同属性相互影响的程度。把所有的属性两两影响的关系展示出来的图就是相关矩阵图。

散点矩阵图

两组数据构成多个坐标点,两两特征之间的数据散点图组合成一个散点矩阵图。

# 相关矩阵图
from pandas import read_csv
import matplotlib.pyplot as plt
import numpy as npfilename = 'data/pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names) correlations = data.corr()
fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(correlations, vmin=-1, vmax=1)
fig.colorbar(cax)
ticks = np.arange(0,9,1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(names)
ax.set_yticklabels(names)
plt.show()

# 散点矩阵图from pandas.plotting import scatter_matrix
scatter_matrix(data)
plt.show()

这个使用是非常简单的,三行代码即可。

总结

结合前面的7种审查数据的武器 + 这里讲到的数据可视化的方法,现在拿到一个CSV数据集,我们就可以迅速对数据集进行审查,然后加深对数据的理解,这个过程中解题的思路也会慢慢清晰。

END.

参考:

《机器学习Python实践》

【机器学习】Pima数据集的可视化相关推荐

  1. 机器学习 啤酒数据集_啤酒数据集上的神经网络

    机器学习 啤酒数据集 Artificial neural networks (ANNs), usually simply called neural networks (NNs), are compu ...

  2. 50个最佳机器学习公共数据集

    背景介绍: 说到人工智能必然要了解机器学习,从信息化软件,到电子商务,然后到高速发展互联网时代,到至今的云计算.大数据等,渗透到我们的生活.工作之中,在互联网的驱动下,人们更清晰的认识和使用数据,不仅 ...

  3. 最强数据集集合:50个最佳机器学习公共数据集

    最强数据集集合:50个最佳机器学习公共数据集 https://mp.weixin.qq.com/s/_A71fTgwSyaW5XTAySIGOA 原作 mlmemoirs  郭一璞 编译  量子位 报 ...

  4. 50个最佳机器学习公共数据集(附链接)

    来源:机器学习算法那些事 本文约3000字,建议阅读6分钟本文整理一张50个醉驾机器学习公共数据集的榜单. 外国自媒体mlmemoirs根据github.福布斯.CMU官网等信息,整理了一张50个最佳 ...

  5. 赶紧收藏起这50个最佳机器学习公共数据集

    外国自媒体mlmemoirs根据github.福布斯.CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 外国自媒体mlmemoirs根据github.福布斯.CMU官网 ...

  6. 【机器学习】50个最佳机器学习公共数据集

    外国自媒体mlmemoirs根据github.福布斯.CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 外国自媒体mlmemoirs根据github.福布斯.CMU官网 ...

  7. 50个最佳机器学习公共数据集丨资源

    最强数据集集合:50个最佳机器学习公共数据集丨资源 http://192.168.73.132/www.sohu.com/a/273562252_610300 http://baijiahao.bai ...

  8. 唐宇迪机器学习课程数据集_最受欢迎的数据科学和机器学习课程-2020年8月

    唐宇迪机器学习课程数据集 There are a lot of great online resources and websites on data science and machine lear ...

  9. 使用Google Colab对PUBG的玩家死亡数据集进行可视化分析

    使用Google Colab对PUBG的玩家死亡数据集进行可视化分析 数据集 数据集可以在Kaggle(https://www.kaggle.com/)中找到.需要注册Kaggle账号后,Accoun ...

最新文章

  1. PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to fi
  2. sed命令详解--转
  3. centos 编译 mysql_centos 编译安装mysql
  4. 堆中的路径 (25 分)
  5. web报表开发技术专题八:总结
  6. 高斯课堂数电讲义笔记_学技树
  7. 使用svn进行本地代码管理
  8. python装饰器解析请求参数_我如何在装饰器中获得Flask可选的URL参数?
  9. 【高效生活】如何将csf格式文件转化成其它格式
  10. Microstation v8+Terrasolid安装教程
  11. android 免root 免流,安卓无需Root一键免流软件合集,具体哪个能用自测
  12. 在Excel中输入身份证号码的方法或批量改为文本格式
  13. 高性能、分布式、低延迟的发布订阅中间件对比 Redis 和 emitter
  14. 集团化企业的电子印章管理模式
  15. 【CodeForces】【状压DP】1155F-Delivery Oligopoly
  16. css+svg实现的定宽高比
  17. linux分析测序数据,[转]如何分析测序结果
  18. Docker容器日志清理方式
  19. VRRP和DHCP的设置
  20. 前端埋点设计/小程序+友盟埋点方案

热门文章

  1. PCL Lesson 4:直通滤波+多视图可视化
  2. phpboot使用mysql_PHP MySQL 插入数据
  3. Java nginx 双向ssl_nginx配置ssl双向验证 nginx https ssl证书配置
  4. 阿里云服务器定时跑python_通过python调用阿里api定时备份阿里云RDS
  5. python在哪个方向岗位最多_Python就业方向这么多,哪些岗位最有发展?
  6. OSG仿真案例(4)——创建烟雾粒子效果
  7. 如何在github上找到自己想要的代码_如何在 GitHub 上找到免费且实用的软件?
  8. vue设置页面滚动高度_vue中获取滚动高度或指定滚动到某位置
  9. jar包在linux定时调度,xshell脚本启动JAR包-定时任务拆分日志
  10. linux基本命令示例_Linux ps命令– 20个真实示例