Numpy、Scipy、Pandas、Matlpotlib在数据分析工程师手里几乎都是必备的工具选项,每一个库都有他自己强势的领域,让人爱不释手,当然还有其他的很多库,这里没有去一一列举出来。

在我前面的博文里面有一篇文章详细地介绍了一个详细的数据分析挖掘流程,地址在这里,感兴趣的话可以去看看。

数据分析领域中有一个部分是很重要的,那就是数据探索,不同的人可能进行数据探索的角度、方法都不一样,今天这个文章就是想介绍一款工具,能够用一行代码就实现原始数据集的概览分析,这对于我们在尚未进行编码之前辅助我们了解数据集的分布等情况是很有帮助。

这款工具名叫:pandas_profiling,安装方式很简单,如下:

pip install pandas_profiling

用法如下:

结果如下:

默认是 Peasorn相关系数矩阵,也可以查看别的相关系数矩阵,如下:

上面的结果是在jupyter-notebook得到的,我们也可以将上述报告生成静态的html文件存储本地使用:

本文中我们使用到的数据集来源于国家空气监测总站里面的一段时间的数据,在单因子的分析结果里面我们可以看到,通过简单的数据概览,给出来的结果是:几个因为相关程度过高建议丢弃,当然这是数据概览模块给出来的直接计算结果,我们在实际使用的时候肯定也是需要考虑到具体的业务长场景的。

下面是整个使用到的数据集的可视化曲线:

记录学习了。

数据分析中数据概览神器pandas_profiling介绍相关推荐

  1. Python数据分析中数据预处理:编码将文字型数据转换为数值型

    [小白从小学Python.C.Java] [Python-计算机等级考试二级] [Python-数据分析] Python数据分析中 数据预处理:编码 将文字型数据转换为数值型 选择题 对于以下pyth ...

  2. 数据概览神器—Pandas-profiling

      分析一个问题,从对样本进行探索开始.Python中有很多常用的数据分析函数,可以帮助我们对样本有一个初步的认识,比如describe()函数,可以很方便地生成每个变量的最大值.最小值.分位数等. ...

  3. 提取图中数据的神器→→→plot_digitizer

    plot_digitizer 认识识图工具plot_digitizer 打开需要处理的图片并校准 1.file→open image file→选择需要出的图片 2.tools→calibrate p ...

  4. 【数据运营】数据分析中,文本分析远比数值型分析重要!(下)

    本文是<数据分析中,文本分析远比数值型分析重要!>的下篇,以一个实际案例来聊文本分析在实际运营如何落地.行为脉络如下:先简要讲述文本分析的分支---情绪分析的基本原理,然后以亚马逊的Kin ...

  5. 数据分析中的统计概率_了解统计和概率:成为专家数据科学家

    数据分析中的统计概率 Data Science is a hot topic nowadays. Organizations consider data scientists to be the Cr ...

  6. 数据分析与挖掘中常用Python库的介绍与实践案例

    数据分析与挖掘中常用Python库的介绍与实践案例 一.Python介绍 现在python一词对我们来说并不陌生,尤其是在学术圈,它的影响力远超其它任何一种编程语言, 作为一门简单易学且功能强大的编程 ...

  7. 数据分析中如何清洗数据?

    在数据分析中我们重点研究的是数据,但是不是每个数据都是我们需要分析的,这就需要我们去清洗数据,通过清洗数据,这样我们就能够保证数据分析出一个很好的结果,所以说一个干净的数据能够提高数据分析的效率,因此 ...

  8. 比较两组数据的差异用什么图更直观_芯片数据分析中常见的一些图的作用

    今天给大家讲讲芯片数据分析中常见的一些图的作用,让大家伙儿知道它们在BB些啥. 箱式图(Box plot) 基因芯片的原始数据是需要进行标准化处理的,主要目的是消除由于实验技术(如荧光标记效率.扫描参 ...

  9. android中intent放数据类型,Android Intent传递数据底层分析详细介绍

    Android  Intent传递数据底层分析详细介绍 我们知道在Activity切换时,如果需要向下一个ActivityB传递数据,可以借助Intent对象的putExtra方法. 但是不知各位有没 ...

  10. (数据科学学习手札32)Python中re模块的详细介绍

    一.简介 关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供 ...

最新文章

  1. mac的终端下面使用ssh user@localhost输入密码 不能正常登录
  2. Angular (SPA) WebPack模块化打包、按需加载解决方案完整实现
  3. 2.2.4 调度算法: 先来先服务 最短作业优先 最高相应比优先
  4. C/C++调用Fortran的使用说明
  5. 接口中定义的成员变量是( )。_抽象与接口
  6. Python中对列表list进行定义、增删改查、遍历及与元组的对比
  7. 信息学奥赛一本通(2070:【例2.13】数字对调)
  8. 【往届已EI检索-IEEE技术支持】第三届-信息技术与计算机应用 多主题征稿!
  9. 街头霸王背景_街头霸王与摇滚明星:开放式领导的艺术
  10. 【linux】linux Vim编辑器快捷键
  11. 以图搜图:Python实现dHash算法
  12. EasyUi-1 拖放
  13. 读书笔记:陈希孺:概率论与数理统计:2014.01.01
  14. Linux 删除用户时报错:userdel: user zhoulijiang is currently used by process 1
  15. paip.提升用户体验----错误信息提示结构总结
  16. uniapp,vue学习笔记
  17. 计算机如何永久删除文件无法找回,怎么找回永久删除文件 找回永久删除文件方法【详细步骤】...
  18. css怎么分开背景图片,css切背景图片(background-position)
  19. 99的测试人还不会用nose进行自动化测试
  20. 简单的几句PHP生成美团3周年砸金蛋抽奖代码

热门文章

  1. ModuleNotFoundError: No module named xxx 解决办法
  2. 使用http-server搭建web服务器
  3. 第三百四十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制...
  4. (十进制高速幂+矩阵优化)BZOJ 3240 3240: [Noi2013]矩阵游戏
  5. Mac OS X 编译Android内核源代码
  6. TextBox只输入数字
  7. 数据库中字段为CLOB的属性,在Java实体类中将CLOB转化为String
  8. MyBatis框架的基本使用
  9. Ubuntu 上安装 Node.js
  10. angular.isString()