来源:Python数据科学

作者:东哥起飞

EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程。东哥这次分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一起来介绍。

1. Pandas_Profiling

这个属于三个中最轻便、简单的了。它可以快速生成报告,一览变量概况。首先,我们需要安装该软件包。

# 安装Jupyter扩展widget
jupyter nbextension enable --py widgetsnbextension
# 或者通过conda安装
conda env create -n pandas-profiling
conda activate pandas-profiling
conda install -c conda-forge pandas-profiling
# 或者直接从源地址安装
pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

安装成功后即可导入数据直接生成报告了。

import pandas as pd
import seaborn as sns
mpg = sns.load_dataset('mpg')
mpg.head()from pandas_profiling import ProfileReport
profile = ProfileReport(mpg, title='MPG Pandas Profiling Report', explorative = True)
profile

使用Pandas Profiling生成了一个快速的报告,具有很好的可视化效果。报告结果直接显示在notebook中,而不是在单独的文件中打开。

总共提供了六个部分:概述、变量、交互、相关性,缺失值和样本。

Pandas profiling的变量部分是完整的,它为每个变量都生成了详细的报告。

从上图可以看出,仅一个变量就有太多信息,比如可以获得描述性信息和分位数信息。

交互

交互部分我们可以获取两个数值变量之间的散点图。

相关性

可以获得两个变量之间的关系信息。

缺失值

可以获取每个变量的缺失值计数信息。

样本

可以显示了数据集中的样本行,用于了解数据。

2. Sweetviz

Sweetviz是另一个Python的开源代码包,仅用一行代码即可生成漂亮的EDA报告。与Pandas Profiling的区别在于它输出的是一个完全独立的HTML应用程序。

使用pip安装该软件包

pip install sweetviz

安装完成后,我们可以使用Sweetviz生成报告,下面尝试一下。

import sweetviz as sv
# 可以选择目标特征
my_report = sv.analyze(mpg, target_feat ='mpg')
my_report.show_html()

从上图可以看到,Sweetviz报告生成的内容与之前的Pandas Profiling类似,但具有不同的UI。

Sweetviz不仅可以查看单变量的分布、统计特性,它还可以设置目标标量,将变量和目标变量进行关联分析。如上面报告最右侧,它获得了所有现有变量的数值关联和类别关联的相关性信息。

Sweetviz的优势不在于单个数据集上的EDA报告,而在于数据集的比较。

可以通过两种方式比较数据集:将其拆分(例如训练和测试数据集),或者使用一些过滤器对总体进行细分。

比如下面这个例子,有USA和NOT-USA两个数据集。

# 设置需要分析的变量
my_report = sv.compare_intra(mpg,mpg [“ origin”] ==“ usa”,[“ USA”,“ NOT-USA”],target_feat ='mpg')
my_report.show_html()

不需要敲太多的代码就可以让我们快速分析这些变量,这在EDA环节会减少很多工作量,而把时间留给变量的分析和筛选上。

Sweetviz的一些优势在于:

  • 分析有关目标值的数据集的能力

  • 两个数据集之间的比较能力

但也有一些缺点:

  • 变量之间没有可视化,例如散点图

  • 报告在另一个标签中打开

个人是比较喜欢Sweetviz的。

3. pandasGUI

PandasGUI与前面的两个不同,PandasGUI不会生成报告,而是生成一个GUI(图形用户界面)的数据框,我们可以使用它来更详细地分析我们的Dataframe。

首先,安装PandasGUI。

# pip安装
pip install pandasgui
# 或者通过源下载
pip install git+https://github.com/adamerose/pandasgui.git

然后,运行几行代码试一下。

from pandasgui import show
# 部署GUI的数据集
gui = show(mpg)

在此GUI中,可以做很多事情,比如过滤、统计信息、在变量之间创建图表、以及重塑数据。这些操作可以根据需求拖动选项卡来完成。

比如像下面这个统计信息

最牛X的就是绘图器功能了。用它进行拖拽操作简直和excel没有啥区别了,操作难度和门槛几乎为零。

还可以通过创建新的数据透视表或者融合数据集来进行重塑。

然后,处理好的数据集可以直接导出成csv。

pandasGUI的一些优势在于:

  • 可以拖拽

  • 快速过滤数据

  • 快速绘图

缺点在于:

  • 没有完整的统计信息

  • 不能生成报告

4. 结论

Pandas Profiling、Sweetviz和PandasGUI都很不错,旨在简化我们的EDA处理。在不同的工作流程中,每个都有自己的优势和适用性,三个工具具体优势如下:

  • Pandas Profiling 适用于快速生成单个变量的分析。

  • Sweetviz 适用于数据集之间和目标变量之间的分析。

  • PandasGUI适用于具有手动拖放功能的深度分析。

参考:

https://github.com/adamerose/pandasgui

https://github.com/pandas-profiling/pandas-profiling

https://github.com/fbdesignpro/sweetviz

https://towardsdatascience.com/

原创不易,来个三连支持下。

文末赠书福利
赠送新出的书籍《趣学Python算法100例》5本!由「机械工业出版社」赞助提供,如果等不及也可以入手一本学习。介绍:本书以通俗易懂的语言详尽地介绍了用Python语言编写的100个算法实例。这些实例大体上按照“问题描述→问题分析→算法设计→确定程序框架→程序编码实现→运行结果→问题拓展”的流程进行讲解,每个实例又根据实际需要有所取舍。这些实例兼顾了趣味性、实用性和可操作性,而且大多是围绕一些经典算法问题展开的。参与方式:本篇文章底部「点赞」+「在看」+「留言」,文章内容相关的优质留言才可上墙!留言点赞数量最多前5位读者将获得这本书,截止时间「11月12日20:00」,最终获赠者通过留言联系我。
PS:禁止任何机器等恶意刷赞行为,发现之后立刻取消精选资格。
推荐阅读
美国大选拜登获胜!硅谷 Python 开发者用这种方式调侃懂王
骚操作!嵌套 JSON 秒变 Dataframe!我用 Python 写了一个 PDF 转换器!两篇毕业论文致谢同一个女朋友?哈哈哈哈!
太震撼了!我用Python画出全北京的公交线路动图学习Anaconda一定要了解这几件事
强势回归!比 Python 快 20% 的 Pyston v2.0 来了!
????分享、点赞、在看,给个三连击呗!????

【Python基础】安利3个Python数据分析EDA神器!相关推荐

  1. python基础教程是什么-python基础教程都有什么?

    分享一下传智播客的python基础教程 第一阶段 Python核心编程 可掌握的核心能力 1.掌握Python基础语法,具备基础的编程能力; 2.建立起编程思维以及面向对象程序设计思想.解决的现实问题 ...

  2. python菜鸟基础教程-python基础菜鸟教程,Python的基础语法

    原标题:python基础菜鸟教程,Python的基础语法 什么是Python?Python是一门简单直观的编程语言,并且目前是开源的,可以方便任何人使用. Python的开发哲学:用一种方法,最好是只 ...

  3. Python基础班---第一部分(基础)---Python基础知识---第一个Python程序

    01. 第一个 HelloPython 程序 1.1 Python 源程序的基本概念 Python 源程序就是一个特殊格式的文本文件,可以使用任意文本编辑软件做 Python 的开发 Python 程 ...

  4. 什么是python基础教程-最好的Python入门教程是?

    Python教程领到手,学习不用愁!领! 作为一门编程语言,Python是属于入门比较简单的.所以身边不少人都选择了自学Python,而且网上相关资料也有很多,知识兔分享大量的Python教学课程,基 ...

  5. python基础教程菜鸟教程-python基础菜鸟教程,Python的基础语法

    原标题:python基础菜鸟教程,Python的基础语法 什么是Python?Python是一门简单直观的编程语言,并且目前是开源的,可以方便任何人使用. Python的开发哲学:用一种方法,最好是只 ...

  6. Python基础教程:用Python怎么telnet到网络设备

    Python基础教程:用Python怎么telnet到网络设备 0.前言 Telnet协议属于TCP/IP协议族里的一种,对于我们这些网络攻城狮来说,再熟悉不过了,常用于远程登陆到网络设备进行操作,但 ...

  7. python数量推荐_太香了,墙裂推荐3个Python数据分析EDA神器!

    作者:东哥起飞 EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程.东哥这次分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一起来介绍. 1. Panda ...

  8. python基础教程书籍推荐-Python大神推荐给小白的36本入门书籍

    Python大神推荐给小白的36本入门书籍 如果看我喜欢可以找我领取Python电子书和学习资料 1.Python编程:从入门到实践 我自己最初看的这本书,觉得非常适合入门 2.python入门经典- ...

  9. python基础看什么书-python新手看什么书比较好?这五本最靠谱

    Python Python开发 Python语言 python新手看什么书比较好?这五本最靠谱 结合我做开发这么多年经验, 总结了以下五本书对学python的人来说很有帮助! 1.<Python ...

最新文章

  1. Arnold+Shave 渲染毛发
  2. nginx.conf 基本配置模板和结构
  3. backbone源码之factory
  4. express-generator——Express应用生成器贼快!
  5. SVN: Can't create session svn
  6. windows下python安装gmpy2_安装Python模块gmpy2中的问题解决
  7. 1.极限——ε-δ例子_7
  8. 几行代码理解Python变量访问的LEGB顺序
  9. 哈理工oj 1006 River Hopscotch
  10. IE6下实现Width:auto
  11. 基于Python的周立功CAN上位机(详细教程)
  12. 松下电视机服务器未响应,松下等离子电视机通病有哪些 教你如何解决
  13. Unity全新的版本发布计划(2018)【转自游戏蛮牛】
  14. 用printf 输出各种数据格式(包含示例代码)
  15. VapourSynth压制教程 【Waifu2x N卡 放大教程】
  16. Windows服务器tomcat日志拆分(cronolog )
  17. 下城投 × 奇点云 |「数智城投驾驶舱」,打造转型示范新样板
  18. win7java浏览器崩溃_浏览器崩溃怎么办,教你win7系统浏览器崩溃的应对办法
  19. 19.分布式事务编程
  20. Event-B建模(三)——控制桥上汽车,初始模型

热门文章

  1. 三层架构实现增删的简单实例
  2. 对Extjs中store的多种操作
  3. shell安装mysql,连接数据库,创建数据库
  4. MySQL5.0安装图解
  5. 由“求最大公约数“引发的思考
  6. vivado hls(1)
  7. 每日一个linux 命令-修改linux文件权限命令:chmod
  8. [zz] C++智能指针循环引用解决
  9. 设置Windbg符号文件路径
  10. 使用 MSBuild 和 Windows Installer XML 执行自动发布(转)