EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程。东哥这次分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一起来介绍。

1. Pandas_Profiling

这个属于三个中最轻便、简单的了。它可以快速生成报告,一览变量概况。首先,我们需要安装该软件包。

# 安装Jupyter扩展widget
jupyter nbextension enable --py widgetsnbextension
# 或者通过conda安装
conda env create -n pandas-profiling
conda activate pandas-profiling
conda install -c conda-forge pandas-profiling
# 或者直接从源地址安装
pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

安装成功后即可导入数据直接生成报告了。

import pandas as pd
import seaborn as sns
mpg = sns.load_dataset('mpg')
mpg.head()from pandas_profiling import ProfileReport
profile = ProfileReport(mpg, title='MPG Pandas Profiling Report', explorative = True)
profile

使用Pandas Profiling生成了一个快速的报告,具有很好的可视化效果。报告结果直接显示在notebook中,而不是在单独的文件中打开。

总共提供了六个部分:概述、变量、交互、相关性,缺失值和样本。

Pandas profiling的变量部分是完整的,它为每个变量都生成了详细的报告。

从上图可以看出,仅一个变量就有太多信息,比如可以获得描述性信息和分位数信息。

交互

交互部分我们可以获取两个数值变量之间的散点图。

相关性

可以获得两个变量之间的关系信息。

缺失值

可以获取每个变量的缺失值计数信息。

样本

可以显示了数据集中的样本行,用于了解数据。

2. Sweetviz

Sweetviz是另一个Python的开源代码包,仅用一行代码即可生成漂亮的EDA报告。与Pandas Profiling的区别在于它输出的是一个完全独立的HTML应用程序。

使用pip安装该软件包

pip install sweetviz

安装完成后,我们可以使用Sweetviz生成报告,下面尝试一下。

import sweetviz as sv
# 可以选择目标特征
my_report = sv.analyze(mpg, target_feat ='mpg')
my_report.show_html()

从上图可以看到,Sweetviz报告生成的内容与之前的Pandas Profiling类似,但具有不同的UI。

Sweetviz不仅可以查看单变量的分布、统计特性,它还可以设置目标标量,将变量和目标变量进行关联分析。如上面报告最右侧,它获得了所有现有变量的数值关联和类别关联的相关性信息。

Sweetviz的优势不在于单个数据集上的EDA报告,而在于数据集的比较。

可以通过两种方式比较数据集:将其拆分(例如训练和测试数据集),或者使用一些过滤器对总体进行细分。

比如下面这个例子,有USA和NOT-USA两个数据集。

# 设置需要分析的变量
my_report = sv.compare_intra(mpg,mpg [“ origin”] ==“ usa”,[“ USA”,“ NOT-USA”],target_feat ='mpg')
my_report.show_html()

不需要敲太多的代码就可以让我们快速分析这些变量,这在EDA环节会减少很多工作量,而把时间留给变量的分析和筛选上。

Sweetviz的一些优势在于:

  • 分析有关目标值的数据集的能力

  • 两个数据集之间的比较能力

但也有一些缺点:

  • 变量之间没有可视化,例如散点图

  • 报告在另一个标签中打开

个人是比较喜欢Sweetviz的。

3. pandasGUI

PandasGUI与前面的两个不同,PandasGUI不会生成报告,而是生成一个GUI(图形用户界面)的数据框,我们可以使用它来更详细地分析我们的Dataframe。

首先,安装PandasGUI。

# pip安装
pip install pandasgui
# 或者通过源下载
pip install git+https://github.com/adamerose/pandasgui.git

然后,运行几行代码试一下。

from pandasgui import show
# 部署GUI的数据集
gui = show(mpg)

在此GUI中,可以做很多事情,比如过滤、统计信息、在变量之间创建图表、以及重塑数据。这些操作可以根据需求拖动选项卡来完成。

比如像下面这个统计信息

最牛X的就是绘图器功能了。用它进行拖拽操作简直和excel没有啥区别了,操作难度和门槛几乎为零。

还可以通过创建新的数据透视表或者融合数据集来进行重塑。

然后,处理好的数据集可以直接导出成csv。

pandasGUI的一些优势在于:

  • 可以拖拽

  • 快速过滤数据

  • 快速绘图

缺点在于:

  • 没有完整的统计信息

  • 不能生成报告

4. 结论

Pandas Profiling、Sweetviz和PandasGUI都很不错,旨在简化我们的EDA处理。在不同的工作流程中,每个都有自己的优势和适用性,三个工具具体优势如下:

  • Pandas Profiling 适用于快速生成单个变量的分析。

  • Sweetviz 适用于数据集之间和目标变量之间的分析。

  • PandasGUI适用于具有手动拖放功能的深度分析。

参考:

https://github.com/adamerose/pandasgui

https://github.com/pandas-profiling/pandas-profiling

https://github.com/fbdesignpro/sweetviz

https://towardsdatascience.com/

推荐阅读:

入门: 最全的零基础学Python的问题  | 零基础学了8个月的Python | 实战项目 |学Python就是这条捷径

量化: 定投基金到底能赚多少钱?  | 我用Python对去年800只基金的数据分析

干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析|   从万众期待到口碑扑街!唐探3令人失望  | 笑看新倚天屠龙记灯谜答题王 |用Python做个海量小姐姐素描图碟中谍这么火,我用机器学习做个迷你推荐系统电影

趣味:弹球游戏  | 九宫格  | 漂亮的花 | 两百行Python《天天酷跑》游戏!

AI: 会做诗的机器人给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影

小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!|  再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换器天天看小姐姐!|

年度爆款文案

  • 1).卧槽!Pdf转Word用Python轻松搞定!

  • 2).学Python真香!我用100行代码做了个网站,帮人PS旅行图片,赚个鸡腿吃

  • 3).首播过亿,火爆全网,我分析了《乘风破浪的姐姐》,发现了这些秘密

  • 4).80行代码!用Python做一个哆来A梦分身

  • 5).你必须掌握的20个python代码,短小精悍,用处无穷

  • 6).30个Python奇淫技巧集

  • 7).我总结的80页《菜鸟学Python精选干货.pdf》,都是干货

  • 8).再见Python!我要学Go了!2500字深度分析

  • 9).发现一个舔狗福利!这个Python爬虫神器太爽了,自动下载妹子图片

点阅读原文,看Python全套!

安利 3 个 pandas 数据探索分析神器!相关推荐

  1. 【Python】安利 3 个 pandas 数据探索分析神器!

    EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程.东哥这次分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一起来介绍. 1. Pandas_Profil ...

  2. 推荐 2个十分好用的 pandas 数据探索分析神器!

    作者 | 俊欣 来源 | 关于数据分析与可视化 今天小编给大家推荐两款超好用的工具来对数据进行探索分析.更好地帮助数据分析师从数据集当中来挖掘出有用的信息 PandasGUI 一听到这个名字,大家想必 ...

  3. 推荐2个十分好用的pandas数据探索分析神器!

    今天小编给大家推荐两款超好用的工具来对数据进行探索分析.更好地帮助数据分析师从数据集当中来挖掘出有用的信息 PandasGUI 一听到这个名字,大家想必就会知道这个工具是在Pandas的基础之上加了G ...

  4. Pandas数据探索分析,分享两个神器!

    在使用 pandas 进行数据分析时,进行一定的数据探索性分析(EDA)是必不可少的一个步骤,例如常见统计指标计算.缺失值.重复值统计等. 使用 df.describe() 等函数进行探索当然是常见操 ...

  5. 一行代码加速你的Pandas数据探索分析

    本文3分钟,大幅提升分析数据效率 我们知道,pandas库为EDA提供了许多非常有用的功能.但是,在能够应用大多数功能之前,通常必须先从更通用的功能开始,例如df.describe()函数. 比如以分 ...

  6. 几款强大的 Pandas 数据探索工具,推荐收藏使用

    对于 Python 数据分析领域,Pandas 绝对是中坚力量,那么围绕着这个工具,又衍生出了很多辅助工具,今天我们就一起来看看辅助 Pandas 来进行数据探索的几种工具 首先我们先来看看我们的测试 ...

  7. 数据挖掘_task2数据探索分析

    数据挖掘_task2数据探索分析EDA 1.前言 2.内容介绍 2.1 读取数据并查看大体信息 2.1.1读取数据 2.1.2 查看数据信息 2.1.2.1 数据集的概况 2.1.2.2 判断数据缺失 ...

  8. 【Python】数据探索分析——东北大学软件学院大数据班数据挖掘实训一(1)

    数据探索分析 (1)获取数据并进行数据预处理,将含有缺失值的样本去掉,取出死亡率在 0 (1)获取数据并进行数据预处理,将含有缺失值的样本去掉,取出死亡率在 0<q<=1范围内的数据. i ...

  9. 心血管疾病数据探索分析

    心血管疾病数据探索分析 初步数据分析 首先,导入挑战所需模块: import pandas as pd import numpy as np import seaborn as sns import ...

最新文章

  1. C#高级编程----错误和异常的总结
  2. [转载] ffmpeg超详细综合教程——摄像头直播
  3. Android基础(八) – Service AIDL
  4. 以太坊智能合约安全 Dasp Top10
  5. Boost:无序的bimap双图的测试程序
  6. 【C++ Priemr | 15】构造函数与拷贝控制
  7. leetcode402. 移掉K位数字
  8. Python 模块(二)
  9. 支付宝开放生活频道 消费者可直达商家生活号、小程序
  10. 解决“Cmake error :generator: Ninja“问题
  11. 基于JAVA+SpringMVC+Mybatis+MYSQL的新闻发布系统
  12. python多用户登录_python 多用户登录
  13. SSM整合时IDE: File is included in 4 contexts
  14. 突然发现foxmail原来是腾讯的
  15. Spark 计算人员二度关系
  16. 革命炉石传说,Gods Unchained
  17. 基于Python实现Jacobi迭代法、Gauss-Seidel迭代法和SOR法方程组(三)
  18. Could not load the following font :pdfFontName : STSong-Light问题
  19. 程序设计 模拟排球比赛分析
  20. html中p元素添加超链接_如何在HTML中添加超链接

热门文章

  1. 记2020年第十一届蓝桥杯感想
  2. Motivated Word(4)
  3. 从 Discord 看未来社交的「超级群」模式
  4. etf持仓如何影响现货金价?
  5. pandas基础操作大全之数据合并
  6. sql查询涵盖的时段_涵盖的主题
  7. 有声阅读狂欢下更需要冷静,荔枝、蜻蜓、喜马拉雅们需要上车
  8. 勾股定理计算机语言,勾股定理
  9. 微信终于出新功能了:自动登录该设备
  10. dg备库怎么逻辑导出exp/expdp?