python数量推荐_太香了,墙裂推荐3个Python数据分析EDA神器!
作者:东哥起飞
EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程。东哥这次分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一起来介绍。
1. Pandas_Profiling
这个属于三个中最轻便、简单的了。它可以快速生成报告,一览变量概况。首先,我们需要安装该软件包。
# 安装Jupyter扩展widget
jupyter nbextension enable --py widgetsnbextension
# 或者通过conda安装
conda env create -n pandas-profiling
conda activate pandas-profiling
conda install -c conda-forge pandas-profiling
# 或者直接从源地址安装
pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip
安装成功后即可导入数据直接生成报告了。
import pandas as pd
import seaborn as sns
mpg = sns.load_dataset('mpg')
mpg.head()
from pandas_profiling import ProfileReport
profile = ProfileReport(mpg, title='MPG Pandas Profiling Report', explorative = True)
profile
使用Pandas Profiling生成了一个快速的报告,具有很好的可视化效果。报告结果直接显示在notebook中,而不是在单独的文件中打开。
总共提供了六个部分:概述、变量、交互、相关性,缺失值和样本。
Pandas profiling的变量部分是完整的,它为每个变量都生成了详细的报告。
从上图可以看出,仅一个变量就有太多信息,比如可以获得描述性信息和分位数信息。
交互
交互部分我们可以获取两个数值变量之间的散点图。
相关性
可以获得两个变量之间的关系信息。
缺失值
可以获取每个变量的缺失值计数信息。
样本
可以显示了数据集中的样本行,用于了解数据。
2. Sweetviz
Sweetviz是另一个Python的开源代码包,仅用一行代码即可生成漂亮的EDA报告。与Pandas Profiling的区别在于它输出的是一个完全独立的HTML应用程序。
使用pip安装该软件包
pip install sweetviz
安装完成后,我们可以使用Sweetviz生成报告,下面尝试一下。
import sweetviz as sv
# 可以选择目标特征
my_report = sv.analyze(mpg, target_feat ='mpg')
my_report.show_html()
从上图可以看到,Sweetviz报告生成的内容与之前的Pandas Profiling类似,但具有不同的UI。
Sweetviz不仅可以查看单变量的分布、统计特性,它还可以设置目标标量,将变量和目标变量进行关联分析。如上面报告最右侧,它获得了所有现有变量的数值关联和类别关联的相关性信息。
Sweetviz的优势不在于单个数据集上的EDA报告,而在于数据集的比较。
可以通过两种方式比较数据集:将其拆分(例如训练和测试数据集),或者使用一些过滤器对总体进行细分。
比如下面这个例子,有USA和NOT-USA两个数据集。
# 设置需要分析的变量
my_report = sv.compare_intra(mpg,mpg [“ origin”] ==“ usa”,[“ USA”,“ NOT-USA”],target_feat ='mpg')
my_report.show_html()
不需要敲太多的代码就可以让我们快速分析这些变量,这在EDA环节会减少很多工作量,而把时间留给变量的分析和筛选上。
Sweetviz的一些优势在于:分析有关目标值的数据集的能力
两个数据集之间的比较能力
但也有一些缺点:变量之间没有可视化,例如散点图
报告在另一个标签中打开
个人是比较喜欢Sweetviz的。
3. pandasGUI
PandasGUI与前面的两个不同,PandasGUI不会生成报告,而是生成一个GUI(图形用户界面)的数据框,我们可以使用它来更详细地分析我们的Dataframe。
首先,安装PandasGUI。
# pip安装
pip install pandasgui
# 或者通过源下载
pip install git+https://github.com/adamerose/pandasgui.git
然后,运行几行代码试一下。
from pandasgui import show
# 部署GUI的数据集
gui = show(mpg)
在此GUI中,可以做很多事情,比如过滤、统计信息、在变量之间创建图表、以及重塑数据。这些操作可以根据需求拖动选项卡来完成。
比如像下面这个统计信息。
最牛X的就是绘图器功能了。用它进行拖拽操作简直和excel没有啥区别了,操作难度和门槛几乎为零。
还可以通过创建新的数据透视表或者融合数据集来进行重塑。
然后,处理好的数据集可以直接导出成csv。
pandasGUI的一些优势在于:可以拖拽
快速过滤数据
快速绘图
缺点在于:没有完整的统计信息
不能生成报告
4. 结论
Pandas Profiling、Sweetviz和PandasGUI都很不错,旨在简化我们的EDA处理。在不同的工作流程中,每个都有自己的优势和适用性,三个工具具体优势如下:Pandas Profiling 适用于快速生成单个变量的分析。
Sweetviz 适用于数据集之间和目标变量之间的分析。
PandasGUI适用于具有手动拖放功能的深度分析。
原创不易,觉得不错点个赞。
欢迎关注我的个人公众号:Python数据科学
python数量推荐_太香了,墙裂推荐3个Python数据分析EDA神器!相关推荐
- python 数据分析教程推荐_太香了!墙裂推荐6个Python数据分析神器!!
作者:东哥起飞,数据爱好者 Python数据科学 hello,大家好我是东哥! 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇东哥分享6个好玩高效的操作,帮助大 ...
- python 爱心文字墙_博客园墙裂推荐!从未见过如些清新脱俗的完整Python+requests接口自动化测试框架搭建文章!...
前言 很多小伙伴不知道什么是框架?框架有哪些东西? 一步步从需求分析到报告生成告诉你如何搭自动化建框架. 学完unittest后这里基本上可以搭建一个简易的项目框架了,我们可以用一条run_main. ...
- 墙裂推荐,Python开发者不容错过的7个VS Code扩展
Visual Studio Code(简称 VS Code)是一个由微软开发,同时支持 Windows. Linux 和 macOS 等操作系统的免费代码编辑器,它支持测试,并内置了 Git 版本控制 ...
- 墙裂推荐 Anaconda | 安利 Python IDE
一.为什么安装 Anaconda? 如果你苦于给 python 安装各种包,安装过程中还各种出错.那么我墙裂推荐你!Anaconda 可以帮助你管理这些包,包括安装,卸载,更新. Anaconda 附 ...
- 墙裂推荐c++的学习网站(OJ)
目录 墙裂推荐OJ 墙裂推荐学习软件 墙裂推荐线上编辑器 墙裂推荐OJ 要想学好c++,更好的OJ少不了啊!!! 为了让诸多小白们有更好的学习测试环境,特此准备了一下几个OJ, 1.Openjudge ...
- 墙裂推荐一个高质量的数据分析学习平台
墙裂推荐一个高质量的数据分析学习平台 大家好,我是Peter呀~ 这是一篇无关任何技术的文章,主要是将近期自己写作的文章和资料进行了整理和汇总.也推荐下一个python数据分析的平台:尤而小屋 Pan ...
- 【墙裂推荐】二维码生成器哪个好?
"私域流量"是2019.2020年持续爆火的词,相信在接下来的几年还继续火下去.流量红利殆尽的当下,挖掘老用户更多的价值成为了所有公司的共识,于是私域流量的概念开始大行其道. 二维 ...
- 【Jupyter notebook设置】 墙裂推荐Variable Inspector | DeBug工具PySnooper | 暗色系个性化
偶尔没事会捣鼓一下一些个性化设置 可以用起来方便好看点 墙裂推荐一款 Variable Inspector 插件--可以用来观察包含 DataFrame 等变数的大小(不必一个个'print') 还有 ...
- 关于文本编辑器我为什么墙裂推荐你使用Notepad++
关于文本编辑器,我使用过好几种,比如记事本.editplus.Notepad++.emeditor.sublime text等等.每个都有它自己的特点,我也不能说哪个好或者不好,只能说自己使用起来最顺 ...
最新文章
- Linux下取代top的进程管理工具 htop
- “醒事”就在一瞬间 --- 一个真实的故事 (文PPT)
- 每天一道LeetCode-----计算二叉树的最大深度及最小深度,判断二叉树是否是高度平衡二叉树
- Javascript is based on signal thread
- P4445 最长回文串
- OpenCV--读取图像中任意点的像素值,并显示坐标
- php 管理mysql数据库_php管理mysql数据库类
- Linux入门:usermod - 修改用户帐户信息
- 大数据工具和数据库区别和关联
- IDEA如何自动/手动导入包
- 全网最新PHP教程大全,PHP进阶自学教程大全!
- vue中activated和deactivated是什么
- java声明多个同类变量方法
- c语言峰值保持算法,led频谱显示带峰值保持
- 企业财务报表查询方式
- 武汉“追风筝的人”:50年手工制作风筝3万余架
- linux中的LNMP架构的应用-----Discuz论坛部署
- 正泰DDSU66电表修改Modbus通信协议
- 微型计算机的中断系统
- hdu-4411-Arrest
热门文章
- python如何做接口测试_python实现接口测试
- 华为手机设置页面黑色_华为手机里最危险的设置,学会这一招,手机还能再战三年...
- 配置syslog发送_Citrix ADC Syslog配置推荐
- mysql驱动rpm和jar_mysql5.7.11对应的JDBC驱动是哪个版本
- ResNet论文笔记
- pycharm 如何自动添加头注释,比如时间,作者信息等
- 【noip2016】d2解题报告
- 【转】Java和C++的区别有哪些?
- 淘宝Hadoop现有测试框架探幽
- 一个既能做CV任务,也能做NLP任务的Transformer模型!谷歌UCLA提出统一的基础模型...