数据概览神器—Pandas-profiling
分析一个问题,从对样本进行探索开始。Python中有很多常用的数据分析函数,可以帮助我们对样本有一个初步的认识,比如describe()函数,可以很方便地生成每个变量的最大值、最小值、分位数等。
今天给大家介绍一个特别牛逼的函数,一行代码就能实现原始数据集的概览分析,进而可以保存成html报告。接下来揭开这个神奇函数的面纱吧。如果想看效果,可跳过第一部分的安装库教程。
文章目录
- 一、安装pandas_profiling库
- 1 方法一:pip install 安装
- 2 方法二:whl文件安装
- 3 方法三
- 二、使用pandas_profiling
- 1 加载数据
- 2 一行代码生成报告
- 3 一行代码保存报告
一、安装pandas_profiling库
1 方法一:pip install 安装
有些小伙伴直接在cmd中运行 pip install pandas_profiling 就可以成功安装这个库。那真的该恭喜你了。我的运行会报如下错误:
所以我准备直接下载whl文件进行安装。
2 方法二:whl文件安装
首先到如下网站下载whl文件:https://pypi.org/project/pandas-profiling/#files,可能会出现没有反应的情况,多进几次就好了。进去后点击Dowload Files,下载右边红框中的whl文件到本地。
在whl文件所在文件夹打开cmd,运行pip install XXX.whl,有些小伙伴可以成功安装该库。我的一直安装不了,会报如下错误。
找了很久的资料,结合报错的提示,终于运行完如下语句后成功安装了pandas_profiling库。
pip install --user pandas_profiling-2.9.0-py2.py3-none-any.whl -i https://pypi.tuna.tsinghua.edu.cn/simple some-package
可是在jupyter中使用Pandas_Profiling.ProfilingReport时会报如下错误:concat() got an unexpected keyword argument ‘join_axes’,经查是pandas和Pandas_Profiling版本过低导致。在cmd中运行 pip install --upgrade pandas和pip install --upgrade pandas_Profiling 即可。
3 方法三
如果还有小伙伴安装不好,可以试下如下方法:
pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip
二、使用pandas_profiling
1 加载数据
首先加载包和数据。
import pandas as pd
import pandas_profiling
df = pd.read_csv('testtdmodel.csv',sep=',',encoding='gb18030')
data = df[['3个月内申请人在多个平台申请借款', '7天内借款人手机申请借款平台数', '1个月内借款人手机申请借款平台数']]
data = data.astype(float)
2 一行代码生成报告
运行如下语句可以生成数据分析基本报告。
pandas_profiling.ProfileReport(data)
报告包含以下几部分:
- Overview(数据基本情况):包括数据集中变量个数(3)、样本行数(7252)、缺失行数(0)、缺失率(0%)、重复行数(6674)、重复率(92%)、内存占用情况等。
Overview中还包含了Warnings模块,可以点击查看数据集的重复情况和变量的0值个数。
2. Variables(单变量情况):包括单变量值个数(54)、均值(3.88499)、最小值(0)、最大值(82)、缺失值(0)、缺失率(0%)等。
点击橙色框中的Toggle details可以得到更详细的单变量分析情况。
包括一些统计指标、单变量直方图、次数出现top的值对应占比情况、最小的几个值和最大的几个值的频率。
3. Interactions(交互性分析):每两个变量进行图展示。
4. Correlations(相关性分析):展示两两变量之间的相关性,值介于-1到1之间,小框中的颜色对应右边的相关性数值。
5. Missing values(缺失值情况):展示每个变量的缺失值情况,这里三个变量都是7252个,不存在缺失值。
6. Sample(样本示例):展示样本的前十行(相当于head(10))和后十行。
7. Duplicate rows(重复行展示):展示重复行统计前十的行。
一行代码就可以很方便地生成大部分我们需要的统计指标,是不是特别实用呀?如果我们想把这个报告保存下来,应该怎么办呢?
3 一行代码保存报告
运行如下语句可以保存成html报告。
data.profile_report(title='Data').to_file('Data.html')
可以把html版的报告下载下来,发给需要使用的人,非常方便。
至此,pandas_profiling函数介绍完了,需要使用的朋友可以早日安装应用。不过建议大家生成报告的字段名称改成英文的,避免生成的报告出现乱码。
你可能感兴趣:
用Python绘制皮卡丘
用Python绘制词云图
Python人脸识别—我的眼里只有你
Python画好看的星空图(唯美的背景)
用Python中的py2neo库操作neo4j,搭建关联图谱
Python浪漫表白源码合集(爱心、玫瑰花、照片墙、星空下的告白)
长按(扫一扫)识别上方二维码学习更多Python和建模知识,让你的学习和工作更出彩。
数据概览神器—Pandas-profiling相关推荐
- 表格数据画图神器-pandas画图操作
如果对数据进行简单绘图也可以直接用Pandas 工具包,1行代码就能进行基本展示,但是,如果想把图绘制得更完美一些,还需要使用专门的工具包,例如 Matplotlib.Seaborn等,这里先演示Pa ...
- Kaggle 泰坦尼克号生存分析(数据概览和缺失值处理部分)
Kaggle 泰坦尼克号生存分析 数据概览 #导入pandas库方便数据读取和预处理,导入os库方便修改工作路径 import os import pandas as pd #读取数据 os.chdi ...
- 获取同花顺数据接口_如何获取价值信息?数据分析“神器”pandas了解一下!
来源:雪球App,作者: 同花顺-iFinD,(https://xueqiu.com/6706494343/142846912) 金融市场往往充斥着海量的交易.运行等数据,同花顺iFinD数据接口通过 ...
- python数据逆透视_Python数据神器pandas,轻松搞定嵌套表头——透视与逆透视
发现许多小伙伴入门Python几个月,还是低效率做数据处理.这套课程以形象的示意图,精心安排的案例,循序渐进带你玩转数据处理分析神器--pandas,课程中还有分析案例噢,干货满满! 前言 上一节我们 ...
- 超全面 pandas 数据预处理+数据概览 处理技巧整理(持续更新版)
这篇文章主要是整理下使用pandas的一些技巧,因为经常不用它,这些指令忘得真的很快.前段时间在数模美赛中已经栽过跟头了,不希望以后遇到相关问题的时候还去网上查(主要是太杂了).可能读者跟我有一样的问 ...
- 【Python】Pandas profiling 生成报告并部署的一站式解决方案
Pandas 库功能非常强大,特别有助于数据分析与处理,并为几乎所有操作提供了完整的解决方案.一种常见的Pandas函数是pandas describe.它向用户提供数据集所有特征的描述性统计摘要,尽 ...
- Pandas profiling 生成报告并部署的一站式解决方案
Pandas 库功能非常强大,特别有助于数据分析与处理,并为几乎所有操作提供了完整的解决方案.一种常见的Pandas函数是pandas describe.它向用户提供数据集所有特征的描述性统计摘要,尽 ...
- 机器学习第6天:数据可视化神器--Matplotlib
文章目录 一.Matplotlib简介 二.散点图 第1步:导入数据 第2步:拆分成训练集和测试集 第3步:使用简单线性回归模型来训练训练集 第4步:绘制散点图 二.线图 三.等高线图 第1步:定义一 ...
- python中pandas是指什么_Python中的神器Pandas,但是有人说Pandas慢...
原标题:Python中的神器Pandas,但是有人说Pandas慢... 如果你从事大数据工作,用Python的Pandas库时会发现很多惊喜.Pandas在数据科学和分析领域扮演越来越重要的角色,尤 ...
最新文章
- 四、Delphi 2009 泛型容器单元(Generics.Collections)[3]: TStackT
- 什么镜头最适合拍风景_为什么您的风景摄影套件中应始终装有远摄镜头
- 01-复杂度2 Maximum Subsequence Sum (25 分)
- 云数据库RDS基础版的优势及适用场景
- jdeveloper12.1.3的安装与卸载
- 51单片机连接ESP8266串口WiFi模块
- MTPA 永磁同步电机 计算
- 怎么用计算机里的坦克大战,FC经典90坦克大战电脑版
- 虚拟局域网服务器群晖,基于虚拟机的黑群晖NAS+基于虚拟局域网的远程访问
- JAVA :一张纸厚0.5mm //0.0005m,折叠多少次,厚度会超过珠穆朗玛峰?(8848.43m)
- Focal Loss简述
- 【杂谈】嵌入式软件数据结构的特点
- python回车换行怎么不行_python回车不能换行怎么办
- css 随机 数,纯CSS实现随机效果
- python的numpy教程_ROS与Python入门教程-使用numpy
- Flex入门学习教程
- python灰色波浪线,PyCharm关闭碍眼的波浪线图文详解
- 一些非主流搜索引擎的优化
- java的字节码文件是什么后缀_【Java虚拟机1】Java字节码文件格式入门
- 共有产权该有退出机制了,否则单身、离婚、变故、继承、拆迁等怎么办?
热门文章
- waitpid() 做人要厚道
- 亚马逊营销和运营手法的运用知多少?
- 什么是寄存器的recovery time和removal time?
- 爆肝!!! orcale 期末复习资料整理
- UVa 10074 - Take the Land
- 计算机音乐乐谱打上花火,扒完,打上花火,自扒
- Linux查看服务器配置命令
- Windows系统下为 Python安装 Pcapy模块的方法
- 苹果7plus专用计算机,iPhone 7 Plus惨了竟用TLC内存?果粉要哭了
- Mac如何通过bootcamp(启动转换助理)安装Windows10系统?附教程和下载