分析一个问题,从对样本进行探索开始。Python中有很多常用的数据分析函数,可以帮助我们对样本有一个初步的认识,比如describe()函数,可以很方便地生成每个变量的最大值、最小值、分位数等。

  
  今天给大家介绍一个特别牛逼的函数,一行代码就能实现原始数据集的概览分析,进而可以保存成html报告。接下来揭开这个神奇函数的面纱吧。如果想看效果,可跳过第一部分的安装库教程。
  

文章目录

  • 一、安装pandas_profiling库
    • 1 方法一:pip install 安装
    • 2 方法二:whl文件安装
    • 3 方法三
  • 二、使用pandas_profiling
    • 1 加载数据
    • 2 一行代码生成报告
    • 3 一行代码保存报告

  
  

一、安装pandas_profiling库

    

1 方法一:pip install 安装

  
  有些小伙伴直接在cmd中运行 pip install pandas_profiling 就可以成功安装这个库。那真的该恭喜你了。我的运行会报如下错误:

  

所以我准备直接下载whl文件进行安装。

  

2 方法二:whl文件安装

  
  首先到如下网站下载whl文件:https://pypi.org/project/pandas-profiling/#files,可能会出现没有反应的情况,多进几次就好了。进去后点击Dowload Files,下载右边红框中的whl文件到本地。
  
  
  
  在whl文件所在文件夹打开cmd,运行pip install XXX.whl,有些小伙伴可以成功安装该库。我的一直安装不了,会报如下错误。
  

  
找了很久的资料,结合报错的提示,终于运行完如下语句后成功安装了pandas_profiling库。
  

pip install --user  pandas_profiling-2.9.0-py2.py3-none-any.whl -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

  
  可是在jupyter中使用Pandas_Profiling.ProfilingReport时会报如下错误:concat() got an unexpected keyword argument ‘join_axes’,经查是pandas和Pandas_Profiling版本过低导致。在cmd中运行 pip install --upgrade pandas和pip install --upgrade pandas_Profiling 即可。

  

3 方法三

  
如果还有小伙伴安装不好,可以试下如下方法:
  

pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

  
  

二、使用pandas_profiling

  

1 加载数据

  
首先加载包和数据。
  

import pandas as pd
import pandas_profiling
df = pd.read_csv('testtdmodel.csv',sep=',',encoding='gb18030')
data = df[['3个月内申请人在多个平台申请借款', '7天内借款人手机申请借款平台数', '1个月内借款人手机申请借款平台数']]
data = data.astype(float)

  

2 一行代码生成报告

  
运行如下语句可以生成数据分析基本报告。
  

pandas_profiling.ProfileReport(data)

  
报告包含以下几部分:

  1. Overview(数据基本情况):包括数据集中变量个数(3)、样本行数(7252)、缺失行数(0)、缺失率(0%)、重复行数(6674)、重复率(92%)、内存占用情况等。

  
  Overview中还包含了Warnings模块,可以点击查看数据集的重复情况和变量的0值个数。
  
  2. Variables(单变量情况):包括单变量值个数(54)、均值(3.88499)、最小值(0)、最大值(82)、缺失值(0)、缺失率(0%)等。

  
  点击橙色框中的Toggle details可以得到更详细的单变量分析情况。
  
  包括一些统计指标、单变量直方图、次数出现top的值对应占比情况、最小的几个值和最大的几个值的频率。
  

  
  3. Interactions(交互性分析):每两个变量进行图展示。


  
  4. Correlations(相关性分析):展示两两变量之间的相关性,值介于-1到1之间,小框中的颜色对应右边的相关性数值。
  

  
  5. Missing values(缺失值情况):展示每个变量的缺失值情况,这里三个变量都是7252个,不存在缺失值。
  

  
  6. Sample(样本示例):展示样本的前十行(相当于head(10))和后十行。
  

  
  7. Duplicate rows(重复行展示):展示重复行统计前十的行。
  

  

  一行代码就可以很方便地生成大部分我们需要的统计指标,是不是特别实用呀?如果我们想把这个报告保存下来,应该怎么办呢?

  
  

3 一行代码保存报告

  
运行如下语句可以保存成html报告。
  

data.profile_report(title='Data').to_file('Data.html')

  
可以把html版的报告下载下来,发给需要使用的人,非常方便。
  

  
  至此,pandas_profiling函数介绍完了,需要使用的朋友可以早日安装应用。不过建议大家生成报告的字段名称改成英文的,避免生成的报告出现乱码。

  
你可能感兴趣:
用Python绘制皮卡丘
用Python绘制词云图
Python人脸识别—我的眼里只有你
Python画好看的星空图(唯美的背景)
用Python中的py2neo库操作neo4j,搭建关联图谱
Python浪漫表白源码合集(爱心、玫瑰花、照片墙、星空下的告白)

长按(扫一扫)识别上方二维码学习更多Python和建模知识,让你的学习和工作更出彩。

数据概览神器—Pandas-profiling相关推荐

  1. 表格数据画图神器-pandas画图操作

    如果对数据进行简单绘图也可以直接用Pandas 工具包,1行代码就能进行基本展示,但是,如果想把图绘制得更完美一些,还需要使用专门的工具包,例如 Matplotlib.Seaborn等,这里先演示Pa ...

  2. Kaggle 泰坦尼克号生存分析(数据概览和缺失值处理部分)

    Kaggle 泰坦尼克号生存分析 数据概览 #导入pandas库方便数据读取和预处理,导入os库方便修改工作路径 import os import pandas as pd #读取数据 os.chdi ...

  3. 获取同花顺数据接口_如何获取价值信息?数据分析“神器”pandas了解一下!

    来源:雪球App,作者: 同花顺-iFinD,(https://xueqiu.com/6706494343/142846912) 金融市场往往充斥着海量的交易.运行等数据,同花顺iFinD数据接口通过 ...

  4. python数据逆透视_Python数据神器pandas,轻松搞定嵌套表头——透视与逆透视

    发现许多小伙伴入门Python几个月,还是低效率做数据处理.这套课程以形象的示意图,精心安排的案例,循序渐进带你玩转数据处理分析神器--pandas,课程中还有分析案例噢,干货满满! 前言 上一节我们 ...

  5. 超全面 pandas 数据预处理+数据概览 处理技巧整理(持续更新版)

    这篇文章主要是整理下使用pandas的一些技巧,因为经常不用它,这些指令忘得真的很快.前段时间在数模美赛中已经栽过跟头了,不希望以后遇到相关问题的时候还去网上查(主要是太杂了).可能读者跟我有一样的问 ...

  6. 【Python】Pandas profiling 生成报告并部署的一站式解决方案

    Pandas 库功能非常强大,特别有助于数据分析与处理,并为几乎所有操作提供了完整的解决方案.一种常见的Pandas函数是pandas describe.它向用户提供数据集所有特征的描述性统计摘要,尽 ...

  7. Pandas profiling 生成报告并部署的一站式解决方案

    Pandas 库功能非常强大,特别有助于数据分析与处理,并为几乎所有操作提供了完整的解决方案.一种常见的Pandas函数是pandas describe.它向用户提供数据集所有特征的描述性统计摘要,尽 ...

  8. 机器学习第6天:数据可视化神器--Matplotlib

    文章目录 一.Matplotlib简介 二.散点图 第1步:导入数据 第2步:拆分成训练集和测试集 第3步:使用简单线性回归模型来训练训练集 第4步:绘制散点图 二.线图 三.等高线图 第1步:定义一 ...

  9. python中pandas是指什么_Python中的神器Pandas,但是有人说Pandas慢...

    原标题:Python中的神器Pandas,但是有人说Pandas慢... 如果你从事大数据工作,用Python的Pandas库时会发现很多惊喜.Pandas在数据科学和分析领域扮演越来越重要的角色,尤 ...

最新文章

  1. 四、Delphi 2009 泛型容器单元(Generics.Collections)[3]: TStackT
  2. 什么镜头最适合拍风景_为什么您的风景摄影套件中应始终装有远摄镜头
  3. 01-复杂度2 Maximum Subsequence Sum (25 分)
  4. 云数据库RDS基础版的优势及适用场景
  5. jdeveloper12.1.3的安装与卸载
  6. 51单片机连接ESP8266串口WiFi模块
  7. MTPA 永磁同步电机 计算
  8. 怎么用计算机里的坦克大战,FC经典90坦克大战电脑版
  9. 虚拟局域网服务器群晖,基于虚拟机的黑群晖NAS+基于虚拟局域网的远程访问
  10. JAVA :一张纸厚0.5mm //0.0005m,折叠多少次,厚度会超过珠穆朗玛峰?(8848.43m)
  11. Focal Loss简述
  12. 【杂谈】嵌入式软件数据结构的特点
  13. python回车换行怎么不行_python回车不能换行怎么办
  14. css 随机 数,纯CSS实现随机效果
  15. python的numpy教程_ROS与Python入门教程-使用numpy
  16. Flex入门学习教程
  17. python灰色波浪线,PyCharm关闭碍眼的波浪线图文详解
  18. 一些非主流搜索引擎的优化
  19. java的字节码文件是什么后缀_【Java虚拟机1】Java字节码文件格式入门
  20. 共有产权该有退出机制了,否则单身、离婚、变故、继承、拆迁等怎么办?

热门文章

  1. waitpid() 做人要厚道
  2. 亚马逊营销和运营手法的运用知多少?
  3. 什么是寄存器的recovery time和removal time?
  4. 爆肝!!! orcale 期末复习资料整理
  5. UVa 10074 - Take the Land
  6. 计算机音乐乐谱打上花火,扒完,打上花火,自扒
  7. Linux查看服务器配置命令
  8. Windows系统下为 Python安装 Pcapy模块的方法
  9. 苹果7plus专用计算机,iPhone 7 Plus惨了竟用TLC内存?果粉要哭了
  10. Mac如何通过bootcamp(启动转换助理)安装Windows10系统?附教程和下载