分析一个问题,从对样本进行探索开始。Python中有很多常用的数据分析函数,可以帮助我们对样本有一个初步的认识,比如describe()函数,可以很方便地生成每个变量的最大值、最小值、分位数等。
  
今天给大家介绍一个特别牛逼的函数,一行代码就能实现原始数据集的概览分析,进而可以保存成html报告。接下来揭开这个神奇函数的面纱吧。如果想看效果,可跳过第一部分的安装库教程。
  
  

文章目录

  • 一、安装pandas_profiling库
    • 1 方法一:pip install 安装
    • 2 方法二:whl文件安装
    • 3 方法三
  • 二、使用pandas_profiling
    • 1 加载数据
    • 2 一行代码生成报告
    • 3 一行代码保存报告

  
  

一、安装pandas_profiling库

  

1 方法一:pip install 安装

  
有些小伙伴直接在cmd中运行 pip install pandas_profiling 就可以成功安装这个库。那真的该恭喜你了。我的运行会报如下错误:
  

  

所以我准备直接下载whl文件进行安装。
  
  

2 方法二:whl文件安装

  
首先到如下网站下载whl文件:https://pypi.org/project/pandas-profiling/#files,可能会出现没有反应的情况,多进几次就好了。进去后点击Dowload Files,下载右边红框中的whl文件到本地。
  

  
在whl文件所在文件夹打开cmd,运行pip install XXX.whl,有些小伙伴可以成功安装该库。我的一直安装不了,会报如下错误。
  

  
找了很久的资料,结合报错的提示,终于运行完如下语句后成功安装了pandas_profiling库。
  

pip install --user  pandas_profiling-2.9.0-py2.py3-none-any.whl -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

  
可是在jupyter中使用Pandas_Profiling.ProfilingReport时会报如下错误:concat() got an unexpected keyword argument ‘join_axes’,经查是pandas和Pandas_Profiling版本过低导致。
  
在cmd中运行 pip install --upgrade pandas和pip install --upgrade pandas_Profiling 即可。

  

3 方法三

  
如果还有小伙伴安装不好,可以试下如下方法:
  

pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

  
  

二、使用pandas_profiling

  

1 加载数据

  
首先加载包和数据。
  

import pandas as pd
import pandas_profiling
df = pd.read_csv('testtdmodel.csv',sep=',',encoding='gb18030')
data = df[['3个月内申请人在多个平台申请借款', '7天内借款人手机申请借款平台数', '1个月内借款人手机申请借款平台数']]
data = data.astype(float)

  

2 一行代码生成报告

  
运行如下语句可以生成数据分析基本报告。

pandas_profiling.ProfileReport(data)

  
报告包含以下几部分:
  

  1. Overview(数据基本情况):包括数据集中变量个数(3)、样本行数(7252)、缺失行数(0)、缺失率(0%)、重复行数(6674)、重复率(92%)、内存占用情况等。

      

Overview中还包含了Warnings模块,可以点击查看数据集的重复情况和变量的0值个数。
  
2. Variables(单变量情况):包括单变量值个数(54)、均值(3.88499)、最小值(0)、最大值(82)、缺失值(0)、缺失率(0%)等。

  
点击橙色框中的Toggle details可以得到更详细的单变量分析情况。
  
包括一些统计指标、单变量直方图、次数出现top的值对应占比情况、最小的几个值和最大的几个值的频率。
  

  
3. Interactions(交互性分析):每两个变量进行图展示。
  

  1. Correlations(相关性分析):展示两两变量之间的相关性,值介于-1到1之间,小框中的颜色对应右边的相关性数值。
      

  2. Missing values(缺失值情况):展示每个变量的缺失值情况,这里三个变量都是7252个,不存在缺失值。
      

  3. Sample(样本示例):展示样本的前十行(相当于head(10))和后十行。

  

  1. Duplicate rows(重复行展示):展示重复行统计前十的行。

      

一行代码就可以很方便地生成大部分我们需要的统计指标,是不是特别实用呀?如果我们想把这个报告保存下来,应该怎么办呢?

  
  

3 一行代码保存报告

  
运行如下语句可以保存成html报告。

data.profile_report(title='Data').to_file('Data.html')

  
可以把html版的报告下载下来,发给需要使用的人,非常方便。
  

  
至此,pandas_profiling函数介绍完了,需要使用的朋友可以早日安装应用。不过建议大家生成报告的字段名称改成英文的,避免生成的报告出现乱码。
  
你可能感兴趣:
用Python绘制皮卡丘
用Python绘制词云图
Python人脸识别—我的眼里只有你
Python画好看的星空图(唯美的背景)
用Python中的py2neo库操作neo4j,搭建关联图谱
Python浪漫表白源码合集(爱心、玫瑰花、照片墙、星空下的告白)

长按(扫一扫)识别上方二维码学习更多Python和建模知识,让你的学习和工作更出彩。

一行代码生成数据分析报告—Pandas-profiling相关推荐

  1. pandas_profiling :教你一行代码生成数据分析报告

    分析报告全貌 ‍ 什么是探索性数据分析 熟悉pandas的童鞋估计都知道pandas的describe()和info()函数,用来查看数据的整体情况,比如平均值.标准差之类,就是所谓的探索性数据分析- ...

  2. python数据分析并生成报告_pandas_profiling :教你一行代码生成数据分析报告

    分析报告全貌 什么是探索性数据分析 熟悉pandas的童鞋估计都知道pandas的describe()和info()函数,用来查看数据的整体情况,比如平均值.标准差之类,就是所谓的探索性数据分析-ED ...

  3. 【Python】Pandas profiling 生成报告并部署的一站式解决方案

    Pandas 库功能非常强大,特别有助于数据分析与处理,并为几乎所有操作提供了完整的解决方案.一种常见的Pandas函数是pandas describe.它向用户提供数据集所有特征的描述性统计摘要,尽 ...

  4. Pandas profiling 生成报告并部署的一站式解决方案

    Pandas 库功能非常强大,特别有助于数据分析与处理,并为几乎所有操作提供了完整的解决方案.一种常见的Pandas函数是pandas describe.它向用户提供数据集所有特征的描述性统计摘要,尽 ...

  5. 科大讯飞AI营销云广告投放数据分析报告【实战总结】

    4月份项目实战的总结,前后进行了约20多天. 花了大量时间在清洗数据,虽然耗时但是觉得过程中很享受,喜欢"静静地泡在里面"的感觉. 另外,了解了涉及到的广告投放.业务指标体系.手机 ...

  6. Python办公自动化|一键生成数据分析报告

    前两天逛知乎的时候看到这样一个提问,Python自动化办公能做那些有趣或者有用的事情? 看了一下这个提问,我想这可能是很多职场人面临的困惑,想把Python用到工作中来提升效率,却不知如何下手?Pyt ...

  7. python中不能使用索引运算的是_Python数据分析之Pandas库(笔记)

    Pandas数据结构 pandas有两个基本的数据结构:Series和DataFrame. 1.1 创建Series数据 需要引入pandas模块:import pandas as pd 需要引入Se ...

  8. c++控制台应用每一列数据如何对齐_懂Excel就能轻松入门Python数据分析包pandas(十六):合并数据...

    此系列文章收录在公众号中:数据大宇宙 > 数据处理 >E-pd 转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的) 经常听别人说 ...

  9. pandas filter_数据分析之Pandas操作(2)

    接着数据分析之Pandas操作(1)的介绍,本次介绍在实际应用场景中几个常用的函数.还是以titanic生存数据为例,本次需要导入pandas .numpy .scipy三个工具包. import p ...

最新文章

  1. 自定义服务器怎么调98k,《刺激战场》如何开自定义房间?升级可领房卡,3倍物资98k随便捡...
  2. linux c 指针 内存 泄漏几种情况
  3. 修改表主键字段数据类型(V2.0)
  4. delphi7下调用微软的Web Services的心得
  5. 为指定c 语言源程序添加行号,给自己的程序加上行号
  6. 10分钟了解一致性hash算法
  7. 为什么睡觉时身体突然抖一下?答案吓到我了!
  8. sublime编辑器无法正常打印中文问题解决
  9. python爬虫网页数据案例_python+vue实现网站爬虫数据分析案例
  10. 关于Mysql修改密码的方法汇总
  11. uni-app开发环境配置及混合开发流程
  12. php微信实现红包雨,怎么制作微信红包雨(微信红包雨特效)
  13. 5G无线技术基础自学系列 | 5G NR和LTE信道结构比较
  14. php 查文件sha1 内存不足,PHP 计算文件的 sha1 散列值
  15. 无线桥接dhcp服务器不启动,TP-Link路由器桥接提示“获取IP地址失败,请检查DHCP是否开启...
  16. 雅诗兰黛公司宣布线上业务部门领导层更新
  17. 计算机语言发展的三个阶段,机器语言、汇编语言与高级语言
  18. RHCE认证考试成绩公布(转)
  19. 精密电阻排行榜 List of Precision Resistors
  20. 微信小程序 (布局适配与物理逻辑像素)

热门文章

  1. 【王道训练营 C/C++方向基础 60 题(1-10)】
  2. 八、C语言的基本结构—选择结构
  3. The 2021 ICPC Asia Taipei Regional Programming Contest
  4. 大数据计算的基石——MapReduce
  5. F2FS文件系统架构与原理分析(五)——元数据组织及管理
  6. 条件判断————8.判断闰年
  7. 华为hcie认证-QOS 流量整形双速率的概念
  8. 中科创达旗下Rightware正式发布首个一体化汽车HMI工具链Kanzi One
  9. 如何实现两个笔记本电脑间的文件传输
  10. 【Linux】CentOS7 C#开发环境搭建笔记(Jexus安装、配置、部署)