分析报告全貌

什么是探索性数据分析

熟悉pandas的童鞋估计都知道pandas的describe()和info()函数,用来查看数据的整体情况,比如平均值、标准差之类,就是所谓的探索性数据分析-EDA。

pandas_profiling简介

如果你想更方便快捷地了解数据的全貌,泣血推荐一个python库:pandas_profiling,这个库只需要一行代码就可以生成数据EDA报告。

pandas_profiling基于pandas的DataFrame数据类型,可以简单快速地进行探索性数据分析。

对于数据集的每一列,pandas_profiling会提供以下统计信息:

1、概要:数据类型,唯一值,缺失值,内存大小

2、分位数统计:最小值、最大值、中位数、Q1、Q3、最大值,值域,四分位

3、描述性统计:均值、众数、标准差、绝对中位差、变异系数、峰值、偏度系数

4、最频繁出现的值,直方图/柱状图

5、相关性分析可视化:突出强相关的变量,Spearman, Pearson矩阵相关性色阶图

并且这个报告可以导出为HTML,非常方便查看。

pandas_profiling安装

安装pandas_profiling可以使用pip、conda或者下载文件安装,非常方便。

我这里使用pip方式,在命令行输入:

pip install pandas-profiling

本文在Jupyter notebook中进行代码实验。

pandas_profiling使用方法

1、加载数据集

我这里用经典的泰坦尼克数据集:

# 导入相关库

import seaborn as sns

import pandas as pd

import pandas_profiling as pp

import matplotlib.pyplot as plt

# 加载泰坦尼克数据集

data = sns.load_dataset('titanic')

data.head()

输出:

2、使用pandas_profiling生成数据探索报告

report = pp.ProfileReport(data)

report

输出报告:

3、导出为html文件

report.to_file('report.html')

总结

pandas_profiling可以用一行代码生成详细的数据分析报告,与pandas深度结合,非常适合前期的数据探索阶段,以及结果数据报告批量化生产。对不太熟悉python数据分析的新手来说,这是一个非常好用的工具。

python数据分析并生成报告_pandas_profiling :教你一行代码生成数据分析报告相关推荐

  1. pandas_profiling :教你一行代码生成数据分析报告

    分析报告全貌 ‍ 什么是探索性数据分析 熟悉pandas的童鞋估计都知道pandas的describe()和info()函数,用来查看数据的整体情况,比如平均值.标准差之类,就是所谓的探索性数据分析- ...

  2. 一行代码生成数据分析报告—Pandas-profiling

    分析一个问题,从对样本进行探索开始.Python中有很多常用的数据分析函数,可以帮助我们对样本有一个初步的认识,比如describe()函数,可以很方便地生成每个变量的最大值.最小值.分位数等.    ...

  3. 使用python 处理表格生成图表_教你用Python自动读取数据生成图表,产生的效益很可观...

    厌烦了每次都要在Excel里拖动数据来生成图形吧,这篇文章里,教你用Python自动读取Excel数据生成图表,然后Python 使用XlsxWriter模块在Excel工作表中绘制带有数据表的柱形图 ...

  4. python ppt自动生成_实战 | Python自动生成PPT调研报告

    原标题:实战 | Python自动生成PPT调研报告 原文: 全文约 3821 字,读完可能需要 5 分钟. 文/JSong @2017.02.28 在数据分析里面有一句话是说,80%的时间要用于数据 ...

  5. 准工业级代码分享:Python用于自动生成EXCEL周期报告

    前言 Python自动化在我看来一直是个小打小闹的需求,无法独立成为工业级或者商业级的产品需求.尤其是Python操作PPT,在我看来根本没有一点用武之地.因为好的商业PPT远不是枯燥的复制和粘贴,绝 ...

  6. python使用fpdf生成数据报告pdf文件

    python使用fpdf生成数据报告pdf文件 目录 python使用fpdf生成数据报告pdf文件 # 报告生成整体代码

  7. 精选10个Python库,几行代码轻松搞定探索性数据分析!

    点击上方"菜鸟学Python",选择"星标"公众号 超级无敌干货,第一时间送达!!! 探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一.在拿到一个 ...

  8. python123io如何编辑_计算机二级python学习教程(1) 教大家如何学习python

    本来PHP还学艺不精,又报了计算机二级Python的考试,还有一个半月的时间,抓紧买了高教社的这两本书,今天正式开始学习这个语言,虽然没法和世界上最好的语言PHP相提并论,但是也值得一学. 虽然先看蓝 ...

  9. Python爬虫《自动化学报》数据爬取与数据分析

    Python爬虫<自动化学报>数据爬取与数据分析 文章目录 Python爬虫<自动化学报>数据爬取与数据分析 前言 一.代码 二.结果展示 三.爬虫实现 1.准备 2.获取网页 ...

最新文章

  1. 第十三周项目四-立体类族共有的抽象类
  2. MATLAB中的ind2vec和vec2ind函数
  3. 【模板】并查集 两种路径压缩写法(类模板和函数模板)
  4. 开源项目使用经验原则
  5. linux驱动:自动创建设备节点
  6. 19.7 主动模式和被动模式 19.8 添加监控主机 19.9 添加自定义模板 19.10 处理图形中的乱码 19.11 自动发现...
  7. 软件工程(2018)第3次团队作业
  8. Android SQLite服务--创建、增删改查
  9. PHP基础教程-54课-问题
  10. 用webpack打包加密静态配置文件
  11. Shiro(五)——Shiro整合SSM入门完整案例
  12. SQL Express几个版本的区别
  13. gflags 调试内存_gflags 检查内存越界 | 学步园
  14. CAD导入外部插件方法教程
  15. java 苹果vcf解析_iOS开发- 生成/解析.vcf文件
  16. 三、HBase的优化(后期继续优化)
  17. python可视化迷宫求解_如何用 Python 制作一个迷宫游戏
  18. 黑客与画家 [美] Paul Graham 读书摘录
  19. 集中式存储和分布式存储
  20. android加载efi分区,高通Android UEFI XBL 代码流程分析

热门文章

  1. [转] MySQL 查询表数据大小的总结
  2. [zz]HDFS文件操作
  3. java继承方法规则或规律
  4. java开发串口步骤
  5. [Gradle] 在 Eclipse 下利用 gradle 构建系统
  6. T extends ComparableT和T extends Comparable? super T含义
  7. 1704班3组—高级软件测试作业—如何计算团队成员贡献分
  8. 读《构建之法》第 8、9、10 章有感
  9. FreeMarker模板文件的组成(2)
  10. 中台之上(十五):被忽视的产品目录