csdn博客的第一次尝试–
总结一下两天以来对EDA的学习
主要来自于三个博客和一些官方文档：
1.1.探索性数据分析（EDA，Exploratory Data Analysis）
2.一文带你探索性数据分析(EDA)
3.数据挖掘——EDA(数据探索性分析)（我的同学写的博客，我的编辑思路来自于此）

需要用到的python包

Numpy、Pandas、Matplotlib、Seaborn，Warnings、Missingno（缺失值可视化包）、pandas_profiling（用于生成数据报告）、scipy

文件读取

df=pd.read_csv('train.csv')

数据探索

基本信息

df.shape                 #查看数据的形状
df.info()                #查看数据的基本信息
df.columns               #查看数据的列名
df.head()                #查看数据的前5行
df.describe()            #查看数据的统计信息（均值、方差等）

数据质量评估

缺失值

1.统计

df.isnull()        #表级判断是否为空（若为空返回True）
df.isnull().any()  #列级判断是否为空
df.isnull().sum()  #列级空值统计
#去掉空值并可视化
missing=df.isnull().sum()
missing=missing[missing>0]        #保留含有空值的列的空值数量
missing.sort_values(inplace=True) #排序  inplace表示是否在原对象上操作
missing.plot.bar()                #条形图可视化

2.可视化
使用Missingno工具包

msno.matrix(df)
msno.bar(df)
#生成可以表示出缺失值的图像（还有heatmap等图）

3.插补：将含有空值的列中的Nan值补全，插补方式有很多种，在此示例两种

#均值插补
#两种均可完成插补
df.Age.fillna(df.Age.mean(),inplace=True)
df['Age'].fillna(df['Age'].mean())
#inplace=True表示在原数据对象上修改，=False表示复制了一个对象并修改#中值插补
df['Age'].fillna(df['Age'].median())

数据特征

去掉无用的数据

去掉常量值，因为常量值对分析没有用处

df.nunique()   #查看每一列数据有多少种（去重）（不包括空值）
df['Age'].nunique()
df['Age'].unique()   #去重之后的数据

去掉重复的列

df.drop_duplicates()

偏度与峰度

峰度是描述总体中所有取值分布形态陡缓程度的统计量，绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大
偏度是描述数据分布形态的统计量，其描述的是某总体取值分布的对称性，偏度的绝对值数值越大表示其分布形态的偏斜程度越大

df.skew()            #每一列的偏度
df.kurt()            #每一列的峰度
#可视化
df.skew().plot.bar()
df.kurt().plot.bar()

类别特征

1.箱型图：
五数概括法：
最小值(Q1-1.5IQR)、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)、最大值(Q3+1.5IQR)
优点：不受异常值的影响，可以以一种相对稳定的方式描述数据的离散分布情况

#关于箱型图有多种方法绘制
#法一 pandas
df.plot.box()
df['PassengerId'].plot.box()
#法二  seaborn
sns.boxplot(df['Age'])

2.小提琴图
箱型图+密度表示

#seaborn
sns.violinplot(df['Age'])

数据报告

最后介绍一个神奇的库pandas_profiling–用于生成数据报告

#非常详细的数据报告
pp.ProfileReport(df)

EDA（探索性数据分析）步骤及常用函数总结相关推荐

【技能向--之一】EDA探索性数据分析--以kaggle美国信用卡评分项目为例
EDA探索性数据分析 1. What is EDA? 2. Why EDA? 3. How EDA? 3.1 基本设置 3.2 读取数据 3.3 探索与分析 3.31 数据概览 3.32 缺失值处理 ...
R语言使用psych包进行主成分分析PCA和探索性因子分析EFA的常用函数介绍：principal、fa、fa.parallel、factor.plot、fa.diagram、scree
R语言使用psych包进行主成分分析PCA和探索性因子分析EFA的常用函数介绍:principal.fa.fa.parallel.factor.plot.fa.diagram.scree 目录
金融风控训练营--Task 02 EDA探索性数据分析学习笔记
文章目录前言一.学习知识点概要 1.1 探索性数据分析(Exploratory Data Analysis,EDA)的目的二.学习内容 2.1 数据总体了解 2.1.1 读取数据集并了解数据集大 ...
numpy随机生成01矩阵_Python数据分析Numpy库常用函数详解，提到循环就该想到的库...
Python进行数据分析的核心库肯定是Pandas,该库差不多可以解决结构化数据的绝大部分处理需求.在<Python数据分析常用函数及参数详解,可以留着以备不时之需 >一文中也已经对该库的 ...
数据分析之EXCEL常用函数总结
今天通过excel分析数据的时候,突然大脑宕机,瞬间想不起来excel各种函数的用法,下面整理了一下excel的常用函数 1.用函数识别重复数据的方法,COUNTIF函数 CUOUNTIF(range ...
数据分析可视化利器：python pandas-profiling 一行代码EDA 探索性数据分析
文章大纲 1. 探索性数据分析 2.代码样例 3.效果 4.解决pandas profile 中文显示的问题 1. 探索性数据分析数据的筛选.重组.结构化.预处理等都属于探索性数据分析的范畴,探索性 ...
frac函数_20个能够有效提高 Pandas数据分析效率的常用函数，附带解释和例子
Pandas是一个受众广泛的python数据分析库.它提供了许多函数和方法来加快数据分析过程.pandas之所以如此普遍,是因为它的功能强大.灵活简单. 本文将介绍20个常用的 Pandas 函数以及 ...
task2 EDA探索性数据分析
1.赛题数据赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量.为了保证比赛的公平性,将会 ...
EDA探索性数据分析 -- 足球赛事红牌数据分析
目录: 一. 数据读取与预处理二. 数据板块切分 2.1 创建子表并快速测试唯一性的辅助函数 2.2 Players子表 2.3 Clubs子表 2.4 Referees子表 2.5 refCoun ...

EDA（探索性数据分析）步骤及常用函数总结