EDA(探索性数据分析)步骤及常用函数总结
csdn博客的第一次尝试–
总结一下两天以来对EDA的学习
主要来自于三个博客和一些官方文档:
1.1.探索性数据分析(EDA,Exploratory Data Analysis)
2.一文带你探索性数据分析(EDA)
3.数据挖掘——EDA(数据探索性分析)(我的同学写的博客,我的编辑思路来自于此)
需要用到的python包
Numpy、Pandas、Matplotlib、Seaborn,Warnings、Missingno(缺失值可视化包)、pandas_profiling(用于生成数据报告)、scipy
文件读取
df=pd.read_csv('train.csv')
数据探索
基本信息
df.shape #查看数据的形状
df.info() #查看数据的基本信息
df.columns #查看数据的列名
df.head() #查看数据的前5行
df.describe() #查看数据的统计信息(均值、方差等)
数据质量评估
缺失值
1.统计
df.isnull() #表级判断是否为空(若为空返回True)
df.isnull().any() #列级判断是否为空
df.isnull().sum() #列级空值统计
#去掉空值并可视化
missing=df.isnull().sum()
missing=missing[missing>0] #保留含有空值的列的空值数量
missing.sort_values(inplace=True) #排序 inplace表示是否在原对象上操作
missing.plot.bar() #条形图可视化
2.可视化
使用Missingno工具包
msno.matrix(df)
msno.bar(df)
#生成可以表示出缺失值的图像(还有heatmap等图)
3.插补:将含有空值的列中的Nan值补全,插补方式有很多种,在此示例两种
#均值插补
#两种均可完成插补
df.Age.fillna(df.Age.mean(),inplace=True)
df['Age'].fillna(df['Age'].mean())
#inplace=True表示在原数据对象上修改,=False表示复制了一个对象并修改#中值插补
df['Age'].fillna(df['Age'].median())
数据特征
去掉无用的数据
去掉常量值,因为常量值对分析没有用处
df.nunique() #查看每一列数据有多少种(去重)(不包括空值)
df['Age'].nunique()
df['Age'].unique() #去重之后的数据
去掉重复的列
df.drop_duplicates()
偏度与峰度
峰度是描述总体中所有取值分布形态陡缓程度的统计量,绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大
偏度是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性,偏度的绝对值数值越大表示其分布形态的偏斜程度越大
df.skew() #每一列的偏度
df.kurt() #每一列的峰度
#可视化
df.skew().plot.bar()
df.kurt().plot.bar()
相关性
df.corr() #相关系数矩阵
sns.heatmap() #热力图适合做相关系数矩阵的可视化
类别特征
1.箱型图:
五数概括法:
最小值(Q1-1.5IQR)、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)、最大值(Q3+1.5IQR)
优点:不受异常值的影响,可以以一种相对稳定的方式描述数据的离散分布情况
#关于箱型图有多种方法绘制
#法一 pandas
df.plot.box()
df['PassengerId'].plot.box()
#法二 seaborn
sns.boxplot(df['Age'])
2.小提琴图
箱型图+密度表示
#seaborn
sns.violinplot(df['Age'])
数据报告
最后介绍一个神奇的库pandas_profiling–用于生成数据报告
#非常详细的数据报告
pp.ProfileReport(df)
EDA(探索性数据分析)步骤及常用函数总结相关推荐
- 【技能向--之一】EDA探索性数据分析--以kaggle美国信用卡评分项目为例
EDA探索性数据分析 1. What is EDA? 2. Why EDA? 3. How EDA? 3.1 基本设置 3.2 读取数据 3.3 探索与分析 3.31 数据概览 3.32 缺失值处理 ...
- R语言使用psych包进行主成分分析PCA和探索性因子分析EFA的常用函数介绍:principal、fa、fa.parallel、factor.plot、fa.diagram、scree
R语言使用psych包进行主成分分析PCA和探索性因子分析EFA的常用函数介绍:principal.fa.fa.parallel.factor.plot.fa.diagram.scree 目录
- 金融风控训练营--Task 02 EDA探索性数据分析 学习笔记
文章目录 前言 一.学习知识点概要 1.1 探索性数据分析(Exploratory Data Analysis,EDA)的目的 二.学习内容 2.1 数据总体了解 2.1.1 读取数据集并了解数据集大 ...
- numpy随机生成01矩阵_Python数据分析Numpy库常用函数详解,提到循环就该想到的库...
Python进行数据分析的核心库肯定是Pandas,该库差不多可以解决结构化数据的绝大部分处理需求.在<Python数据分析常用函数及参数详解,可以留着以备不时之需 >一文中也已经对该库的 ...
- 数据分析之EXCEL常用函数总结
今天通过excel分析数据的时候,突然大脑宕机,瞬间想不起来excel各种函数的用法,下面整理了一下excel的常用函数 1.用函数识别重复数据的方法,COUNTIF函数 CUOUNTIF(range ...
- 数据分析可视化利器:python pandas-profiling 一行代码EDA 探索性数据分析
文章大纲 1. 探索性数据分析 2.代码样例 3.效果 4.解决pandas profile 中文显示的问题 1. 探索性数据分析 数据的筛选.重组.结构化.预处理等都属于探索性数据分析的范畴,探索性 ...
- frac函数_20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子
Pandas是一个受众广泛的python数据分析库.它提供了许多函数和方法来加快数据分析过程.pandas之所以如此普遍,是因为它的功能强大.灵活简单. 本文将介绍20个常用的 Pandas 函数以及 ...
- task2 EDA探索性数据分析
1.赛题数据 赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量.为了保证比赛的公平性,将会 ...
- EDA探索性数据分析 -- 足球赛事红牌数据分析
目录: 一. 数据读取与预处理 二. 数据板块切分 2.1 创建子表并快速测试唯一性的辅助函数 2.2 Players子表 2.3 Clubs子表 2.4 Referees子表 2.5 refCoun ...
最新文章
- 春节后面试别人的经历总结之一,好岗位分享给还在找工作中的软件开发爱好者们【转】...
- boost::mp11::mp_for_each相关用法的测试程序
- 内存泄漏了,咋回事?
- yo angualr-fullstatck 项目打包部署
- 如何设置ad18捕捉图标_图标设计中的像素捕捉
- 使用 Arduino 和 LM35 温度传感器监测温度
- 动态路由协议的分类、动静态路由优缺点、RIP简介、组播单播广播详解(附图)
- android6.0权限管理工具EasyPermissionUtil
- 你也能用英伟达GAN造脸了:官方实现有了,高清数据集也开源了
- 沟通CTBS V5.0发布, 南北通及安全性成最大亮点
- 计算机毕业设计之流浪宠物管理系统
- nodejs下载与安装
- mtk手机原理图分析
- 华硕计算机电源已连接未充电,笔记本电池显示“电源已接通,未充电”
- 刘夏真的简历中国科学院计算机所,一个中科院,四个985,还有一个志愿留在本校,这个学霸考研宿舍是怎样炼成的?...
- 褚时健 | 我这辈子最问心无愧的就是:没有庸庸碌碌地过完一生
- 大专适合学习php么_学习php有没有学历要求
- 基于sinc的音频重采样(二):实现
- 基于C语言的8深度灰度BMP文件读写
- 光影在线电影网站制作笔记