探索性数据分析(EDA)

在统计学中,探索性数据分析是一种分析数据集以总结其主要特征的方法,通常使用统计图形和其他数据可视化方法。 可以使用或不使用统计模型,但主要是 EDA 用于查看数据可以告诉我们超出正式建模的内容,从而对比传统的假设检验。EDA 不同于初始数据分析 (IDA),更侧重于检查模型拟合和假设检验所需的假设,并根据需要处理缺失值和进行变量转换。 EDA 包含 IDA。

EDA 的目标是:

  • 启用数据中的意外发现
  • 就观察到的现象的原因提出假设
  • 评估统计推断所依据的假设
  • 支持选择适当的统计工具和技术
  • 通过调查或实验为进一步收集数据提供基础

EDA 中使用的典型图形技术有:

  • 箱形图
  • 直方图
  • 多变量图表
  • 运行图表
  • 帕累托图
  • 散点图(2D/3D)
  • 茎叶图
  • 平行坐标
  • 赔率
  • 有针对性的投影追踪
  • 热图
  • 条形图
  • 地平线图
  • 基于字形的可视化方法
  • 投影方式
  • 这些图的交互式版本

降维:

  • 多维缩放
  • 主成分分析(PCA)
  • 多线性主成分分析
  • 非线性降维(NLDR)
  • 相关性的图像

典型的定量技术有:

  • 中位数抛光
  • 三均值
  • 排序

摘录:描述性统计

import matplotlib.pyplot as plt
from IPython.display import Math, Latex
from IPython.core.display import Image
import seaborn as snssns.set(color_codes=True)
sns.set(rc={'figure.figsize':(10,6)})
# Uniform Distribution
from scipy.stats import uniformnumber = 10000
start = 20
width = 25uniform_data = uniform.rvs(size=number, loc=start, scale=width)
axis = sns.distplot(uniform_data, bins=100, kde=True, color='skyblue', hist_kws={"linewidth": 15})
axis.set(xlabel='Uniform Distribution ', ylabel='Frequency')

EDA可视化辅助

概要:折线图 条形图 散点图 面积图和堆积图 饼图 表格图 极坐标图 直方图 棒棒糖图 选择最佳图表 其他库

EDA数据清理和分析

概要:加载数据集 数据转换 数据分析

数据转换

概要:背景 合并数据库风格的数据框 转换技术 数据转换的好处

描述性统计

概要:理解统计 集中趋势度量 离散度量

组合数据集

概要:了解 groupby() Groupby 机制 数据聚合 数据透视表和交叉表

相关性

概要:介绍相关性 理解单变量分析 理解双变量分析 理解多变量分析 使用泰坦尼克号数据集讨论多变量分析 概述辛普森悖论 相关性并不意味着因果关系

时间序列

概要:使用开放电力系统数据了解时间序列数据集

建模

假设检测和回归

概要:假设检验 p-hacking 理解回归 回归类型 模型开发和评估

EDA产品品质数据分析

源代码

参阅 - 亚图跨际

Python探索性数据分析(EDA)统计数据和建模相关推荐

  1. python进行探索性数据分析EDA(Exploratory Data Analysis)分析

    python进行探索性数据分析EDA(Exploratory Data Analysis)分析 show holy respect to python community, for there ded ...

  2. 数据挖掘:探索性数据分析(EDA)

    数据挖掘:探索性数据分析(EDA) 一.什么是探索性数据分析 EDA (Exploratory Data Analysis),即对数据进行探索性的分析.充分了解数据,为之后的数据清洗和特征工程等提供想 ...

  3. 探索性数据分析EDA及数据分析图表的选择

    文章目录 一.探索性数据分析EDA 二.数据分析图表的选择 一.探索性数据分析EDA 探索性数据分析(Exploratory Data Analysis,简称EDA),指对数据分析的过程中尽量不加入先 ...

  4. 【ML】探索性数据分析 (EDA)

    简介 探索性数据分析 (EDA) 以了解我们数据集的信号和细微差别.这是一个循环过程,可以在我们开发过程的各个阶段(标记之前/之后.预处理等)完成,具体取决于问题的定义程度.例如,如果我们不确定如何标 ...

  5. 数据挖掘:探索性数据分析(EDA)(补充)

    数据挖掘:探索性数据分析(EDA)(补充) 在上一篇文章数据挖掘:探索性数据分析(EDA)中,已经讨论了一些探索性分析的方法,但去敏数据的处理方式和一些多元统计的方法没有做介绍.本篇文章主要讲这两方面 ...

  6. 机器学习笔记 - 探索性数据分析(EDA) 入门案例五

    1.Kaggle比赛 - 泰坦尼克号 泰坦尼克号的沉没是历史上最著名的沉船事件之一.1912 年 4 月 15 日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,2224 名乘客和船员中有 1502 ...

  7. Python 玩数据分析:统计 Excel 并用 Matplotlib 绘图

    Python 玩数据分析:统计 Excel 并用 Matplotlib 绘图 数据无处不在 我希望我懂得如何使用基本的电子公式 一图胜千言 完整代码  作者:高玉涵  时间:2022.6.19 11: ...

  8. pandas添加一行数据_恨晚,Python探索性数据分析神器pandas-profiling,一行代码搞定...

    我们使用Pandas进行数据分析时,首先要先对数据集进行探索性数据分析(Exploratory data analysis),以便有一个大体的了解,明确后续数据处理.分析方向,数据EDA大致包含如下内 ...

  9. Python探索性数据分析——异常数据的检测与处理、数据的描述(集中、分散、分布、相关关系、波动)、数据的推断(正态性检验、卡方检验、t检验)

    目录 一.异常数据的检测与处理 1.异常数据检测与处理-基于箱线图 2.异常数据检测与处理-基于正态分布特征 二.数据的描述 1.数据的集中趋势 1.1.数据的集中趋势-平均值 1.1.1.算数平均值 ...

最新文章

  1. Hibernate Tools for Eclipse的使用
  2. 监理单位的组织与规划
  3. 在Oracle中CHAR,NCHAR,VARCHAR,VARCHAR2,NVARCHAR2这五种类型的区别
  4. 京东到家休闲食品即时消费趋势报告
  5. 当安装软件后提示依赖没有安装时
  6. MySQL判断字符串是否是数字
  7. Compose 1.0 即将发布,你准备好了吗?
  8. [swift] LeetCode 21. Merge Two Sorted Lists
  9. 文件对比工具比较会话时查看字节地址的方法
  10. 引用 DetachedCriteria
  11. ASP.NET 5系列教程
  12. SLAM_轨迹算法精度评价指标(ATE、RPE)
  13. linux valgrind 编译,valgrind 3.9交叉编译
  14. python编程题字符串的美化_Python编程题15--RGB字符串排序
  15. 蓝桥杯真题:平方和(2019 年省赛)
  16. python爬虫文字全是乱码_Python爬虫乱码的解决方案!
  17. 高通手机调试烧录—QFIL工具
  18. CSS——下拉框的制作(以小米商城为例)
  19. T Day-1 星空之夜
  20. 排序算法:(二)快速排序

热门文章

  1. 老铁,你这什么键盘布局? 当然是Colemak
  2. NOIP2008年普及组初赛题目答案及解析
  3. 漫谈程序员(十五)——应届毕业生上海市落户政策解读
  4. 飞飞cms模板,飞飞cms自适应模板,飞飞cms影视模板
  5. 谷歌浏览器chrom兼容问题
  6. UML建模、数据库设计和UI设计工具
  7. 不怕神一样的对手,就怕。。
  8. 亲爱的老狼-display的使用
  9. EVT、PVT、DVT
  10. Thinkjs——定时任务配置代码示例