了解您需要了解的有关探索性数据分析的所有信息，探索性数据分析是一种用于分析和汇总数据集的方法

一、什么是探索性数据分析？

数据科学家使用探索性数据分析 (Exploratory Data Analysis) 来分析和调查数据集并总结其主要特征，通常采用数据可视化方法。它有助于确定如何最好地操纵数据源以获得所需的答案，从而使数据科学家更容易发现模式、发现异常、检验假设或检查假设。

EDA 主要用于查看在正式建模或假设检验任务之外可以揭示哪些数据，并提供对数据集变量及其之间关系的更好理解。它还可以帮助确定您正在考虑用于数据分析的统计技术是否合适。EDA 技术最初由美国数学家 John Tukey 在 1970 年代开发，在今天的数据发现过程中仍然是一种广泛使用的方法。

二、为什么探索性数据分析在数据科学中很重要？

EDA 的主要目的是帮助在做出任何假设之前查看数据。它可以帮助识别明显的错误，更好地理解数据中的模式，检测异常值或异常事件，找到变量之间的有趣关系。

EDA 是任何数据分析中重要的第一步。了解异常值出现的位置以及变量之间的关系有助于设计能够产生有意义结果的统计分析。

数据科学家可以使用探索性分析来确保他们产生的结果是有效的并且适用于任何期望的业务成果和目标。EDA 还通过确认他们提出正确的问题来帮助利益相关者。EDA 可以帮助回答有关标准差、分类变量和置信区间的问题。一旦 EDA 完成并得出见解，它的功能就可以用于更复杂的数据分析或建模，包括机器学习。

三、探索性数据分析工具

您可以使用 EDA 工具执行的特定统计功能和技术包括：

1、聚类和降维技术，有助于创建包含许多变量的高维数据的图形显示。
2、原始数据集中每个字段的单变量可视化，带有汇总统计。
3、双变量可视化和汇总统计，可让您评估数据集中每个变量与您正在查看的目标变量之间的关系。
4、多变量可视化，用于映射和理解数据中不同字段之间的交互。
5、K-means 聚类是无监督学习中的一种聚类方法，其中数据点被分配到 K 个组中，即聚类的数量，基于到每个组的质心的距离。最接近特定质心的数据点将聚集在同一类别下。K-means 6、聚类通常用于市场分割、模式识别和图像压缩。
7、预测模型，例如线性回归，使用统计数据和数据来预测结果。

四、探索性数据分析的类型

EDA有四种主要类型：

单变量非图形。这是最简单的数据分析形式，被分析的数据仅包含一个变量。由于它是一个单一变量，它不处理原因或关系。单变量分析的主要目的是描述数据并找出其中存在的模式。
单变量图形。非图形方法不能提供数据的全貌。因此需要图形方法。常见的单变量图形类型包括：
- 茎叶图，显示所有数据值和分布的形状。
- 直方图，一个条形图，其中每个条形代表一系列值的案例的频率（计数）或比例（计数/总计数）。
- 箱线图，以图形方式描绘了最小值、第一四分位数、中位数、第三四分位数和最大值的五个数字摘要。
多变量非图形：多变量数据来自多个变量。多元非图形 EDA 技术通常通过交叉制表或统计显示数据的两个或多个变量之间的关系。
多元图形：多元数据使用图形来显示两组或多组数据之间的关系。最常用的图形是分组条形图或条形图，每组代表一个变量的一个水平，组内的每个条代表另一个变量的水平。

其他常见类型的多元图形包括：

散点图，用于在水平轴和垂直轴上绘制数据点，以显示一个变量受另一个变量影响的程度。
多元图表，它是因素和响应之间关系的图形表示。
运行图，它是随时间绘制的数据线图。
气泡图，这是一种数据可视化，在二维图中显示多个圆圈（气泡）。
热图，它是数据的图形表示，其中值用颜色表示。

五、探索性数据分析的方向

1、变量分布

探索性数据分析 (EDA) 的第一步是检查不同变量的值是如何分布的。检查数据分布的图形方法包括直方图、箱线图、累积分布函数和分位数-分位数 (QQ) 图。有关值分布的信息通常有助于选择适当的分析并确认是否支持特定方法的假设（例如，最小二乘回归的正态分布残差）。

（1）直方图

来自 EMAP-West Streams Survey 的示例直方图，用于对数转换后的总氮。

直方图通过将观测值放入区间（也称为类或箱）并计算每个区间中的观测值数来总结数据的分布。y 轴可以是观察的数量、占总数的百分比、占总数的分数（或概率）或密度（其中条形的高度乘以区间的宽度对应于区间的相对频率）。直方图的外观可能取决于区间的定义方式。

（2）箱线图

美国西部不同生态区的对数（总氮）箱线图比较 MT：山脉，PL：平原和 XE：Xeric。

箱线图提供了变量分布的简洁摘要。标准箱线图包括 (1) 由第 25 和第 75 个百分位数定义的框，(2) 中值框上的水平线或点，以及 (3) 从每个铰链（四分位数）绘制的垂直线（胡须）到极值。在标准箱线图的轻微变化中，晶须延伸到距铰链的跨距距离，并识别跨距之外的异常值。跨度 (S) 计算如下：

S = 1.5 x（第 75 个百分位 - 第 25 个百分位）

箱线图对于比较单个变量的不同子集的分布特别有用。

（3）累积分布函数 (CDF)

EMAP Northeast Lakes Survey 数据中磷的累积分布函数。黑线：未加权，蓝线：概率设计规定的权重。

累积分布函数 CDF 是一个函数 F(X)，它是变量的观测值不大于指定值的概率。反向 CDF 也经常使用，它显示观察值大于指定值的概率。在构建 CDF 时，可以使用权重（例如，来自概率设计的包含概率）。以这种方式估计统计总体中变量的值小于指定值的概率。否则，对于观察值的相等权重，CDF 仅适用于观察值。

（4）分位数

分位数 (QQ) 图或概率图是一种图形方法，用于将变量与特定的理论分布进行比较或将其与另一个变量的分布进行比较。QQ 图的一个常见应用是检查变量是否呈正态分布。

2、散点图

(a) 石蝇Calineuria 的捕获概率与河流温度的关系。每个空心圆圈显示大约 20 个样本的捕获概率估计，平均温度如图所示。线显示对数据的非参数回归拟合。
(b) 蜉蝣丰富度与底砂/细粉百分比。观察到的丰富度的差异随着沉积物的增加而减小。

散点图是任何分析中有用的第一步，因为它们有助于可视化关系并识别可能影响后续统计分析的问题（例如异常值）。

从散点图中可以很容易地看出特定数据集的不同特征。变量之间的关系可能是非线性的 [上图 (a)]，或者平均关系的方差可能不是恒定的 [上图(b)]。在这两种情况下，简单的线性回归可能都不合适，因此及早识别这些特征可以帮助选择更合适的分析技术。对于非线性关系，不同的函数形式（例如，二次）可能是合适的，当方差不是常数时，可能会选择分位数回归或广义线性模型。

散点图矩阵显示了美国西部对数总氮 (log TN)、对数总磷 (log TP)、基质砂/细粒百分比 (SED) 和河流温度之间的关系。

一组散点图显示了几个变量之间的成对关系，可以方便地显示为散点图矩阵。散点图的一个限制是只能检查两个变量之间的关系。在许多不同变量相互作用的情况下，探索数据的多元方法可能会提供更深入的见解。

3、相关分析

相关分析是一种测量匹配数据集中两个随机变量的协方差的方法。协方差通常表示为两个变量X和Y的相关系数。相关系数是一个从 -1 到 +1 的无单位数。相关系数的大小是X和Y之间的标准化关联程度。符号是关联的方向，可以是正的，也可以是负的。

Pearson 的积矩相关系数 r 衡量两个变量之间的线性关联程度。Spearman 的秩相关系数 (ρ) 使用数据的秩，并且可以对两个变量的关联程度提供更稳健的估计。Kendall 的 tau (τ) 与 Spearman 的 (ρ) 具有相同的基本假设，但表示两个变量非随机排序的概率。

r、ρ 或 τ 的值解释如下：
系数为 0 表示变量不相关（图 1，左）。
负系数表示随着一个变量的增加，另一个变量会减少
（图 1，中心）。
正系数表示随着一个变量的增加，另一个变量也会增加
（图 1，右）。
系数的绝对值越大表明关联越强（例如，图 1，右侧和中间）。然而，小的 Pearson 系数可能是由于非线性关系（图 2）。

两个变量 X 和 Y 之间的不同相关性示例。
左：r = -0.04。这些点是分散分散的，表明 X 和 Y 没有关联。
中心：r = -0.37。该图表示弱负关联，其中 Y 随着 X 的增加而减小。
右：r = 0.86。散点图表明 Y 随 X 值的增加呈线性增加。

Pearson 和 Spearman 相关性的不同行为示例如图 2 所示。Pearson 的r并不能准确地表示图 2 中非线性关联的强度（左图）。Pearson 的r和 Spearmans ρ根据数据的分布提供不同的相关性估计（图 2，右图）。

相关分析主要用作一种数据探索技术，以揭示一组匹配数据中的关联程度。该信息可以为后续变量之间关系的分析提供信息。特别是，相关性可以指示混淆感兴趣关系的可能因素。在大多数数据中，成对相关性可能无法提供足够的洞察力，建议使用多变量方法进行探索性数据分析。

4、条件概率分析 (CPA)

条件概率是某个事件(Y)的概率 ( P ) ，给定一些其他事件(X)的发生，通常写为P(Y | X)。我们对条件概率的应用使用二分响应变量，这要求将阈值应用于将样本分类为两个类别之一的连续响应变量（例如，质量差与非质量差）。

例如，在这里，与总底栖类群相比，我们对黏附类群相对丰度较低的地点感兴趣。我们将附着物相对丰度低于 40% 的地点归类为“差”（图 1，左图）。

如果您还观察到特定条件X，我们使用 CPA 来估计观察到 Y（例如，生物条件较差的地点）的概率。继续我们的例子，我们可能对当基质中细小沉积物的百分比超过给定值(Xc)或P(Y | X > Xc)时观察到的粘着物相对丰度小于 40% 的概率感兴趣. 图 1（右图）显示了这种关系的说明图，其中曲线表示当沙子/细粉的百分比超过给定值时观察到较低的相对丰度（即 < 40%）的可能性。在这个例子中，沙子/细粉的百分比从 0% 增加到 50% 与观察到不良生物条件的可能性（如黏附类群的相对丰度所示）从 60% 到大约 80% 的增加有关。

左图：底砂/细粉百分比与粘着类群的相对丰度。来自 EMAP-West 的数据。红色水平线显示粘着类群的相对丰度 = 40%，这是定义“不良”生物条件的示例阈值。
右图：条件概率 P(Y | X > Xc)，其中 X = 河段基质中砂/细粉的百分比，Y 定义为附着物的相对丰度 < 40%。线显示自举的上下 95% 置信区间。

条件概率可以通过将观察两个事件的联合概率除以观察条件事件的概率来计算（等式 1）。

CPA 可用于帮助理解变量对之间的关联。由于 CPA 需要一个二分响应变量（即存在或不存在影响），因此您必须确定定义不可接受条件的响应度量的阈值。

六、其它参考

探索性数据分析_huguozhiengr的博客-CSDN博客_探索性数据分析探索性数据分析（Exploratory Data Analysis，EDA）是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法，该方法在上世纪70年代由美国统计学家J.K.Tukey提出。传统的统计分析方法常常先假设数据符合一种统计模型，然后依据数据样本来估计模型的一些参数及统计量，以此了解数据的特征，但实际中往往有很多...https://blog.csdn.net/huguozhiengr/article/details/85321521机器学习笔记01——数据EDA(探索性数据分析)入门 - 简书知识点数据属性分布分析（概率密度分析/是否呈现正态分布）数据属性与Target之间的相关性（correlation协方差：值域[-1,1],映射到余弦相似度cos距离） ...https://www.jianshu.com/p/d3ffef6ea21c

机器学习笔记 - 探索性数据分析(EDA) 概念理解相关推荐

机器学习笔记 - 探索性数据分析(EDA) 入门案例五
1.Kaggle比赛 - 泰坦尼克号泰坦尼克号的沉没是历史上最著名的沉船事件之一.1912 年 4 月 15 日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,2224 名乘客和船员中有 1502 ...
数据挖掘：探索性数据分析(EDA)
数据挖掘:探索性数据分析(EDA) 一.什么是探索性数据分析 EDA (Exploratory Data Analysis),即对数据进行探索性的分析.充分了解数据,为之后的数据清洗和特征工程等提供想 ...
python进行探索性数据分析EDA（Exploratory Data Analysis）分析
python进行探索性数据分析EDA(Exploratory Data Analysis)分析 show holy respect to python community, for there ded ...
探索性数据分析EDA及数据分析图表的选择
文章目录一.探索性数据分析EDA 二.数据分析图表的选择一.探索性数据分析EDA 探索性数据分析(Exploratory Data Analysis,简称EDA),指对数据分析的过程中尽量不加入先 ...
数据挖掘：探索性数据分析(EDA)（补充）
数据挖掘:探索性数据分析(EDA)(补充) 在上一篇文章数据挖掘:探索性数据分析(EDA)中,已经讨论了一些探索性分析的方法,但去敏数据的处理方式和一些多元统计的方法没有做介绍.本篇文章主要讲这两方面 ...
Python探索性数据分析(EDA)统计数据和建模
探索性数据分析(EDA) 在统计学中,探索性数据分析是一种分析数据集以总结其主要特征的方法,通常使用统计图形和其他数据可视化方法. 可以使用或不使用统计模型,但主要是 EDA 用于查看数据可以告诉我们 ...
【ML】探索性数据分析 (EDA)
简介探索性数据分析 (EDA) 以了解我们数据集的信号和细微差别.这是一个循环过程,可以在我们开发过程的各个阶段(标记之前/之后.预处理等)完成,具体取决于问题的定义程度.例如,如果我们不确定如何标 ...
探索性数据分析EDA（一）——变量识别与分析
前言探索性数据分析(Exploratory Data Analysis,EDA) 是学习数据分析.机器学习最开始的第一步. 在过去的学习中多少都有涉及到EDA的内容,但是一直都是零零散散,没有一个系 ...
探索性数据分析EDA（二）—— 缺失值处理
接上一篇 <探索性数据分析(1)-- 变量识别和分析>, 这篇笔记主要内容为缺失值处理方法介绍,以及相关python工具包sklearn.impute的使用介绍. 目录 1. 为什么需要处 ...
探索性数据分析(EDA)
全版英文教程在此探索性数据分析(EDA)目的是最大化对数据的直觉,完成这个事情的方法只能是结合统计学的图形以各种形式展现出来.通过EDA可以实现: 1. 得到数据的直观表现 2. 发现潜在的结构 3 ...

机器学习笔记 - 探索性数据分析(EDA) 概念理解