一、什么是 EDA?

探索性数据分析 (EDA) 是一种数据分析方法/哲学,它采用多种技术(主要是图形)。

1、最大限度地洞察数据集;

2、揭示底层结构;

3、提取重要变量;

4、检测异常值和异常;

5、测试基本假设;

6、开发简约模型;

7、确定最佳因子设置。

EDA 方法不是一套技术或函数或图形,而是一种关于如何进行数据分析的态度/哲学。

EDA 与统计图形不同,尽管这两个术语几乎可以互换使用。统计图形是一组技术——所有技术都基于图形并且都专注于一个数据表征方面。EDA 包含更广的涵义;EDA 是一种数据分析方法,它通过允许数据本身揭示其底层结构和模型的更直接的方法来推断关于数据遵循何种模型的通常假设。EDA 不仅仅是技术的集合。EDA 是一种关于我们如何剖析数据集的哲学;我们在寻找什么;它们的样子;以及我们如何更好解释其内在联系。确实,EDA 大量使用了我们称之为“统计图形”的技术集合,但它与统计图形本身并不完全相同。

大多数 EDA 技术本质上是图形化的,带有一些定量技术。之所以高度依赖图形,是因为EDA本质上的主要作用是开放的探索,而图形赋予了分析师无与伦比的探索能力,诱使数据揭示其结构秘密,并时刻准备着以获得对数据的一些新的,通常是意想不到的,洞察力。结合我们所有人都拥有的自然模式识别能力,图形当然提供了无与伦比的能力来实现这一点。

EDA 中使用的特定图形技术通常非常简单,由以下各种技术组成:

1、绘制原始数据(例如 数据轨迹、 直方图、 双直方图、 概率图、 滞后图、 块图和约登图。
        2、绘制简单的统计数据,例如原始数据的均值图、 标准差图、 箱线图和主效应图。

3、定位这些图以最大化我们的自然模式识别能力,例如每页使用多个图。

二、探索性数据分析 vs 经典数据分析

EDA 是一种数据分析方法。存在哪些其他数据分析方法以及 EDA 与这些其他方法有何不同?三种流行的数据分析方法是:

经典、探索性(EDA)、贝叶斯

        这三种方法的相似之处在于它们都从一般的科学/工程问题开始,并且都得出科学/工程结论。不同之处在于中间步骤的顺序和重点。

经典分析    处理顺序:问题 => 数据 => 模型 => 分析 => 结论

EDA           处理顺序:问题 => 数据 => 分析 => 模型 => 结论

贝叶斯        处理顺序:问题 => 数据 => 模型 => 先验分布 => 分析 => 结论

因此,对于经典分析,数据收集之后是模型(正态性、线性等)的实施,随后的分析、估计和测试集中在该模型的参数上。对于 EDA,数据收集后不执行模型;相反,紧随其后的是分析,目的是推断哪种模型是合适的。最后,对于贝叶斯分析,分析师试图通过对所选模型的参数施加与数据无关的分布来将科学/工程知识/专业知识纳入分析;因此,分析包括正式结合参数的先验分布和收集的数据,以共同对模型参数进行推断和/或测试假设。

在现实世界中,数据分析师可以自由混合上述三种方法(和其他方法)的元素。进行上述区分是为了强调三种方法之间的主要区别。

三、探索性数据分析 vs 汇总分析

汇总分析只是对历史数据集进行数值缩减。这是相当被动的。它的重点是过去。很常见的是,它的目的是简单地得出一些关键的统计数据(例如,平均值和标准差),然后可以替换数据集或以汇总表的形式添加到数据集中。

相比之下,EDA 的最广泛目标是深入了解数据背后的工程/科学过程。汇总统计是被动的和历史的,而 EDA 是主动的和未来的。为了“理解”流程并在未来改进它,EDA 使用数据作为“窗口”来窥探生成数据的流程的核心。摘要统计在研究和制造领域具有归档作用,但 EDA 方法的作用要大得多。

四、EDA 目标是什么?

EDA 的主要目标是最大化分析师对数据集和数据集底层结构的洞察力,同时提供分析师希望从数据集中提取的所有特定项目,例如:

一个合适的模型、异常值列表、稳定的结论、参数估计、这些估计的不确定性、重要因素的排名列表、关于个别因素是否具有统计显着性的结论、最佳设置等等。

洞察力意味着检测和揭示数据中的底层结构。这样的底层结构可能不会被封装在上面的项目列表中;这些项目作为分析的特定目标,但对数据集的真正洞察力和“感觉”来自分析师明智地探索和探索数据的各种微妙之处。对数据的“感觉”几乎完全来自各种图形技术的应用,这些图形技术的收集充当了进入数据本质的窗口。图形是不可替代的——没有定量的类似物可以提供与精心挑选的图形相同的洞察力。

要获得对数据的“感觉”,分析师仅仅知道数据中的内容是不够的;分析人员还必须知道数据中没有什么,而做到这一点的唯一方法是在应用于数据的一系列明智的图形技术的背景下,利用我们自己的人类模式识别和比较能力。

五、图形的作用

统计和数据分析程序大致可以分为两部分:定量的、图形的。

定量技术是产生数字或表格输出的一组统计程序。定量技术的例子包括:假设检验、方差分析、点估计和置信区间、最小二乘回归。

这些和类似的技术都是有价值的,并且在经典分析方面是主流技术。

另一方面,有大量我们通常称为图形技术的统计工具。这些包括:散点图、直方图、概率图、残差图、箱形图、块图。

EDA 方法在很大程度上依赖于这些和类似的图形技术。图形程序不仅仅是我们可以在 EDA 环境中使用的工具,它们还是我们必须使用的工具。此类图形工具是深入了解数据集的最短路径。

测试假设、型号选择、模型验证、估计器选择、关系识别、因子效应测定、异常值检测等。

如果不使用统计图形,就不会对数据底层结构具有的良好洞察性。

六、不同问题应用不同工具

1、对于单变量可以应用概率图、概率图相关系数图、单变量和多变量控制图、4-plot。

2、进行比较可使用块图、散点图、箱形图

3、进行筛选可以使用块图、概率图、双直方图

4、数据优化可以使用块图、最小二乘拟合、等高线图

5、回归问题可以使用最小二乘拟合、散点图、6-plot

​        6、对于时间序列可使用自相关图、光谱图、复解调幅度图、复解调相位图、ARIMA 模型

7、对于多变量分析可以使用星图、散点图矩阵、调节图、剖面图、主成分、聚类、Discrimination、分类等。

机器学习笔记 - 探索性数据分析(EDA) 学习进阶相关推荐

  1. 机器学习笔记 - 探索性数据分析(EDA) 入门案例五

    1.Kaggle比赛 - 泰坦尼克号 泰坦尼克号的沉没是历史上最著名的沉船事件之一.1912 年 4 月 15 日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,2224 名乘客和船员中有 1502 ...

  2. python进行探索性数据分析EDA(Exploratory Data Analysis)分析

    python进行探索性数据分析EDA(Exploratory Data Analysis)分析 show holy respect to python community, for there ded ...

  3. 数据挖掘:探索性数据分析(EDA)(补充)

    数据挖掘:探索性数据分析(EDA)(补充) 在上一篇文章数据挖掘:探索性数据分析(EDA)中,已经讨论了一些探索性分析的方法,但去敏数据的处理方式和一些多元统计的方法没有做介绍.本篇文章主要讲这两方面 ...

  4. 数据挖掘:探索性数据分析(EDA)

    数据挖掘:探索性数据分析(EDA) 一.什么是探索性数据分析 EDA (Exploratory Data Analysis),即对数据进行探索性的分析.充分了解数据,为之后的数据清洗和特征工程等提供想 ...

  5. 探索性数据分析EDA及数据分析图表的选择

    文章目录 一.探索性数据分析EDA 二.数据分析图表的选择 一.探索性数据分析EDA 探索性数据分析(Exploratory Data Analysis,简称EDA),指对数据分析的过程中尽量不加入先 ...

  6. 机器学习笔记——神经网络与深度学习

    机器学习笔记--神经网络与深度学习 一.神经网络引言 二.神经元模型与激活函数 2.1 神经元模型 2.2 激活函数 2.2.1 sigmoid & tanh 2.2.2 ReLU激活函数 2 ...

  7. Python探索性数据分析(EDA)统计数据和建模

    探索性数据分析(EDA) 在统计学中,探索性数据分析是一种分析数据集以总结其主要特征的方法,通常使用统计图形和其他数据可视化方法. 可以使用或不使用统计模型,但主要是 EDA 用于查看数据可以告诉我们 ...

  8. 【ML】探索性数据分析 (EDA)

    简介 探索性数据分析 (EDA) 以了解我们数据集的信号和细微差别.这是一个循环过程,可以在我们开发过程的各个阶段(标记之前/之后.预处理等)完成,具体取决于问题的定义程度.例如,如果我们不确定如何标 ...

  9. 探索性数据分析EDA(一)——变量识别与分析

    前言 探索性数据分析(Exploratory Data Analysis,EDA) 是学习数据分析.机器学习最开始的第一步. 在过去的学习中多少都有涉及到EDA的内容,但是一直都是零零散散,没有一个系 ...

  10. 探索性数据分析EDA(二)—— 缺失值处理

    接上一篇 <探索性数据分析(1)-- 变量识别和分析>, 这篇笔记主要内容为缺失值处理方法介绍,以及相关python工具包sklearn.impute的使用介绍. 目录 1. 为什么需要处 ...

最新文章

  1. 执行前端测试的必要性
  2. python保存的是什么类型文件_python-----基本的数据类型和文件操作
  3. python字符串转浮点数_如何在Python中检查字符串是否为数字(浮点数)?
  4. java中访问修饰符_Java中的访问修饰符介绍
  5. OpenSSH升级-无需替换旧版本文件
  6. RSS导入功能已完成
  7. [Network] okhttp3与旧版本okhttp的区别分析
  8. spark配置IntelliJ开发环境详解
  9. 东芝Toshiba DP-2210 打印机驱动
  10. 你知道哪几种MYSQL的连接查询
  11. 【简单封装】Android实现USB转232通讯
  12. intel android 平板,IT百科之英特尔芯平板
  13. excel如何设置下拉选项,只允许选择固定的内容
  14. Redis篇 <一>Docker安装redis 及基础
  15. 前端学习:jQuery学习--Day03
  16. 问题记录:Ubuntu中source运行.sh shell脚本报错:command not found 未找到命令
  17. 谁能最后享受到胜利成果?
  18. 微信小程序的消息推送的token的配置
  19. docker框架及模块介绍
  20. 走进麻省理工Media Lab,看AR技术如何改变课堂教育?

热门文章

  1. python入门自学软件手机版_python编程入门
  2. web前端之HTML常用标签
  3. excel2latex表格竖线截断不连续不连贯问题一键解决
  4. OpenCV实现图片锐化
  5. 【更新于2019】SCI EI 索引最新查询方法(已验证有效)
  6. AngularJs的UI组件ui-Bootstrap分享(四)——Datepicker Popup
  7. 支付宝第三方在线支付接口详解
  8. PRD:倒推迅游手游加速器APP-需求文档
  9. 5G NR MIB详解
  10. 【python】实现共享表格协同编辑