欢迎来到我们的7部分数据科学和应用机器学习迷你课程!

在上一章中,我们看到了整个机器学习工作流程的概述。我们看到数据科学的“80/20”包括5个核心步骤。

在本章中,我们将深入探讨这些核心步骤中的第一步:  探索性分析

不应将此步骤与数据可视化或摘要统计混淆。那些只是工具......意味着结束。

适当的探索性分析是关于回答问题。它是关于从你的数据集中提取足够的见解,以便你在杂草中迷路之前纠正。

在本指南中,我们将介绍要查找的见解。让我们开始吧。

为什么要提前探索数据集?

探索性分析的目的是  “了解”数据集。提前完成这项工作将使项目的其余部分更加顺畅,主要有三种方式:

  1. 您将获得有关数据清理的宝贵提示(可以创建或破坏您的模型)。
  2. 您将会想到特征工程的想法(可以将您的模型从优秀变为优秀)。
  3. 您将获得数据集的“感觉”,这将有助于您传达结果并产生更大的影响。

然而,对机器学习的探索性分析应该是快速,有效和果断的 ......不长并且抽出来!

不要跳过这一步,但也不要卡在上面。

你看,有无限可能的图表,图表和表格,但你只需要少量 “足以”了解数据就可以使用它。

在本课程中,我们将向您展示可提供最大收益的可视化效果。

从基础知识开始

首先,您需要回答有关数据集的一组基本问题:

  • 我有多少观察?
  • 有多少功能?
  • 我的功能有哪些数据类型?它们是数字吗?分类?
  • 我有目标变量吗?

知道你在做什么。

示例观察

然后,您将要显示数据集中的示例观察。这将使您对每个功能的值有“感觉”,这是检查一切是否有意义的好方法。

以下是我们的机器学习大师班的Project 2中使用的房地产数据集的示例(您可以向右滚动以查看更多列):

  tx_price 平方英尺 year_built 批量 财产种类 exterior_walls 屋顶 地下室 餐馆 杂货 夜生活 咖啡馆 购物 arts_entertainment beauty_spas active_life 中年的 已婚 college_grad 财产税 保险 median_school num_schools tx_year
0 295850 1 1 584 2013 0 公寓/公寓/联排别墅 木壁板 为NaN 为NaN 107 9 三十 19 89 6 47 58 33.0 65.0 84.0 234.0 81.0 9 3.0 2013
1 216500 1 1 612 1965年 0 公寓/公寓/联排别墅 组成瓦片 1.0 105 15 6 13 87 2 26 14 39.0 73.0 69.0 169.0 51.0 3.0 3.0 2006年
2 279900 1 1 615 1963年 0 公寓/公寓/联排别墅 木壁板 为NaN 为NaN 183 13 31 三十 101 10 74 62 28.0 15.0 86.0 216.0 74.0 8 3.0 2012
3 379900 1 1 618 2000 33541 公寓/公寓/联排别墅 木壁板 为NaN 为NaN 198 9 38 25 127 11 72 83 36.0 25.0 91.0 265.0 92.0 9 3.0 2005年
4 340000 1 1 634 1992年 0 公寓/公寓/联排别墅 为NaN 为NaN 149 7 22 20 83 10 50 73 37.0 20.0 75.0 88.0 30.0 9 3.0 2002年

显示数据集中的示例的目的不是执行严格的分析。相反,它是 为数据集获得  定性的“感觉”

  • 列有意义吗?
  • 这些列中的值是否有意义?
  • 这些值是否合适?
  • 丢失的数据将是基于快速眼球测试的一个大问题?

绘制数值分布

接下来,绘制数字要素的分布可能非常有启发性。

通常,快速而脏的直方图网格   足以理解分布。

以下是一些需要注意的事项:

  • 意外的分布
  • 潜在的异常值没有意义
  • 应该是二进制的特征(即“想要指示变量”)
  • 边界没有意义
  • 潜在的测量误差

此时,您应该开始记录您想要做的潜在修复。如果某些内容看起来不合适,例如您的某个功能中存在潜在的异常值,那么现在是向客户/关键利益相关方询问或者深入挖掘的好时机。

但是,我们会等到Data Cleaning进行修复,以便我们能够保持步骤的有序性。

绘制分类分布

无法通过直方图显示分类要素。相反,您可以使用  条形图

特别是,您需要注意  稀疏类,这些类是具有非常少量观察的类。

顺便说一句,“类”只是分类特征的唯一值。例如,以下条形图显示了名为“exterior_walls”的特征的分布。所以Wood Siding,Brick和Stucco都是这个功能的类。

无论如何,回到稀疏类......正如你所看到的,'exterior_walls'的 一些类  有很短的条形。那些是稀疏的课程。

在构建模型时,它们往往会出现问题。

  • 在最好的情况下,它们不会对模型产生太大影响。
  • 在更糟糕的情况下,它们可能导致模型过度拟合

因此,我们建议您   稍后组合 或  重新分配其中一些类。我们更喜欢将其保存到Feature Engineering(第4课)。

绘图分段

分段是观察分类特征和数字特征之间关系的有效方法。

箱形图 允许您这样做。

以下是您可以从下图中获得的一些见解。

  • 单户住宅的中位交易价格(框中间垂直条)远高于公寓/公寓/联排别墅。
  • 最小最大的交易价格是两个阶级之间的可比性。
  • 事实上,圆形分钟($ 200k)和最大($ 800k)表明可能的数据截断 ...
  • ...在以后评估模型的普遍性 时,记住这一点非常重要  !

研究相关性

最后,相关性允许您查看数字要素与其他数字要素之间关系

相关性是介于-1和1之间的值,表示两个要素一致移动的程度。您无需记住数学计算它们。只要知道以下直觉:

  • 相关意味着当一个特征增加时,另一个特征增加。例如孩子的年龄和身高。
  • 相关意味着当一个特征增加时,另一个特征减少。例如,学习的时间和参加的人数。
  • -1或1附近的相关性表明关系密切
  • 接近0的人表示关系薄弱
  • 0表示没有关系

相关  热图可  帮助您可视化此信息。这是一个例子(注意:所有相关性都乘以100):

一般来说,你应该注意:

  • 哪些特征与目标变量密切相关?
  • 其他功能之间是否存在有趣或意想不到的强相关性?

同样,您的目标是获得对数据的直觉,这将在整个工作流程的其余部分帮助您。

章节测验

在探索性分析步骤结束时,您将对数据集,数据清理的一些注释以及可能的特征工程想法有很好的理解。

没有人有心告诉杰瑞,他发现的只是“巴哈马捣碎的土豆”周刊特别...


这是一个简短的测验来检查你得到了一切:

  • 什么类型的功能可以有稀疏类?你会如何检查它们?
  • 如果'sqft'  (物业的大小)与'浴室'  (浴室的#)有0.68的相关性,  这意味着什么  ?
  • 通过查看数据集中的示例观察,可以进行3次健全性检查?

原文:https://elitedatascience.com/exploratory-analysis

【机器学习入门系列】第二章 探索性分析相关推荐

  1. (视频+图文)机器学习入门系列-第15章

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  2. (视频+图文)机器学习入门系列-第13章 降维

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  3. (视频+图文)机器学习入门系列-第12章 聚类

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  4. (视频+图文)机器学习入门系列-第11章 支持向量机

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  5. (视频+图文)机器学习入门系列-第10章 人工神经网络

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  6. (视频+图文)机器学习入门系列-第9章 集成学习

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  7. (视频+图文)机器学习入门系列-第7章 KNN算法

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  8. (视频+图文)机器学习入门系列-第6章 机器学习库Scikit-learn

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  9. (视频+图文)机器学习入门系列-第5章 机器学习实践

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

最新文章

  1. 计算机专业期末考试是编程序,计算机专业技能期末考试题
  2. worktools-源码下拉问题
  3. Tomcat中的线程池(APR和ThreadPool)
  4. linux之shell
  5. 使用 ApplicationLoader 上传应用到 Appstore
  6. 软件外包项目中的进度管理
  7. Android中怎获取json,Android应用中如何解析获取的json数据
  8. 算法:求岛屿的数量200. Number of Islands
  9. php中fread用法,php fread函数与fread函数用法_PHP教程
  10. GJB438C相比438B在文档种类上的变化
  11. while(pid1 = fork()== -1);直接分号,循环语句为空
  12. 13.荔枝派 zero(全志V3S)-gadget Mass Storage虚拟U盘
  13. Python美股量化交易填坑记录——14c.W底交易机器人(实盘记录)
  14. SPA 文件结构记录
  15. 事还得慢慢做,环境还得靠自己准备
  16. 数据库审计是什么意思?作用是什么?
  17. 嵌入式软件测试研究意义,嵌入式软件测试的研究
  18. SSM大学生公益义工主题管理-义工服务-志愿者报名审核javaweb网站j2ee项目
  19. 灰狼优化matlab,灰狼优化算法——MATLAB
  20. c语言程序字体放大,C语言写的俄罗斯方块程序减小字体 增大字体 作者.docx

热门文章

  1. c语言实验作业在dev蜗居的思路,C语言程序设计实验(共5篇)
  2. 键盘调节台式计算机声音,键盘打字音效怎么设置 让键盘打字发出机械键盘声音方法...
  3. poi-util 加强 POI 相关操作工具包
  4. 如何深入理解 iOS 开发中的锁?
  5. C++设计模式-中介者模式详解
  6. 淮南师范学院计算机组成原理试卷,淮南师范学院2008-2009学年度第一学期电机及拖动试卷(2份,有答案)...
  7. 计算机应用深圳职业大三毕业设计,毕业设计(论文)文献综述-基于Web的家庭理财系统.docx...
  8. 因子分析(factor analyis)
  9. kali 触摸板手势之fusuma
  10. CCF-CSP 201403-1 相反数 (python)