【机器学习入门系列】第二章 探索性分析
欢迎来到我们的7部分数据科学和应用机器学习迷你课程!
在上一章中,我们看到了整个机器学习工作流程的概述。我们看到数据科学的“80/20”包括5个核心步骤。
在本章中,我们将深入探讨这些核心步骤中的第一步: 探索性分析。
不应将此步骤与数据可视化或摘要统计混淆。那些只是工具......意味着结束。
适当的探索性分析是关于回答问题。它是关于从你的数据集中提取足够的见解,以便在你在杂草中迷路之前纠正。
在本指南中,我们将介绍要查找的见解。让我们开始吧。
为什么要提前探索数据集?
探索性分析的目的是 “了解”数据集。提前完成这项工作将使项目的其余部分更加顺畅,主要有三种方式:
- 您将获得有关数据清理的宝贵提示(可以创建或破坏您的模型)。
- 您将会想到特征工程的想法(可以将您的模型从优秀变为优秀)。
- 您将获得数据集的“感觉”,这将有助于您传达结果并产生更大的影响。
然而,对机器学习的探索性分析应该是快速,有效和果断的 ......不长并且抽出来!
不要跳过这一步,但也不要卡在上面。
你看,有无限可能的图表,图表和表格,但你只需要少量 “足以”了解数据就可以使用它。
在本课程中,我们将向您展示可提供最大收益的可视化效果。
从基础知识开始
首先,您需要回答有关数据集的一组基本问题:
- 我有多少观察?
- 有多少功能?
- 我的功能有哪些数据类型?它们是数字吗?分类?
- 我有目标变量吗?
知道你在做什么。
示例观察
然后,您将要显示数据集中的示例观察。这将使您对每个功能的值有“感觉”,这是检查一切是否有意义的好方法。
以下是我们的机器学习大师班的Project 2中使用的房地产数据集的示例(您可以向右滚动以查看更多列):
tx_price | 床 | 浴 | 平方英尺 | year_built | 批量 | 财产种类 | exterior_walls | 屋顶 | 地下室 | 餐馆 | 杂货 | 夜生活 | 咖啡馆 | 购物 | arts_entertainment | beauty_spas | active_life | 中年的 | 已婚 | college_grad | 财产税 | 保险 | median_school | num_schools | tx_year | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 295850 | 1 | 1 | 584 | 2013 | 0 | 公寓/公寓/联排别墅 | 木壁板 | 为NaN | 为NaN | 107 | 9 | 三十 | 19 | 89 | 6 | 47 | 58 | 33.0 | 65.0 | 84.0 | 234.0 | 81.0 | 9 | 3.0 | 2013 |
1 | 216500 | 1 | 1 | 612 | 1965年 | 0 | 公寓/公寓/联排别墅 | 砖 | 组成瓦片 | 1.0 | 105 | 15 | 6 | 13 | 87 | 2 | 26 | 14 | 39.0 | 73.0 | 69.0 | 169.0 | 51.0 | 3.0 | 3.0 | 2006年 |
2 | 279900 | 1 | 1 | 615 | 1963年 | 0 | 公寓/公寓/联排别墅 | 木壁板 | 为NaN | 为NaN | 183 | 13 | 31 | 三十 | 101 | 10 | 74 | 62 | 28.0 | 15.0 | 86.0 | 216.0 | 74.0 | 8 | 3.0 | 2012 |
3 | 379900 | 1 | 1 | 618 | 2000 | 33541 | 公寓/公寓/联排别墅 | 木壁板 | 为NaN | 为NaN | 198 | 9 | 38 | 25 | 127 | 11 | 72 | 83 | 36.0 | 25.0 | 91.0 | 265.0 | 92.0 | 9 | 3.0 | 2005年 |
4 | 340000 | 1 | 1 | 634 | 1992年 | 0 | 公寓/公寓/联排别墅 | 砖 | 为NaN | 为NaN | 149 | 7 | 22 | 20 | 83 | 10 | 50 | 73 | 37.0 | 20.0 | 75.0 | 88.0 | 30.0 | 9 | 3.0 | 2002年 |
显示数据集中的示例的目的不是执行严格的分析。相反,它是 为数据集获得 定性的“感觉”。
- 列有意义吗?
- 这些列中的值是否有意义?
- 这些值是否合适?
- 被丢失的数据将是基于快速眼球测试的一个大问题?
绘制数值分布
接下来,绘制数字要素的分布可能非常有启发性。
通常,快速而脏的直方图网格 足以理解分布。
以下是一些需要注意的事项:
- 意外的分布
- 潜在的异常值没有意义
- 应该是二进制的特征(即“想要指示变量”)
- 边界没有意义
- 潜在的测量误差
此时,您应该开始记录您想要做的潜在修复。如果某些内容看起来不合适,例如您的某个功能中存在潜在的异常值,那么现在是向客户/关键利益相关方询问或者深入挖掘的好时机。
但是,我们会等到Data Cleaning进行修复,以便我们能够保持步骤的有序性。
绘制分类分布
无法通过直方图显示分类要素。相反,您可以使用 条形图。
特别是,您需要注意 稀疏类,这些类是具有非常少量观察的类。
顺便说一句,“类”只是分类特征的唯一值。例如,以下条形图显示了名为“exterior_walls”的特征的分布。所以Wood Siding,Brick和Stucco都是这个功能的类。
无论如何,回到稀疏类......正如你所看到的,'exterior_walls'的 一些类 有很短的条形。那些是稀疏的课程。
在构建模型时,它们往往会出现问题。
- 在最好的情况下,它们不会对模型产生太大影响。
- 在更糟糕的情况下,它们可能导致模型过度拟合。
因此,我们建议您 稍后组合 或 重新分配其中一些类。我们更喜欢将其保存到Feature Engineering(第4课)。
绘图分段
分段是观察分类特征和数字特征之间关系的有效方法。
箱形图 允许您这样做。
以下是您可以从下图中获得的一些见解。
- 单户住宅的中位交易价格(框中间垂直条)远高于公寓/公寓/联排别墅。
- 在最小和最大的交易价格是两个阶级之间的可比性。
- 事实上,圆形分钟($ 200k)和最大($ 800k)表明可能的数据截断 ...
- ...在以后评估模型的普遍性 时,记住这一点非常重要 !
研究相关性
最后,相关性允许您查看数字要素与其他数字要素之间的关系。
相关性是介于-1和1之间的值,表示两个要素一致移动的程度。您无需记住数学计算它们。只要知道以下直觉:
- 正相关意味着当一个特征增加时,另一个特征增加。例如孩子的年龄和身高。
- 负相关意味着当一个特征增加时,另一个特征减少。例如,学习的时间和参加的人数。
- -1或1附近的相关性表明关系密切。
- 接近0的人表示关系薄弱。
- 0表示没有关系。
相关 热图可 帮助您可视化此信息。这是一个例子(注意:所有相关性都乘以100):
一般来说,你应该注意:
- 哪些特征与目标变量密切相关?
- 其他功能之间是否存在有趣或意想不到的强相关性?
同样,您的目标是获得对数据的直觉,这将在整个工作流程的其余部分帮助您。
章节测验
在探索性分析步骤结束时,您将对数据集,数据清理的一些注释以及可能的特征工程想法有很好的理解。
没有人有心告诉杰瑞,他发现的只是“巴哈马捣碎的土豆”周刊特别...
这是一个简短的测验来检查你得到了一切:
- 什么类型的功能可以有稀疏类?你会如何检查它们?
- 如果'sqft' (物业的大小)与'浴室' (浴室的#)有0.68的相关性, 这意味着什么 ?
- 通过查看数据集中的示例观察,可以进行3次健全性检查?
原文:https://elitedatascience.com/exploratory-analysis
【机器学习入门系列】第二章 探索性分析相关推荐
- (视频+图文)机器学习入门系列-第15章
机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...
- (视频+图文)机器学习入门系列-第13章 降维
机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...
- (视频+图文)机器学习入门系列-第12章 聚类
机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...
- (视频+图文)机器学习入门系列-第11章 支持向量机
机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...
- (视频+图文)机器学习入门系列-第10章 人工神经网络
机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...
- (视频+图文)机器学习入门系列-第9章 集成学习
机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...
- (视频+图文)机器学习入门系列-第7章 KNN算法
机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...
- (视频+图文)机器学习入门系列-第6章 机器学习库Scikit-learn
机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...
- (视频+图文)机器学习入门系列-第5章 机器学习实践
机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...
最新文章
- 计算机专业期末考试是编程序,计算机专业技能期末考试题
- worktools-源码下拉问题
- Tomcat中的线程池(APR和ThreadPool)
- linux之shell
- 使用 ApplicationLoader 上传应用到 Appstore
- 软件外包项目中的进度管理
- Android中怎获取json,Android应用中如何解析获取的json数据
- 算法:求岛屿的数量200. Number of Islands
- php中fread用法,php fread函数与fread函数用法_PHP教程
- GJB438C相比438B在文档种类上的变化
- while(pid1 = fork()== -1);直接分号,循环语句为空
- 13.荔枝派 zero(全志V3S)-gadget Mass Storage虚拟U盘
- Python美股量化交易填坑记录——14c.W底交易机器人(实盘记录)
- SPA 文件结构记录
- 事还得慢慢做,环境还得靠自己准备
- 数据库审计是什么意思?作用是什么?
- 嵌入式软件测试研究意义,嵌入式软件测试的研究
- SSM大学生公益义工主题管理-义工服务-志愿者报名审核javaweb网站j2ee项目
- 灰狼优化matlab,灰狼优化算法——MATLAB
- c语言程序字体放大,C语言写的俄罗斯方块程序减小字体 增大字体 作者.docx
热门文章
- c语言实验作业在dev蜗居的思路,C语言程序设计实验(共5篇)
- 键盘调节台式计算机声音,键盘打字音效怎么设置 让键盘打字发出机械键盘声音方法...
- poi-util 加强 POI 相关操作工具包
- 如何深入理解 iOS 开发中的锁?
- C++设计模式-中介者模式详解
- 淮南师范学院计算机组成原理试卷,淮南师范学院2008-2009学年度第一学期电机及拖动试卷(2份,有答案)...
- 计算机应用深圳职业大三毕业设计,毕业设计(论文)文献综述-基于Web的家庭理财系统.docx...
- 因子分析(factor analyis)
- kali 触摸板手势之fusuma
- CCF-CSP 201403-1 相反数 (python)