机器学习入门系列,黄海广老师主讲。本站将持续更新,ppt、代码、课后习题见文末。

本系列的目录

01.引言

02.回归

03.逻辑回归

04.朴素贝叶斯

05.机器学习实践

06.机器学习库Scikit-learn

07.KNN算法

08.决策树

09.集成学习

10.人工神经网络

11.支持向量机

12.聚类

13.降维

14.关联规则

15.机器学习项目流程

本章目录

  • 15.1 机器学习项目流程概述

  • 15.2 数据清洗

  • 15.3 特征工程

  • 15.4 数据建模

15.1 机器学习项目流程概述

视频讲解

图文内容

15.2 数据清洗

视频讲解

图文内容

15.3 特征工程

视频讲解

图文内容

15.4 回归的评价指标

视频讲解

项目讲解

这是一个机器学习的完整流程,附代码非常全,几乎适合任何监督学习的分类问题,本文提供代码和数据下载。

作者:WillKoehrsen

翻译:DeqianBai(https://github.com/DeqianBai)

这是2018年夏天,一位美国数据科学家在申请工作时的“作业”,完整的英文版作业在:

https://github.com/WillKoehrsen/machine-learning-project-walkthrough/blob/master/hw_assignment.pdf

项目目标:

  • 使用提供的建筑能源数据开发一个模型,该模型可以预测建筑物的能源之星得分

  • 然后解释结果以找到最能预测得分的变量。

项目介绍:

这是一个受监督的回归机器学习任务:给定一组包含目标(在本例中为分数)的数据,我们希望训练一个可以学习将特征(也称为解释变量)映射到目标的模型。

  • 受监督问题:我们可以知道数据的特征和目标,我们的目标是训练可以学习两者之间映射关系的模型。

  • 回归问题:Energy Star Score是一个连续变量。

在训练中,我们希望模型能够学习特征和分数之间的关系,因此我们给出了特征和答案。然后,为了测试模型的学习效果,我们在一个从未见过答案的测试集上进行评估

我们在拿到一个机器学习问题之后,要做的第一件事就是制作出我们的机器学习项目清单。下面给出了一个可供参考的机器学习项目清单,它应该适用于大多数机器学习项目,虽然确切的实现细节可能有所不同,但机器学习项目的一般结构保持相对稳定:

  1. 数据清理和格式化

  2. 探索性数据分析

  3. 特征工程和特征选择

  4. 基于性能指标比较几种机器学习模型

  5. 对最佳模型执行超参数调整

  6. 在测试集上评估最佳模型

  7. 解释模型结果

  8. 得出结论

提前设置机器学习管道结构让我们看到每一步是如何流入另一步的。但是,机器学习管道是一个迭代过程,因此我们并不总是以线性方式遵循这些步骤。我们可能会根据管道下游的结果重新审视上一步。例如,

  • 虽然我们可以在构建任何模型之前执行特征选择,但我们可以使用建模结果返回并选择一组不同的特征。

  • 或者,建模可能会出现意想不到的结果,这意味着我们希望从另一个角度探索我们的数据。

  • 一般来说,你必须完成一步才能继续下一步,但不要觉得一旦你第一次完成一步,你就不能回头做出改进!你可以在任何时候返回前面的步骤并作出相应的修改。

代码部分

代码部分较长,仅贴代码的目录,完整代码在文末提供下载。

1. 数据清理和格式化

  • 1.1 加载并检查数据

  • 1.2  数据类型和缺失值

    • 1.2.1 将数据转换为正确的类型

  • 1.3 处理缺失值

2. 探索性数据分析

  • 2.1 单变量图

  • 2.2 去除异常值

  • 2.3 寻找关系

  • 2.4 特征与目标之间的相关性

  • 2.5 双变量图(Two-Variable Plots)

    • 2.5.1 Pairs Plot

3. 特征工程和特征选择

  • 3.1 特征工程

  • 3.2 特征选择(去除共线特征)

  • 3.3 划分训练集和测试集

  • 3.4 建立Baseline

  • 小结

4. 基于性能指标比较几种机器学习模型

  • 4.1 输入缺失值

  • 4.2 特征缩放

  • 4.3 需要评估的模型

5. 对最佳模型执行超参数调整

  • 5.1 超参数

  • 5.2 使用随机搜索和交叉验证进行超参数调整

6. 在测试集上评估最佳模型

7. 解释模型结果

  • 7.1 特征重要性

  • 7.2 使用特征重要性进行特征选择

  • 7.3 本地可解释的与模型无关的解释

  • 7.4 检查单个决策树

8. 得出结论

  • 8.1 得出结论

  • 记录发现

代码截图

相关资源

课程门槛较低,只要有本科三年级以上的数学知识,会一种编程语言,就可以掌握这门课程的绝大部分内容。

课程链接(中国大学慕课,有习题和证书):
https://www.icourse163.org/course/WZU-1464096179

课程资源(pdf版本课件和代码)公布在Github:

https://github.com/fengdu78/WZU-machine-learning-course

课程视频也可以在b站观看(观看方便,但无课后习题和证书):

https://www.bilibili.com/video/BV1gP4y177cf?share_source=copy_web

如果是在校老师,请告知我们学校和姓名,我可以发原版ppt文件,请用edu邮箱联系我:haiguang2000@wzu.edu.cn

机器学习交流qq群955171419,加入微信群请扫码:

(视频+图文)机器学习入门系列-第15章相关推荐

  1. (视频+图文)机器学习入门系列-第13章 降维

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  2. (视频+图文)机器学习入门系列-第12章 聚类

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  3. (视频+图文)机器学习入门系列-第11章 支持向量机

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  4. (视频+图文)机器学习入门系列-第10章 人工神经网络

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  5. (视频+图文)机器学习入门系列-第9章 集成学习

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  6. (视频+图文)机器学习入门系列-第7章 KNN算法

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  7. (视频+图文)机器学习入门系列-第6章 机器学习库Scikit-learn

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  8. (视频+图文)机器学习入门系列-第5章 机器学习实践

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  9. (视频+图文)机器学习入门系列-第4章 朴素贝叶斯

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

最新文章

  1. SpringBoot中使用thymeleaf时点击按钮触发事件失败
  2. [云炬创业基础笔记]第七章创业资源测试7
  3. 郴州郴锦机器人_减税降费宣传走进郴州市民营企业高质量发展专题培训班
  4. 工作260:js判断一个数组是否包含一个指定的值
  5. k-means均值向量
  6. 高考python必考题目_假如高考考python编程,这些题目你会几个呢?
  7. Python Pillow(PIL)库的用法介绍(二)
  8. vba中find用法
  9. 接收灵敏度和等效噪声带宽(ENBW)
  10. 淘宝客微信html5,微信H5支付配置
  11. 家居3d网上展示_三维模型可视化展示
  12. 琪琪的果园{青龙面板可跑项目之一}保姆教程
  13. linux ping加网址,在运行里输入PING加网址是什么意思
  14. websocket 给服务端发送太长数据处理(The decoded text message was too big for the output buffer and the endpoint )
  15. RiskCloud-双控平台(有效分享LOPA软件篇)
  16. 2021年软考科目怎么选?
  17. ClassLoding
  18. kaggle——信用卡欺诈检测项目实战
  19. mac 特殊符号如何打
  20. 经典量化选股方法——没有秘密的多因子

热门文章

  1. CentOS常用指令
  2. PHP编程最快明白 by www.kuphp.com 案例实战zencart1.38a支付模块简化Fast and Easy Checkout配置...
  3. Winfrom实用代码项目
  4. QAU 18校赛 J题 天平(01背包 判断能否装满)
  5. Linux 重新挂载分区的方法
  6. jQuery插件推荐(一) ——图像切换展示
  7. 多個excel文件合并到一個excel文件
  8. StringBuilder的实现与技巧
  9. GraphPad Prism:如何在轴上放置一个或多个缺口?
  10. CD marker 是什么?