集成学习(上)

开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/IntegratedLearning

基本信息

  • 贡献人员:李祖贤、薛传雨、赵可、杨毅远、陈琰钰
  • 学习周期:14天
  • 学习形式:理论学习 + 练习
  • 人群定位:具备《高等数学》、《线性代数》、《概率论与数理统计》基础,会使用常见的数据分析工具(Numpy,Pandas、matplotlib),既想系统学习sklearn工具库解决机器学习问题,又想系统学习机器学习算法理论的数学推导的学习者。
  • 难度系数:中

学习目标

本次课程是由Datawhale集成学习小组内部成员共同完成,是针对机器学习小白的一入门课程。学习本课程需要学习者具备《高等数学》、《线性代数》、《概率论与数理统计》基础,会使用常见的数据分析工具(Numpy,Pandas、matplotlib)。

本次课程内容的设计参考了B站很火的《白板推导》系列、李航老师的《统计学习方法》、机器学习入门圣经的《统计学习导论》以及大量的技术博客,详细地介绍了机器学习领域中最经典的算法并给出了相应的数学推导和代码,对于每个算法都进行了细致的分析以及必要的代码的演示,便于学习者深刻理解机器学习算法的本质。除此之外,每个算法都要求学习者自行查阅sklearn官方文档的相应参数,帮助学习者构建理论与实际相结合的学习框架。在这些案例的代码中,我们给出了详细的代码注释,尽量让学习者们不会因为看不懂代码而感到烦恼。

任务安排

Task00:熟悉规则(1天)

  • 组队、修改群昵称
  • 熟悉打卡规则

Task01:熟悉机器学习的三大主要任务(1天)

  • 了解传统机器学习领域的三大基本任务——回归、分类、无监督学习。

Task02:掌握基本的回归模型(3天)

  • 掌握基本回归问题中的线性回归以及如何打破线性回归的假设推广至非线性回归,包括多项式回归、广义可加模型、回归树以及支持向量回归,在掌握了这些理论的基础上了解如何使用python及其工具库实现这些算法。

Task03:掌握偏差与方差理论(2天)

  • 在前面的基本回归模型的建模中,我们一直使用最小化训练误差原则,但实际的问题是我们想要最小化未知数据的误差,因此如何权衡训练误差和未知的测试数据误差就是一个急需解决的问题,掌握偏差与方差理论有利于提高模型预测未知数据的能力。偏差与方差的权衡是机器学习基本模型推广至集成学习的关键,也是机器学习面试中必问的一个问题。

Task04:掌握回归模型的评估及超参数调优(3天)

  • 数据科学永恒不变的主题也许就是调参吧,正确的调参姿势也是建立在正确评估模型的基础上的。因此我们要从偏差与方差理论中得到启发,从数学理论和代码上掌握回归模型的评估及超参数调优。

Task05:掌握基本的分类模型(3天)

  • 也许大家并不清楚,分类问题也是从回归问题推广而来的,也正是打破线性回归的基本假设而延伸出多种多样的分类模型。我们需要掌握分类问题中的逻辑回归、基于概率的分类模型(线性判别分析、朴素贝叶斯)、分类决策树、支持向量机以及核函数。

Task06:掌握分类问题的评估及超参数调优(2天)

  • 我们需要像回归问题那样,对分类问题进行正确的评估以及超参数的选择,由于前面回归问题的理论支撑,分类问题的模型评估及超参数选择应该会得心应手!

开营视频

插入视频

内容介绍


【组队学习】【23期】Datawhale集成学习(上)相关推荐

  1. 【组队学习】【24期】集成学习(中)

    集成学习(中) 开源内容: https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearni ...

  2. 20210317_23期_集成学习(上)_Task02_sklearn构建完整机器学习模型

    二.Sklearn构建完整机器学习模型 目录 二.Sklearn构建完整机器学习模型 来源 2.1 机器学习项目通常步骤 2.2 用Sklearn对机器学习项目的构建 2.2.1 导入数据集及特征选择 ...

  3. 【机器学习 深度学习】通俗讲解集成学习算法

    目录:集成学习 一.机器学习中的集成学习 1.1 定义 1.2 分类器(Classifier) 1.2.1 决策树分类器 1.2.2 朴素贝叶斯分类器 1.2.3 AdaBoost算法 1.2.4 支 ...

  4. 【组队学习】【27期】集成学习

    集成学习 论坛版块: http://datawhale.club/c/32-category/32 开源内容: https://github.com/datawhalechina/ensemble-l ...

  5. Datawhale集成学习笔记:XGBOOST算法

    引用:Datawhale XGBoost算法 XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学 ...

  6. DataWhale集成学习Task15 集成学习案例二 (蒸汽量预测)

    集成学习案例二 (蒸汽量预测) 文章目录 集成学习案例二 (蒸汽量预测) 1 整体思路 1.1 整体步骤 1.2 评价指标 2 实战演练 导入package 加载数据 探索数据分布 特征工程 模型构建 ...

  7. Datawhale集成学习:Stacking 算法与实战

    前言 Stacking核心思想 stacking严格来说并不是一种算法,而是精美而又复杂的,对模型集成的一种策略. Stacking集成算法可以理解为一个两层的集成,第一层含有多个基础分类器,把预测的 ...

  8. DataWhale集成学习(中)——Task09提升(Boosting)方法和Adaboost

    目 录 Boosting方法 AdaBoost算法 AdaBoost案例 Bagging的核心是bootstrap,得到几组不同的训练数据集,主要通过降低 方差来减少预测误差: Boosting则是对 ...

  9. [学习笔记] [机器学习] 7. 集成学习(Bagging、随机森林、Boosting、GBDT)

    视频链接 数据集下载地址:无需下载 1. 集成学习算法简介 学习目标: 了解什么是集成学习 知道机器学习中的两个核心任务 了解集成学习中的 Boosting 和 Bagging 1.1 什么是集成学习 ...

最新文章

  1. 开发者需要知道的有关软件架构的五件事
  2. Java反射机制深入详解
  3. 操作XML 报错:根级别上的数据无效 和 给定编码中的字符无效 解决办法
  4. iOS应用内购买(In App Purchase)总结
  5. 自学前端很难吗?只要你足够努力,高中学历也能获得offer
  6. 拜佛有几点需要注意的事情
  7. Windows command
  8. 求助!妹子一个rm -rf把公司服务器数据删没了,我该怎么办
  9. 【持续更新】最小生成树题目集合
  10. 智能读物产品优化、运营方案
  11. premiere软件的使用(快速入门,迅速了解常用功能、常用快捷键、常用插件)——wsdchong
  12. Cognos函数(二十二) - ancestor
  13. 2020-10-15 Comsl学习3
  14. 常用汉字unicode编码
  15. 剑指offer:把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。输入一个非递减排序的数组的一个旋转,输出旋转数组的最小元素。
  16. 刀片计算机学习资料第192篇:6U VPX i7 刀片计算机
  17. 关于Eric Steven Raymond的五部曲
  18. 面试分享:手机收费问题面试
  19. 如何保证战略落地_如何确保企业战略落地
  20. 韩国版微信Kakao推出公链,能否用区块链实现全球扩张?

热门文章

  1. 小说站 章节内容 ajax,第17章 作业分析与异步编程原理——2019年5月14日22:00
  2. ansys大变形开关要不要打开_ANSYS不收敛问题的解决办法
  3. Java培训找什么样的机构比较好
  4. 自动化测试的优势和局限性有哪些
  5. mysql 5.7 mts_MySQL:MTS和mysqldump死锁
  6. 网络安全技术分析:DDoS的攻与防
  7. Python 自动化运维 pycurl
  8. 如何利用zendstudio新建 或导入php项目
  9. js的全部替换函数replaceAll
  10. GLSL学习笔记 - 6.2 Vertex Shader