来源:机器之心

本文约2000字,建议阅读8分钟

对于机器学习领域的初学者来说,这会是很好的入门课程。目前,课程的笔记、PPT 和视频正在陆续发布中。

2020 年就这么悄无声息地走完了,想必大多数人,尤其是在校学生唯一的感觉就是:「又是毫无学术进展的一年。」

别慌,只要马上开始学习,什么时候都不算晚。

近日,威斯康辛大学麦迪逊分校助理教授 Sebastian Raschka 在推特上宣布了威斯康辛大学《机器学习导论》2020 秋季课程的完结:「教授两个班级和 230 个学生是相当不错的体验,对于那些感兴趣的人,我整理了一页记录以供参考。」

课程笔记主页:

https://sebastianraschka.com/resources/ml-lectures-1.html(持续更新中)

Sebastian Raschka 是威斯康星大学麦迪逊分校的统计学助理教授,致力于机器学习和深度学习研究。他最近的一些研究方法已应用于生物识别领域,解决面部图像隐私问题,其他的研究重点包括开发与机器学习中的模型评估、对抗攻击和 AutoML 有关方法和应用程序。他也是《Python 机器学习》一书的作者,曾被科技博客 Analytics Vidhya 评为 GitHub 上具影响力的数据科学家之一。

对想要学习这门课程的学生,Sebastian Raschka 教授的建议是:你至少要熟悉基本编程知识并完成了编程入门课程。

课程总共由七个部分组成:

第一部分:简介

L01:什么是机器学习

  • 1.1 课程概述:「Stat 451:机器学习导论(FS 2020)」的简介

  • 1.2 什么是机器学习:机器学习的定义,以及机器学习与编程的关系

  • 1.3 机器学习的类别:讨论了机器学习的三大类,监督学习、无监督学习和强化学习

  • 1.4 符号:介绍了将在本课程中使用的机器学习形式和符号

  • 1.5 ML 应用:走向机器学习程序的主要步骤,以及机器学习组件的分类

  • 1.6 ML 动力:关于学习机器学习的不同观点和动力

L02:最近邻算法

  • 2.1 最近邻算法:介绍最近邻算法,概览最近邻算法的应用和最新进展

  • 2.2 最近邻决策边界:包括 1 - 最近邻决策边界背后的概念,此外还列出了一些常见的距离度量

  • 2.3 K - 最近邻算法:将 1 - 最近邻概念扩展到 k - 最近邻算法,进行分类和回归

  • 2.4 K - 最近邻的 Big O:K - 最近邻简单实现的 Big O 运行时间复杂度

  • 2.5 K - 最近邻的提升:总结一些提升 K - 最近邻计算性能和预测效率的常见技巧

  • 2.6 Python 中的 K - 最近邻:利用 scikit-learn,在 Python 中使用 K - 最近邻。这节课中使用的 Jupyter 笔记本从这里获取:https://github.com/rasbt/stat451-machine-learning-fs20/blob/master/L02/code/02_knn_demo.ipynb

第二部分:计算基础

L03: (可选)Python 编程

  • 3.1 Python 概述:这节课将讨论 Python 的用法,进行 C 和 Python 的快速演示(也许并不是很有吸引力)

  • 3.2 Python 设置:演示如何在 MacOS 上使用 Miniconda 安装 Python,另外提供了有关 conda 软件包管理器的简短演示

  • 3.3 运行 Python 代码:演示运行 Python 代码的不同方式,包括 REPL、IPython、.py 脚本和 Visual Studio Code

L04: Python 中的科学计算

  • 4.1 NumPy 基础知识介绍

  • 4.2 NumPy 数组的创建及索引

  • 4.3 NumPy 数组的数学运算和通用函数

  • 4.4 NumPy 的广播机制

  • 4.5 NumPy 高级索引–内存视图和副本

  • 4.6 NumPy 随机数生成器

  • 4.7 重塑 NumPy 数组

  • 4.8 NumPy 比较运算符和掩码

  • 4.9 NumPy 线性代数基础

  • 4.10 Matplotlib

L05: 使用 Scikit-Learn 进行机器学习 

  • 5.1 从表格文本文件读取数据集

  • 5.2 基本数据处理

  • 5.3 面向对象的编程和 Python 类

  • 5.4 Scikit-Learn 简介

  • 5.5 Scikit-Learn Transformer API

  • 5.6 Scikit-Learn 管道

第三部分:基于树的方法

L06:决策树

  • 6.1 决策树简介

  • 6.2 递归算法和 Big-O

  • 6.3 决策树的类型

  • 6.4 分割标准

  • 6.5 基尼系数 & 熵与误分类误差:阐释在 CART 决策树的信息增益方程式中,为什么要使用熵(或基尼)代替误分类误差作为杂质度量

  • 6.6 改进和处理过拟合:将决策树的一些问题(例如过拟合)融合在一起并讨论改进方法,例如增益比、预剪枝和后剪枝

  • 6.7 代码示例:如何使用 scikit-learn 训练和可视化决策树的快速演示

L07: 集成方法 

  • 7.1 集成方法简介:讨论了包括绝对多数投票法(majority voting)、套袋法(bagging)、随机森林(random forests)、堆栈(stacking)、梯度提升(gradient boosting)等最受欢迎、使用最广泛的机器学习方法。

  • 7.2 绝对多数投票法:讨论最基本的模型集成之一「绝对多数投票」,通过示例解释为什么它比使用单个分类器更好

  • 7.3 套袋法:介绍了偏差 - 方差权衡和分解,以了解套袋法的用途

  • 7.4Boosting 和 AdaBoost:讨论 boosting 的概念,然后介绍了 AdaBoost,该方法将弱分类器(比如决策树桩)提升为强分类器

  • 7.5 梯度提升:在 AdaBoost 使用权重作为训练示例来提升下一轮树的情况下,梯度提升使用损失的梯度来计算残差以适应序列中的下一棵树,视频中提到的论文地址:https://dl.acm.org/doi/pdf/10.1145/2939672.2939785

  • 7.6 随机森林:讲解随机森林及其与套袋法之间的关系,以及为什么随机森林在实践中的效果优于套袋法

  • 7.7 堆栈:介绍 Wolpert 堆栈算法,并展示如何在 mlxtend 和 scikit-learn 中使用堆栈分类器

第四部分:模型评估

模型评估分为五个小节:

  • L08:基础部分,欠拟合和过拟合

  • L09:重采样方法

  • L10:交叉验证

  • L11:统计测试和算法选择

  • L12:评估指标

在后续即将更新的课程中,Sebastian Raschka 将对「降维和无监督学习」、「贝叶斯学习」内容进一步介绍,课程资料也会更新,包括讲座视频、PPT 链接等。

待更新的内容包括:

第五章:降维和无监督学习

  • L13 - 功能选择

  • L14 - 特征提取

  • L15 - 聚类

第六章:贝叶斯学习

  • L16 - 贝叶斯方法简介

  • L17 - 贝叶斯最佳分类器

  • L18 - 朴素贝叶斯分类器

  • L19 - 贝叶斯网络

这些课程资料在 GitHub 平台也会同步更新,项目地址:https://github.com/rasbt/stat451-machine-learning-fs20

编辑:黄继彦

威斯康辛大学《机器学习导论》2020秋季课程完结,课件、视频资源已开放(附下载)...相关推荐

  1. 威斯康星大学-机器学习导论2020

    课程介绍 本课程讲解机器学习的定义以及机器学习与编程的关系.讨论机器学习的三大类:监督学习.非监督学习和强化学习.讲解处理机器学习应用程序的主要步骤,以及对机器学习组件的不同方面进行分类,以及关于学习 ...

  2. 威斯康辛大学《机器学习导论》2020秋季课程完结,课件、视频资源已开放

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要10分钟 Follow小博主,每天更新前沿干货 转载自:机器之心 对于机器学习领域的初学者来说,这会是很好的入门课程.目前,课程的笔记.PPT ...

  3. 华盛顿大学《生成模型》2020秋季课程完结,课件、讲义全部放出

    来源:机器之心 本文约1000字,建议阅读5分钟. 这门课聚焦生成建模技术的理论和数学基础,探讨多种生成模型技术. 在概率统计理论中,生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的 ...

  4. 作业一(part1):使用威斯康辛大学关于乳腺癌诊断数据集的相关数据, 采用决策树算法(或随机森林)分析乳腺癌诊断数据集,推断肿瘤发病可能情况,然后用5分类

    仅供自己学习使用!!! 这篇博客先对数据集做一些介绍 参考链接:http://docode.techyoung.cn/breast_cancer_wisconsin.html 乳腺癌的早期诊断意义重大 ...

  5. 威斯康星大学硕士计算机科学,2020年威斯康星大学密尔沃基分校排名TFE Times美国最佳计算机科学硕士专业排名第90...

    2020 TFE Times排名考虑因素权重 不同硕士专业的排名计算稍显不同,但多数是从: 30%的GRE/GMAT/LSAT分数 25%的毕业生起薪福利 15%的本科生平均GPA 15%的学生录用率 ...

  6. 威斯康星大学硕士计算机科学,2020年威斯康星大学-麦迪逊分校硕士热门专业

    威斯康星大学麦迪逊分校属于公立常春藤联盟的成员之一,建校于1848年,历史悠久,距今已经171年的历史.学校现有21个学院,本科生30360名,研究生8962名,加上国际学生,共4万余名学生.威斯康星 ...

  7. 95 后哈佛小哥撰写《从零开始的机器学习》,入门必备,书籍资源已开放

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 转自 | 机器之心 作者 | 蛋酱.小舟 机器学习怎么入门最简单?今年刚刚从哈佛大学统计专业毕 ...

  8. 斯坦福2021版图机器学习课程完结,视频、PPT全放送,大神主讲

    来源:AI科技评论本文约1000字,建议阅读5分钟通过研究潜在的图结构及其特征,向学生介绍机器学习技术和数据挖掘工具,从而获得对各种网络的"洞察". 近日,据斯坦福大学Jure L ...

  9. 威斯康星麦迪逊计算机专业排名,威斯康星大学麦迪逊分校计算机排名2020年

    原标题:威斯康星大学麦迪逊分校计算机排名2020年 位于威斯康星州麦迪逊市(Madison, Wisconsin),建于1956年,是一所世界顶尖的著名大学,全世界大学排名19.其工程.计算机.经济学 ...

最新文章

  1. 【Java小工匠聊密码学】--base58编码
  2. 某程序员吐槽:分手一个月,发现前女友和一个已婚男人在一起,愤而向他们公司举报,该男已被开除!网友:举报别人不道德!...
  3. Oracle发布Solaris 11 for Sparc/x86
  4. 互联网1分钟 |1113
  5. 基本的JVM内存分配过程案例
  6. 功能测试包含哪些测试_一小时复习,期末考试必过 重邮软件测试题总结
  7. 实现两个点集的欧式距离和cos距离和索引值寻找(含有两种解法,for循环和矩阵操作)
  8. java - 求最大公约数和最小公倍数
  9. java 创建文件夹的方法_java中创建文件夹的方法
  10. 免费数据集获取加速器|Graviti Open Datasets
  11. 314.二叉树的垂直遍历
  12. MySQL-第九篇分组和组函数
  13. java 线程池与executor_详解Java线程池和Executor原理的分析
  14. 台达伺服b3参数_恩阳台达B3系列伺服安装
  15. ionic-vue 开发app移动端
  16. 房贷又降,不买!还能降
  17. 编写有效的测试用例及如何进行用例评审
  18. 分析天平计算机分类,分析化学之分析天平的概述和分类
  19. python中心性评价_centrality 计算复杂网络中的节点或边 数中心性,基于python的 工具箱 matlab 238万源代码下载- www.pudn.com...
  20. TypeError: cannot astype a timedelta from [timedelta64[ns]] to [int32]

热门文章

  1. 搭建struts2.1.6环境所需要的包(7个)
  2. [Android]上传到多个Maven仓库的Gradle插件RapidMavenPushPlugin
  3. setprecision、fixed、showpoint的用法总结(经典!!超经典!!)【转】
  4. vue2 构建一个旅游类WebApp
  5. Referenced file contains errors (http://java.sun.com/xml/ns/j2ee/web-jsptaglibrary_2_4.xsd).
  6. oracle存储过程dbms_output.put_line()显示打印结果
  7. Tomat启动自动运行一个类
  8. java非阻塞 串口读数据_串口阻塞与非阻塞
  9. php负载均衡原理_Java开发大型互联网架构深入负载均衡原理之方案分析
  10. ## Hive分析疫情数据