向杜少致敬!

Lecture 4: Feasibility of Learning

4.1. Learning is Impossible?

  

图 4-1

Q1:在训练集 (in-sample) 能找到一个 g ≈ f, 但是你不能保证在应用数据 (out-sample)还有 g ≈ f 。

Q2:就算在某种约束下,你能保证在应用数据 (out-sample) g ≈ f。 如果我有多个 g ≈ f, 即 g≈ f、g≈ f、g3≈ f、… gn ≈ f。 如何找到在 out-sample 上性能最好的 gopt 呢?

4.2. Probalility to the Rescue

learning 是做不到的!但是我们可以想一下,有没有学习用少量的已知的事实去推测整个样本的情况? 现在给你一个罐子,你能给出黄绿弹珠所占的比例是多少? 假设黄绿弹珠的分布较均匀,可以通过抽样的方法获取黄绿弹珠的比例。

图 4-2

假设在抽出的样本中 orange marble 的比例是 v, green marble 的比例是 1 -v。 罐子中的 orange marble 的比例是 μ, green marble 的比例是 1-μ。

v 和 μ 基本不相同,那要在什么样的条件下? v 和 μ 才能足够的接近?在数学中有个 Hoeffding's Inequality 能刻画出 v 和 μ 的接近程度。

$$ \mathbb{P} [|\nu -\mu |] \leqslant 2 exp(-2\epsilon^2N)  $$

公式 4-1

Hoeffding 不等式的良好性质:

       1. 只和 N、ε有关,和 μ、ν 无关

2. N 越大或 ε 越大, v 和 μ 大概近似正确(probably approximately correct PAC)

Q3:HOeffding 不等式和切比雪夫不等式的关系?

Q4:回忆一下以前学过的中心极限定理、大数定理

4.3. Connection to Learning

上一节,我们一直在玩弹珠游戏。这个和机器学习有什么关系呢?

假设我们有一罐白色弹珠,  这些弹珠有某些性质。我们准备用机器学习去预测这些弹珠的性质。 假设我们有个 g, 如果 g(x) = f(x) 则将弹珠染绿并放到罐子 B 中, 如果 g(x) != f(x) 则将弹珠染黄并放到 B 中。最终我们会得到罐子 B 会如下图所示。

图 4-3

现在有一罐装满黄绿弹珠的罐子, orange marble 代表我们预测这个 marble 时出错了, green marble 代表我们成功地预测这个 marble。 这样就回到上一节。

现在,我们可以保证在 in-sample 上 g 和 f 的 pac 近似。 但是我们不能保证 g 和 f 的差别不大。 如果说 orange marble 的出现概率在 in-sample 和 out-sample 是 pac 近似正确,但是 orange marble 的比例很大。这也不是我们想要的, orange 出现比例越大说明 g 越不准确。而且我们是用一个固定的 g ,没有学习的过程。不能算是学习,当然也不会是机器学习

4.4. Connection to Real Learning

图 4-4

4.3 节时,我们不能保证选取那一个 h 和 f 足够的接近,我们将所有的 h 拿出来给白色罐子染色。假设我们对某个罐子 sample 出来的 marble 全是 green。是不是就可以说这个罐子对应的 h 就是我们想要的?

因为有 Hoeffding 不等式,从直觉上来说这应该是对的。

图 4-5

假设有150个人同时丢五次硬币,统计其中有一个人丢出五次全部正面向上的概率是多少,不难得出一个人丢出五次正面向上的概率为 1/32。在 150 人有一个人投出全是正面的概率为 1 - (31/32)150 > 99%。

这说明在图 4-5 中,某个罐子中 sample 出来的 marble 全是 green。也不能说明这个罐子对应的 h 是好的。我们将这种 Ein  和 EOUT  差别很大的 sample 起个新名字 —— BAD SAMPLE。现在我们引入一个新的 concept BAD DATA, 以及简单地看下它的性质(也就是看图不说话)

图 4-6

将每次抽样的数据集称做 DATA, 如果在这个 DATA 上Ein  和 EOUT  far away, 我们称之为 BAD DATA。 根据 Hoeffding 不等式,BAD DATA 出现概率非常的小。

图 4-7

如果某个 DATA 在某个 h 表现不好, 就将 DATA 标记为 BAD。现在我们想知道在整个 hypothesis  空间上,踩到雷的概率上限是多少?

在 hypothesis 有 M 个h,那么可以得出踩雷的上限如公式 4-2 所示

$$ \mathbb{P_\mathcal{D}} [BAD  \mathcal{D}] \leqslant 2 exp(-2\epsilon^2N) + 2 exp(-2\epsilon^2N) + ... + 2 exp(-2\epsilon^2N) = 2M exp(-2\epsilon^2N) $$

公式 4-2

如果 M 是有限的,  Ein  = EOUT 是 PAC, 和具体的 hypothesis 无关。在这种情况下,学习策略是选择 Ein 最小的 g。对于有无限 hypothesis 的讨论在未来的课程。

 

题外话:

本文中提到了 PAC, 可以参考一下《西瓜书》上面的讨论。里面有恰 PAC 可学习、PAC 不可学习等几个概念和证明(具体忘了)。后续笔记还有 pac 理论的升级版 ---- VC 维

4.3 节 Connection to Learning 是按照自己写的,没有严格跟着 ppt 走。

Q1 : 本文部分地回答了 Q1 问题,即有限假设空间下我们能 PAC 保证 g ≈ f

Q2: Q2 问题算是机器学习中终极问题,涉及到的概念有 bias、variance、欠拟合、过拟合等。不容易回答

Q3: 从图 4-8 可以看出,切比雪夫不等式刻画的是 期望、ε 间的关系

图 4-8

Q4: 我所接触过的大数定律有三个,分别是切比雪夫大数定律、伯努力大数定律(见图 4-9)、辛钦大数定理 (见图 4-10)。

图 4-9

图 4-10

中心极限定理的啥,后续补上吧

转载于:https://www.cnblogs.com/tmortred/p/8046440.html

机器学习基石4-在何时才能使用机器学习(4)相关推荐

  1. 机器学习基石HOW部分(2)

    机器学习基石HOW部分(2) 标签:机器学习基石 第十章 gradient descent on cross-entropy error to get good logistic hypothesis ...

  2. 机器学习基石笔记5——为什么机器可以学习(1)

    转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1--在何时可以使用机器学习(1) 机器学习基石笔记2--在何时 ...

  3. 机器学习基石HOW部分(1)

    机器学习基石HOW部分(1) 标签:机器学习基石 第九章 analytic solution wLIN=X†y with linear regression hypotheses and square ...

  4. 机器学习基石HOW部分(3)

    机器学习基石HOW部分(3) 标签:机器学习基石 第十一章 binary classification via (logistic) regression; multiclass via OVA/OV ...

  5. 台湾大学林轩田机器学习基石课程学习笔记12 -- Nonlinear Transformation

    红色石头的个人网站:redstonewill.com 上一节课,我们介绍了分类问题的三种线性模型,可以用来解决binary classification和multiclass classificati ...

  6. 台湾大学林轩田机器学习基石课程学习笔记10 -- Logistic Regression

    红色石头的个人网站:redstonewill.com 上一节课,我们介绍了Linear Regression线性回归,以及用平方错误来寻找最佳的权重向量w,获得最好的线性预测.本节课将介绍Logist ...

  7. 台湾大学林轩田机器学习基石课程学习笔记7 -- The VC Dimension

    红色石头的个人网站:redstonewill.com 前几节课着重介绍了机器能够学习的条件并做了详细的推导和解释.机器能够学习必须满足两个条件: 假设空间H的Size M是有限的,即当N足够大的时候, ...

  8. 机器学习基石12-Nonlinear Transformation

    注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上一节课介绍了分类问题的三种线性模型,可以用来解决binary classif ...

  9. 机器学习基石06:泛化理论(Theory of Generalization)

    本文介绍了机器学习的泛化理论,包括突破点的限制,上限函数的基本情形,上限函数的归纳情形以及形象化的证明. 系列文章 机器学习基石01:机器学习简介 机器学习基石02:感知器算法(Perceptron ...

  10. 机器学习基石(台湾大学 林轩田),Lecture 1: The Learning Problem

    课程的讲授从logo出发,logo由四个图案拼接而成,两个大的和两个小的.比较小的两个下一次课程就可能会解释到它们的意思,两个大的可能到课程后期才会解释到它们的意思(提示:红色代表使用机器学习危险,蓝 ...

最新文章

  1. mysql 小型机_小型机宕机问题 - Oracle数据库管理 - ITPUB论坛-中国专业的IT技术社区...
  2. 她是直播聊学习成“网红”的北大博士,毕业后入职民办学校,年薪70万
  3. Linux之vim全选,全部复制,全部删除
  4. numpy的常规使用(数组合并、拼接、添加)
  5. jQuery的引入和使用
  6. java xml数据解析_java xml解析,数据读取
  7. 像冠军一样创建报告! Reporting Services的提示和技巧
  8. CSDN Chrome插件更新:用CSDN的方式让开发再快一点
  9. docker 查看容器名_如何查看Docker容器环境变量,如何向容器传递环境变量
  10. linux命令执行绕过,命令执行绕过
  11. Shiro 放行Swagger
  12. 软件工程理论与实践第二版吕云翔课后习题答案
  13. 基于FPGA的CameraLink视频开发案例
  14. Python中base64编码解码结果为b‘xxx‘
  15. HEVC中CU、TU、PU划分和扫描方式简析
  16. 【转贴】忽悠:如何让武器战士买屠龙
  17. java端口扫描器 demo_java端口扫描器
  18. Introduction to CMake by Example
  19. 微信小程序实现点击按钮退出功能
  20. 戴尔服务器r330系统安装,Dell PowerEdge R330

热门文章

  1. 继承WebMvcConfigurer 和 WebMvcConfigurerAdapter类依然CORS报错? springboot 两种方式稳定解决跨域问题
  2. 一分钟带你了解什么是“复杂度” 算法上的O(1)、O(n)、O(logn) 这些都是什么❓❓
  3. 2022-2028年中国柴油行业市场研究及前瞻分析报告
  4. 2022-2028年中国小球产业深度调研及投资前景预测报告(全卷)
  5. Python2 与 Python3 区别
  6. 【Sql Server】数据库的3大服务
  7. 北京大学开源分词工具pkuseg 初试与使用感受
  8. CPU,GPU,Memory调度
  9. 色彩(颜色)空间原理(实现代码)
  10. LCD: 2D-3D匹配算法