抽样与机器学习的对应关系
  • 我们不知道罐子中橘色弹珠的数量比例,对应在机器学习中就是我们不知道在hypothesis中哪个h(x) 是我们要找的
  • 弹珠表示x
  • 橘色的弹珠代表 h(x)≠f(x)h(x)≠f(x)h(x) \neq f(x)
  • 绿色的弹珠代表 h(x)=f(x)h(x)=f(x)h(x) = f(x)
  • 抽样得到的橘色弹珠的比例对应机器学习中对应 h(x)≠f(x)h(x)≠f(x)h(x) \neq f(x) 的几率

通过下图可以比较直观的看出:

\\

现在引入两个值Eout(h)Eout(h) E_{out}(h) 和Ein(h)Ein(h)E_{in}(h)对应抽样中的 μ 和 ν (其中 μ 代表真实的橘色弹珠比例,v代表抽样时橘色弹珠的比例)
  • Eout(h)Eout(h)E_{out}(h)代表实际上h(x)≠f(x)h(x)≠f(x)h(x) \neq f(x)的比例,未知
  • Ein(h)Ein(h)E_{in}(h)代表训练样本中h(x)≠f(x)h(x)≠f(x)h(x) \neq f(x)的比例,已知
  • 最后用已知的Ein(h)Ein(h)E_{in}(h)推论未知的Eout(h)Eout(h)E_{out}(h)

如下图:

\\

把Eout(h)Eout(h) E_{out}(h) 和Ein(h)Ein(h)E_{in}(h)代入到霍夫丁不等式中得到:

P[|v−μ|>ϵ]≤2exp(−2ϵ2N)P[|v−μ|>ϵ]≤2exp(−2ϵ2N)P[|v-μ|>\epsilon]\leq 2exp(-2\epsilon^2N)
⇓⇓ \qquad \qquad \qquad \Downarrow
P[|Ein(h)−Eout(h)|>ϵ]≤2exp(−2ϵ2N)P[|Ein(h)−Eout(h)|>ϵ]≤2exp(−2ϵ2N)P[|E_{in}(h)-E_{out}(h)|>\epsilon]\leq 2exp(-2\epsilon^2N)

在上一节我说,我们不需要关心 μ 是多少,所以在这里我们也不关心Eout(h)Eout(h) E_{out}(h) 是多少,也不需要关心P是多少。

现在我们得到重要结论:根据霍夫丁不等式,我们可以由Ein(h)Ein(h) E_{in}(h) 推论Eout(h)Eout(h) E_{out}(h) ,即Eout(h)≈Eout(h)Eout(h)≈Eout(h) E_{out}(h) \approx E_{out}(h) 。

当Ein(h)Ein(h) E_{in}(h) 很小,即h(x)≠f(x)h(x)≠f(x)h(x) \neq f(x)在Ein(h)Ein(h) E_{in}(h) 中出现很少,那么说明在Eout(h)Eout(h) E_{out}(h) 中也会很少犯错。
\\

Ein(h)Ein(h)E_{in}(h)依然还不是最优解

单个 h 的情况下,当N足够大的时候也会有Eout(h)≈Eout(h)Eout(h)≈Eout(h) E_{out}(h) \approx E_{out}(h) ,但这并不代表该 h 就是我们想要的 h 使得h=gh=gh=g且g≈fg≈fg \approx f

因为我们知道hypothesis中有很多的 h ,我们不能保证手上的这条 h 就是最好的那条,所以在以后的课程中我们还要介绍如何才能从hypothesis中选出最优的 h

\\
===========================懵逼分割线===========================

欢迎大家加入Q群讨论:463255841

===========================懵逼分割线===========================

林轩田机器学习基石笔记(第16节)——概率论与机器学习建立连接相关推荐

  1. 【机器学习】机器学习基石-林轩田-2-Learning to Answer Yes_No

    机器学习基石-林轩田-2-Learning to Answer Yes_No 本节内容 引例 A Simple Hypothesis Set: Perceptron Perceptron Learni ...

  2. 台湾大学林轩田机器学习基石课程学习笔记1 -- The Learning Problem

    红色石头的个人网站:redstonewill.com 最近在看NTU林轩田的<机器学习基石>课程,个人感觉讲的非常好.整个基石课程分成四个部分: When Can Machine Lear ...

  3. 台湾大学林轩田机器学习基石课程学习笔记5 -- Training versus Testing

    红色石头的个人网站:redstonewill.com 上节课,我们主要介绍了机器学习的可行性.首先,由NFL定理可知,机器学习貌似是不可行的.但是,随后引入了统计学知识,如果样本数据足够大,且hypo ...

  4. 台大林轩田机器学习基石学习笔记(一):The Learning Problem

    这里写自定义目录标题 写在前面 一.What is Machine Learning 二.Applications of Machine Learning 三.Components of Machin ...

  5. 林轩田《机器学习基石》资源汇总(视频+学习笔记+书)

    来源 | AI有道(公众号ID:redstonewill) ▌课程介绍 台湾大学林轩田老师的<机器学习基石>课程由浅入深.内容全面,基本涵盖了机器学习领域的很多方面.其作为机器学习的入门和 ...

  6. 台湾大学林轩田机器学习技法课程学习笔记16(完结) -- Finale

    红色石头的个人网站:redstonewill.com 上节课我们主要介绍了Matrix Factorization.通过电影推荐系统的例子,介绍Matrix Factorization其实是一个提取用 ...

  7. 台湾大学林轩田机器学习基石课程学习笔记15 -- Validation

    红色石头的个人网站:redstonewill.com 上节课我们主要讲了为了避免overfitting,可以使用regularization方法来解决.在之前的EinEinE_{in}上加上一个reg ...

  8. 台湾大学林轩田机器学习基石课程学习笔记14 -- Regularization

    红色石头的个人网站:redstonewill.com 上节课我们介绍了过拟合发生的原因:excessive power, stochastic/deterministic noise 和limited ...

  9. 台湾大学林轩田机器学习基石课程学习笔记13 -- Hazard of Overfitting

    红色石头的个人网站:redstonewill.com 上节课我们主要介绍了非线性分类模型,通过非线性变换,将非线性模型映射到另一个空间,转换为线性模型,再来进行分类,分析了非线性变换可能会使计算复杂度 ...

  10. 台湾大学林轩田机器学习基石课程学习笔记12 -- Nonlinear Transformation

    红色石头的个人网站:redstonewill.com 上一节课,我们介绍了分类问题的三种线性模型,可以用来解决binary classification和multiclass classificati ...

最新文章

  1. Jackson 框架,轻易转换JSON
  2. 【Codeforces 506E】Mr.Kitayuta’s Gift【BZOJ 4214】黄昏下的礼物 dp转有限状态自动机+矩阵乘法优化...
  3. c语言对分查找实验报告,C语言实验指导.doc
  4. 不是碰不到更好的,是因为已经有了你!
  5. js判断是否为数字_第23题:JavaScript 中如何判断变量是否为数字 ?
  6. Treiber Stack简单分析
  7. TypeScript输入参数的默认值一例,以及对应生成的JavaScript代码分析
  8. C语言学习笔记—code:blocks工具debug调试异常
  9. 笔记本cpu排名_2020年双十一哪一款笔记本电脑值得买?高性价比笔记本电脑推荐(10月更新)...
  10. 实验11 B样条曲面生成
  11. Git和GitHub的关系和区别
  12. 3.1 视频服务器介绍
  13. 什么是开源软件? 开源和FOSS解释
  14. 阿拉伯数字转韩文、中文
  15. OpenGL 入门 17:立方体贴图
  16. 输入一个字符串,将其逆序输出。
  17. 计算机前置usb无法使用,电脑前置usb3.0接口没反应怎么办
  18. 数据中心网络设备管理(一)
  19. 透镜畸变和畸变校准(OpenCV)
  20. 2007全球杀毒软件排名 + 2007全球防火墙排名

热门文章

  1. 【IT168 新闻】用友U9 SOA管理软件业标杆吗?
  2. 手动解除加密文件夹 lockdir产生的文件com1.{d3e34b21-9d75-101a-8c3d-00aa001a1652}
  3. 替代 NetMeeting 的多人屏幕共享工具
  4. php网站友链直显代码,discuz 友情链接 代码
  5. newifid1网页服务器,newifi d1刷老毛子固件测试
  6. js 实现单击、双击事件
  7. 2011网站域名信息备案/报备流程详讲(新版)(原创)
  8. mysql 怎么存储毫秒_MySQL如何存储毫秒数据
  9. 算法分析与设计:棋盘覆盖问题(分治法)
  10. 伺服驱动器开发案例,迈信EP100