问题


假设空间的样本复杂度(sample complexity):随着问题规模的增长导致所需训练样本的增长称为sample complexity。实际情况中,最有可能限制学习器成功的因素是训练数据的有限性。

在使用学习器的过程中,我们希望得到与训练数据拟合程度高的假设(hypothesis)。(在前面文章中提到,这样的假设我们称之为g)。这就要求训练错误率为0。而实际上,大部分情况下,我们找不到这样的hypothesis(通过学习机得到的hypothesis)在训练集上有错误率为0。所以退而求其次,我们只能要求通过学习机得到的hypothesis在训练集上错误率越低越好,最好接近0。

令D为有限的训练集,Ein(h)(in-sample error)为假设h在训练集D上的训练错误率,Eout(h)(out-of-sample error)是定义在全部数据的错误率。(由此可知Eout(h)是不可直接求出的,因为不太可能将学习完无限的数据)。令g代表假设集中训练错误率最小的假设。

Hoeffding Inequality



Hoeffding Inequality刻画的是某个事件的真实概率与m各不同的Bernoulli试验中观察到的频率之间的差异。由上述的Hoeffding Inequality可知,对我们是不可能得到真实的Eout(h),但我们可以通过让假设h在有限的训练集D上的错误率Ein(h)代表Eout(h)。什么意思呢?Hoeffding Inequality告诉我们:较好拟合训练数据的假设与该假设针对整个数据集的预测,这两者的误差率相差很大的情况发生的概率其实是很小的。

Bad Sample and Bad Data


坏的样本(Bad Sample):假设h在有限的训练集D上的错误率Ein(h)=0,而真实错误率Eout(h)=1/2的情况。
坏的数据(Bad Data):Ein和Eout差别很大的情况。(通常情况下是Eout很大,Ein很小。)
下面就将包含Bad data的Data用在多个h上。

上图说明:
对于任一个假设hi,由Hoeffding可知其在所有的数据上(包括Bad Data)上出现不好的情况的总体概率是很小的。

Bound of Bad Data
由上面的表中可以得到下面的结论:

对于所有的M(假设的个数),N(数据集规模)和阈值,Hoeffding Inequality都是有效的
我们不必要知道Eout,可以通过Ein来代替Eout(这句话的意思是Ein(g)=Eout(g) is PAC).

感谢台大林老师的课。
参考:

>[原]【机器学习基础】理解为什么机器可以学习2——Hoeffding不等式

更多技术干货请关注:

机器学习--Hoeffding Inequality--界定概率边界相关推荐

  1. 机器学习推导合集01-霍夫丁不等式的推导 Hoeffding Inequality

    1.0 引言 笔者第一次接触霍夫丁不等式(Hoeffding Inequality)是在林轩田先生的机器学习基石课程(还是在b站上看的hh)上.可以说,当时没有系统学过概率论与数理统计(probabi ...

  2. 机器学习算法中的概率方法

    雷锋网(公众号:雷锋网) AI 科技评论按,本文作者张皓,目前为南京大学计算机系机器学习与数据挖掘所(LAMDA)硕士生,研究方向为计算机视觉和机器学习,特别是视觉识别和深度学习. 个人主页:http ...

  3. 机器学习(二)概率密度分布之非参数估计

    机器学习(二)概率密度估计之非参数估计 2018/2/19 by ChenjingDing 二.非参数估计 2.1直方图估计 直方图估计概率密度函数基本思想: 将数据空间分成许多个子空间,每一个子空间 ...

  4. 机器学习预测明星出轨概率

    机器学习预测明星出轨概率 代码 package MLlibDemo.bayesfunc import org.apache.log4j.{Level, Logger} import org.apach ...

  5. 架构师如何界定项目边界 把握系统全局

    原文地址: http://www.csdn.net/article/2011-10-10/305484 摘要:架构方法论的重要性已经毋庸置疑,传统方法已经越来越不能适应日益变化的IT架构.然而,架构方 ...

  6. sklearn 相关性分析_用sklearn机器学习预测泰坦尼克号生存概率

    前言 本文为练手记录,适用于刚入门的朋友参照阅读练习,大神请绕道,谢谢! 阅读大约需要10分钟. 一.理解项目概况并提出问题 1.1 登陆官网查看项目概况 Titanic: Machine Learn ...

  7. 机器学习中用到的概率知识_机器学习中有关概率论知识的小结

    一.引言 最近写了许多关于机器学习的学习笔记,里面经常涉及概率论的知识,这里对所有概率论知识做一个总结和复习,方便自己查阅,与广大博友共享,所谓磨刀不误砍柴工,希望博友们在这篇博文的帮助下,阅读机器学 ...

  8. 机器学习股票_使用概率机器学习来改善您的股票交易

    机器学习股票 Note from Towards Data Science's editors: While we allow independent authors to publish artic ...

  9. 机器学习知识总结系列-机器学习中的数学-概率与数理统计(1-3-1)

    文章目录 目录 1.概率与统计 1.1 机器学习与概率统计之间的关系 1.2 重要的统计量 1.2.1 期望 1.2.2 方差 1.2.3 协方差,相关系数 协方差 相关系数 1.2.4 矩 1.3 ...

最新文章

  1. Java数组学习笔记(遍历、排序、多维数组、命令行参数)
  2. OceanBase 十年:一群追梦人的成长史
  3. 蓝桥杯 ADV-94算法提高 复数归一化
  4. 大牛总结的 Git 使用技巧,写得太好了!
  5. Java计算文件MD5值
  6. html a 按钮效果图,水晶按钮_html/css_WEB-ITnose
  7. 从药价高昂引申的思考
  8. HTML与CSS--------p标签
  9. Win10 免快捷键进BIOS
  10. 计算机公式加法A C,概率公式c怎么计算
  11. BootstrapTable中文文档
  12. 应届生招聘的一些感悟和思考
  13. win10亮度无法调节,怎么处理
  14. 公司接口裸奔10年了,有必要用API接口签名验证吗?
  15. 不同范数下的余弦定理_用向量证明余弦定理是否存在逻辑错误?
  16. 关于储备(应急储备、管理储备、储备分析)的总结讨论
  17. java中什么是装饰者模式? 装饰者模式的使用!!
  18. win11打不开文件夹,一直转圈,卡死没反应,黑屏卡死
  19. JS验证码(不区分大小写)
  20. 简单好用的安卓程序开发平台E4A

热门文章

  1. Too many open files问题解决
  2. CPQuery, 解决拼接SQL的新方法
  3. SqlServer sa 用户登录失败的解决方法
  4. HTML表中的自动换行
  5. 符号链接和硬链接有什么区别?
  6. 交互式线上科学期刊Distill上线,Ian Goodfellow表示“学ML就找它”
  7. [原创]浅谈对华为34岁以上员工“退休”
  8. 一种高效的可变行高列表行定位算法
  9. Mysql-cobar集群安装部署手册
  10. java设计模式_状态模式