机器学习--Hoeffding Inequality--界定概率边界
问题
假设空间的样本复杂度(sample complexity):随着问题规模的增长导致所需训练样本的增长称为sample complexity。实际情况中,最有可能限制学习器成功的因素是训练数据的有限性。
在使用学习器的过程中,我们希望得到与训练数据拟合程度高的假设(hypothesis)。(在前面文章中提到,这样的假设我们称之为g)。这就要求训练错误率为0。而实际上,大部分情况下,我们找不到这样的hypothesis(通过学习机得到的hypothesis)在训练集上有错误率为0。所以退而求其次,我们只能要求通过学习机得到的hypothesis在训练集上错误率越低越好,最好接近0。
令D为有限的训练集,Ein(h)(in-sample error)为假设h在训练集D上的训练错误率,Eout(h)(out-of-sample error)是定义在全部数据的错误率。(由此可知Eout(h)是不可直接求出的,因为不太可能将学习完无限的数据)。令g代表假设集中训练错误率最小的假设。
Hoeffding Inequality
Hoeffding Inequality刻画的是某个事件的真实概率与m各不同的Bernoulli试验中观察到的频率之间的差异。由上述的Hoeffding Inequality可知,对我们是不可能得到真实的Eout(h),但我们可以通过让假设h在有限的训练集D上的错误率Ein(h)代表Eout(h)。什么意思呢?Hoeffding Inequality告诉我们:较好拟合训练数据的假设与该假设针对整个数据集的预测,这两者的误差率相差很大的情况发生的概率其实是很小的。
Bad Sample and Bad Data
坏的样本(Bad Sample):假设h在有限的训练集D上的错误率Ein(h)=0,而真实错误率Eout(h)=1/2的情况。
坏的数据(Bad Data):Ein和Eout差别很大的情况。(通常情况下是Eout很大,Ein很小。)
下面就将包含Bad data的Data用在多个h上。
上图说明:
对于任一个假设hi,由Hoeffding可知其在所有的数据上(包括Bad Data)上出现不好的情况的总体概率是很小的。
Bound of Bad Data
由上面的表中可以得到下面的结论:
对于所有的M(假设的个数),N(数据集规模)和阈值,Hoeffding Inequality都是有效的
我们不必要知道Eout,可以通过Ein来代替Eout(这句话的意思是Ein(g)=Eout(g) is PAC).
感谢台大林老师的课。
参考:
>[原]【机器学习基础】理解为什么机器可以学习2——Hoeffding不等式
更多技术干货请关注:
机器学习--Hoeffding Inequality--界定概率边界相关推荐
- 机器学习推导合集01-霍夫丁不等式的推导 Hoeffding Inequality
1.0 引言 笔者第一次接触霍夫丁不等式(Hoeffding Inequality)是在林轩田先生的机器学习基石课程(还是在b站上看的hh)上.可以说,当时没有系统学过概率论与数理统计(probabi ...
- 机器学习算法中的概率方法
雷锋网(公众号:雷锋网) AI 科技评论按,本文作者张皓,目前为南京大学计算机系机器学习与数据挖掘所(LAMDA)硕士生,研究方向为计算机视觉和机器学习,特别是视觉识别和深度学习. 个人主页:http ...
- 机器学习(二)概率密度分布之非参数估计
机器学习(二)概率密度估计之非参数估计 2018/2/19 by ChenjingDing 二.非参数估计 2.1直方图估计 直方图估计概率密度函数基本思想: 将数据空间分成许多个子空间,每一个子空间 ...
- 机器学习预测明星出轨概率
机器学习预测明星出轨概率 代码 package MLlibDemo.bayesfunc import org.apache.log4j.{Level, Logger} import org.apach ...
- 架构师如何界定项目边界 把握系统全局
原文地址: http://www.csdn.net/article/2011-10-10/305484 摘要:架构方法论的重要性已经毋庸置疑,传统方法已经越来越不能适应日益变化的IT架构.然而,架构方 ...
- sklearn 相关性分析_用sklearn机器学习预测泰坦尼克号生存概率
前言 本文为练手记录,适用于刚入门的朋友参照阅读练习,大神请绕道,谢谢! 阅读大约需要10分钟. 一.理解项目概况并提出问题 1.1 登陆官网查看项目概况 Titanic: Machine Learn ...
- 机器学习中用到的概率知识_机器学习中有关概率论知识的小结
一.引言 最近写了许多关于机器学习的学习笔记,里面经常涉及概率论的知识,这里对所有概率论知识做一个总结和复习,方便自己查阅,与广大博友共享,所谓磨刀不误砍柴工,希望博友们在这篇博文的帮助下,阅读机器学 ...
- 机器学习股票_使用概率机器学习来改善您的股票交易
机器学习股票 Note from Towards Data Science's editors: While we allow independent authors to publish artic ...
- 机器学习知识总结系列-机器学习中的数学-概率与数理统计(1-3-1)
文章目录 目录 1.概率与统计 1.1 机器学习与概率统计之间的关系 1.2 重要的统计量 1.2.1 期望 1.2.2 方差 1.2.3 协方差,相关系数 协方差 相关系数 1.2.4 矩 1.3 ...
最新文章
- Java数组学习笔记(遍历、排序、多维数组、命令行参数)
- OceanBase 十年:一群追梦人的成长史
- 蓝桥杯 ADV-94算法提高 复数归一化
- 大牛总结的 Git 使用技巧,写得太好了!
- Java计算文件MD5值
- html a 按钮效果图,水晶按钮_html/css_WEB-ITnose
- 从药价高昂引申的思考
- HTML与CSS--------p标签
- Win10 免快捷键进BIOS
- 计算机公式加法A C,概率公式c怎么计算
- BootstrapTable中文文档
- 应届生招聘的一些感悟和思考
- win10亮度无法调节,怎么处理
- 公司接口裸奔10年了,有必要用API接口签名验证吗?
- 不同范数下的余弦定理_用向量证明余弦定理是否存在逻辑错误?
- 关于储备(应急储备、管理储备、储备分析)的总结讨论
- java中什么是装饰者模式? 装饰者模式的使用!!
- win11打不开文件夹,一直转圈,卡死没反应,黑屏卡死
- JS验证码(不区分大小写)
- 简单好用的安卓程序开发平台E4A