计算学习理论PAC模型

计算学习理论

计算学习理论主要研究关于机器学习的一般化概念,比如什么样的问题才能被学习,什么样条件下学习才可能成功,怎么样评价一个学习的成功与否主要研究了两个机器学习的一般性框架,可能近似正确(PAC,probably approximate correct)框架和出错界限(mistakeboundary)框架.并提出了学习计算的复杂性,其中有计算复杂性(computational complexity,解决算法以较高概率收敛到成功的计算量),样本复杂性(sample complexity需要多少样本来实习这个学习),出错界限(收敛到成功前可以容忍多少错误分类).

错误率的概念

定义:X为样本空间,c:{X = 0,1}为要学习的概念空间,比如c(x)=1则为男,就是一个要被学习的属性.C是c的集合.D为X的概率分布,训练样本和测试样本都是从概率分布为D中抽取出来的.S为训练样本.H是学习器L对目标概念输出时考虑的目标假设集合(concept hypothesis),即L需要从H中输出一个针对目标概念c学习的目标假设结果h.

如何定义目标假设结果h和真实目标的关系,首先要定义假设h对应于学习的目标概念c和样本的分布D的真实错误率(true error),也称泛化误差(generalization error).其描述为应用h到将来按D抽取实例时的期望的错误率.

/*********************************************************************/

其中第二个等号后面是一个指示函数(indicator function),即集X的子集A的特征函数是函数，定义为其定义为:

/*********************************************************************/

这个真实错误率是高度依赖概率分布D的,如果是均匀分布则错误率为h命中真实实例的概率,如果命中的情况概率分布都为0的话,则错误率为1.

但是h关于c的真实错误率是不能由学习器L观察到的,L只能观察到训练错误率(training error).

两个错误率的关系为

关于学习复杂度主要解决的是训练错误率对真实错误率产生不正确估计的可能性有多大.

PAC概念

现在的训练学习的目标是:通过合理数量的随机抽取训练样本S通过合理的计算量来学习到整体的目标假设H.当然由于概率的存在时不可能完全正确即error_D(h)=0的,因此降低标准使得错误率小于一个可以任意小的常数e,再使得学习器的失败的概率也限定在一个任意小的常数d内.定义为:

³ 考虑定义在长度为n的实例集合X上的一概念类别C，学习器L使用假设空间H。当对所有cÎC，X上的分布D，e和d满足0<e, d<1/2，学习器L将以至少1-d输出一假设hÎH，使error_D(h)£e，这时称C是使用H的L可PAC学习的，所使用的时间为1/e，1/d，n以及size(c)的多项式函数

有限假设空间的样本复杂度

此处讨论一致学习器(consistentlearner),即可能时都输出能完美拟合训练数据S的假设H.

任意一致学习器所需训练样例的界限推导:

变型空间(version space),即所有可以正确分类训练样例S的所有假设h的集合:

首先需要界定变型空间中的错误率在一个界限内,称为 e-详尽(e-exhust):

当然这个错误率只是针对训练样本,学习器是无法得到目标概念是否详尽,只有知道确切目标概念的外界观察者(即知道所有的信息)才能知道.但通过一个概率方法可以将训练样例限定在一个范围内使得变型空间未e-详尽

² 定理7.1（变型空间的e-详尽化）

³ 若假设空间H有限，且D为目标概念c的一系列m>=1个独立随机抽取的样例，那么对于任意0=<e<=1，变型空间VS_H,S不是e-详尽的概率小于或等于：

意思就是训练样例数m界定了变型空间不是详尽的概率上界.当d小于这个上界时,就有可能在满足了d的条件是却不能满足e-详尽(疑问:概率更小并不表示就能满足详尽?概率更小并不代表不发生?)因此必须满足:

推得:

m随着假设空间H和1/d对数增长,随着错误率1/e线性增长.

由于H的增长,这个变型空间不是详尽的概率上界很容易就会超过1,因此可以给出一个更紧凑的边界

计算学习理论PAC模型相关推荐

独家 | 计算学习理论简介（附资源推荐）
作者:Jason Brownlee 翻译:陈超校对:王琦本文长度为3600字,建议阅读10+分钟本文为大家介绍了如何使用计算学习理论研究机器学习任务和方法,并对其中比较重要的子领域PAC学习以及 ...
机器学习基础（五）：计算学习理论（PAC学习、有限假设空间、VC维、Rademacher复杂度、稳定性）
5.计算学习理论计算学习理论computational learning theory:研究关于机器学习的基础理论几个常用不等式: 5.1 PAC学习概率近似正确(PAC)Probably Ap ...
机器学习：计算学习理论
计算学习理论介绍关键词: 鲁棒性关键词: [机器学习基础]理解为什么机器可以学习1--PAC学习模型--简书关键词:存在必要性:从机器学习角度出发 PAC学习理论:机器学习那些事关键词:不错的 ...
机器学习笔记(十二)计算学习理论
12.计算学习理论 12.1基础知识计算学习理论(computationallearning theory)研究的是关于通过计算来进行学习的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难 ...
计算学习理论、统计学习基础理论
computational learning theory:计算学习理论: 支持向量机是建立在统计学习理论 VC 维理论和结构风险最小化原理基础上的机器学习方法. 统计学习的基础就是统计推理(stat ...
机器学习（周志华）第十二章计算学习理论
关于周志华老师的<机器学习>这本书的学习笔记记录学习过程本博客记录Chapter12 文章目录 1 基础知识 2 PAC学习 3 有限假设空间 3.1 可分情形 3.2 不可分情形 4 ...
笔记 | 《机器学习》中计算学习理论（下）
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散编辑:Sophia 计算机视觉联盟报道 | 公众号 CVLianMeng 大家好,我是王博(Kings) 本次 ...
笔记 | 《机器学习》中计算学习理论（上）
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散编辑:Sophia 计算机视觉联盟报道 | 公众号 CVLianMeng 大家好,我是王博(Kings) 本次 ...
PRML读书会第一章 Introduction(机器学习基本概念、学习理论、模型选择、维灾等)...
主讲人常象宇大家好,我是likrain,本来我和网神说的是我可以作为机动,大家不想讲哪里我可以试试,结果大家不想讲第一章.估计都是大神觉得第一章比较简单,所以就由我来吧.我的背景是统计与数学,稍懂 ...
机器学习（西瓜书）注解：第12章计算学习理论
机器学习(西瓜书)注解:第12章计算学习理论本次更新第12章,计算学习理论.针对该章注解有任何问题欢迎在此留言~ 相信本章是很多读者望而却步的一章,相信本章是很多以本书为教材的老师在讲课时会直接跳 ...

计算学习理论PAC模型

计算学习理论PAC模型相关推荐

最新文章

热门文章