5、计算学习理论

计算学习理论computational learning theory:研究关于机器学习的基础理论

几个常用不等式

5.1 PAC学习

概率近似正确PAC)Probably Approximately Correct:最基本的计算学习理论
——以较大的概率学得误差满足预设上限的模型,PAC 学习给出了一个抽象地刻画机器学习能力的框架


目标概念c∈H,则H中存在假设能将所有示例按与真实标记一致的方式完全分开,称该问题对学习算法是可分的separable/一致的consistent;
c∉H,则H中不存在任何假设能将所有示例完全正确分开,称不可分的non-separable/不一致的non-consistent

|H|有限时,称假设空间H为有限假设空间,否则称无限假设空间

5.2有限假设空间

5.2.1可分情形(c∈H)

给定包含m个样例的训练集D,如何找出满足误差参数的假设

→D中样例标记都是由目标概念c赋予的,且c存在于H中,则只需保留与D一致的假设,剔除与D不一致的假设即可(训练集规模有限时无法区分等效假设)

需多少样例才能学得目标概念c的有效近似
→保证泛化误差大于,且在训练集上表现完美的所有假设出现概率之和不大于即可:

5.2.2不可分情形(c∉H)

假定对于任何h∈H,,也就是H中任意一个假设都会在训练集上出现或多或少的错误

在H的所有假设中找出最好的一个

H中泛化误差最小的假设是,于是可将PAC学习推广到c∉H的情况,称“不可知学习agnostic learning”:

5.3 刻画假设空间复杂度的途径

5.3.1 VC维(Vapnik-Chervonenkis dimension)

考虑假设空间的VC维:度量假设空间的复杂度
增长函数growth function:假设空间H对m个示例所能赋予标记的最大可能结果数。(结果数越大,H的表示能力越强,适应能力也越强)

→利用增长函数估计经验误差与泛化误差之间的关系:

对二分类问题来说,H中的假设对D中示例赋予标记的每种可能结果称为D的一种"对分dichotomy";若假设空间H能实现示例集D上的所有对分,即,则称示例集D能被假设空间H"打散shattering"
假设空间H的VC维是能被H打散的最大示例集的大小

VC(H)=d表明存在大小为d的示例集能被假设空间H打散
VC维的定义与数据分布无关

VC维与增长函数的联系:
基于VC维的泛化误差界

(只与样例数目m有关,收敛速率为O(1/√m),分布无关distribution-free,数据独立data-independent)

任何VC维有限的假设空间H都是(不可知)PAC可学习的

5.3.2 Rademacher复杂度

与VC维不同的是,Rademacher复杂度在一定程度上考虑了数据分布

Rademacher复杂度与增长函数联系:

→基于Rademacher复杂度的关于函数空间F的泛化误差界

5.3.3稳定性stability

获得与算法有关的分析结果:算法在输入发生变化时,输出是否会随之发生较大的变化

损失函数
刻画假设的预测标记与真实标记之间的差别,简记为
——泛化损失:
经验损失:
留一损失:

5.3.3.1算法的均匀稳定性uniform stability:

5.3.3.2基于稳定性分析推导出的算法的泛化误差界:


经验损失与泛化损失之间差别的收敛率为β√m,若β=O(1/m),则可保证收敛率为O(1/√m),与基于VC维和Rademacher复杂度得到的收敛率一致

→稳定性分析不必考虑假设空间中所有可能的假设,只需根据算法自身的特性(稳定性)来讨论输出假设的泛化误差界

5.3.3.3经验风险最小化ERM(Empirical Risk Minimization):


→若学习算法是ERM且稳定的,则假设空间H可学习

未完待续,喜欢的朋友可以关注后续文章~

机器学习基础系列文章回顾:
机器学习基础(一):简介
机器学习基础(二):模型评估与选择
机器学习基础(三):决策树
机器学习基础(四):特征选择与稀疏学习

参考书目:
周志华.《机器学习》

机器学习基础(五):计算学习理论(PAC学习、有限假设空间、VC维、Rademacher复杂度、稳定性)相关推荐

  1. 笔记 | 《机器学习》中计算学习理论(下)

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 大家好,我是王博(Kings) 本次 ...

  2. 笔记 | 《机器学习》中计算学习理论(上)

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 大家好,我是王博(Kings) 本次 ...

  3. 机器学习理论: PAC学习

    (这篇文章是本人学习机器学习课程CS685后的一些总结.如有任何错误,欢迎指出) 1. 基本概念定义 当我们利用机器学习构建模型时,我们获得训练集,然后利用算法从训练集中学习到模型,接着就可以用该模型 ...

  4. 要不要读博?机器学习博五学生和强化学习博士展开了一场battle

    机器之心报道 编辑:魔王 要不要读博?读博值不值得?如何才能顺利完成博士生涯,并为职业发展打好基础?最近,社交网络上就此展开了一场争论. 读博还是不读博,这是个问题. 是否读博.读博有多难是个经久不衰 ...

  5. 【机器学习基础】机器学习理论最佳入门!周志华宝箱书搭档,开源教程《钥匙书-KeyBook》发布...

    作者:詹好.Datawhale开源项目组 开源初衷 近年来,多样化的机器学习相关教材和视频层出不穷,不仅包含了入门级机器学习宝典,还包括一些系统性书籍. 但国内在机器学习理论(Machine Lear ...

  6. 【机器学习基础】通俗讲解集成学习算法!

    作者:黄星源,Datawhale优秀学习者 本文以图文的形式对模型算法中的集成学习,以及对集中学习在深度学习中的应用进行了详细解读. 数据及背景 https://tianchi.aliyun.com/ ...

  7. 机器学习基础:模型集成/集成学习

    目录 1. 什么是集成学习 1.1 分类器集成的结果 1.2 构造基分类器的三种方法 1.3 多个基分类器如何进行分类 2. 分析预测模型的泛化误差 3. 分类器集成方法 3.1 装袋法 Baggin ...

  8. 机器学习基础 之 特征选择和稀疏学习

    文章目录 特征选择 1.过滤式选择 2.包裹式选择 3.嵌入式选择 稀疏学习 稀疏表示与字典学习 压缩感知 转自: https://www.zhenxiangsimple.com/2019/04/09 ...

  9. 机器学习笔记(十二)计算学习理论

    12.计算学习理论 12.1基础知识 计算学习理论(computationallearning theory)研究的是关于通过计算来进行学习的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难 ...

最新文章

  1. linux使用yum本地源
  2. 排序算法的实现(C/C++实现)
  3. ERROR: 资源短缺 PXA_NO_FREE_SPACE
  4. Kettle使用_3变量替换之获取系统信息与命名参数
  5. python多线程共享全局变量_Python多线程-共享全局变量
  6. 安全市场五巨头将面临新兴厂商的挑战
  7. html答题赚钱源码,WTS在线答题系统 v1.0.0
  8. Java项目几个月能完成_c#项目转JAVA,第5个月,基本完成
  9. 【转】漫谈ANN(2):BP神经网络
  10. 风险事件文本分类(达观杯Rank4)
  11. 【Ardunio】开发入门教程【二】数据类型
  12. Ubuntu 16.04的k8s安装配置
  13. Vijos P1848 计数问题
  14. GNN-频域-2016:ChebNet【频谱图卷积】【切比雪夫多项式(ChebShev Polynomial)】【应用切比雪夫多项式加速特征矩阵求解】【GCN来源于对ChebNet的进一步简化与近似】
  15. coreldraw做生化标志_CorelDRAW标志绘制图文教程,logo设计制作教程
  16. word里面的ctrl+z快捷键无效|ctrl+z 无效 最新解决方法
  17. 论文笔记 SiamMask : Fast Online Object Tracking and Segmentation: A Unifying Approach
  18. Django-模型层
  19. 编程语言摆地摊,我去逛了逛
  20. 【HTML】HTML首页---拼多多首页界面-网易首页界面

热门文章

  1. 查看文本是linux格式还是windows格式;以及实现linux文本格式和linux文本格式转换
  2. Centos登录日志 last和lastb命令整理
  3. deepin linux 2014下载,Deepin 2014官方正式发布下载
  4. 「利器x播客」访谈 006:播客不应该是把自己聊爽了放在第一位么?
  5. Android游戏: 连连看
  6. Copula理论学习(一)----引例
  7. Kmeans聚类算法及其matlab源码
  8. Qt for Python 6发布了
  9. python计算财务指标,Python-股票-图表显示主要财务指标
  10. 李煜《浪淘沙令·帘外雨潺潺》赏析