• RECAP
  • SOLUTION
    • m增长速度受限
    • 将m带回原式中的M
  • 例子
  • 总结

RECAP

机器学习是可行的,如果假设集H是有限的并且统计样本数据(statistical data)很大。

那么,问题来了,PLA算法中,假设集是二维空间中的直线,有无数条,不符合上面的条件,那么还可行么?

SOLUTION

m增长速度受限

将类似的假设集合并,如果是二分类问题,有N个点的话,理论上会有2^N个分类情况mHm_H,但实际上并不会这么多。

mHm_H: max number of dichotomies
B(N,K)B(N,K):如果break point在第k个点上,N个数据点最大的dichotomies
∑k−1i=0C(N,k) \sum_{i=0}^{k-1} C(N,k):B(N,K)B(N,K)的上限,增长速度是O(Nk−1)O(N^{k-1})

mH<=B(N,K)<=∑i=0k−1C(N,k)<=2N

m_H

通过上面的公式,我们知道:
如果可以将mHm_H代替原不等式的M,那么多项式函数的增长速度小于指数函数的增长速度,所以误差率的上限是有保证的,也就是说学习是可行的。

注意:
对于converx图,mH=2Nm_H=2^N,这种情况很难比较。

将m带回原式中的M

通过一些数学变换,可以将m带回原式中的M,得到

这表明,随着数据集的增多,如果mHm_H的增长速度受限,或者说其有break point点,那么当N足够大的时候,学习是可行的。

这就是VC维理论。

例子

总结

ML基石_56_TheoryOfGeneralization相关推荐

  1. ML基石_1_LearningProblem

    课程逻辑 学习与机器学习 机器学习的适用 机器学习概图 课程逻辑 本系列文章属于台湾大学<机器学习基石>的笔记. 该课程主要包括以下四个部分 1. When can machine lea ...

  2. ML基石_14_Regularization

    知识脉络 模型太复杂容易造成过拟合,因此让模型从复杂的慢慢的变简单. step back matrix form lagrange multiplier augmented error other v ...

  3. ML基石_11_HazardOfOverfitting

    学习曲线来说,当数据量N很小的时候,large generation会造成很大的Eout. 造成overfit的主要有四种因素: 1. 资料量不够 2. stochastic noise太多 3. 目 ...

  4. ML基石_12_NonLinearTransformation

    retro quadratic hypothesis nonlinear transform price on nonlinear transform structured hypothesis se ...

  5. ML基石_LinearModelsForClassfication

    retro start linear models for 01 classification 回顾线性模型 误差函数分析 解决步骤 stochastic gradient descent 概述 PL ...

  6. ML基石_10_LogisticRegression

    logistic regression problem Y是概率的情况 相同数据不同目标函数 logis假设集 logistic regression error error already styd ...

  7. ML基石_9_LinearRegression

    linear regression problem linear regression algorithm 优化问题 求梯度 算法 generalization issue 是否学到了东西 上限保证 ...

  8. ML基石_8_NoiseAndError

    recap Noise and Probabilistic Target noise来源 Probabilistic Target Error Measure Algorithmic Error Me ...

  9. ML基石_4_FeasibilityOfLearning

    回顾 focus: binary classification or regression from a batch of supurvised data with concrete features ...

最新文章

  1. bootstrap:按钮,下拉菜单
  2. Java Web 高性能开发,前端的高性能
  3. autossh配置socks代理
  4. php双向链表+性能,PHP双向链表定义与用法示例
  5. 信息学奥赛一本通(1186:出现次数超过一半的数)
  6. 动力电池溯源追溯系统_来溯有源的区块链溯源系统、追溯系统为什么做的好?值得推荐!...
  7. [转]sqlserver 创建分区表
  8. Python中的正则表达式(re)
  9. 【机器学习】集成算法使用样例
  10. java 员工管理系统
  11. 金蝶怎么录入数量金额_金蝶KIS专业版如何录入初始余额
  12. VUE 动态响应的实现
  13. 利用集成支持向量机模型评估信贷风险
  14. 2019配电安规电子版_2018年配电安规.docx
  15. 小米蓝牙耳机airdots青春版双耳模式
  16. flutter中页面跳转之Navigator
  17. PostgreSQL 时序数据案例 - 时间流逝, 自动压缩, 同比\环比
  18. Python爬虫 图片爬取简陋版
  19. 美国南加大工程学院计算机,美国南加州大学工程学院排名是多少?
  20. 【网络安全】SQL注入-XFF头注入

热门文章

  1. python中年大叔学编程_中年大叔学编程-Python简单操作文件
  2. 电脑显示未安装任何音频输出设备_一套完整的台式电脑有哪些配置
  3. OpenCV 4.5.4 刚刚发布!新增SoftNMS、DNN模型8位量化等功能
  4. 6D位姿估计Point Pair Feature (PPF)算法详解
  5. CVPR2021 | PAConv:一种位置自适应卷积,点云分类、分割任务表现SOTA
  6. php地址后面拼接页码,php分页类尾部页码导航代码
  7. NoClassDefFoundError: org/springframework/core/ErrorCoded 报错
  8. ListFileItem fileItems=sfu.parseRequest(request); fileitems 为,空
  9. FDA转向AI加快药物研发和审批速度
  10. 数据分析工具Pandas(3):Pandas的对齐运算