ML基石_56_TheoryOfGeneralization
- RECAP
- SOLUTION
- m增长速度受限
- 将m带回原式中的M
- 例子
- 总结
RECAP
机器学习是可行的,如果假设集H是有限的并且统计样本数据(statistical data)很大。
那么,问题来了,PLA算法中,假设集是二维空间中的直线,有无数条,不符合上面的条件,那么还可行么?
SOLUTION
m增长速度受限
将类似的假设集合并,如果是二分类问题,有N个点的话,理论上会有2^N个分类情况mHm_H,但实际上并不会这么多。
mHm_H: max number of dichotomies
B(N,K)B(N,K):如果break point在第k个点上,N个数据点最大的dichotomies
∑k−1i=0C(N,k) \sum_{i=0}^{k-1} C(N,k):B(N,K)B(N,K)的上限,增长速度是O(Nk−1)O(N^{k-1})
m_H
通过上面的公式,我们知道:
如果可以将mHm_H代替原不等式的M,那么多项式函数的增长速度小于指数函数的增长速度,所以误差率的上限是有保证的,也就是说学习是可行的。
注意:
对于converx图,mH=2Nm_H=2^N,这种情况很难比较。
将m带回原式中的M
通过一些数学变换,可以将m带回原式中的M,得到
这表明,随着数据集的增多,如果mHm_H的增长速度受限,或者说其有break point
点,那么当N足够大的时候,学习是可行的。
这就是VC维理论。
例子
总结
ML基石_56_TheoryOfGeneralization相关推荐
- ML基石_1_LearningProblem
课程逻辑 学习与机器学习 机器学习的适用 机器学习概图 课程逻辑 本系列文章属于台湾大学<机器学习基石>的笔记. 该课程主要包括以下四个部分 1. When can machine lea ...
- ML基石_14_Regularization
知识脉络 模型太复杂容易造成过拟合,因此让模型从复杂的慢慢的变简单. step back matrix form lagrange multiplier augmented error other v ...
- ML基石_11_HazardOfOverfitting
学习曲线来说,当数据量N很小的时候,large generation会造成很大的Eout. 造成overfit的主要有四种因素: 1. 资料量不够 2. stochastic noise太多 3. 目 ...
- ML基石_12_NonLinearTransformation
retro quadratic hypothesis nonlinear transform price on nonlinear transform structured hypothesis se ...
- ML基石_LinearModelsForClassfication
retro start linear models for 01 classification 回顾线性模型 误差函数分析 解决步骤 stochastic gradient descent 概述 PL ...
- ML基石_10_LogisticRegression
logistic regression problem Y是概率的情况 相同数据不同目标函数 logis假设集 logistic regression error error already styd ...
- ML基石_9_LinearRegression
linear regression problem linear regression algorithm 优化问题 求梯度 算法 generalization issue 是否学到了东西 上限保证 ...
- ML基石_8_NoiseAndError
recap Noise and Probabilistic Target noise来源 Probabilistic Target Error Measure Algorithmic Error Me ...
- ML基石_4_FeasibilityOfLearning
回顾 focus: binary classification or regression from a batch of supurvised data with concrete features ...
最新文章
- bootstrap:按钮,下拉菜单
- Java Web 高性能开发,前端的高性能
- autossh配置socks代理
- php双向链表+性能,PHP双向链表定义与用法示例
- 信息学奥赛一本通(1186:出现次数超过一半的数)
- 动力电池溯源追溯系统_来溯有源的区块链溯源系统、追溯系统为什么做的好?值得推荐!...
- [转]sqlserver 创建分区表
- Python中的正则表达式(re)
- 【机器学习】集成算法使用样例
- java 员工管理系统
- 金蝶怎么录入数量金额_金蝶KIS专业版如何录入初始余额
- VUE 动态响应的实现
- 利用集成支持向量机模型评估信贷风险
- 2019配电安规电子版_2018年配电安规.docx
- 小米蓝牙耳机airdots青春版双耳模式
- flutter中页面跳转之Navigator
- PostgreSQL 时序数据案例 - 时间流逝, 自动压缩, 同比\环比
- Python爬虫 图片爬取简陋版
- 美国南加大工程学院计算机,美国南加州大学工程学院排名是多少?
- 【网络安全】SQL注入-XFF头注入
热门文章
- python中年大叔学编程_中年大叔学编程-Python简单操作文件
- 电脑显示未安装任何音频输出设备_一套完整的台式电脑有哪些配置
- OpenCV 4.5.4 刚刚发布!新增SoftNMS、DNN模型8位量化等功能
- 6D位姿估计Point Pair Feature (PPF)算法详解
- CVPR2021 | PAConv:一种位置自适应卷积,点云分类、分割任务表现SOTA
- php地址后面拼接页码,php分页类尾部页码导航代码
- NoClassDefFoundError: org/springframework/core/ErrorCoded 报错
- ListFileItem fileItems=sfu.parseRequest(request); fileitems 为,空
- FDA转向AI加快药物研发和审批速度
- 数据分析工具Pandas(3):Pandas的对齐运算