UA MATH574M 统计学习I 监督学习理论下
UA MATH574M 统计学习I 监督学习理论下
- Hoeffding’s inequality
- 证明
这一讲讨论上一讲结束时提到的监督学习的一致性的概念。假设风险函数 R(f)R(f)R(f)有界,则ERM具有一致性的充要条件是 Remp(f)R_{emp}(f)Remp(f)依概率单边一致收敛(uniformly one-sided convergence in probability)到 R(f)R(f)R(f), ∀f∈F\forall f \in \mathbf{F}∀f∈F,即
limn→∞P{supf∈F(R(f)−Remp(f))>ϵ}=0,∀ϵ>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (R(f)-R_{emp}(f)) >\epsilon\}=0, \forall \epsilon>0 n→∞limP{f∈Fsup(R(f)−Remp(f))>ϵ}=0,∀ϵ>0
定义VC-Entropy H(ϵ,n)H(\epsilon,n)H(ϵ,n)之后,可以得到依概率双边一致收敛(这个比单边一致收敛更严格)
limn→∞P{supf∈F(∣R(f)−Remp(f)∣)>ϵ}=0,∀ϵ>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\}=0, \forall \epsilon>0 n→∞limP{f∈Fsup(∣R(f)−Remp(f)∣)>ϵ}=0,∀ϵ>0
的充要条件是
limn→∞H(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞limnH(ϵ,n)=0,∀ϵ>0
这一讲的目标是给出这个充要条件的充分性部分证明,让大家对ERM的一致性有更深刻的理解。
定理
P{supf∈F(∣R(f)−Remp(f)∣)>ϵ}≤2H(ϵ,n)exp(−2nϵ2)P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\} \le 2H(\epsilon,n)\exp \left( -2n\epsilon^2 \right)P{f∈Fsup(∣R(f)−Remp(f)∣)>ϵ}≤2H(ϵ,n)exp(−2nϵ2)
这个定理是worst case analysis的一个概率不等式。根据这个概率不等式,如果
limn→∞H(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞limnH(ϵ,n)=0,∀ϵ>0
则必有
2H(ϵ,n)exp(−2nϵ2)=2H(ϵ,n)nne−2nϵ2→0,asn→∞2H(\epsilon,n)\exp \left( -2n\epsilon^2 \right) = 2 \frac{H(\epsilon,n)}{n} \frac{n}{e^{-2n\epsilon^2}} \to 0,as\ n\to \infty2H(ϵ,n)exp(−2nϵ2)=2nH(ϵ,n)e−2nϵ2n→0,as n→∞
依概率双边一致收敛就成立了。所以下面的目标就是证明这个概率不等式。
Hoeffding’s inequality
为了证明那个概率不等式,需要先引入Hoeffding’s inequality,这里贴一张他古早的论文的图,我就不打公式了
这个不等式证明主要步骤是(2.1),这一步来自
(2.1)的上界来源于(1.7)给出的上界中最小的上界,(1.7)是Markov不等式,所以(2.1)式的思想就是找Xˉ\bar{X}Xˉ的Chernoff Bound。我们需要考虑双边的概率,那么
P(∣Xˉ−p∣>ϵ)≤2exp(−2nϵ2)P(|\bar{X}-p|>\epsilon) \le 2\exp (-2n\epsilon^2)P(∣Xˉ−p∣>ϵ)≤2exp(−2nϵ2)
证明
要用Hoeffding’s inequality,首先需要风险函数能被标准化为1,显然同样的Loss下,经验风险与真实的风险函数有同样的尺度,所以可以做scaling。
P{supf∈F(∣R(f)−Remp(f)∣)>ϵ}=P{⋃f∈F(∣R(f)−Remp(f)∣>ϵ)}P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\} = P\{ \bigcup_{f \in \mathbf{F}} ( |R(f)-R_{emp}(f)| >\epsilon ) \}P{f∈Fsup(∣R(f)−Remp(f)∣)>ϵ}=P{f∈F⋃(∣R(f)−Remp(f)∣>ϵ)}
根据Bonferroni不等式
P{⋃f∈F(∣R(f)−Remp(f)∣>ϵ)}≤∑f∈FP(∣R(f)−Remp(f)∣>ϵ)P\{ \bigcup_{f \in \mathbf{F}} ( |R(f)-R_{emp}(f)| >\epsilon ) \} \le \sum_{f \in \mathbf{F}} P (|R(f)-R_{emp}(f)| >\epsilon)P{f∈F⋃(∣R(f)−Remp(f)∣>ϵ)}≤f∈F∑P(∣R(f)−Remp(f)∣>ϵ)
根据Hoeffding’s inequality
∑f∈FP(∣R(f)−Remp(f)∣>ϵ)≤∑f∈F2exp(−2nϵ2)\sum_{f \in \mathbf{F}} P (|R(f)-R_{emp}(f)| >\epsilon) \le \sum_{f \in \mathbf{F}}2\exp (-2n\epsilon^2)f∈F∑P(∣R(f)−Remp(f)∣>ϵ)≤f∈F∑2exp(−2nϵ2)
显然这个上界就和选取的算法fff无关了,因此这个上界就等于F\mathbf{F}F的测度乘以2exp(−2nϵ2)2\exp (-2n\epsilon^2)2exp(−2nϵ2)。在监督学习理论中,F\mathbf{F}F的测度并不能用实分析中的测度的概念,比如某类算法只有一个参数不同,参数的取值是所有自然数,并不代表F\mathbf{F}F的测度就是阿列夫零。监督学习中用来做model set的测度的是上一讲介绍过的VC-entropy,因此
∑f∈F2exp(−2nϵ2)=2H(ϵ,n)exp(−2nϵ2)\sum_{f \in \mathbf{F}}2\exp (-2n\epsilon^2) = 2H(\epsilon,n)\exp (-2n\epsilon^2)f∈F∑2exp(−2nϵ2)=2H(ϵ,n)exp(−2nϵ2)
UA MATH574M 统计学习I 监督学习理论下相关推荐
- UA MATH574M 统计学习I 监督学习理论
UA MATH574M 统计学习I 监督学习理论 统计决策理论 损失函数与风险函数 偏差-方差的权衡 最优估计量 贝叶斯规则 监督学习理论的基本概念 Optimal Learner 经验损失函数与ER ...
- UA MATH574M 统计学习 Variable Selection:Cross Validation
UA MATH574M 统计学习 Variable Selection:Cross Validation LOOCV LOOCV score的计算 K-fold CV Generalized CV 故 ...
- UA MATH574M 统计学习V Variable Selection: LASSO
UA MATH574M 统计学习V Variable Selection: LASSO 基本概念 Oracle Property Penalized Regularization Framework ...
- UA MATH574M 统计学习V Variable Selection简介
UA MATH574M 统计学习V Variable Selection简介 两个基础方法 Ranking Variables Best Subset Algorithm 对基础方法的改进 Gener ...
- UA MATH574M 统计学习II 二元分类例子与高维问题
UA MATH574M 统计学习II 二元分类例子与高维问题 数值例子 高维数据的二分类问题 Independence Rule 数值例子 用模拟数值做一个二分类的例子. library(MASS)# ...
- UA MATH574M 统计学习II 二元分类
UA MATH574M 统计学习II 二元分类基础 基础模型 Bayes分类器 均等成本 不等成本 线性概率模型 线性分类器 线性判别分析(LDA) Logistics回归 基础模型 假设一个二元分类 ...
- UA MATH574M 统计学习II 高维数据的二元分类
UA MATH574M 统计学习II 高维数据的二元分类 LDA的直观解释 NSC 上一讲提到了高维数据相比低维数据的特殊性,并介绍了处理高维数据二元分类最简单的一个模型independent rul ...
- 统计学习方法 学习笔记(1)统计学习方法及监督学习理论
统计学习方法及监督学习理论 1.1.统计学习 1.1.1.统计学习的特点 1.1.2.统计学习的对象 1.1.3.统计学习的目的 1.1.4.统计学习的方法 1.1.5.统计学习的研究 1.1.6.统 ...
- UA MATH566 统计理论 Bayes统计基础
UA MATH566 统计理论 Bayes统计基础 共轭分布 基于后验概率预测新的观测值 Bayes统计思想的基础是Bayes公式 P(Ci∣A)=P(A,Ci)P(A)=P(A∣Ci)P(Ci)∑i ...
最新文章
- Unrecognised tag: #39;encoding#39; (position: START_TAG seen ...lt;/versiongt;\r\n\t\t\t\tlt;en...
- docker笔记1_安装及常用命令
- C语言实现hash/xor8算法(附完整源码)
- docker 进入容器命令_Docker容器常用命令分享,赶紧收藏
- 在清华听演讲系列音频下载地址收集
- 数据库sql创建标量值函数_使用JSON_VALUE()从JSON数据中提取标量值
- 使用Julia进行图像处理--图像分割
- iso硬盘安装 凤凰os_X86平台国产OS 对比评测 | 凤凰os安装教程_什么值得买
- calendar控件使用 extjs_Calendar 日历控件使用
- vue中的数据可视化(echarts)和highcharts
- 磁卡、条码卡、IC卡、ID卡基本知识
- U盘中毒文件乱码怎么办
- nginx配置文件的基本参数略解
- 如何下载B站视频以及音频
- Java 老矣,尚能饭否?
- c语言ftell的作用,C语言的文件随机访问fseek()和ftell()函数
- 安卓手机怎么设置蓝牙耳机弹窗动画_链接2020.3.3其他团无线蓝牙耳机
- 互联网2B、2C的区别ToB时代的应对策略
- SoLoMo:移动互联网创新的“三维模式”分析
- [国家集训队]整数的lqp拆分 数学推导 打表找规律
热门文章
- eclipse+adt下开发android微信红包自动抢(AccessibilityService类)
- CentOS 6.3下源码安装LAMP(Linux+Apache+Mysql+Php)环境
- OpenGL SDK glew(OpenGL Extension Wrangler Library )
- 实现微服务架构-微服务架构需要解决的问题
- 分支结构||分支循环结构||使用原生js遍历对象
- Spring Boot 集成 Activiti
- Python 技术篇-mac下安装、卸载pip方法
- C++——类访问修饰符
- 按键处理技巧(状态机)
- CTFshow php特性 web112