UA MATH574M 统计学习I 监督学习理论下

  • Hoeffding’s inequality
  • 证明

这一讲讨论上一讲结束时提到的监督学习的一致性的概念。假设风险函数 R(f)R(f)R(f)有界,则ERM具有一致性的充要条件是 Remp(f)R_{emp}(f)Remp​(f)依概率单边一致收敛(uniformly one-sided convergence in probability)到 R(f)R(f)R(f), ∀f∈F\forall f \in \mathbf{F}∀f∈F,即
lim⁡n→∞P{sup⁡f∈F(R(f)−Remp(f))>ϵ}=0,∀ϵ>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (R(f)-R_{emp}(f)) >\epsilon\}=0, \forall \epsilon>0 n→∞lim​P{f∈Fsup​(R(f)−Remp​(f))>ϵ}=0,∀ϵ>0
定义VC-Entropy H(ϵ,n)H(\epsilon,n)H(ϵ,n)之后,可以得到依概率双边一致收敛(这个比单边一致收敛更严格)
lim⁡n→∞P{sup⁡f∈F(∣R(f)−Remp(f)∣)>ϵ}=0,∀ϵ>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\}=0, \forall \epsilon>0 n→∞lim​P{f∈Fsup​(∣R(f)−Remp​(f)∣)>ϵ}=0,∀ϵ>0
的充要条件是
lim⁡n→∞H(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞lim​nH(ϵ,n)​=0,∀ϵ>0
这一讲的目标是给出这个充要条件的充分性部分证明,让大家对ERM的一致性有更深刻的理解。

定理
P{sup⁡f∈F(∣R(f)−Remp(f)∣)>ϵ}≤2H(ϵ,n)exp⁡(−2nϵ2)P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\} \le 2H(\epsilon,n)\exp \left( -2n\epsilon^2 \right)P{f∈Fsup​(∣R(f)−Remp​(f)∣)>ϵ}≤2H(ϵ,n)exp(−2nϵ2)
这个定理是worst case analysis的一个概率不等式。根据这个概率不等式,如果
lim⁡n→∞H(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞lim​nH(ϵ,n)​=0,∀ϵ>0
则必有
2H(ϵ,n)exp⁡(−2nϵ2)=2H(ϵ,n)nne−2nϵ2→0,asn→∞2H(\epsilon,n)\exp \left( -2n\epsilon^2 \right) = 2 \frac{H(\epsilon,n)}{n} \frac{n}{e^{-2n\epsilon^2}} \to 0,as\ n\to \infty2H(ϵ,n)exp(−2nϵ2)=2nH(ϵ,n)​e−2nϵ2n​→0,as n→∞
依概率双边一致收敛就成立了。所以下面的目标就是证明这个概率不等式。

Hoeffding’s inequality

为了证明那个概率不等式,需要先引入Hoeffding’s inequality,这里贴一张他古早的论文的图,我就不打公式了

这个不等式证明主要步骤是(2.1),这一步来自

(2.1)的上界来源于(1.7)给出的上界中最小的上界,(1.7)是Markov不等式,所以(2.1)式的思想就是找Xˉ\bar{X}Xˉ的Chernoff Bound。我们需要考虑双边的概率,那么
P(∣Xˉ−p∣>ϵ)≤2exp⁡(−2nϵ2)P(|\bar{X}-p|>\epsilon) \le 2\exp (-2n\epsilon^2)P(∣Xˉ−p∣>ϵ)≤2exp(−2nϵ2)

证明

要用Hoeffding’s inequality,首先需要风险函数能被标准化为1,显然同样的Loss下,经验风险与真实的风险函数有同样的尺度,所以可以做scaling。
P{sup⁡f∈F(∣R(f)−Remp(f)∣)>ϵ}=P{⋃f∈F(∣R(f)−Remp(f)∣>ϵ)}P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\} = P\{ \bigcup_{f \in \mathbf{F}} ( |R(f)-R_{emp}(f)| >\epsilon ) \}P{f∈Fsup​(∣R(f)−Remp​(f)∣)>ϵ}=P{f∈F⋃​(∣R(f)−Remp​(f)∣>ϵ)}
根据Bonferroni不等式
P{⋃f∈F(∣R(f)−Remp(f)∣>ϵ)}≤∑f∈FP(∣R(f)−Remp(f)∣>ϵ)P\{ \bigcup_{f \in \mathbf{F}} ( |R(f)-R_{emp}(f)| >\epsilon ) \} \le \sum_{f \in \mathbf{F}} P (|R(f)-R_{emp}(f)| >\epsilon)P{f∈F⋃​(∣R(f)−Remp​(f)∣>ϵ)}≤f∈F∑​P(∣R(f)−Remp​(f)∣>ϵ)
根据Hoeffding’s inequality
∑f∈FP(∣R(f)−Remp(f)∣>ϵ)≤∑f∈F2exp⁡(−2nϵ2)\sum_{f \in \mathbf{F}} P (|R(f)-R_{emp}(f)| >\epsilon) \le \sum_{f \in \mathbf{F}}2\exp (-2n\epsilon^2)f∈F∑​P(∣R(f)−Remp​(f)∣>ϵ)≤f∈F∑​2exp(−2nϵ2)
显然这个上界就和选取的算法fff无关了,因此这个上界就等于F\mathbf{F}F的测度乘以2exp⁡(−2nϵ2)2\exp (-2n\epsilon^2)2exp(−2nϵ2)。在监督学习理论中,F\mathbf{F}F的测度并不能用实分析中的测度的概念,比如某类算法只有一个参数不同,参数的取值是所有自然数,并不代表F\mathbf{F}F的测度就是阿列夫零。监督学习中用来做model set的测度的是上一讲介绍过的VC-entropy,因此
∑f∈F2exp⁡(−2nϵ2)=2H(ϵ,n)exp⁡(−2nϵ2)\sum_{f \in \mathbf{F}}2\exp (-2n\epsilon^2) = 2H(\epsilon,n)\exp (-2n\epsilon^2)f∈F∑​2exp(−2nϵ2)=2H(ϵ,n)exp(−2nϵ2)

UA MATH574M 统计学习I 监督学习理论下相关推荐

  1. UA MATH574M 统计学习I 监督学习理论

    UA MATH574M 统计学习I 监督学习理论 统计决策理论 损失函数与风险函数 偏差-方差的权衡 最优估计量 贝叶斯规则 监督学习理论的基本概念 Optimal Learner 经验损失函数与ER ...

  2. UA MATH574M 统计学习 Variable Selection:Cross Validation

    UA MATH574M 统计学习 Variable Selection:Cross Validation LOOCV LOOCV score的计算 K-fold CV Generalized CV 故 ...

  3. UA MATH574M 统计学习V Variable Selection: LASSO

    UA MATH574M 统计学习V Variable Selection: LASSO 基本概念 Oracle Property Penalized Regularization Framework ...

  4. UA MATH574M 统计学习V Variable Selection简介

    UA MATH574M 统计学习V Variable Selection简介 两个基础方法 Ranking Variables Best Subset Algorithm 对基础方法的改进 Gener ...

  5. UA MATH574M 统计学习II 二元分类例子与高维问题

    UA MATH574M 统计学习II 二元分类例子与高维问题 数值例子 高维数据的二分类问题 Independence Rule 数值例子 用模拟数值做一个二分类的例子. library(MASS)# ...

  6. UA MATH574M 统计学习II 二元分类

    UA MATH574M 统计学习II 二元分类基础 基础模型 Bayes分类器 均等成本 不等成本 线性概率模型 线性分类器 线性判别分析(LDA) Logistics回归 基础模型 假设一个二元分类 ...

  7. UA MATH574M 统计学习II 高维数据的二元分类

    UA MATH574M 统计学习II 高维数据的二元分类 LDA的直观解释 NSC 上一讲提到了高维数据相比低维数据的特殊性,并介绍了处理高维数据二元分类最简单的一个模型independent rul ...

  8. 统计学习方法 学习笔记(1)统计学习方法及监督学习理论

    统计学习方法及监督学习理论 1.1.统计学习 1.1.1.统计学习的特点 1.1.2.统计学习的对象 1.1.3.统计学习的目的 1.1.4.统计学习的方法 1.1.5.统计学习的研究 1.1.6.统 ...

  9. UA MATH566 统计理论 Bayes统计基础

    UA MATH566 统计理论 Bayes统计基础 共轭分布 基于后验概率预测新的观测值 Bayes统计思想的基础是Bayes公式 P(Ci∣A)=P(A,Ci)P(A)=P(A∣Ci)P(Ci)∑i ...

最新文章

  1. Unrecognised tag: #39;encoding#39; (position: START_TAG seen ...lt;/versiongt;\r\n\t\t\t\tlt;en...
  2. docker笔记1_安装及常用命令
  3. C语言实现hash/xor8算法(附完整源码)
  4. docker 进入容器命令_Docker容器常用命令分享,赶紧收藏
  5. 在清华听演讲系列音频下载地址收集
  6. 数据库sql创建标量值函数_使用JSON_VALUE()从JSON数据中提取标量值
  7. 使用Julia进行图像处理--图像分割
  8. iso硬盘安装 凤凰os_X86平台国产OS 对比评测 | 凤凰os安装教程_什么值得买
  9. calendar控件使用 extjs_Calendar 日历控件使用
  10. vue中的数据可视化(echarts)和highcharts
  11. 磁卡、条码卡、IC卡、ID卡基本知识
  12. U盘中毒文件乱码怎么办
  13. nginx配置文件的基本参数略解
  14. 如何下载B站视频以及音频
  15. Java 老矣,尚能饭否?
  16. c语言ftell的作用,C语言的文件随机访问fseek()和ftell()函数
  17. 安卓手机怎么设置蓝牙耳机弹窗动画_链接2020.3.3其他团无线蓝牙耳机
  18. 互联网2B、2C的区别ToB时代的应对策略
  19. SoLoMo:移动互联网创新的“三维模式”分析
  20. [国家集训队]整数的lqp拆分 数学推导 打表找规律

热门文章

  1. eclipse+adt下开发android微信红包自动抢(AccessibilityService类)
  2. CentOS 6.3下源码安装LAMP(Linux+Apache+Mysql+Php)环境
  3. OpenGL SDK glew(OpenGL Extension Wrangler Library )
  4. 实现微服务架构-微服务架构需要解决的问题
  5. 分支结构||分支循环结构||使用原生js遍历对象
  6. Spring Boot 集成 Activiti
  7. Python 技术篇-mac下安装、卸载pip方法
  8. C++——类访问修饰符
  9. 按键处理技巧(状态机)
  10. CTFshow php特性 web112