UA MATH574M 统计学习I 监督学习理论下

Hoeffding’s inequality
证明

这一讲讨论上一讲结束时提到的监督学习的一致性的概念。假设风险函数 R(f)R(f)R(f)有界，则ERM具有一致性的充要条件是 Remp(f)R_{emp}(f)Remp(f)依概率单边一致收敛（uniformly one-sided convergence in probability）到 R(f)R(f)R(f)， ∀f∈F\forall f \in \mathbf{F}∀f∈F，即
lim⁡n→∞P{sup⁡f∈F(R(f)−Remp(f))>ϵ}=0,∀ϵ>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (R(f)-R_{emp}(f)) >\epsilon\}=0, \forall \epsilon>0 n→∞limP{f∈Fsup(R(f)−Remp(f))>ϵ}=0,∀ϵ>0
定义VC-Entropy H(ϵ,n)H(\epsilon,n)H(ϵ,n)之后，可以得到依概率双边一致收敛（这个比单边一致收敛更严格）
lim⁡n→∞P{sup⁡f∈F(∣R(f)−Remp(f)∣)>ϵ}=0,∀ϵ>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\}=0, \forall \epsilon>0 n→∞limP{f∈Fsup(∣R(f)−Remp(f)∣)>ϵ}=0,∀ϵ>0
的充要条件是
lim⁡n→∞H(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞limnH(ϵ,n)=0,∀ϵ>0
这一讲的目标是给出这个充要条件的充分性部分证明，让大家对ERM的一致性有更深刻的理解。

定理
P{sup⁡f∈F(∣R(f)−Remp(f)∣)>ϵ}≤2H(ϵ,n)exp⁡(−2nϵ2)P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\} \le 2H(\epsilon,n)\exp \left( -2n\epsilon^2 \right)P{f∈Fsup(∣R(f)−Remp(f)∣)>ϵ}≤2H(ϵ,n)exp(−2nϵ2)
这个定理是worst case analysis的一个概率不等式。根据这个概率不等式，如果
lim⁡n→∞H(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞limnH(ϵ,n)=0,∀ϵ>0
则必有
2H(ϵ,n)exp⁡(−2nϵ2)=2H(ϵ,n)nne−2nϵ2→0,asn→∞2H(\epsilon,n)\exp \left( -2n\epsilon^2 \right) = 2 \frac{H(\epsilon,n)}{n} \frac{n}{e^{-2n\epsilon^2}} \to 0,as\ n\to \infty2H(ϵ,n)exp(−2nϵ2)=2nH(ϵ,n)e−2nϵ2n→0,as n→∞
依概率双边一致收敛就成立了。所以下面的目标就是证明这个概率不等式。

Hoeffding’s inequality

为了证明那个概率不等式，需要先引入Hoeffding’s inequality，这里贴一张他古早的论文的图，我就不打公式了

这个不等式证明主要步骤是(2.1)，这一步来自

(2.1)的上界来源于(1.7)给出的上界中最小的上界，(1.7)是Markov不等式，所以(2.1)式的思想就是找Xˉ\bar{X}Xˉ的Chernoff Bound。我们需要考虑双边的概率，那么
P(∣Xˉ−p∣>ϵ)≤2exp⁡(−2nϵ2)P(|\bar{X}-p|>\epsilon) \le 2\exp (-2n\epsilon^2)P(∣Xˉ−p∣>ϵ)≤2exp(−2nϵ2)

证明

要用Hoeffding’s inequality，首先需要风险函数能被标准化为1，显然同样的Loss下，经验风险与真实的风险函数有同样的尺度，所以可以做scaling。
P{sup⁡f∈F(∣R(f)−Remp(f)∣)>ϵ}=P{⋃f∈F(∣R(f)−Remp(f)∣>ϵ)}P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\} = P\{ \bigcup_{f \in \mathbf{F}} ( |R(f)-R_{emp}(f)| >\epsilon ) \}P{f∈Fsup(∣R(f)−Remp(f)∣)>ϵ}=P{f∈F⋃(∣R(f)−Remp(f)∣>ϵ)}
根据Bonferroni不等式
P{⋃f∈F(∣R(f)−Remp(f)∣>ϵ)}≤∑f∈FP(∣R(f)−Remp(f)∣>ϵ)P\{ \bigcup_{f \in \mathbf{F}} ( |R(f)-R_{emp}(f)| >\epsilon ) \} \le \sum_{f \in \mathbf{F}} P (|R(f)-R_{emp}(f)| >\epsilon)P{f∈F⋃(∣R(f)−Remp(f)∣>ϵ)}≤f∈F∑P(∣R(f)−Remp(f)∣>ϵ)
根据Hoeffding’s inequality
∑f∈FP(∣R(f)−Remp(f)∣>ϵ)≤∑f∈F2exp⁡(−2nϵ2)\sum_{f \in \mathbf{F}} P (|R(f)-R_{emp}(f)| >\epsilon) \le \sum_{f \in \mathbf{F}}2\exp (-2n\epsilon^2)f∈F∑P(∣R(f)−Remp(f)∣>ϵ)≤f∈F∑2exp(−2nϵ2)
显然这个上界就和选取的算法fff无关了，因此这个上界就等于F\mathbf{F}F的测度乘以2exp⁡(−2nϵ2)2\exp (-2n\epsilon^2)2exp(−2nϵ2)。在监督学习理论中，F\mathbf{F}F的测度并不能用实分析中的测度的概念，比如某类算法只有一个参数不同，参数的取值是所有自然数，并不代表F\mathbf{F}F的测度就是阿列夫零。监督学习中用来做model set的测度的是上一讲介绍过的VC-entropy，因此
∑f∈F2exp⁡(−2nϵ2)=2H(ϵ,n)exp⁡(−2nϵ2)\sum_{f \in \mathbf{F}}2\exp (-2n\epsilon^2) = 2H(\epsilon,n)\exp (-2n\epsilon^2)f∈F∑2exp(−2nϵ2)=2H(ϵ,n)exp(−2nϵ2)

UA MATH574M 统计学习I 监督学习理论下相关推荐

UA MATH574M 统计学习I 监督学习理论
UA MATH574M 统计学习I 监督学习理论统计决策理论损失函数与风险函数偏差-方差的权衡最优估计量贝叶斯规则监督学习理论的基本概念 Optimal Learner 经验损失函数与ER ...
UA MATH574M 统计学习 Variable Selection：Cross Validation
UA MATH574M 统计学习 Variable Selection:Cross Validation LOOCV LOOCV score的计算 K-fold CV Generalized CV 故 ...
UA MATH574M 统计学习V Variable Selection: LASSO
UA MATH574M 统计学习V Variable Selection: LASSO 基本概念 Oracle Property Penalized Regularization Framework ...
UA MATH574M 统计学习V Variable Selection简介
UA MATH574M 统计学习V Variable Selection简介两个基础方法 Ranking Variables Best Subset Algorithm 对基础方法的改进 Gener ...
UA MATH574M 统计学习II 二元分类例子与高维问题
UA MATH574M 统计学习II 二元分类例子与高维问题数值例子高维数据的二分类问题 Independence Rule 数值例子用模拟数值做一个二分类的例子. library(MASS)# ...
UA MATH574M 统计学习II 二元分类
UA MATH574M 统计学习II 二元分类基础基础模型 Bayes分类器均等成本不等成本线性概率模型线性分类器线性判别分析(LDA) Logistics回归基础模型假设一个二元分类 ...
UA MATH574M 统计学习II 高维数据的二元分类
UA MATH574M 统计学习II 高维数据的二元分类 LDA的直观解释 NSC 上一讲提到了高维数据相比低维数据的特殊性,并介绍了处理高维数据二元分类最简单的一个模型independent rul ...
统计学习方法学习笔记（1）统计学习方法及监督学习理论
统计学习方法及监督学习理论 1.1.统计学习 1.1.1.统计学习的特点 1.1.2.统计学习的对象 1.1.3.统计学习的目的 1.1.4.统计学习的方法 1.1.5.统计学习的研究 1.1.6.统 ...
UA MATH566 统计理论 Bayes统计基础
UA MATH566 统计理论 Bayes统计基础共轭分布基于后验概率预测新的观测值 Bayes统计思想的基础是Bayes公式 P(Ci∣A)=P(A,Ci)P(A)=P(A∣Ci)P(Ci)∑i ...

UA MATH574M 统计学习I 监督学习理论下

UA MATH574M 统计学习I 监督学习理论下

Hoeffding’s inequality

证明

UA MATH574M 统计学习I 监督学习理论下相关推荐

最新文章

热门文章