Foundations of Machine Learning 2nd——第三章(一)拉德马赫复杂度和VC维度

  • 回顾第二章
  • 拉德马赫复杂度
  • 定义1 经验拉德马赫复杂度(Empirical Rademacher complexity)
  • 定义2 拉德马赫复杂度
  • 定理1
  • 引理1
  • 定理2 拉德马赫复杂度边界——二分类
  • 总结

回顾第二章

我们在设计算法的时候肯定要考虑他的可行性以及需要多少训练样本才能返回一个比较准确的从输入到输出的映射。第二章就介绍了一个这样的框架——PAC框架,它能够帮助我们确定模型的可行性和训练样本的大小,以及generalization error的边界。同时第二章还举了有限映射集(HHH)且consistent、有限映射集且inconsistent以及agnostic PAC-learning的情况。

不过并没有介绍无限映射集的情况,所以这一章主要介绍的是对于无限假设集的问题,找到他们一般性的边界(generalization error)。

那么如何处理这种情况呢?很自然地就可以想到是否可以将无限映射集的情况简化到有限映射集的情况,这样就可以使用前一章的处理方法。有许多实现这种简化的技巧,他们都依赖于关于映射族的一些复杂度概念,我们第一个要用到的复杂度概念是——拉德马赫复杂度(Rademacher complexity)。他可以帮助我们导出有效边界。

注意:这一节的许多结论对于任意损失函数都是通用的

拉德马赫复杂度

令HHH表示一个映射(假设)集,L:Y×Y→RL:Y\times Y\rightarrow RL:Y×Y→R表示任意一个损失函数,GGG表示和HHH有关的损失函数簇,从Z=X×YZ=X\times YZ=X×Y映射到RRR:
G={G:(x,y)→L(h(x),y):h∈H}G=\{G:(x,y)\rightarrow L(h(x),y):h\in H\}G={G:(x,y)→L(h(x),y):h∈H}
后文直接用来表示从输入空间ZZZ到实数RRR的映射集

拉德马赫复杂度的作用是:通过计算映射集和随机噪声的匹配度来捕捉一个函数族的丰富度。

定义1 经验拉德马赫复杂度(Empirical Rademacher complexity)

GGG表示从ZZZ到[a,b][a,b][a,b]的映射函数集,样本集S={z1,z2,..,zm}S=\{z_1,z_2,..,z_m\}S={z1​,z2​,..,zm​}包含mmm个样本。GGG关于SSS的经验拉德马赫复杂度如下:
RS^(G)=Eσ[sup⁡g∈G1m∑i=1mσ1g(zi)]\hat{R_S}(G) = \mathop{E}\limits_\sigma[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^{m}\sigma_1g(z_i)]RS​^​(G)=σE​[g∈Gsup​m1​i=1∑m​σ1​g(zi​)]
sup{}sup\{\}sup{}表示上确界。
σ={σ1,σ2,..,σm}\sigma=\{\sigma_1,\sigma_2,..,\sigma_m\}σ={σ1​,σ2​,..,σm​},σi\sigma_iσi​是独立同分布的随机变量,取值为{1,−1}\{1,-1\}{1,−1}。

(注意:这里我们假设关于映射集GGG的上确界是可以找到的,这个假设在后面一直会沿用,虽然在实际中可能无法计算,但是这个假设对于公式推导是有效且有意义的)
上式也可写成:
RS^(G)=Eσ[sup⁡g∈Gσ⋅gSm]\hat{R_S}(G) = \mathop{E}\limits_\sigma[\sup\limits_{g\in G}\frac{\sigma· g_S}{m}]RS​^​(G)=σE​[g∈Gsup​mσ⋅gS​​]
gSg_SgS​表示函数ggg作用在样本集SSS上计算得到的向量。

这里σ⋅gS\sigma·g_Sσ⋅gS​这一内积表示gSg_SgS​和σ\sigmaσ的相关性。supg∈Gσ⋅gSmsup_{g\in G}\frac{\sigma·g_S}{m}supg∈G​mσ⋅gS​​表示GGG这个函数集合σ\sigmaσ的最好匹配性。于是经验拉德马赫复杂度就可以平均的表示函数集GGG和随机变量σ\sigmaσ在样本集SSS上的匹配程度。这表示了函数集GGG的丰富度:越丰富或者越复杂的函数集GGG可以产生更多的向量gSg_SgS​,因此和随机变量的相关性更好。

定义2 拉德马赫复杂度

令DDD表示样本服从的分布。对于任意的整数m≥1m\geq1m≥1,GGG的拉德马赫复杂度就是经验拉德马赫复杂度在所有的大小为mmm的样本集上的期望:
Rm(G)=ES∼Dm[RS^(G)]R_m(G)=\mathop{E}\limits_{S\sim D^m}[\hat{R_S}(G)]Rm​(G)=S∼DmE​[RS​^​(G)]

NOW!我们知道了拉德马赫复杂度的定义,上文说无限映射集的情况下,他的约束边界是根据拉德马赫复杂度来引出的!接下来让我们康康这个小东西怎么引出来约束边界的~

定理1

令GGG表示一个从ZZZ映射到[0,1][0,1][0,1]。对于任意的δ>0\delta>0δ>0,至少有1−δ1-\delta1−δ的概率对于一个大小为mmm的独立同分布的样本集SSS来说,下式对所有的g∈Gg\in Gg∈G都成立:
E[g(z)]≤1m∑i=1mg(zi)+2Rm(G)+log⁡1δ2mE[g(z)]≤1m∑i=1mg(zi)+2RS^(G)+3log⁡2δ2m\mathop{E}[g(z)]\leq \frac{1}{m}\sum_{i=1}^{m}g(z_i)+2R_m(G)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}} \\ \mathop{E}[g(z)]\leq \frac{1}{m}\sum_{i=1}^{m}g(z_i)+2\hat{R_S}(G)+3\sqrt{\frac{\log\frac{2}{\delta}}{2m}}E[g(z)]≤m1​i=1∑m​g(zi​)+2Rm​(G)+2mlogδ1​​​E[g(z)]≤m1​i=1∑m​g(zi​)+2RS​^​(G)+32mlogδ2​​​

注意:关于第一个不等式根号里面,书上写的是1/δ1/\delta1/δ,但是我个人感觉应该是2/δ2/\delta2/δ,推导在后面,如果我推导的是错的欢迎指正!

这个定理给出了映射的损失值的期望上界。

证明:
对于任意样本集SSS和任意g∈Gg\in Gg∈G,定义E^S[g]=1m∑i=1mg(zi)\hat{E}_S[g] = \frac{1}{m}\sum_{i=1}^mg(z_i)E^S​[g]=m1​∑i=1m​g(zi​)。为了证明上式,我们引用了McDiarmid不等式,并且构造了一个函数Φ\PhiΦ(关于任意SSS)(这个Φ\PhiΦ的作用就是能够在证明过程中应用McDiarmid不等式):
Φ(S)=sup⁡g∈G(E[g]−E^S[g])\Phi(S) = \sup\limits_{g\in G}(E[g]-\hat{E}_S[g])Φ(S)=g∈Gsup​(E[g]−E^S​[g])
定义S′S^{'}S′和SSS是两个样本集,他们只有一个样本点是不同的,假设是SSS里的zmz_mzm​和S′S^{'}S′里的zm′z_m^{'}zm′​。
由于上界之差小于等于差的上界,可以导出:
Φ(S′)−Φ(S)≤sup⁡g∈G(E^S(g)−E^S′(g))=sup⁡g∈Gg(zm)−g(zm′)m≤1m\Phi(S^{'})-\Phi(S)\leq\sup\limits_{g\in G}(\hat{E}_S(g)-\hat{E}_{S^{'}}(g))=\sup\limits_{g\in G}\frac{g(z_m)-g(z_m^{'})}{m}\leq\frac{1}{m}Φ(S′)−Φ(S)≤g∈Gsup​(E^S​(g)−E^S′​(g))=g∈Gsup​mg(zm​)−g(zm′​)​≤m1​
(因为ggg是从ZZZ映射到{0,1}\{0,1\}{0,1}的函数,所以g(zm)−g(zm′)≤1g(z_m)-g(z_m^{'})\leq 1g(zm​)−g(zm′​)≤1)
也就是说,Φ(S′)−Φ(S)≤1m→∣Φ(S′)−Φ(S)∣≤1m\Phi(S^{'})-\Phi(S)\leq\frac{1}{m}\rightarrow|\Phi(S^{'})-\Phi(S)|\leq\frac{1}{m}Φ(S′)−Φ(S)≤m1​→∣Φ(S′)−Φ(S)∣≤m1​
接下来利用McDiarmid不等式可以得到,对于任意的δ>0\delta>0δ>0,有1−δ/21-\delta/21−δ/2的把握使得下式成立:
Φ(S)≤ES[Φ(S)]+log⁡2δ2m\Phi(S)\leq\mathop{E}\limits_S[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}Φ(S)≤SE​[Φ(S)]+2mlogδ2​​​

这一步的证明如下:
McDiarmid不等式介绍如下:
设函数f:Xn→Rf:X^n\rightarrow Rf:Xn→R满足对所有的iii都可以找到一个常数ci<+∞c_i<+\inftyci​<+∞使得:
∣f(x1,...xm)−f(x1,..xi′,..xm)∣≤ci|f(x_1,...x_m)-f(x1,..x_i^{'},..x_m)|\leq c_i∣f(x1​,...xm​)−f(x1,..xi′​,..xm​)∣≤ci​
则称fff是差有界的(也就是说除一个数据点外其他数据点不变的话,预测结果差距不会太大,这一性质在ML中十分重要,是ML中的某种稳定性质)
McDiarmid不等式给出了一个概率界,如果样本独立,且fff是差有界的,那么:
P(∣f(x1,...,xm)−E[f(x1,...,xm)]∣>t)≤2exp⁡{−2t2∑i=1mci2}P(|f(x_1,...,x_m)-E[f(x_1,...,x_m)]|>t)\leq 2\exp\{-\frac{2t^2}{\sum_{i=1}^{m}c_i^2}\}P(∣f(x1​,...,xm​)−E[f(x1​,...,xm​)]∣>t)≤2exp{−∑i=1m​ci2​2t2​}
再回到我们上面说的Φ(S′)−Φ(S)≤1m→∣Φ(S′)−Φ(S)∣≤1m\Phi(S^{'})-\Phi(S)\leq\frac{1}{m}\rightarrow|\Phi(S^{'})-\Phi(S)|\leq\frac{1}{m}Φ(S′)−Φ(S)≤m1​→∣Φ(S′)−Φ(S)∣≤m1​,也就是说Φ(S)\Phi(S)Φ(S)是差有界的。那么
P(Φ(S)−ES[Φ(S)]>ϵ)≤exp⁡{−2ϵ2∑i=1m1m2}=exp⁡{−2ϵ2m}=δ/2==>ϵ=log⁡2δ2mP(\Phi(S)-\mathop{E}\limits_S[\Phi(S)]>\epsilon)\leq\exp\{-\frac{2\epsilon^2}{\sum_{i=1}^m\frac{1}{m^2}}\}=\exp\{-2\epsilon^2m\}=\delta/2\\ ==>\epsilon= \sqrt{\frac{\log\frac{2}{\delta}}{2m}}P(Φ(S)−SE​[Φ(S)]>ϵ)≤exp{−∑i=1m​m21​2ϵ2​}=exp{−2ϵ2m}=δ/2==>ϵ=2mlogδ2​​​
所以有1−δ/21-\delta/21−δ/2的把握Φ(S)−ES[Φ(S)]≤ϵ→Φ(S)≤ES[Φ(S)]+log⁡2δ2m\Phi(S)-\mathop{E}\limits_S[\Phi(S)]\leq\epsilon\rightarrow \\ \Phi(S)\leq\mathop{E}\limits_S[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}Φ(S)−SE​[Φ(S)]≤ϵ→Φ(S)≤SE​[Φ(S)]+2mlogδ2​​​

上面从设Φ(S)\Phi(S)Φ(S)开始都是为了得到最初的定理(E[g(z)]E[g(z)]E[g(z)]的边界)所做的trick。下面一步还是trick…(只是提醒一下,省的看到这儿忘记了前面是什么):
ES[Φ(S)]=ES[sup⁡g∈G(E[g]−E^S(g))]=ES[ES′[E^S′(g)−E^S(g)]]因为E[g]=ES′[E^S′(g)]≤ES,S′[sup⁡g∈G(E^S′(g)−E^S(g))]期望的上界小于上界的期望=ES,S′[sup⁡g∈G1m∑i=1m(g(zi′)−g(zi))]=ES,S′,σ[sup⁡g∈G1m∑i=1mσi(g(zi′)−g(zi))]≤ES′,σ[sup⁡g∈G1m∑i=1mσig(zi′)]+ES,σ[sup⁡g∈G1m∑i=1m−σig(zi)]和的上界小于等于上界的和=2ES,σ[sup⁡g∈G1m∑i=1mσig(zi)]=2Rm(G)\mathop{E}\limits_S[\Phi(S)]=\mathop{E}\limits_S[\sup\limits_{g\in G}(E[g]-\hat{E}_S(g))]\\ =\mathop{E}\limits_S[\mathop{E}_{S^{'}}[\hat{E}_{S^{'}}(g)-\hat{E}_S(g)]]\quad 因为E[g] = \mathop{E}\limits_{S^{'}}[\hat{E}_{S^{'}}(g)]\\ \leq\mathop{E}\limits_{S,S^{'}}[\sup\limits_{g\in G}(\hat{E}_{S^{'}}(g)-\hat{E}_S(g))]\quad 期望的上界小于上界的期望\\ =\mathop{E}\limits_{S,S^{'}}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m(g(z_i^{'})-g(z_i))]\\ =\mathop{E}\limits_{S,S^{'},\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_i(g(z_i^{'})-g(z_i))]\\ \leq\mathop{E}\limits_{S^{'},\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i^{'})]+\mathop{E}\limits_{S,\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m-\sigma_ig(z_i)]\quad 和的上界小于等于上界的和\\ =2\mathop{E}\limits_{S,\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i)]=2R_m(G)SE​[Φ(S)]=SE​[g∈Gsup​(E[g]−E^S​(g))]=SE​[ES′​[E^S′​(g)−E^S​(g)]]因为E[g]=S′E​[E^S′​(g)]≤S,S′E​[g∈Gsup​(E^S′​(g)−E^S​(g))]期望的上界小于上界的期望=S,S′E​[g∈Gsup​m1​i=1∑m​(g(zi′​)−g(zi​))]=S,S′,σE​[g∈Gsup​m1​i=1∑m​σi​(g(zi′​)−g(zi​))]≤S′,σE​[g∈Gsup​m1​i=1∑m​σi​g(zi′​)]+S,σE​[g∈Gsup​m1​i=1∑m​−σi​g(zi​)]和的上界小于等于上界的和=2S,σE​[g∈Gsup​m1​i=1∑m​σi​g(zi​)]=2Rm​(G)

解释:引入σ\sigmaσ那一步,因为σ\sigmaσ是均匀分布的独立随机变量,取值在{1,−1}\{1,-1\}{1,−1}里,同时S,S′S,S^{'}S,S′也是任意一个大小为mmm的样本集,所以引入δ\deltaδ对结果不产生影响,且−δ-\delta−δ和δ\deltaδ作用一样。

也就是说,刚刚求出的不等式Φ(S)≤ES[Φ(S)]+log⁡2δ2m≤2Rm(G)+log⁡2δ2m\Phi(S)\leq\mathop{E}\limits_S[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\leq2R_m(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}Φ(S)≤SE​[Φ(S)]+2mlogδ2​​​≤2Rm​(G)+2mlogδ2​​​
又因为Φ(S)=sup⁡g∈G(E(g)−E^S(g))\Phi(S) = \sup\limits_{g\in G}(E(g)-\hat{E}_S(g))Φ(S)=g∈Gsup​(E(g)−E^S​(g))
E(g)−E^S(g)≤2Rm(G)+log⁡2δ2m==>E(g)≤E^S(g)+2Rm(G)+log⁡2δ2mE(g)-\hat{E}_S(g)\leq2R_m(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\\ ==>E(g)\leq\hat{E}_S(g)+2R_m(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}E(g)−E^S​(g)≤2Rm​(G)+2mlogδ2​​​==>E(g)≤E^S​(g)+2Rm​(G)+2mlogδ2​​​
也就是一开始我们说的关于损失函数ggg的期望上界。(只不过定义里把1−2/δ1-2/\delta1−2/δ的把握扩展到了1−δ1-\delta1−δ)

第一个等式证出来了,那么第二个呢?类似,也利用McDiarmid不等式
推导定理的第二个不等式需要用到:
Rm(G)≤R^S(G)+log⁡2δ2mR_m(G)\leq\hat{R}_S(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}Rm​(G)≤R^S​(G)+2mlogδ2​​​
证明:
R^S−R^S′=Eσ[sup⁡gσ⋅gSm]−Eσ[sup⁡gσ⋅gS′m]=Eσ(sup⁡gσ⋅gSm−sup⁡gσ⋅gS′m)≤Eσ(sup⁡gσ⋅(gS−gS′)m)=Eσ(sup⁡gσi⋅g(zi−zi′)m)≤1m\hat{R}_S-\hat{R}_{S^{'}}=\mathop{E}\limits_{\sigma}[\sup\limits_g\frac{\sigma·g_S}{m}]-\mathop{E}\limits_{\sigma}[\sup\limits_g\frac{\sigma·g_{S^{'}}}{m}]\\ =\mathop{E}\limits_\sigma(\sup\limits_g\frac{\sigma·g_S}{m}-\sup\limits_g\frac{\sigma·g_{S^{'}}}{m})\\ \leq\mathop{E}\limits_\sigma(\sup\limits_g\frac{\sigma·(g_S-g_{S^{'}})}{m})\\ =\mathop{E}\limits_\sigma(\sup\limits_g\frac{\sigma_i·g(z_i-z_i^{'})}{m})\leq\frac{1}{m}R^S​−R^S′​=σE​[gsup​mσ⋅gS​​]−σE​[gsup​mσ⋅gS′​​]=σE​(gsup​mσ⋅gS​​−gsup​mσ⋅gS′​​)≤σE​(gsup​mσ⋅(gS​−gS′​)​)=σE​(gsup​mσi​⋅g(zi​−zi′​)​)≤m1​
得到了这一个不等式后,利用McDarmid不等式:
P(Rm(G)−R^S(G)>ϵ)=P(ES′[R^S′(G)]−R^S(G)>ϵ)≤exp⁡{−2ϵ2m}=δ/2P(R_m(G)-\hat{R}_S(G)>\epsilon)=P(\mathop{E}\limits_{S^{'}}[\hat{R}_{S^{'}}(G)]-\hat{R}_S(G)>\epsilon)\leq\exp\{-2\epsilon^2m\}=\delta/2P(Rm​(G)−R^S​(G)>ϵ)=P(S′E​[R^S′​(G)]−R^S​(G)>ϵ)≤exp{−2ϵ2m}=δ/2
可以推出:
ϵ=log⁡2δ2m\epsilon=\sqrt{\frac{\log\frac{2}{\delta}}{2m}}ϵ=2mlogδ2​​​
不等式得证。
把Rm(G)R_m(G)Rm​(G)带入定理的第一个不等式就得到第二个。

引理1

令HHH是一个映射族,映射到{−1,1}\{-1,1\}{−1,1},令GGG是关于HHH的0-1损失函数族:G={(x,y)→1h(x)≠y:h∈H}G=\{(x,y)\rightarrow1_{h(x)\neq y}:h\in H\}G={(x,y)→1h(x)​=y​:h∈H}。对于任意的样本集S={(x1,y1),...,(xm,ym)}S=\{(x_1,y_1),...,(x_m,y_m)\}S={(x1​,y1​),...,(xm​,ym​)},令SX=x1,...,xmS_X={x_1,...,x_m}SX​=x1​,...,xm​,下式对于GGG和HHH直接的经验拉德马赫复杂度成立:
R^S(G)=12R^X(H)\hat{R}_S(G)=\frac{1}{2}\hat{R}_X(H)R^S​(G)=21​R^X​(H)
证明:
R^S(G)=Eσ[sup⁡h∈H1m∑i=1mσi⋅1h(xi)≠yi]=Eσ[sup⁡h∈H1m∑i=1mσi⋅1−yih(xi)2]=12Eσ[sup⁡h∈H1m∑i=1m−σiyih(xi)]=12Eσ[sup⁡h∈H1m∑i=1mσih(xi)]=12R^X(H)\hat{R}_S(G)=\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i·1_{h(x_i)\neq y_i}]\\ =\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i·\frac{1-y_ih(x_i)}{2}] \\ =\frac{1}{2}\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m-\sigma_iy_ih(x_i)]\\ =\frac{1}{2}\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_ih(x_i)]=\frac{1}{2}\hat{R}_X(H)R^S​(G)=σE​[h∈Hsup​m1​i=1∑m​σi​⋅1h(xi​)​=yi​​]=σE​[h∈Hsup​m1​i=1∑m​σi​⋅21−yi​h(xi​)​]=21​σE​[h∈Hsup​m1​i=1∑m​−σi​yi​h(xi​)]=21​σE​[h∈Hsup​m1​i=1∑m​σi​h(xi​)]=21​R^X​(H)
注意:
对于固定的yiy_iyi​,yiσiy_i\sigma_iyi​σi​和σi\sigma_iσi​分布统一。

定理2 拉德马赫复杂度边界——二分类

这里介绍二分类问题的拉德马赫复杂度边界。
令HHH表示映射族,映射到{−1,1}\{-1,1\}{−1,1},DDD是样本空间XXX的分布。对于任意的δ>0\delta>0δ>0,都有1−δ1-\delta1−δ的把握对于所有的大小为mmm的样本集SSS:
R(h)≤R^S(h)+Rm(H)+log⁡1δ2mR(h)≤R^S(h)+R^S(H)+3log⁡1δ2mR(h)\leq\hat{R}_S(h)+R_m(H)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}\\ R(h)\leq\hat{R}_S(h)+\hat{R}_S(H)+3\sqrt{\frac{\log\frac{1}{\delta}}{2m}}R(h)≤R^S​(h)+Rm​(H)+2mlogδ1​​​R(h)≤R^S​(h)+R^S​(H)+32mlogδ1​​​

注意:这里可能因为我的书写问题引发误会,括号里是小写字母的表示empirical error/generalization error,括号里是大写字母的表示拉德马赫复杂度
所以,R(h)R(h)R(h)其实就是E(g)E(g)E(g),R^S(h)\hat{R}_S(h)R^S​(h)其实就是E^S(g)\hat{E}_S(g)E^S​(g),2Rm(G)=Rm(H)2R_m(G)=R_m(H)2Rm​(G)=Rm​(H)(根据引理1)。于是可以得到定理2。

至此,我们利用拉德马赫不等式得到了无限映射集情况下的generalization error的上界。第一个不等式具有理论意义,而第二个不等式才具有实际意义,因为R^S(H)\hat{R}_S(H)R^S​(H)才可计算,因为他是依赖数据(data-dependent)的,对于一个特定的样本集SSS,我们就可以计算这个边界。那么R^S(H)\hat{R}_S(H)R^S​(H)咋求呢?

R^S(H)=Eσ[sup⁡h∈H1m∑i=1m−σih(xi)]=−Eσ[inf⁡h∈H∑i=1m1mσih(xi)]\hat{R}_S(H)=\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m-\sigma_ih(x_i)]=-\mathop{E}\limits_\sigma[\inf\limits_{h\in H}\sum_{i=1}^m\frac{1}{m}\sigma_ih(x_i)]R^S​(H)=σE​[h∈Hsup​m1​i=1∑m​−σi​h(xi​)]=−σE​[h∈Hinf​i=1∑m​m1​σi​h(xi​)]
于是,对于特定的σ\sigmaσ向量,计算inf⁡h∈H∑i=1m1mσih(xi)\inf\limits_{h\in H}\sum_{i=1}^m\frac{1}{m}\sigma_ih(x_i)h∈Hinf​∑i=1m​m1​σi​h(xi​)相当于一个最小化经验损失的问题,对于一些映射集来说,这是一个十分困难的问题。下一节再讲!

总结

利用拉德马赫复杂度、McDarimid不等式等可以帮我们导出更一般化(infinit hypothesis set)的generalization error边界!

有不对的地方欢迎指出!=v=

Foundations of Machine Learning 2nd——第三章(一)拉德马赫复杂度相关推荐

  1. Foundations of Machine Learning 2nd——第三章(二)growth fuction和 VC-Dimension

    Foundations of Machine Learning 2nd--第三章(二)growth fuction和 VC-Dimension 前言 Growth function 引理1 Massa ...

  2. Foundations of Machine Learning 2nd——第五章SVMs(一)

    Foundations of Machine Learning 2nd--第五章(一) 本章内容 线性分类 可分情况 定义5.1 Geometric margin(几何边距) 优化目标 支持向量 Su ...

  3. Foundations of Machine Learning 2nd——第四章Model Selection(二)

    Foundations of Machine Learning 2nd--第四章Model Selection(二) 交叉验证 Cross Validation(CV) 交叉验证的步骤 交叉验证有效性 ...

  4. Foundations of Machine Learning 2nd——第二章 PAC学习框架

    Foundations of Machine Learning 2nd--第二章 PAC学习框架 前言 定义介绍 Generalization error Empirical error 定理1 PA ...

  5. Foundations of Machine Learning 2nd——第二章 PAC学习框架 后记

    Foundations of Machine Learning 2nd--第二章 PAC学习框架后记 前言 Generalities 一般性 可确定性 VS 随机场景 定义1 Agnostic PAC ...

  6. Foundations of Machine Learning 2nd——第一章 机器学习预备知识

    Foundations of Machine Learning 2nd--第一章 机器学习预备知识 前言 1.1 什么是机器学习(Machine learning) 1.2 什么样的问题可以用机器学习 ...

  7. Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2)

    Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2) Foundations of Machine Le ...

  8. Machine Learning笔记(三) 多变量线性回归

    2019独角兽企业重金招聘Python工程师标准>>> Machine Learning笔记(三) 多变量线性回归 注:本文内容资源来自 Andrew Ng 在 Coursera上的 ...

  9. Machine Learning In Action 第二章学习笔记: kNN算法

    本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测 手写数 ...

最新文章

  1. 终止线程的2种方法。标记法和中断
  2. CentOS 6.9安装配置nmon
  3. android glide 版本,Android Studio 第六十七期 - Android Glide3.7.0和3.8.0用法
  4. 企业实战(Jenkins+GitLab+SonarQube)_08_jenkins安装和第一个Java项目构建
  5. 枚举项的数量限制在64个以内
  6. android 隐藏输入法时自动关闭弹窗,Android监听输入法弹窗和关闭的实现方法
  7. Linux系统更新并清除旧组建
  8. CODESYS 工业自动化软件存在多个严重缺陷
  9. VMware vsphere Hypervisor、VMware vsphere和VMware Workstation小记
  10. 教你如何正确使用CSDN下载,福利贴,个别方法免积分
  11. 用c语言编程解决数学实际问题,运用C语言解决爱因斯坦的数学题
  12. B2C商城系统优势开发源码
  13. SQL Server数据库分页查询
  14. c# .net对接企业微信小助手 接口请求时长预警
  15. 力扣第235题“二叉搜索树的最近公共先祖”的解题思路
  16. php制作万年历的步骤_PHP制作万年历
  17. Excel公式提取数据
  18. Java代码混淆工具-ProGuard
  19. 软件质量之道:SourceMonitor
  20. ASEMI三相整流桥和单相整流桥的详细对比

热门文章

  1. unity 接入巨量引擎今日头条广告投放分包SDK
  2. 桂林理工大学 金工实习 2021年
  3. 多国首脑圆桌聚餐报道
  4. Android中自定义ScrollView的滑动监听事件,并在滑动时渐变标题栏背景颜色
  5. 推荐收藏黑客APP破解常用工具集合
  6. 初次联系导师短信模板_复试联系导师邮件怎么写?4个模板帮你解决!
  7. 用递归法将一个整数n转换成字符串
  8. Discuz!X3.5大气论坛模板
  9. 解决联想小新电脑蓝牙不能用
  10. mikumikudance导入角色后,左边栏的骨骼帧怎么没有了,但是角色本身的骨骼是可以操作的,该怎么办...