回顾第二章

我们在设计算法的时候肯定要考虑他的可行性以及需要多少训练样本才能返回一个比较准确的从输入到输出的映射。第二章就介绍了一个这样的框架——PAC框架，它能够帮助我们确定模型的可行性和训练样本的大小，以及generalization error的边界。同时第二章还举了有限映射集(HHH)且consistent、有限映射集且inconsistent以及agnostic PAC-learning的情况。

不过并没有介绍无限映射集的情况，所以这一章主要介绍的是对于无限假设集的问题，找到他们一般性的边界（generalization error）。

那么如何处理这种情况呢？很自然地就可以想到是否可以将无限映射集的情况简化到有限映射集的情况，这样就可以使用前一章的处理方法。有许多实现这种简化的技巧，他们都依赖于关于映射族的一些复杂度概念，我们第一个要用到的复杂度概念是——拉德马赫复杂度（Rademacher complexity）。他可以帮助我们导出有效边界。

注意：这一节的许多结论对于任意损失函数都是通用的

拉德马赫复杂度

令HHH表示一个映射（假设）集，L:Y×Y→RL:Y\times Y\rightarrow RL:Y×Y→R表示任意一个损失函数，GGG表示和HHH有关的损失函数簇，从Z=X×YZ=X\times YZ=X×Y映射到RRR:
G={G:(x,y)→L(h(x),y):h∈H}G=\{G:(x,y)\rightarrow L(h(x),y):h\in H\}G={G:(x,y)→L(h(x),y):h∈H}
后文直接用来表示从输入空间ZZZ到实数RRR的映射集

拉德马赫复杂度的作用是：通过计算映射集和随机噪声的匹配度来捕捉一个函数族的丰富度。

定义1 经验拉德马赫复杂度（Empirical Rademacher complexity）

GGG表示从ZZZ到[a,b][a,b][a,b]的映射函数集，样本集S={z1,z2,..,zm}S=\{z_1,z_2,..,z_m\}S={z1,z2,..,zm}包含mmm个样本。GGG关于SSS的经验拉德马赫复杂度如下：
RS^(G)=Eσ[sup⁡g∈G1m∑i=1mσ1g(zi)]\hat{R_S}(G) = \mathop{E}\limits_\sigma[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^{m}\sigma_1g(z_i)]RS^(G)=σE[g∈Gsupm1i=1∑mσ1g(zi)]
sup{}sup\{\}sup{}表示上确界。
σ={σ1,σ2,..,σm}\sigma=\{\sigma_1,\sigma_2,..,\sigma_m\}σ={σ1,σ2,..,σm},σi\sigma_iσi是独立同分布的随机变量，取值为{1,−1}\{1,-1\}{1,−1}。

(注意：这里我们假设关于映射集GGG的上确界是可以找到的，这个假设在后面一直会沿用，虽然在实际中可能无法计算，但是这个假设对于公式推导是有效且有意义的)
上式也可写成：
RS^(G)=Eσ[sup⁡g∈Gσ⋅gSm]\hat{R_S}(G) = \mathop{E}\limits_\sigma[\sup\limits_{g\in G}\frac{\sigma· g_S}{m}]RS^(G)=σE[g∈Gsupmσ⋅gS]
gSg_SgS表示函数ggg作用在样本集SSS上计算得到的向量。

这里σ⋅gS\sigma·g_Sσ⋅gS这一内积表示gSg_SgS和σ\sigmaσ的相关性。supg∈Gσ⋅gSmsup_{g\in G}\frac{\sigma·g_S}{m}supg∈Gmσ⋅gS表示GGG这个函数集合σ\sigmaσ的最好匹配性。于是经验拉德马赫复杂度就可以平均的表示函数集GGG和随机变量σ\sigmaσ在样本集SSS上的匹配程度。这表示了函数集GGG的丰富度：越丰富或者越复杂的函数集GGG可以产生更多的向量gSg_SgS，因此和随机变量的相关性更好。

定义2 拉德马赫复杂度

令DDD表示样本服从的分布。对于任意的整数m≥1m\geq1m≥1，GGG的拉德马赫复杂度就是经验拉德马赫复杂度在所有的大小为mmm的样本集上的期望：
Rm(G)=ES∼Dm[RS^(G)]R_m(G)=\mathop{E}\limits_{S\sim D^m}[\hat{R_S}(G)]Rm(G)=S∼DmE[RS^(G)]

NOW！我们知道了拉德马赫复杂度的定义，上文说无限映射集的情况下，他的约束边界是根据拉德马赫复杂度来引出的！接下来让我们康康这个小东西怎么引出来约束边界的~

定理1

令GGG表示一个从ZZZ映射到[0,1][0,1][0,1]。对于任意的δ>0\delta>0δ>0，至少有1−δ1-\delta1−δ的概率对于一个大小为mmm的独立同分布的样本集SSS来说，下式对所有的g∈Gg\in Gg∈G都成立：
E[g(z)]≤1m∑i=1mg(zi)+2Rm(G)+log⁡1δ2mE[g(z)]≤1m∑i=1mg(zi)+2RS^(G)+3log⁡2δ2m\mathop{E}[g(z)]\leq \frac{1}{m}\sum_{i=1}^{m}g(z_i)+2R_m(G)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}} \\ \mathop{E}[g(z)]\leq \frac{1}{m}\sum_{i=1}^{m}g(z_i)+2\hat{R_S}(G)+3\sqrt{\frac{\log\frac{2}{\delta}}{2m}}E[g(z)]≤m1i=1∑mg(zi)+2Rm(G)+2mlogδ1E[g(z)]≤m1i=1∑mg(zi)+2RS^(G)+32mlogδ2

注意：关于第一个不等式根号里面，书上写的是1/δ1/\delta1/δ，但是我个人感觉应该是2/δ2/\delta2/δ，推导在后面，如果我推导的是错的欢迎指正！

这个定理给出了映射的损失值的期望上界。

证明：
对于任意样本集SSS和任意g∈Gg\in Gg∈G，定义E^S[g]=1m∑i=1mg(zi)\hat{E}_S[g] = \frac{1}{m}\sum_{i=1}^mg(z_i)E^S[g]=m1∑i=1mg(zi)。为了证明上式，我们引用了McDiarmid不等式，并且构造了一个函数Φ\PhiΦ（关于任意SSS）（这个Φ\PhiΦ的作用就是能够在证明过程中应用McDiarmid不等式）：
Φ(S)=sup⁡g∈G(E[g]−E^S[g])\Phi(S) = \sup\limits_{g\in G}(E[g]-\hat{E}_S[g])Φ(S)=g∈Gsup(E[g]−E^S[g])
定义S′S^{'}S′和SSS是两个样本集，他们只有一个样本点是不同的，假设是SSS里的zmz_mzm和S′S^{'}S′里的zm′z_m^{'}zm′。
由于上界之差小于等于差的上界，可以导出：
Φ(S′)−Φ(S)≤sup⁡g∈G(E^S(g)−E^S′(g))=sup⁡g∈Gg(zm)−g(zm′)m≤1m\Phi(S^{'})-\Phi(S)\leq\sup\limits_{g\in G}(\hat{E}_S(g)-\hat{E}_{S^{'}}(g))=\sup\limits_{g\in G}\frac{g(z_m)-g(z_m^{'})}{m}\leq\frac{1}{m}Φ(S′)−Φ(S)≤g∈Gsup(E^S(g)−E^S′(g))=g∈Gsupmg(zm)−g(zm′)≤m1
（因为ggg是从ZZZ映射到{0,1}\{0,1\}{0,1}的函数，所以g(zm)−g(zm′)≤1g(z_m)-g(z_m^{'})\leq 1g(zm)−g(zm′)≤1）
也就是说，Φ(S′)−Φ(S)≤1m→∣Φ(S′)−Φ(S)∣≤1m\Phi(S^{'})-\Phi(S)\leq\frac{1}{m}\rightarrow|\Phi(S^{'})-\Phi(S)|\leq\frac{1}{m}Φ(S′)−Φ(S)≤m1→∣Φ(S′)−Φ(S)∣≤m1
接下来利用McDiarmid不等式可以得到，对于任意的δ>0\delta>0δ>0，有1−δ/21-\delta/21−δ/2的把握使得下式成立：
Φ(S)≤ES[Φ(S)]+log⁡2δ2m\Phi(S)\leq\mathop{E}\limits_S[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}Φ(S)≤SE[Φ(S)]+2mlogδ2

这一步的证明如下：
McDiarmid不等式介绍如下：
设函数f:Xn→Rf:X^n\rightarrow Rf:Xn→R满足对所有的iii都可以找到一个常数ci<+∞c_i<+\inftyci<+∞使得：
∣f(x1,...xm)−f(x1,..xi′,..xm)∣≤ci|f(x_1,...x_m)-f(x1,..x_i^{'},..x_m)|\leq c_i∣f(x1,...xm)−f(x1,..xi′,..xm)∣≤ci
则称fff是差有界的（也就是说除一个数据点外其他数据点不变的话，预测结果差距不会太大，这一性质在ML中十分重要，是ML中的某种稳定性质）
McDiarmid不等式给出了一个概率界，如果样本独立，且fff是差有界的，那么：
P(∣f(x1,...,xm)−E[f(x1,...,xm)]∣>t)≤2exp⁡{−2t2∑i=1mci2}P(|f(x_1,...,x_m)-E[f(x_1,...,x_m)]|>t)\leq 2\exp\{-\frac{2t^2}{\sum_{i=1}^{m}c_i^2}\}P(∣f(x1,...,xm)−E[f(x1,...,xm)]∣>t)≤2exp{−∑i=1mci22t2}
再回到我们上面说的Φ(S′)−Φ(S)≤1m→∣Φ(S′)−Φ(S)∣≤1m\Phi(S^{'})-\Phi(S)\leq\frac{1}{m}\rightarrow|\Phi(S^{'})-\Phi(S)|\leq\frac{1}{m}Φ(S′)−Φ(S)≤m1→∣Φ(S′)−Φ(S)∣≤m1，也就是说Φ(S)\Phi(S)Φ(S)是差有界的。那么
P(Φ(S)−ES[Φ(S)]>ϵ)≤exp⁡{−2ϵ2∑i=1m1m2}=exp⁡{−2ϵ2m}=δ/2==>ϵ=log⁡2δ2mP(\Phi(S)-\mathop{E}\limits_S[\Phi(S)]>\epsilon)\leq\exp\{-\frac{2\epsilon^2}{\sum_{i=1}^m\frac{1}{m^2}}\}=\exp\{-2\epsilon^2m\}=\delta/2\\ ==>\epsilon= \sqrt{\frac{\log\frac{2}{\delta}}{2m}}P(Φ(S)−SE[Φ(S)]>ϵ)≤exp{−∑i=1mm212ϵ2}=exp{−2ϵ2m}=δ/2==>ϵ=2mlogδ2
所以有1−δ/21-\delta/21−δ/2的把握Φ(S)−ES[Φ(S)]≤ϵ→Φ(S)≤ES[Φ(S)]+log⁡2δ2m\Phi(S)-\mathop{E}\limits_S[\Phi(S)]\leq\epsilon\rightarrow \\ \Phi(S)\leq\mathop{E}\limits_S[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}Φ(S)−SE[Φ(S)]≤ϵ→Φ(S)≤SE[Φ(S)]+2mlogδ2

上面从设Φ(S)\Phi(S)Φ(S)开始都是为了得到最初的定理（E[g(z)]E[g(z)]E[g(z)]的边界）所做的trick。下面一步还是trick…（只是提醒一下，省的看到这儿忘记了前面是什么）：
ES[Φ(S)]=ES[sup⁡g∈G(E[g]−E^S(g))]=ES[ES′[E^S′(g)−E^S(g)]]因为E[g]=ES′[E^S′(g)]≤ES,S′[sup⁡g∈G(E^S′(g)−E^S(g))]期望的上界小于上界的期望=ES,S′[sup⁡g∈G1m∑i=1m(g(zi′)−g(zi))]=ES,S′,σ[sup⁡g∈G1m∑i=1mσi(g(zi′)−g(zi))]≤ES′,σ[sup⁡g∈G1m∑i=1mσig(zi′)]+ES,σ[sup⁡g∈G1m∑i=1m−σig(zi)]和的上界小于等于上界的和=2ES,σ[sup⁡g∈G1m∑i=1mσig(zi)]=2Rm(G)\mathop{E}\limits_S[\Phi(S)]=\mathop{E}\limits_S[\sup\limits_{g\in G}(E[g]-\hat{E}_S(g))]\\ =\mathop{E}\limits_S[\mathop{E}_{S^{'}}[\hat{E}_{S^{'}}(g)-\hat{E}_S(g)]]\quad 因为E[g] = \mathop{E}\limits_{S^{'}}[\hat{E}_{S^{'}}(g)]\\ \leq\mathop{E}\limits_{S,S^{'}}[\sup\limits_{g\in G}(\hat{E}_{S^{'}}(g)-\hat{E}_S(g))]\quad 期望的上界小于上界的期望\\ =\mathop{E}\limits_{S,S^{'}}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m(g(z_i^{'})-g(z_i))]\\ =\mathop{E}\limits_{S,S^{'},\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_i(g(z_i^{'})-g(z_i))]\\ \leq\mathop{E}\limits_{S^{'},\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i^{'})]+\mathop{E}\limits_{S,\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m-\sigma_ig(z_i)]\quad 和的上界小于等于上界的和\\ =2\mathop{E}\limits_{S,\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i)]=2R_m(G)SE[Φ(S)]=SE[g∈Gsup(E[g]−E^S(g))]=SE[ES′[E^S′(g)−E^S(g)]]因为E[g]=S′E[E^S′(g)]≤S,S′E[g∈Gsup(E^S′(g)−E^S(g))]期望的上界小于上界的期望=S,S′E[g∈Gsupm1i=1∑m(g(zi′)−g(zi))]=S,S′,σE[g∈Gsupm1i=1∑mσi(g(zi′)−g(zi))]≤S′,σE[g∈Gsupm1i=1∑mσig(zi′)]+S,σE[g∈Gsupm1i=1∑m−σig(zi)]和的上界小于等于上界的和=2S,σE[g∈Gsupm1i=1∑mσig(zi)]=2Rm(G)

解释：引入σ\sigmaσ那一步，因为σ\sigmaσ是均匀分布的独立随机变量，取值在{1,−1}\{1,-1\}{1,−1}里，同时S,S′S,S^{'}S,S′也是任意一个大小为mmm的样本集，所以引入δ\deltaδ对结果不产生影响，且−δ-\delta−δ和δ\deltaδ作用一样。

也就是说，刚刚求出的不等式Φ(S)≤ES[Φ(S)]+log⁡2δ2m≤2Rm(G)+log⁡2δ2m\Phi(S)\leq\mathop{E}\limits_S[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\leq2R_m(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}Φ(S)≤SE[Φ(S)]+2mlogδ2≤2Rm(G)+2mlogδ2
又因为Φ(S)=sup⁡g∈G(E(g)−E^S(g))\Phi(S) = \sup\limits_{g\in G}(E(g)-\hat{E}_S(g))Φ(S)=g∈Gsup(E(g)−E^S(g))
E(g)−E^S(g)≤2Rm(G)+log⁡2δ2m==>E(g)≤E^S(g)+2Rm(G)+log⁡2δ2mE(g)-\hat{E}_S(g)\leq2R_m(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\\ ==>E(g)\leq\hat{E}_S(g)+2R_m(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}E(g)−E^S(g)≤2Rm(G)+2mlogδ2==>E(g)≤E^S(g)+2Rm(G)+2mlogδ2
也就是一开始我们说的关于损失函数ggg的期望上界。（只不过定义里把1−2/δ1-2/\delta1−2/δ的把握扩展到了1−δ1-\delta1−δ）

第一个等式证出来了，那么第二个呢？类似，也利用McDiarmid不等式
推导定理的第二个不等式需要用到:
Rm(G)≤R^S(G)+log⁡2δ2mR_m(G)\leq\hat{R}_S(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}Rm(G)≤R^S(G)+2mlogδ2
证明:
R^S−R^S′=Eσ[sup⁡gσ⋅gSm]−Eσ[sup⁡gσ⋅gS′m]=Eσ(sup⁡gσ⋅gSm−sup⁡gσ⋅gS′m)≤Eσ(sup⁡gσ⋅(gS−gS′)m)=Eσ(sup⁡gσi⋅g(zi−zi′)m)≤1m\hat{R}_S-\hat{R}_{S^{'}}=\mathop{E}\limits_{\sigma}[\sup\limits_g\frac{\sigma·g_S}{m}]-\mathop{E}\limits_{\sigma}[\sup\limits_g\frac{\sigma·g_{S^{'}}}{m}]\\ =\mathop{E}\limits_\sigma(\sup\limits_g\frac{\sigma·g_S}{m}-\sup\limits_g\frac{\sigma·g_{S^{'}}}{m})\\ \leq\mathop{E}\limits_\sigma(\sup\limits_g\frac{\sigma·(g_S-g_{S^{'}})}{m})\\ =\mathop{E}\limits_\sigma(\sup\limits_g\frac{\sigma_i·g(z_i-z_i^{'})}{m})\leq\frac{1}{m}R^S−R^S′=σE[gsupmσ⋅gS]−σE[gsupmσ⋅gS′]=σE(gsupmσ⋅gS−gsupmσ⋅gS′)≤σE(gsupmσ⋅(gS−gS′))=σE(gsupmσi⋅g(zi−zi′))≤m1
得到了这一个不等式后，利用McDarmid不等式：
P(Rm(G)−R^S(G)>ϵ)=P(ES′[R^S′(G)]−R^S(G)>ϵ)≤exp⁡{−2ϵ2m}=δ/2P(R_m(G)-\hat{R}_S(G)>\epsilon)=P(\mathop{E}\limits_{S^{'}}[\hat{R}_{S^{'}}(G)]-\hat{R}_S(G)>\epsilon)\leq\exp\{-2\epsilon^2m\}=\delta/2P(Rm(G)−R^S(G)>ϵ)=P(S′E[R^S′(G)]−R^S(G)>ϵ)≤exp{−2ϵ2m}=δ/2
可以推出：
ϵ=log⁡2δ2m\epsilon=\sqrt{\frac{\log\frac{2}{\delta}}{2m}}ϵ=2mlogδ2
不等式得证。
把Rm(G)R_m(G)Rm(G)带入定理的第一个不等式就得到第二个。

引理1

令HHH是一个映射族，映射到{−1,1}\{-1,1\}{−1,1},令GGG是关于HHH的0-1损失函数族：G={(x,y)→1h(x)≠y:h∈H}G=\{(x,y)\rightarrow1_{h(x)\neq y}:h\in H\}G={(x,y)→1h(x)=y:h∈H}。对于任意的样本集S={(x1,y1),...,(xm,ym)}S=\{(x_1,y_1),...,(x_m,y_m)\}S={(x1,y1),...,(xm,ym)}，令SX=x1,...,xmS_X={x_1,...,x_m}SX=x1,...,xm，下式对于GGG和HHH直接的经验拉德马赫复杂度成立：
R^S(G)=12R^X(H)\hat{R}_S(G)=\frac{1}{2}\hat{R}_X(H)R^S(G)=21R^X(H)
证明：
R^S(G)=Eσ[sup⁡h∈H1m∑i=1mσi⋅1h(xi)≠yi]=Eσ[sup⁡h∈H1m∑i=1mσi⋅1−yih(xi)2]=12Eσ[sup⁡h∈H1m∑i=1m−σiyih(xi)]=12Eσ[sup⁡h∈H1m∑i=1mσih(xi)]=12R^X(H)\hat{R}_S(G)=\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i·1_{h(x_i)\neq y_i}]\\ =\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i·\frac{1-y_ih(x_i)}{2}] \\ =\frac{1}{2}\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m-\sigma_iy_ih(x_i)]\\ =\frac{1}{2}\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_ih(x_i)]=\frac{1}{2}\hat{R}_X(H)R^S(G)=σE[h∈Hsupm1i=1∑mσi⋅1h(xi)=yi]=σE[h∈Hsupm1i=1∑mσi⋅21−yih(xi)]=21σE[h∈Hsupm1i=1∑m−σiyih(xi)]=21σE[h∈Hsupm1i=1∑mσih(xi)]=21R^X(H)
注意：
对于固定的yiy_iyi，yiσiy_i\sigma_iyiσi和σi\sigma_iσi分布统一。

定理2 拉德马赫复杂度边界——二分类

这里介绍二分类问题的拉德马赫复杂度边界。
令HHH表示映射族，映射到{−1,1}\{-1,1\}{−1,1},DDD是样本空间XXX的分布。对于任意的δ>0\delta>0δ>0，都有1−δ1-\delta1−δ的把握对于所有的大小为mmm的样本集SSS：
R(h)≤R^S(h)+Rm(H)+log⁡1δ2mR(h)≤R^S(h)+R^S(H)+3log⁡1δ2mR(h)\leq\hat{R}_S(h)+R_m(H)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}\\ R(h)\leq\hat{R}_S(h)+\hat{R}_S(H)+3\sqrt{\frac{\log\frac{1}{\delta}}{2m}}R(h)≤R^S(h)+Rm(H)+2mlogδ1R(h)≤R^S(h)+R^S(H)+32mlogδ1

注意：这里可能因为我的书写问题引发误会，括号里是小写字母的表示empirical error/generalization error，括号里是大写字母的表示拉德马赫复杂度
所以，R(h)R(h)R(h)其实就是E(g)E(g)E(g)，R^S(h)\hat{R}_S(h)R^S(h)其实就是E^S(g)\hat{E}_S(g)E^S(g),2Rm(G)=Rm(H)2R_m(G)=R_m(H)2Rm(G)=Rm(H)(根据引理1）。于是可以得到定理2。

至此，我们利用拉德马赫不等式得到了无限映射集情况下的generalization error的上界。第一个不等式具有理论意义，而第二个不等式才具有实际意义，因为R^S(H)\hat{R}_S(H)R^S(H)才可计算，因为他是依赖数据（data-dependent）的，对于一个特定的样本集SSS，我们就可以计算这个边界。那么R^S(H)\hat{R}_S(H)R^S(H)咋求呢？

R^S(H)=Eσ[sup⁡h∈H1m∑i=1m−σih(xi)]=−Eσ[inf⁡h∈H∑i=1m1mσih(xi)]\hat{R}_S(H)=\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m-\sigma_ih(x_i)]=-\mathop{E}\limits_\sigma[\inf\limits_{h\in H}\sum_{i=1}^m\frac{1}{m}\sigma_ih(x_i)]R^S(H)=σE[h∈Hsupm1i=1∑m−σih(xi)]=−σE[h∈Hinfi=1∑mm1σih(xi)]
于是，对于特定的σ\sigmaσ向量，计算inf⁡h∈H∑i=1m1mσih(xi)\inf\limits_{h\in H}\sum_{i=1}^m\frac{1}{m}\sigma_ih(x_i)h∈Hinf∑i=1mm1σih(xi)相当于一个最小化经验损失的问题，对于一些映射集来说，这是一个十分困难的问题。下一节再讲！

总结

利用拉德马赫复杂度、McDarimid不等式等可以帮我们导出更一般化（infinit hypothesis set）的generalization error边界！

有不对的地方欢迎指出！=v=

Foundations of Machine Learning 2nd——第三章（一）拉德马赫复杂度相关推荐

Foundations of Machine Learning 2nd——第三章（二）growth fuction和 VC-Dimension
Foundations of Machine Learning 2nd--第三章(二)growth fuction和 VC-Dimension 前言 Growth function 引理1 Massa ...
Foundations of Machine Learning 2nd——第五章SVMs（一）
Foundations of Machine Learning 2nd--第五章(一) 本章内容线性分类可分情况定义5.1 Geometric margin(几何边距) 优化目标支持向量 Su ...
Foundations of Machine Learning 2nd——第四章Model Selection（二）
Foundations of Machine Learning 2nd--第四章Model Selection(二) 交叉验证 Cross Validation(CV) 交叉验证的步骤交叉验证有效性 ...
Foundations of Machine Learning 2nd——第二章 PAC学习框架
Foundations of Machine Learning 2nd--第二章 PAC学习框架前言定义介绍 Generalization error Empirical error 定理1 PA ...
Foundations of Machine Learning 2nd——第二章 PAC学习框架后记
Foundations of Machine Learning 2nd--第二章 PAC学习框架后记前言 Generalities 一般性可确定性 VS 随机场景定义1 Agnostic PAC ...
Foundations of Machine Learning 2nd——第一章机器学习预备知识
Foundations of Machine Learning 2nd--第一章机器学习预备知识前言 1.1 什么是机器学习(Machine learning) 1.2 什么样的问题可以用机器学习 ...
Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2)
Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2) Foundations of Machine Le ...
Machine Learning笔记（三）多变量线性回归
2019独角兽企业重金招聘Python工程师标准>>> Machine Learning笔记(三) 多变量线性回归注:本文内容资源来自 Andrew Ng 在 Coursera上的 ...
Machine Learning In Action 第二章学习笔记: kNN算法
本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测手写数 ...

Foundations of Machine Learning 2nd——第三章（一）拉德马赫复杂度

Foundations of Machine Learning 2nd——第三章（一）拉德马赫复杂度和VC维度