UA MATH574M 统计学习I 监督学习理论

  • 统计决策理论
    • 损失函数与风险函数
      • 偏差-方差的权衡
    • 最优估计量
      • 贝叶斯规则
  • 监督学习理论的基本概念
    • Optimal Learner
    • 经验损失函数与ERM
    • 监督学习理论的内容
  • ERM的一致性
    • Worst Case Analysis
    • Vapnik-Cervonenkis Entropy (VC-Entropy)
    • 一致性的充要条件

统计决策理论

损失函数与风险函数

假设样本X=(X1,X2,...,Xn)∼iidf(x∣θ),θ∈ΘX=(X_1,X_2,...,X_n) \sim_{iid} f(x|\theta), \theta \in \ThetaX=(X1​,X2​,...,Xn​)∼iid​f(x∣θ),θ∈Θ,是state-of-nature,假设其估计量是θ^(X)\hat{\theta}(X)θ^(X)(简写为θ^\hat{\theta}θ^),可以定义损失函数(Loss Function)
L(θ,θ^):Θ×Θ→RL(\theta,\hat{\theta}): \Theta \times \Theta \to \mathbb{R} L(θ,θ^):Θ×Θ→R
用来衡量估计量与state-of-nature之间的差异,通常损失函数非负。常用的损失函数有这几种:
SquareLoss:L(θ,θ^)=∣θ−θ^∣L22AbsoluteErrorLoss:L(θ,θ^)=∣θ−θ^∣L1LpLoss:L(θ,θ^)=∣θ−θ^∣LppSquare\ Loss:L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|^2_{L_2} \\ Absolute\ Error\ Loss: L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|_{L_1} \\ L_p\ Loss:L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|^p_{L_p} \\ Square Loss:L(θ,θ^)=∣θ−θ^∣L2​2​Absolute Error Loss:L(θ,θ^)=∣θ−θ^∣L1​​Lp​ Loss:L(θ,θ^)=∣θ−θ^∣Lp​p​
这三种损失函数一般用在回归中,平方损失函数是最常用的。
0−1Loss:L(θ,θ^)=I(θ≠θ^)0-1\ Loss: L(\theta,\hat{\theta}) = I(\theta \ne \hat{\theta}) 0−1 Loss:L(θ,θ^)=I(θ​=θ^)
这种损失函数一般用在分类问题中。
K−LDivergence:L(θ,θ^)=D(f(x∣θ)∣∣f(x∣θ^))K-L\ Divergence:L(\theta,\hat{\theta}) = D(f(x|\theta)||f(x|\hat{\theta})) K−L Divergence:L(θ,θ^)=D(f(x∣θ)∣∣f(x∣θ^))
这种损失函数一般用来做密度估计(Density Estimation)。其中K-L Divergence(Kullback-Leibler Divergence)又叫相对熵,用来描述两个分布间的“距离”,其定义是
D(f(x∣θ)∣∣f(x∣θ^))=E[ln(f(X∣θ)f(X∣θ^))]D(f(x|\theta)||f(x|\hat{\theta})) = E[ln(\frac{f(X|\theta)}{f(X|\hat{\theta})})] D(f(x∣θ)∣∣f(x∣θ^))=E[ln(f(X∣θ^)f(X∣θ)​)]
但这个定义不满足对称性和三角不等式,所以不是一个真正的距离。在统计决策理论的框架下,参数估计可以被化归为损失函数最小化。但遗憾的是,在Frequentist的哲学中,损失函数是关于样本的函数,是随机的,用来作为最优化的目标函数会让问题变复杂。因此统计学家又定义了风险函数(Risk function):
R(θ,θ^)=E[L(θ,θ^)]=∫XL(θ,θ^)f(X∣θ)dXR(\theta,\hat{\theta}) = E[L(\theta,\hat{\theta}) ] = \int_{\mathbb{X}} L(\theta,\hat{\theta}) f(X|\theta)dX R(θ,θ^)=E[L(θ,θ^)]=∫X​L(θ,θ^)f(X∣θ)dX
这个就不是随机的了,它是参数空间Θ\ThetaΘ到R\mathbb{R}R上的函数。因此统计决策理论的目标就是通过最优化
min⁡θ∈ΘR(θ,θ^)\min_{\theta \in \Theta} R(\theta,\hat{\theta}) θ∈Θmin​R(θ,θ^)
来确定参数。

偏差-方差的权衡

假设使用平方损失函数,则对应的风险函数又叫均方误差(MSE,Mean Squared Error)。
MSE=E(θ−θ^)2=E[(θ−Eθ^)+(Eθ^−θ^)]2MSE = E(\theta-\hat{\theta})^2=E[(\theta-E\hat{\theta})+(E\hat{\theta}-\hat{\theta})]^2 MSE=E(θ−θ^)2=E[(θ−Eθ^)+(Eθ^−θ^)]2
考虑一下交叉项
E[(θ−Eθ^)(Eθ^−θ^)]=(θ−Eθ^)E(Eθ^−θ^)=0E[(\theta-E\hat{\theta})(E\hat{\theta}-\hat{\theta})]=(\theta-E\hat{\theta})E(E\hat{\theta}-\hat{\theta})=0 E[(θ−Eθ^)(Eθ^−θ^)]=(θ−Eθ^)E(Eθ^−θ^)=0
而其中
E[(θ−Eθ^)2]=bias2(θ^),E[(Eθ^−θ^)2]=Var(θ^)E[(\theta-E\hat{\theta})^2]=bias^2(\hat{\theta}), E[(E\hat{\theta}-\hat{\theta})^2]=Var(\hat{\theta}) E[(θ−Eθ^)2]=bias2(θ^),E[(Eθ^−θ^)2]=Var(θ^)
所以MSE(θ^)=bias2(θ^)+Var(θ^)MSE(\hat{\theta})=bias^2(\hat{\theta})+Var(\hat{\theta})MSE(θ^)=bias2(θ^)+Var(θ^)。偏差与方差都会增加总风险,而从经验上看二者又是此消彼长的关系,因此通常都需要在二者之间作出权衡(bias-variance trade-off)。

最优估计量

风险函数还可以用来衡量估计量的优劣,假设θ^1\hat{\theta}_1θ^1​和θ^2\hat{\theta}_2θ^2​是两个估计量,如果
R(θ,θ^1)<R(θ,θ^2),∀θ∈ΘR(\theta,\hat{\theta}_1)<R(\theta,\hat{\theta}_2), \forall \theta \in \Theta R(θ,θ^1​)<R(θ,θ^2​),∀θ∈Θ
称θ^1\hat{\theta}_1θ^1​绝对占优于(uniformly dominated)θ^2\hat{\theta}_2θ^2​。从这个定义可以得到对最优估计量的最朴素的认知,如果一个估计量绝对占优于其他所有估计量,那么它就是最优的。这也正是上面提到的最小化风险函数的意思。然而找到风险函数的全局最优解几乎是不可能的,一般都是用一些更可行的方法计算得到一些近似的结果。常用的方法有三种。第一种是在最优化限制在参数空间的某些子集中,比如限制在所有的无偏估计中,那么最优的结果的结果就是最优无偏估计,或称UMVUE;如果限制在所有的线性无偏估计中,那么最优的结果就是BLUE。第二种方法是minimax规则。对于所有可能的估计量,计算风险函数的上确界
Rˉ(θ^)=sup⁡θ∈ΘR(θ,θ^)\bar{R}(\hat{\theta})=\sup_{\theta \in \Theta} R(\theta,\hat{\theta}) Rˉ(θ^)=θ∈Θsup​R(θ,θ^)
上确界代表估计量可能造成的最糟糕的结果。然后通过最小化这些上确界来选择估计量
min⁡θ^Rˉ(θ^)\min_{\hat{\theta}} \bar{R}(\hat{\theta}) θ^min​Rˉ(θ^)
用这个规则相当于就是非常悲观,希望估计量造成的最坏的结果也没有那么坏就可以了。

贝叶斯规则

贝叶斯规则是第三种非常常用的方法。Bayesian的思想是state-of-nature也是随机的,它会服从一个先验π(θ)\pi(\theta)π(θ),给定样本后根据Bayes公式可以计算出后验分布
π(θ∣X)=f(X∣θ)π(θ)m(X)∝f(X∣θ)π(θ)\pi(\theta|X)=\frac{f(X|\theta)\pi(\theta)}{m(X)} \propto f(X|\theta)\pi(\theta) π(θ∣X)=m(X)f(X∣θ)π(θ)​∝f(X∣θ)π(θ)
其中m(X)m(X)m(X)是样本的边缘分布,f(X∣θ)π(θ)f(X|\theta)\pi(\theta)f(X∣θ)π(θ)又被称为后验核(posterior kernel)。因为贝叶斯统计最大的问题在于大量的复杂计算,而决定后验分布类型的只有f(X∣θ)π(θ)f(X|\theta)\pi(\theta)f(X∣θ)π(θ),所以通常有后验核就可以了。在贝叶斯统计中,上面定义的风险函数不再是一个确定的函数了,因为state-of-nature也是随机的。Bayesian定义了贝叶斯风险(Bayesian risk)
rB(π,θ^)=∫ΘR(θ,θ^)π(θ)dθ=EθEX∣θL(θ,θ^)r_B(\pi,\hat{\theta})=\int_{\Theta} R(\theta,\hat{\theta})\pi(\theta) d\theta = E_{\theta}E_{X|\theta} L(\theta,\hat{\theta}) rB​(π,θ^)=∫Θ​R(θ,θ^)π(θ)dθ=Eθ​EX∣θ​L(θ,θ^)
贝叶斯规则的目标就是通过最小化贝叶斯风险来估计参数
θ^Bπ=arg min⁡θ^rB(π,θ^)\hat{\theta}^{\pi}_{B} = \argmin_{\hat{\theta}} r_B(\pi,\hat{\theta}) θ^Bπ​=θ^argmin​rB​(π,θ^)
这种估计量叫贝叶斯估计。然而还是同样的问题,光是rB(π,θ^)r_B(\pi,\hat{\theta})rB​(π,θ^)的那个积分计算上就很复杂了,更何况还要做最优化。因此另一种更可行的方法是定义后验风险(posterior risk)
r(θ^∣X)=∫ΘL(θ,θ^)π(θ∣X)dθ=Eθ∣XL(θ,θ^)r(\hat{\theta}|X)=\int_{\Theta} L(\theta,\hat{\theta})\pi(\theta|X)d\theta = E_{\theta|X} L(\theta,\hat{\theta}) r(θ^∣X)=∫Θ​L(θ,θ^)π(θ∣X)dθ=Eθ∣X​L(θ,θ^)
后验风险是样本的函数,它和贝叶斯风险存在如下关联
rB(π,θ^)=EXr(θ^∣X)r_B(\pi,\hat{\theta}) = E_X r(\hat{\theta}|X) rB​(π,θ^)=EX​r(θ^∣X)
证明也比较容易,就是用一下全概率公式
rB(π,θ^)=EθEX∣θL(θ,θ^)=EX,θL(θ,θ^)=EXEθ∣XL(θ,θ^)=EXr(θ^∣X)r_B(\pi,\hat{\theta})=E_{\theta}E_{X|\theta} L(\theta,\hat{\theta})=E_{X,\theta} L(\theta,\hat{\theta})=E_XE_{\theta|X} L(\theta,\hat{\theta})=E_X r(\hat{\theta}|X) rB​(π,θ^)=Eθ​EX∣θ​L(θ,θ^)=EX,θ​L(θ,θ^)=EX​Eθ∣X​L(θ,θ^)=EX​r(θ^∣X)
这个关系可以给贝叶斯规则带来一个新的计算思路
θ^Bπ=min⁡Xmin⁡θ^r(θ^∣X=x)\hat{\theta}^{\pi}_{B} = \min_{\mathbb{X}} \min_{\hat{\theta}} r(\hat{\theta}|X=x) θ^Bπ​=Xmin​θ^min​r(θ^∣X=x)
在实践中,这个方法比直接找贝叶斯估计量更容易计算。

监督学习理论的基本概念

将统计决策理论的框架用到监督学习(Supervised Learning)上,可以初步建立起监督学习理论。假设(X,Y)={(Xi,Yi)}i=1n(X,Y)=\{(X_i,Y_i)\}_{i=1}^n(X,Y)={(Xi​,Yi​)}i=1n​表示训练集,(Xi,Yi)∼iidP(x,y)(X_i,Y_i) \sim_{iid} P(x,y)(Xi​,Yi​)∼iid​P(x,y),且满足Y=f(X)Y=f(X)Y=f(X),监督学习的目标就是构建fff的估计量f^\hat{f}f^​。

Optimal Learner

监督学习的损失函数可以写成L(Y,f(X))L(Y,f(X))L(Y,f(X)),风险函数是
R(f)=EX,YL(Y,f(X))=∫X,YL(Y,f(X))dP(X,Y)R(f) = E_{X,Y} L(Y,f(X)) = \int_{\mathbb{X},\mathbb{Y}} L(Y,f(X))dP(X,Y) R(f)=EX,Y​L(Y,f(X))=∫X,Y​L(Y,f(X))dP(X,Y)
它又被称为expected prediction error (EPE(f))。因此Optimal Learner的定义是
f^=arg min⁡fR(f)\hat{f} = \argmin_{f} R(f) f^​=fargmin​R(f)
理论机器学习的文章都是试图证明某种方法的EPE会趋近optimal learner。与贝叶斯规则类似,监督学习也可以做简化处理,
R(f)=EX,YL(Y,f(X))=EXEY∣XL(Y,f(X))R(f)=E_{X,Y} L(Y,f(X)) = E_X E_{Y|X} L(Y,f(X)) R(f)=EX,Y​L(Y,f(X))=EX​EY∣X​L(Y,f(X))
给定X=xX=xX=x时,optimal learner就是最小化EY∣XL(Y,f(X))E_{Y|X} L(Y,f(X))EY∣X​L(Y,f(X))的解。以平方损失函数为例,考虑最优化
min⁡fEY∣X=xL(Y,f(x))=EY∣X=x(Y−f(x))2\min_f E_{Y|X=x} L(Y,f(x)) = E_{Y|X=x} (Y-f(x))^2 fmin​EY∣X=x​L(Y,f(x))=EY∣X=x​(Y−f(x))2
其解为f∗(x)=E(Y∣X=x)f^*(x)=E(Y|X=x)f∗(x)=E(Y∣X=x),正是平方损失下的贝叶斯估计量,因此贝叶斯风险是平方损失下EPE的下确界。如果对EPE做分解
EPE(f)=EX,Y(Y−f(X))2=EX,Y[(Y−E(Y∣X))+(E(Y∣X)−f(X))]2EPE(f)=E_{X,Y} (Y-f(X))^2 = E_{X,Y} [(Y-E(Y|X))+(E(Y|X)-f(X))]^2 EPE(f)=EX,Y​(Y−f(X))2=EX,Y​[(Y−E(Y∣X))+(E(Y∣X)−f(X))]2
其中交叉项也会为零,EX,Y[(Y−E(Y∣X))]2E_{X,Y} [(Y-E(Y|X))]^2EX,Y​[(Y−E(Y∣X))]2是平方损失下的贝叶斯风险,因此
EPE(f)=rB(π,θ^)+EX(f(X)−E(Y∣X))2EPE(f) = r_B(\pi,\hat{\theta})+ E_{X}(f(X) - E(Y|X))^2 EPE(f)=rB​(π,θ^)+EX​(f(X)−E(Y∣X))2
后者衡量learner与贝叶斯估计之间的差距,设计learner的目标就是控制这一项。

经验损失函数与ERM

在实际问题中,概率测度P(X,Y)P(X,Y)P(X,Y)都是未知的,一般只能用经验风险函数(empirical risk function)来替代EPE。经验风险函数又叫训练误差(training error),其定义是
Remp(f)=1n∑i=1nL(Yi,f(Xi))R_{emp}(f) = \frac{1}{n} \sum_{i=1}^{n} L(Y_i,f(X_i)) Remp​(f)=n1​i=1∑n​L(Yi​,f(Xi​))
最小化经验风险来寻找optimal learner的原则叫ERM(Principle of empirical risk minimization)。从理论上看,当训练集足够大时,经验风险自然会趋近于EPE,但当训练集不够大的时候需要防止模型过拟合(overfitting)。过拟合指的是模型的训练误差很小,但泛化能力较差。因为最小化经验风险与最小化EPE的结果并不一定总是一致的,所以会有过拟合。为了防止过拟合,可以给参数加上roughness penalty。ERM与贝叶斯估计量类似,都是试图寻找全局的最优解,但全局最优通常无法找到,所以限制模型的类别,比如线性、非线性、参数模型、非参模型等,在子集上找最优解是比较常规的做法。假设模型集合为F\mathbf{F}F,某个类别的子集为F1\mathbf{F}_1F1​,f∗f^*f∗是optimal learner,
f∗=arg min⁡f∈FEPE(f)f^* = \argmin_{f \in \mathbf{F}} EPE(f) f∗=f∈Fargmin​EPE(f)
f^\hat{f}f^​是在模型子集F1\mathbf{F}_1F1​上根据ERM找到的最优解
f^=arg min⁡f∈F1Remp(f)\hat{f} = \argmin_{f \in \mathbf{F}_1} R_{emp}(f) f^​=f∈F1​argmin​Remp​(f)
f~\tilde{f}f~​是模型子集F1\mathbf{F}_1F1​的理论最优解
f~=arg min⁡f∈F1EPE(f)\tilde{f} = \argmin_{f \in \mathbf{F}_1} EPE(f) f~​=f∈F1​argmin​EPE(f)
则f^\hat{f}f^​与optimal learner之间的误差可以做如下分解
EPE(f^)−EPE(f∗)=[EPE(f^)−EPE(f~)]+[EPE(f~)−EPE(f∗)]EPE(\hat{f})-EPE(f^*)=[EPE(\hat{f})-EPE(\tilde{f})]+[EPE(\tilde{f})-EPE(f^*)] EPE(f^​)−EPE(f∗)=[EPE(f^​)−EPE(f~​)]+[EPE(f~​)−EPE(f∗)]
第一项的含义是在模型子集F1\mathbf{F}_1F1​的估计误差,第二项是将模型限制在F1\mathbf{F}_1F1​上的近似误差。

监督学习理论的内容

从上面的描述中,我们已经可以窥见监督学习理论需要回答的几个问题了。ERM收敛的条件是什么?收敛速度怎么样?怎么才能控制它的收敛?这三个问题都有实际意义。第一个问题可以回答基于ERM的监督学习算法在哪些情境下适用;第二个问题可以回答为了保证结果尽可能接近Optimal Learner,至少需要多大的训练集;第三个问题可以回答过拟合能不能避免。以下给出一致性理论的简单介绍。

ERM的一致性

ERM的一致性理论建立在概统渐进理论的基础上,提供了ERM收敛的充要条件,满足这些充要条件的算法才有机会收敛到Optimal Learner。

Worst Case Analysis

假设风险函数R(f)R(f)R(f)有界,则ERM具有一致性的充要条件是Remp(f)R_{emp}(f)Remp​(f)依概率单边一致收敛(uniformly one-sided convergence in probability)到R(f)R(f)R(f),∀f∈F\forall f \in \mathbf{F}∀f∈F,即
lim⁡n→∞P{sup⁡f∈F(R(f)−Remp(f))>ϵ}=0,∀ϵ>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (R(f)-R_{emp}(f)) >\epsilon\}=0, \forall \epsilon>0 n→∞lim​P{f∈Fsup​(R(f)−Remp​(f))>ϵ}=0,∀ϵ>0
因为Remp(f)R_{emp}(f)Remp​(f)是(X,Y)(X,Y)(X,Y)的函数,所以这里的概率测度就是上面那个概率测度P(X,Y)P(X,Y)P(X,Y)。这个结论其实是很直观的,ERM的一致性指大样本的时候,希望ERM的最优结果趋近于Optimal Learner,这个结论说的是要实现这个效果,那么首先在大样本的时候训练误差就要一致收敛到EPE。这个定理是监督学习理论一个非常关键的定理,因为要保证训练误差一致收敛,就要求我们必须分析最坏的情况,即考虑sup⁡f∈F(Remp(f)−R(f))\sup_{f \in \mathbf{F}} (R_{emp}(f)-R(f))supf∈F​(Remp​(f)−R(f))。这其实就是在强调对ERM一致性的分析,其实是一种Worst Case Analysis。

Vapnik-Cervonenkis Entropy (VC-Entropy)

接下来要做的事情,就是分析Remp(f)R_{emp}(f)Remp​(f)依概率单边一致收敛到R(f)R(f)R(f)的充要条件。为了做这个分析,需要定义一个新的结构,VC-Entropy。先举一个例子介绍一下VC-Entropy的思想。假设学习任务是做一个二分类问题,YYY被标注为0和1,如果只有5个观察对象,观察足够多次后得到的f(X)f(X)f(X)只有这四种结果(0,1,1,0,0), (0,1,0,1,0), (1,0,1,1,1), (0,0,1,0,1) (根据观察到的特征用分类器fff分类的结果)。这四个向量在五维空间中构成的图形(这个图形相当于所有分类结果的边界)有4个顶点,由此可以定义这个分类器的随机熵(random entropy)为ln⁡4\ln4ln4。这个值用来衡量分类器分类结果的离散程度。现在将这个定义推广到一般情况。对于训练集(X,Y)={(Xi,Yi)}i=1n(X,Y)=\{(X_i,Y_i)\}_{i=1}^n(X,Y)={(Xi​,Yi​)}i=1n​与算法fff,定义随机向量
q(f)=[f(X1),f(X2),...,f(Xn)]T∈Rnq(f)=[f(X_1),f(X_2),...,f(X_n)]^T \in \mathbb{R}^n q(f)=[f(X1​),f(X2​),...,f(Xn​)]T∈Rn
则这个向量表示算法fff所有可能输出在Rn\mathbb{R}^nRn空间中的位置。然后利用ϵ\epsilonϵ-net去定义所有这些q(f)q(f)q(f)的边界的“顶点”,用N(ϵ,X)N(\epsilon,X)N(ϵ,X)表示“顶点”的个数,用H(ϵ,X)=ln⁡N(ϵ,X)H(\epsilon,X)=\ln N(\epsilon,X)H(ϵ,X)=lnN(ϵ,X)用来衡量输出的离散程度,则VC-entropy的定义是
H(ϵ,n)=EXH(ϵ,X)H(\epsilon,n) = E_X H(\epsilon,X) H(ϵ,n)=EX​H(ϵ,X)
这个定义已经将特征的不确定性考虑在内了,其含义是输入的特征(随机变量)经过算法fff处理后输出结果的平均离散程度,只与ϵ\epsilonϵ的选取与训练集大小nnn有关。

一致性的充要条件

Remp(f)R_{emp}(f)Remp​(f)依概率双边一致收敛(uniformly two-sided convergence in probability)到R(f)R(f)R(f),∀f∈F\forall f \in \mathbf{F}∀f∈F,即
lim⁡n→∞P{sup⁡f∈F(∣R(f)−Remp(f)∣)>ϵ}=0,∀ϵ>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\}=0, \forall \epsilon>0 n→∞lim​P{f∈Fsup​(∣R(f)−Remp​(f)∣)>ϵ}=0,∀ϵ>0
的充要条件是
lim⁡n→∞H(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞lim​nH(ϵ,n)​=0,∀ϵ>0
因为双边收敛比单边收敛强,所以这个结果也是单边一致收敛的充要条件。这个结果也是比较直观的,相当于是在限制所有可能输出的边界的大小,假设上面的极限等于一个正实数,那么“顶点”的个数会指数增加,随着训练集越来越大,算出输出的值域反而会扩张,从而出现类似过拟合的现象,显然是不会收敛的;假设上面的极限是一个负实数,那么“顶点”的个数会指数减少,随着训练集越来越大,算法输出的值域会逐渐坍塌,出现类似欠拟合的现象,这样也不会收敛。监督学习理论讨论了一致性的充要条件后,还讨论了快速收敛(快速收敛指的是指数收敛)的充要条件,快速收敛且独立于概率测度(也就是可以在不同的context下都具有一致性)的充要条件。基于N(ϵ,X)N(\epsilon,X)N(ϵ,X)构建另外两个结构。退化VC-entropy
Hann(ϵ,n)=ln⁡EN(ϵ,X)H_{ann}(\epsilon,n)=\ln EN(\epsilon,X) Hann​(ϵ,n)=lnEN(ϵ,X)
以及增长函数
G(ϵ,X)=ln⁡sup⁡XN(ϵ,X)G(\epsilon,X) = \ln \sup_X N(\epsilon,X) G(ϵ,X)=lnXsup​N(ϵ,X)
根据定义可以直接得到VC-entropy的边界
H(ϵ,n)≤Hann(ϵ,n)≤G(ϵ,X)H(\epsilon,n) \le H_{ann}(\epsilon,n) \le G(\epsilon,X) H(ϵ,n)≤Hann​(ϵ,n)≤G(ϵ,X)
其中
lim⁡n→∞Hann(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{H_{ann}(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞lim​nHann​(ϵ,n)​=0,∀ϵ>0
是快速收敛的充要条件。
lim⁡n→∞G(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{G(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞lim​nG(ϵ,n)​=0,∀ϵ>0
快速收敛且独立于概率测度的充要条件。

UA MATH574M 统计学习I 监督学习理论相关推荐

  1. UA MATH574M 统计学习I 监督学习理论下

    UA MATH574M 统计学习I 监督学习理论下 Hoeffding's inequality 证明 这一讲讨论上一讲结束时提到的监督学习的一致性的概念.假设风险函数 R(f)R(f)R(f)有界, ...

  2. UA MATH574M 统计学习 Variable Selection:Cross Validation

    UA MATH574M 统计学习 Variable Selection:Cross Validation LOOCV LOOCV score的计算 K-fold CV Generalized CV 故 ...

  3. UA MATH574M 统计学习V Variable Selection: LASSO

    UA MATH574M 统计学习V Variable Selection: LASSO 基本概念 Oracle Property Penalized Regularization Framework ...

  4. UA MATH574M 统计学习V Variable Selection简介

    UA MATH574M 统计学习V Variable Selection简介 两个基础方法 Ranking Variables Best Subset Algorithm 对基础方法的改进 Gener ...

  5. UA MATH574M 统计学习II 高维数据的二元分类

    UA MATH574M 统计学习II 高维数据的二元分类 LDA的直观解释 NSC 上一讲提到了高维数据相比低维数据的特殊性,并介绍了处理高维数据二元分类最简单的一个模型independent rul ...

  6. UA MATH574M 统计学习II 二元分类例子与高维问题

    UA MATH574M 统计学习II 二元分类例子与高维问题 数值例子 高维数据的二分类问题 Independence Rule 数值例子 用模拟数值做一个二分类的例子. library(MASS)# ...

  7. UA MATH574M 统计学习II 二元分类

    UA MATH574M 统计学习II 二元分类基础 基础模型 Bayes分类器 均等成本 不等成本 线性概率模型 线性分类器 线性判别分析(LDA) Logistics回归 基础模型 假设一个二元分类 ...

  8. 统计学习方法 学习笔记(1)统计学习方法及监督学习理论

    统计学习方法及监督学习理论 1.1.统计学习 1.1.1.统计学习的特点 1.1.2.统计学习的对象 1.1.3.统计学习的目的 1.1.4.统计学习的方法 1.1.5.统计学习的研究 1.1.6.统 ...

  9. UA MATH566 统计理论 Bayes统计基础

    UA MATH566 统计理论 Bayes统计基础 共轭分布 基于后验概率预测新的观测值 Bayes统计思想的基础是Bayes公式 P(Ci∣A)=P(A,Ci)P(A)=P(A∣Ci)P(Ci)∑i ...

最新文章

  1. c语言int64编译时错误,错误:编译C程序时未在此作用域中声明uint64_t
  2. linux图形化应用程序快捷方式制作方法
  3. VTK:平行坐标视图用法实战
  4. Ring3下Inline Hook API
  5. python协程等待执行完成_当循环运行时,如何运行协同程序并等待同步函数的结果?...
  6. qml学习文档-转载
  7. Quartz.NET常用方法 01
  8. 关于NGINX下开启PHP-FPM 输出PHP错误日志的设置(已解决)
  9. Linux 下离线手动下载安装 C++ 开发环境
  10. Struts2(三)
  11. Python 函数参数 传引用还是传值
  12. 腐蚀rust服务器命令_腐蚀RUST基本指令及服务器指令大全
  13. 蜂窝移动终端的Cat指的是什么?
  14. Jenkins(二)之自定义Robot Framework结果报告
  15. 怎么从身份证号码批量提取出生年月日?
  16. Educational Codeforces Round 61 (Rated for Div. 2) D. Stressful Training(贪心+二分+优先队列)
  17. 中国电信再发力:推出最新七大惠民惠企新举措
  18. Java猿社区—Redis一篇系列—第一章、NoSql入门和概述
  19. Myeclipes解决SECURITY ALTER:INTEGRITY CHECK ERROR
  20. 申请计算机博士需要的论文,计算机科学与技术学院申请博士学位发表学术论文的规定(2008.9上网).doc...

热门文章

  1. Java解码网页表单post内容小记
  2. oracle rac重建grid,oracle 11g rac安装之grid报错解决
  3. 计算属性一般是没有set方法, 只读属性 ||计算属性的缓存
  4. Prepare the Knowledge Base for Success
  5. 线程间定制化调用通信—— 1 高内聚低耦合的前提下,线程操作资源类 2 判断/干活/通知 3 多线程交互中,必须要防止多线程的虚假唤醒,也即(判断只用while,不能用if)
  6. switch分支结构
  7. 关于HTML下overflow-y:auto无效、清除HTML默认边距、解决去除手机访问网页时的左右多余空白的三个方法汇总
  8. Python 入门篇-最新版python3.7.2的安装。
  9. 电磁场第二章公式总结
  10. Visual Studio 2022编译x86 或者 win32程序时的错误MSB6006