UA MATH574M 统计学习I 监督学习理论
UA MATH574M 统计学习I 监督学习理论
- 统计决策理论
- 损失函数与风险函数
- 偏差-方差的权衡
- 最优估计量
- 贝叶斯规则
- 监督学习理论的基本概念
- Optimal Learner
- 经验损失函数与ERM
- 监督学习理论的内容
- ERM的一致性
- Worst Case Analysis
- Vapnik-Cervonenkis Entropy (VC-Entropy)
- 一致性的充要条件
统计决策理论
损失函数与风险函数
假设样本X=(X1,X2,...,Xn)∼iidf(x∣θ),θ∈ΘX=(X_1,X_2,...,X_n) \sim_{iid} f(x|\theta), \theta \in \ThetaX=(X1,X2,...,Xn)∼iidf(x∣θ),θ∈Θ,是state-of-nature,假设其估计量是θ^(X)\hat{\theta}(X)θ^(X)(简写为θ^\hat{\theta}θ^),可以定义损失函数(Loss Function)
L(θ,θ^):Θ×Θ→RL(\theta,\hat{\theta}): \Theta \times \Theta \to \mathbb{R} L(θ,θ^):Θ×Θ→R
用来衡量估计量与state-of-nature之间的差异,通常损失函数非负。常用的损失函数有这几种:
SquareLoss:L(θ,θ^)=∣θ−θ^∣L22AbsoluteErrorLoss:L(θ,θ^)=∣θ−θ^∣L1LpLoss:L(θ,θ^)=∣θ−θ^∣LppSquare\ Loss:L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|^2_{L_2} \\ Absolute\ Error\ Loss: L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|_{L_1} \\ L_p\ Loss:L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|^p_{L_p} \\ Square Loss:L(θ,θ^)=∣θ−θ^∣L22Absolute Error Loss:L(θ,θ^)=∣θ−θ^∣L1Lp Loss:L(θ,θ^)=∣θ−θ^∣Lpp
这三种损失函数一般用在回归中,平方损失函数是最常用的。
0−1Loss:L(θ,θ^)=I(θ≠θ^)0-1\ Loss: L(\theta,\hat{\theta}) = I(\theta \ne \hat{\theta}) 0−1 Loss:L(θ,θ^)=I(θ=θ^)
这种损失函数一般用在分类问题中。
K−LDivergence:L(θ,θ^)=D(f(x∣θ)∣∣f(x∣θ^))K-L\ Divergence:L(\theta,\hat{\theta}) = D(f(x|\theta)||f(x|\hat{\theta})) K−L Divergence:L(θ,θ^)=D(f(x∣θ)∣∣f(x∣θ^))
这种损失函数一般用来做密度估计(Density Estimation)。其中K-L Divergence(Kullback-Leibler Divergence)又叫相对熵,用来描述两个分布间的“距离”,其定义是
D(f(x∣θ)∣∣f(x∣θ^))=E[ln(f(X∣θ)f(X∣θ^))]D(f(x|\theta)||f(x|\hat{\theta})) = E[ln(\frac{f(X|\theta)}{f(X|\hat{\theta})})] D(f(x∣θ)∣∣f(x∣θ^))=E[ln(f(X∣θ^)f(X∣θ))]
但这个定义不满足对称性和三角不等式,所以不是一个真正的距离。在统计决策理论的框架下,参数估计可以被化归为损失函数最小化。但遗憾的是,在Frequentist的哲学中,损失函数是关于样本的函数,是随机的,用来作为最优化的目标函数会让问题变复杂。因此统计学家又定义了风险函数(Risk function):
R(θ,θ^)=E[L(θ,θ^)]=∫XL(θ,θ^)f(X∣θ)dXR(\theta,\hat{\theta}) = E[L(\theta,\hat{\theta}) ] = \int_{\mathbb{X}} L(\theta,\hat{\theta}) f(X|\theta)dX R(θ,θ^)=E[L(θ,θ^)]=∫XL(θ,θ^)f(X∣θ)dX
这个就不是随机的了,它是参数空间Θ\ThetaΘ到R\mathbb{R}R上的函数。因此统计决策理论的目标就是通过最优化
minθ∈ΘR(θ,θ^)\min_{\theta \in \Theta} R(\theta,\hat{\theta}) θ∈ΘminR(θ,θ^)
来确定参数。
偏差-方差的权衡
假设使用平方损失函数,则对应的风险函数又叫均方误差(MSE,Mean Squared Error)。
MSE=E(θ−θ^)2=E[(θ−Eθ^)+(Eθ^−θ^)]2MSE = E(\theta-\hat{\theta})^2=E[(\theta-E\hat{\theta})+(E\hat{\theta}-\hat{\theta})]^2 MSE=E(θ−θ^)2=E[(θ−Eθ^)+(Eθ^−θ^)]2
考虑一下交叉项
E[(θ−Eθ^)(Eθ^−θ^)]=(θ−Eθ^)E(Eθ^−θ^)=0E[(\theta-E\hat{\theta})(E\hat{\theta}-\hat{\theta})]=(\theta-E\hat{\theta})E(E\hat{\theta}-\hat{\theta})=0 E[(θ−Eθ^)(Eθ^−θ^)]=(θ−Eθ^)E(Eθ^−θ^)=0
而其中
E[(θ−Eθ^)2]=bias2(θ^),E[(Eθ^−θ^)2]=Var(θ^)E[(\theta-E\hat{\theta})^2]=bias^2(\hat{\theta}), E[(E\hat{\theta}-\hat{\theta})^2]=Var(\hat{\theta}) E[(θ−Eθ^)2]=bias2(θ^),E[(Eθ^−θ^)2]=Var(θ^)
所以MSE(θ^)=bias2(θ^)+Var(θ^)MSE(\hat{\theta})=bias^2(\hat{\theta})+Var(\hat{\theta})MSE(θ^)=bias2(θ^)+Var(θ^)。偏差与方差都会增加总风险,而从经验上看二者又是此消彼长的关系,因此通常都需要在二者之间作出权衡(bias-variance trade-off)。
最优估计量
风险函数还可以用来衡量估计量的优劣,假设θ^1\hat{\theta}_1θ^1和θ^2\hat{\theta}_2θ^2是两个估计量,如果
R(θ,θ^1)<R(θ,θ^2),∀θ∈ΘR(\theta,\hat{\theta}_1)<R(\theta,\hat{\theta}_2), \forall \theta \in \Theta R(θ,θ^1)<R(θ,θ^2),∀θ∈Θ
称θ^1\hat{\theta}_1θ^1绝对占优于(uniformly dominated)θ^2\hat{\theta}_2θ^2。从这个定义可以得到对最优估计量的最朴素的认知,如果一个估计量绝对占优于其他所有估计量,那么它就是最优的。这也正是上面提到的最小化风险函数的意思。然而找到风险函数的全局最优解几乎是不可能的,一般都是用一些更可行的方法计算得到一些近似的结果。常用的方法有三种。第一种是在最优化限制在参数空间的某些子集中,比如限制在所有的无偏估计中,那么最优的结果的结果就是最优无偏估计,或称UMVUE;如果限制在所有的线性无偏估计中,那么最优的结果就是BLUE。第二种方法是minimax规则。对于所有可能的估计量,计算风险函数的上确界
Rˉ(θ^)=supθ∈ΘR(θ,θ^)\bar{R}(\hat{\theta})=\sup_{\theta \in \Theta} R(\theta,\hat{\theta}) Rˉ(θ^)=θ∈ΘsupR(θ,θ^)
上确界代表估计量可能造成的最糟糕的结果。然后通过最小化这些上确界来选择估计量
minθ^Rˉ(θ^)\min_{\hat{\theta}} \bar{R}(\hat{\theta}) θ^minRˉ(θ^)
用这个规则相当于就是非常悲观,希望估计量造成的最坏的结果也没有那么坏就可以了。
贝叶斯规则
贝叶斯规则是第三种非常常用的方法。Bayesian的思想是state-of-nature也是随机的,它会服从一个先验π(θ)\pi(\theta)π(θ),给定样本后根据Bayes公式可以计算出后验分布
π(θ∣X)=f(X∣θ)π(θ)m(X)∝f(X∣θ)π(θ)\pi(\theta|X)=\frac{f(X|\theta)\pi(\theta)}{m(X)} \propto f(X|\theta)\pi(\theta) π(θ∣X)=m(X)f(X∣θ)π(θ)∝f(X∣θ)π(θ)
其中m(X)m(X)m(X)是样本的边缘分布,f(X∣θ)π(θ)f(X|\theta)\pi(\theta)f(X∣θ)π(θ)又被称为后验核(posterior kernel)。因为贝叶斯统计最大的问题在于大量的复杂计算,而决定后验分布类型的只有f(X∣θ)π(θ)f(X|\theta)\pi(\theta)f(X∣θ)π(θ),所以通常有后验核就可以了。在贝叶斯统计中,上面定义的风险函数不再是一个确定的函数了,因为state-of-nature也是随机的。Bayesian定义了贝叶斯风险(Bayesian risk)
rB(π,θ^)=∫ΘR(θ,θ^)π(θ)dθ=EθEX∣θL(θ,θ^)r_B(\pi,\hat{\theta})=\int_{\Theta} R(\theta,\hat{\theta})\pi(\theta) d\theta = E_{\theta}E_{X|\theta} L(\theta,\hat{\theta}) rB(π,θ^)=∫ΘR(θ,θ^)π(θ)dθ=EθEX∣θL(θ,θ^)
贝叶斯规则的目标就是通过最小化贝叶斯风险来估计参数
θ^Bπ=arg minθ^rB(π,θ^)\hat{\theta}^{\pi}_{B} = \argmin_{\hat{\theta}} r_B(\pi,\hat{\theta}) θ^Bπ=θ^argminrB(π,θ^)
这种估计量叫贝叶斯估计。然而还是同样的问题,光是rB(π,θ^)r_B(\pi,\hat{\theta})rB(π,θ^)的那个积分计算上就很复杂了,更何况还要做最优化。因此另一种更可行的方法是定义后验风险(posterior risk)
r(θ^∣X)=∫ΘL(θ,θ^)π(θ∣X)dθ=Eθ∣XL(θ,θ^)r(\hat{\theta}|X)=\int_{\Theta} L(\theta,\hat{\theta})\pi(\theta|X)d\theta = E_{\theta|X} L(\theta,\hat{\theta}) r(θ^∣X)=∫ΘL(θ,θ^)π(θ∣X)dθ=Eθ∣XL(θ,θ^)
后验风险是样本的函数,它和贝叶斯风险存在如下关联
rB(π,θ^)=EXr(θ^∣X)r_B(\pi,\hat{\theta}) = E_X r(\hat{\theta}|X) rB(π,θ^)=EXr(θ^∣X)
证明也比较容易,就是用一下全概率公式
rB(π,θ^)=EθEX∣θL(θ,θ^)=EX,θL(θ,θ^)=EXEθ∣XL(θ,θ^)=EXr(θ^∣X)r_B(\pi,\hat{\theta})=E_{\theta}E_{X|\theta} L(\theta,\hat{\theta})=E_{X,\theta} L(\theta,\hat{\theta})=E_XE_{\theta|X} L(\theta,\hat{\theta})=E_X r(\hat{\theta}|X) rB(π,θ^)=EθEX∣θL(θ,θ^)=EX,θL(θ,θ^)=EXEθ∣XL(θ,θ^)=EXr(θ^∣X)
这个关系可以给贝叶斯规则带来一个新的计算思路
θ^Bπ=minXminθ^r(θ^∣X=x)\hat{\theta}^{\pi}_{B} = \min_{\mathbb{X}} \min_{\hat{\theta}} r(\hat{\theta}|X=x) θ^Bπ=Xminθ^minr(θ^∣X=x)
在实践中,这个方法比直接找贝叶斯估计量更容易计算。
监督学习理论的基本概念
将统计决策理论的框架用到监督学习(Supervised Learning)上,可以初步建立起监督学习理论。假设(X,Y)={(Xi,Yi)}i=1n(X,Y)=\{(X_i,Y_i)\}_{i=1}^n(X,Y)={(Xi,Yi)}i=1n表示训练集,(Xi,Yi)∼iidP(x,y)(X_i,Y_i) \sim_{iid} P(x,y)(Xi,Yi)∼iidP(x,y),且满足Y=f(X)Y=f(X)Y=f(X),监督学习的目标就是构建fff的估计量f^\hat{f}f^。
Optimal Learner
监督学习的损失函数可以写成L(Y,f(X))L(Y,f(X))L(Y,f(X)),风险函数是
R(f)=EX,YL(Y,f(X))=∫X,YL(Y,f(X))dP(X,Y)R(f) = E_{X,Y} L(Y,f(X)) = \int_{\mathbb{X},\mathbb{Y}} L(Y,f(X))dP(X,Y) R(f)=EX,YL(Y,f(X))=∫X,YL(Y,f(X))dP(X,Y)
它又被称为expected prediction error (EPE(f))。因此Optimal Learner的定义是
f^=arg minfR(f)\hat{f} = \argmin_{f} R(f) f^=fargminR(f)
理论机器学习的文章都是试图证明某种方法的EPE会趋近optimal learner。与贝叶斯规则类似,监督学习也可以做简化处理,
R(f)=EX,YL(Y,f(X))=EXEY∣XL(Y,f(X))R(f)=E_{X,Y} L(Y,f(X)) = E_X E_{Y|X} L(Y,f(X)) R(f)=EX,YL(Y,f(X))=EXEY∣XL(Y,f(X))
给定X=xX=xX=x时,optimal learner就是最小化EY∣XL(Y,f(X))E_{Y|X} L(Y,f(X))EY∣XL(Y,f(X))的解。以平方损失函数为例,考虑最优化
minfEY∣X=xL(Y,f(x))=EY∣X=x(Y−f(x))2\min_f E_{Y|X=x} L(Y,f(x)) = E_{Y|X=x} (Y-f(x))^2 fminEY∣X=xL(Y,f(x))=EY∣X=x(Y−f(x))2
其解为f∗(x)=E(Y∣X=x)f^*(x)=E(Y|X=x)f∗(x)=E(Y∣X=x),正是平方损失下的贝叶斯估计量,因此贝叶斯风险是平方损失下EPE的下确界。如果对EPE做分解
EPE(f)=EX,Y(Y−f(X))2=EX,Y[(Y−E(Y∣X))+(E(Y∣X)−f(X))]2EPE(f)=E_{X,Y} (Y-f(X))^2 = E_{X,Y} [(Y-E(Y|X))+(E(Y|X)-f(X))]^2 EPE(f)=EX,Y(Y−f(X))2=EX,Y[(Y−E(Y∣X))+(E(Y∣X)−f(X))]2
其中交叉项也会为零,EX,Y[(Y−E(Y∣X))]2E_{X,Y} [(Y-E(Y|X))]^2EX,Y[(Y−E(Y∣X))]2是平方损失下的贝叶斯风险,因此
EPE(f)=rB(π,θ^)+EX(f(X)−E(Y∣X))2EPE(f) = r_B(\pi,\hat{\theta})+ E_{X}(f(X) - E(Y|X))^2 EPE(f)=rB(π,θ^)+EX(f(X)−E(Y∣X))2
后者衡量learner与贝叶斯估计之间的差距,设计learner的目标就是控制这一项。
经验损失函数与ERM
在实际问题中,概率测度P(X,Y)P(X,Y)P(X,Y)都是未知的,一般只能用经验风险函数(empirical risk function)来替代EPE。经验风险函数又叫训练误差(training error),其定义是
Remp(f)=1n∑i=1nL(Yi,f(Xi))R_{emp}(f) = \frac{1}{n} \sum_{i=1}^{n} L(Y_i,f(X_i)) Remp(f)=n1i=1∑nL(Yi,f(Xi))
最小化经验风险来寻找optimal learner的原则叫ERM(Principle of empirical risk minimization)。从理论上看,当训练集足够大时,经验风险自然会趋近于EPE,但当训练集不够大的时候需要防止模型过拟合(overfitting)。过拟合指的是模型的训练误差很小,但泛化能力较差。因为最小化经验风险与最小化EPE的结果并不一定总是一致的,所以会有过拟合。为了防止过拟合,可以给参数加上roughness penalty。ERM与贝叶斯估计量类似,都是试图寻找全局的最优解,但全局最优通常无法找到,所以限制模型的类别,比如线性、非线性、参数模型、非参模型等,在子集上找最优解是比较常规的做法。假设模型集合为F\mathbf{F}F,某个类别的子集为F1\mathbf{F}_1F1,f∗f^*f∗是optimal learner,
f∗=arg minf∈FEPE(f)f^* = \argmin_{f \in \mathbf{F}} EPE(f) f∗=f∈FargminEPE(f)
f^\hat{f}f^是在模型子集F1\mathbf{F}_1F1上根据ERM找到的最优解
f^=arg minf∈F1Remp(f)\hat{f} = \argmin_{f \in \mathbf{F}_1} R_{emp}(f) f^=f∈F1argminRemp(f)
f~\tilde{f}f~是模型子集F1\mathbf{F}_1F1的理论最优解
f~=arg minf∈F1EPE(f)\tilde{f} = \argmin_{f \in \mathbf{F}_1} EPE(f) f~=f∈F1argminEPE(f)
则f^\hat{f}f^与optimal learner之间的误差可以做如下分解
EPE(f^)−EPE(f∗)=[EPE(f^)−EPE(f~)]+[EPE(f~)−EPE(f∗)]EPE(\hat{f})-EPE(f^*)=[EPE(\hat{f})-EPE(\tilde{f})]+[EPE(\tilde{f})-EPE(f^*)] EPE(f^)−EPE(f∗)=[EPE(f^)−EPE(f~)]+[EPE(f~)−EPE(f∗)]
第一项的含义是在模型子集F1\mathbf{F}_1F1的估计误差,第二项是将模型限制在F1\mathbf{F}_1F1上的近似误差。
监督学习理论的内容
从上面的描述中,我们已经可以窥见监督学习理论需要回答的几个问题了。ERM收敛的条件是什么?收敛速度怎么样?怎么才能控制它的收敛?这三个问题都有实际意义。第一个问题可以回答基于ERM的监督学习算法在哪些情境下适用;第二个问题可以回答为了保证结果尽可能接近Optimal Learner,至少需要多大的训练集;第三个问题可以回答过拟合能不能避免。以下给出一致性理论的简单介绍。
ERM的一致性
ERM的一致性理论建立在概统渐进理论的基础上,提供了ERM收敛的充要条件,满足这些充要条件的算法才有机会收敛到Optimal Learner。
Worst Case Analysis
假设风险函数R(f)R(f)R(f)有界,则ERM具有一致性的充要条件是Remp(f)R_{emp}(f)Remp(f)依概率单边一致收敛(uniformly one-sided convergence in probability)到R(f)R(f)R(f),∀f∈F\forall f \in \mathbf{F}∀f∈F,即
limn→∞P{supf∈F(R(f)−Remp(f))>ϵ}=0,∀ϵ>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (R(f)-R_{emp}(f)) >\epsilon\}=0, \forall \epsilon>0 n→∞limP{f∈Fsup(R(f)−Remp(f))>ϵ}=0,∀ϵ>0
因为Remp(f)R_{emp}(f)Remp(f)是(X,Y)(X,Y)(X,Y)的函数,所以这里的概率测度就是上面那个概率测度P(X,Y)P(X,Y)P(X,Y)。这个结论其实是很直观的,ERM的一致性指大样本的时候,希望ERM的最优结果趋近于Optimal Learner,这个结论说的是要实现这个效果,那么首先在大样本的时候训练误差就要一致收敛到EPE。这个定理是监督学习理论一个非常关键的定理,因为要保证训练误差一致收敛,就要求我们必须分析最坏的情况,即考虑supf∈F(Remp(f)−R(f))\sup_{f \in \mathbf{F}} (R_{emp}(f)-R(f))supf∈F(Remp(f)−R(f))。这其实就是在强调对ERM一致性的分析,其实是一种Worst Case Analysis。
Vapnik-Cervonenkis Entropy (VC-Entropy)
接下来要做的事情,就是分析Remp(f)R_{emp}(f)Remp(f)依概率单边一致收敛到R(f)R(f)R(f)的充要条件。为了做这个分析,需要定义一个新的结构,VC-Entropy。先举一个例子介绍一下VC-Entropy的思想。假设学习任务是做一个二分类问题,YYY被标注为0和1,如果只有5个观察对象,观察足够多次后得到的f(X)f(X)f(X)只有这四种结果(0,1,1,0,0), (0,1,0,1,0), (1,0,1,1,1), (0,0,1,0,1) (根据观察到的特征用分类器fff分类的结果)。这四个向量在五维空间中构成的图形(这个图形相当于所有分类结果的边界)有4个顶点,由此可以定义这个分类器的随机熵(random entropy)为ln4\ln4ln4。这个值用来衡量分类器分类结果的离散程度。现在将这个定义推广到一般情况。对于训练集(X,Y)={(Xi,Yi)}i=1n(X,Y)=\{(X_i,Y_i)\}_{i=1}^n(X,Y)={(Xi,Yi)}i=1n与算法fff,定义随机向量
q(f)=[f(X1),f(X2),...,f(Xn)]T∈Rnq(f)=[f(X_1),f(X_2),...,f(X_n)]^T \in \mathbb{R}^n q(f)=[f(X1),f(X2),...,f(Xn)]T∈Rn
则这个向量表示算法fff所有可能输出在Rn\mathbb{R}^nRn空间中的位置。然后利用ϵ\epsilonϵ-net去定义所有这些q(f)q(f)q(f)的边界的“顶点”,用N(ϵ,X)N(\epsilon,X)N(ϵ,X)表示“顶点”的个数,用H(ϵ,X)=lnN(ϵ,X)H(\epsilon,X)=\ln N(\epsilon,X)H(ϵ,X)=lnN(ϵ,X)用来衡量输出的离散程度,则VC-entropy的定义是
H(ϵ,n)=EXH(ϵ,X)H(\epsilon,n) = E_X H(\epsilon,X) H(ϵ,n)=EXH(ϵ,X)
这个定义已经将特征的不确定性考虑在内了,其含义是输入的特征(随机变量)经过算法fff处理后输出结果的平均离散程度,只与ϵ\epsilonϵ的选取与训练集大小nnn有关。
一致性的充要条件
Remp(f)R_{emp}(f)Remp(f)依概率双边一致收敛(uniformly two-sided convergence in probability)到R(f)R(f)R(f),∀f∈F\forall f \in \mathbf{F}∀f∈F,即
limn→∞P{supf∈F(∣R(f)−Remp(f)∣)>ϵ}=0,∀ϵ>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\}=0, \forall \epsilon>0 n→∞limP{f∈Fsup(∣R(f)−Remp(f)∣)>ϵ}=0,∀ϵ>0
的充要条件是
limn→∞H(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞limnH(ϵ,n)=0,∀ϵ>0
因为双边收敛比单边收敛强,所以这个结果也是单边一致收敛的充要条件。这个结果也是比较直观的,相当于是在限制所有可能输出的边界的大小,假设上面的极限等于一个正实数,那么“顶点”的个数会指数增加,随着训练集越来越大,算出输出的值域反而会扩张,从而出现类似过拟合的现象,显然是不会收敛的;假设上面的极限是一个负实数,那么“顶点”的个数会指数减少,随着训练集越来越大,算法输出的值域会逐渐坍塌,出现类似欠拟合的现象,这样也不会收敛。监督学习理论讨论了一致性的充要条件后,还讨论了快速收敛(快速收敛指的是指数收敛)的充要条件,快速收敛且独立于概率测度(也就是可以在不同的context下都具有一致性)的充要条件。基于N(ϵ,X)N(\epsilon,X)N(ϵ,X)构建另外两个结构。退化VC-entropy
Hann(ϵ,n)=lnEN(ϵ,X)H_{ann}(\epsilon,n)=\ln EN(\epsilon,X) Hann(ϵ,n)=lnEN(ϵ,X)
以及增长函数
G(ϵ,X)=lnsupXN(ϵ,X)G(\epsilon,X) = \ln \sup_X N(\epsilon,X) G(ϵ,X)=lnXsupN(ϵ,X)
根据定义可以直接得到VC-entropy的边界
H(ϵ,n)≤Hann(ϵ,n)≤G(ϵ,X)H(\epsilon,n) \le H_{ann}(\epsilon,n) \le G(\epsilon,X) H(ϵ,n)≤Hann(ϵ,n)≤G(ϵ,X)
其中
limn→∞Hann(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{H_{ann}(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞limnHann(ϵ,n)=0,∀ϵ>0
是快速收敛的充要条件。
limn→∞G(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{G(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞limnG(ϵ,n)=0,∀ϵ>0
快速收敛且独立于概率测度的充要条件。
UA MATH574M 统计学习I 监督学习理论相关推荐
- UA MATH574M 统计学习I 监督学习理论下
UA MATH574M 统计学习I 监督学习理论下 Hoeffding's inequality 证明 这一讲讨论上一讲结束时提到的监督学习的一致性的概念.假设风险函数 R(f)R(f)R(f)有界, ...
- UA MATH574M 统计学习 Variable Selection:Cross Validation
UA MATH574M 统计学习 Variable Selection:Cross Validation LOOCV LOOCV score的计算 K-fold CV Generalized CV 故 ...
- UA MATH574M 统计学习V Variable Selection: LASSO
UA MATH574M 统计学习V Variable Selection: LASSO 基本概念 Oracle Property Penalized Regularization Framework ...
- UA MATH574M 统计学习V Variable Selection简介
UA MATH574M 统计学习V Variable Selection简介 两个基础方法 Ranking Variables Best Subset Algorithm 对基础方法的改进 Gener ...
- UA MATH574M 统计学习II 高维数据的二元分类
UA MATH574M 统计学习II 高维数据的二元分类 LDA的直观解释 NSC 上一讲提到了高维数据相比低维数据的特殊性,并介绍了处理高维数据二元分类最简单的一个模型independent rul ...
- UA MATH574M 统计学习II 二元分类例子与高维问题
UA MATH574M 统计学习II 二元分类例子与高维问题 数值例子 高维数据的二分类问题 Independence Rule 数值例子 用模拟数值做一个二分类的例子. library(MASS)# ...
- UA MATH574M 统计学习II 二元分类
UA MATH574M 统计学习II 二元分类基础 基础模型 Bayes分类器 均等成本 不等成本 线性概率模型 线性分类器 线性判别分析(LDA) Logistics回归 基础模型 假设一个二元分类 ...
- 统计学习方法 学习笔记(1)统计学习方法及监督学习理论
统计学习方法及监督学习理论 1.1.统计学习 1.1.1.统计学习的特点 1.1.2.统计学习的对象 1.1.3.统计学习的目的 1.1.4.统计学习的方法 1.1.5.统计学习的研究 1.1.6.统 ...
- UA MATH566 统计理论 Bayes统计基础
UA MATH566 统计理论 Bayes统计基础 共轭分布 基于后验概率预测新的观测值 Bayes统计思想的基础是Bayes公式 P(Ci∣A)=P(A,Ci)P(A)=P(A∣Ci)P(Ci)∑i ...
最新文章
- c语言int64编译时错误,错误:编译C程序时未在此作用域中声明uint64_t
- linux图形化应用程序快捷方式制作方法
- VTK:平行坐标视图用法实战
- Ring3下Inline Hook API
- python协程等待执行完成_当循环运行时,如何运行协同程序并等待同步函数的结果?...
- qml学习文档-转载
- Quartz.NET常用方法 01
- 关于NGINX下开启PHP-FPM 输出PHP错误日志的设置(已解决)
- Linux 下离线手动下载安装 C++ 开发环境
- Struts2(三)
- Python 函数参数 传引用还是传值
- 腐蚀rust服务器命令_腐蚀RUST基本指令及服务器指令大全
- 蜂窝移动终端的Cat指的是什么?
- Jenkins(二)之自定义Robot Framework结果报告
- 怎么从身份证号码批量提取出生年月日?
- Educational Codeforces Round 61 (Rated for Div. 2) D. Stressful Training(贪心+二分+优先队列)
- 中国电信再发力:推出最新七大惠民惠企新举措
- Java猿社区—Redis一篇系列—第一章、NoSql入门和概述
- Myeclipes解决SECURITY ALTER:INTEGRITY CHECK ERROR
- 申请计算机博士需要的论文,计算机科学与技术学院申请博士学位发表学术论文的规定(2008.9上网).doc...
热门文章
- Java解码网页表单post内容小记
- oracle rac重建grid,oracle 11g rac安装之grid报错解决
- 计算属性一般是没有set方法, 只读属性 ||计算属性的缓存
- Prepare the Knowledge Base for Success
- 线程间定制化调用通信—— 1 高内聚低耦合的前提下,线程操作资源类 2 判断/干活/通知 3 多线程交互中,必须要防止多线程的虚假唤醒,也即(判断只用while,不能用if)
- switch分支结构
- 关于HTML下overflow-y:auto无效、清除HTML默认边距、解决去除手机访问网页时的左右多余空白的三个方法汇总
- Python 入门篇-最新版python3.7.2的安装。
- 电磁场第二章公式总结
- Visual Studio 2022编译x86 或者 win32程序时的错误MSB6006