统计决策理论

损失函数与风险函数

假设样本X=(X1,X2,...,Xn)∼iidf(x∣θ),θ∈ΘX=(X_1,X_2,...,X_n) \sim_{iid} f(x|\theta), \theta \in \ThetaX=(X1,X2,...,Xn)∼iidf(x∣θ),θ∈Θ，是state-of-nature，假设其估计量是θ^(X)\hat{\theta}(X)θ^(X)（简写为θ^\hat{\theta}θ^），可以定义损失函数（Loss Function）
L(θ,θ^):Θ×Θ→RL(\theta,\hat{\theta}): \Theta \times \Theta \to \mathbb{R} L(θ,θ^):Θ×Θ→R
用来衡量估计量与state-of-nature之间的差异，通常损失函数非负。常用的损失函数有这几种：
SquareLoss:L(θ,θ^)=∣θ−θ^∣L22AbsoluteErrorLoss:L(θ,θ^)=∣θ−θ^∣L1LpLoss:L(θ,θ^)=∣θ−θ^∣LppSquare\ Loss:L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|^2_{L_2} \\ Absolute\ Error\ Loss: L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|_{L_1} \\ L_p\ Loss:L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|^p_{L_p} \\ Square Loss:L(θ,θ^)=∣θ−θ^∣L22Absolute Error Loss:L(θ,θ^)=∣θ−θ^∣L1Lp Loss:L(θ,θ^)=∣θ−θ^∣Lpp
这三种损失函数一般用在回归中，平方损失函数是最常用的。
0−1Loss:L(θ,θ^)=I(θ≠θ^)0-1\ Loss: L(\theta,\hat{\theta}) = I(\theta \ne \hat{\theta}) 0−1 Loss:L(θ,θ^)=I(θ=θ^)
这种损失函数一般用在分类问题中。
K−LDivergence:L(θ,θ^)=D(f(x∣θ)∣∣f(x∣θ^))K-L\ Divergence:L(\theta,\hat{\theta}) = D(f(x|\theta)||f(x|\hat{\theta})) K−L Divergence:L(θ,θ^)=D(f(x∣θ)∣∣f(x∣θ^))
这种损失函数一般用来做密度估计（Density Estimation）。其中K-L Divergence（Kullback-Leibler Divergence）又叫相对熵，用来描述两个分布间的“距离”，其定义是
D(f(x∣θ)∣∣f(x∣θ^))=E[ln(f(X∣θ)f(X∣θ^))]D(f(x|\theta)||f(x|\hat{\theta})) = E[ln(\frac{f(X|\theta)}{f(X|\hat{\theta})})] D(f(x∣θ)∣∣f(x∣θ^))=E[ln(f(X∣θ^)f(X∣θ))]
但这个定义不满足对称性和三角不等式，所以不是一个真正的距离。在统计决策理论的框架下，参数估计可以被化归为损失函数最小化。但遗憾的是，在Frequentist的哲学中，损失函数是关于样本的函数，是随机的，用来作为最优化的目标函数会让问题变复杂。因此统计学家又定义了风险函数（Risk function）：
R(θ,θ^)=E[L(θ,θ^)]=∫XL(θ,θ^)f(X∣θ)dXR(\theta,\hat{\theta}) = E[L(\theta,\hat{\theta}) ] = \int_{\mathbb{X}} L(\theta,\hat{\theta}) f(X|\theta)dX R(θ,θ^)=E[L(θ,θ^)]=∫XL(θ,θ^)f(X∣θ)dX
这个就不是随机的了，它是参数空间Θ\ThetaΘ到R\mathbb{R}R上的函数。因此统计决策理论的目标就是通过最优化
min⁡θ∈ΘR(θ,θ^)\min_{\theta \in \Theta} R(\theta,\hat{\theta}) θ∈ΘminR(θ,θ^)
来确定参数。

偏差-方差的权衡

假设使用平方损失函数，则对应的风险函数又叫均方误差（MSE，Mean Squared Error）。
MSE=E(θ−θ^)2=E[(θ−Eθ^)+(Eθ^−θ^)]2MSE = E(\theta-\hat{\theta})^2=E[(\theta-E\hat{\theta})+(E\hat{\theta}-\hat{\theta})]^2 MSE=E(θ−θ^)2=E[(θ−Eθ^)+(Eθ^−θ^)]2
考虑一下交叉项
E[(θ−Eθ^)(Eθ^−θ^)]=(θ−Eθ^)E(Eθ^−θ^)=0E[(\theta-E\hat{\theta})(E\hat{\theta}-\hat{\theta})]=(\theta-E\hat{\theta})E(E\hat{\theta}-\hat{\theta})=0 E[(θ−Eθ^)(Eθ^−θ^)]=(θ−Eθ^)E(Eθ^−θ^)=0
而其中
E[(θ−Eθ^)2]=bias2(θ^),E[(Eθ^−θ^)2]=Var(θ^)E[(\theta-E\hat{\theta})^2]=bias^2(\hat{\theta}), E[(E\hat{\theta}-\hat{\theta})^2]=Var(\hat{\theta}) E[(θ−Eθ^)2]=bias2(θ^),E[(Eθ^−θ^)2]=Var(θ^)
所以MSE(θ^)=bias2(θ^)+Var(θ^)MSE(\hat{\theta})=bias^2(\hat{\theta})+Var(\hat{\theta})MSE(θ^)=bias2(θ^)+Var(θ^)。偏差与方差都会增加总风险，而从经验上看二者又是此消彼长的关系，因此通常都需要在二者之间作出权衡（bias-variance trade-off）。

最优估计量

风险函数还可以用来衡量估计量的优劣，假设θ^1\hat{\theta}_1θ^1和θ^2\hat{\theta}_2θ^2是两个估计量，如果
R(θ,θ^1)<R(θ,θ^2),∀θ∈ΘR(\theta,\hat{\theta}_1)<R(\theta,\hat{\theta}_2), \forall \theta \in \Theta R(θ,θ^1)<R(θ,θ^2),∀θ∈Θ
称θ^1\hat{\theta}_1θ^1绝对占优于（uniformly dominated）θ^2\hat{\theta}_2θ^2。从这个定义可以得到对最优估计量的最朴素的认知，如果一个估计量绝对占优于其他所有估计量，那么它就是最优的。这也正是上面提到的最小化风险函数的意思。然而找到风险函数的全局最优解几乎是不可能的，一般都是用一些更可行的方法计算得到一些近似的结果。常用的方法有三种。第一种是在最优化限制在参数空间的某些子集中，比如限制在所有的无偏估计中，那么最优的结果的结果就是最优无偏估计，或称UMVUE；如果限制在所有的线性无偏估计中，那么最优的结果就是BLUE。第二种方法是minimax规则。对于所有可能的估计量，计算风险函数的上确界
Rˉ(θ^)=sup⁡θ∈ΘR(θ,θ^)\bar{R}(\hat{\theta})=\sup_{\theta \in \Theta} R(\theta,\hat{\theta}) Rˉ(θ^)=θ∈ΘsupR(θ,θ^)
上确界代表估计量可能造成的最糟糕的结果。然后通过最小化这些上确界来选择估计量
min⁡θ^Rˉ(θ^)\min_{\hat{\theta}} \bar{R}(\hat{\theta}) θ^minRˉ(θ^)
用这个规则相当于就是非常悲观，希望估计量造成的最坏的结果也没有那么坏就可以了。

贝叶斯规则

贝叶斯规则是第三种非常常用的方法。Bayesian的思想是state-of-nature也是随机的，它会服从一个先验π(θ)\pi(\theta)π(θ)，给定样本后根据Bayes公式可以计算出后验分布
π(θ∣X)=f(X∣θ)π(θ)m(X)∝f(X∣θ)π(θ)\pi(\theta|X)=\frac{f(X|\theta)\pi(\theta)}{m(X)} \propto f(X|\theta)\pi(\theta) π(θ∣X)=m(X)f(X∣θ)π(θ)∝f(X∣θ)π(θ)
其中m(X)m(X)m(X)是样本的边缘分布，f(X∣θ)π(θ)f(X|\theta)\pi(\theta)f(X∣θ)π(θ)又被称为后验核（posterior kernel）。因为贝叶斯统计最大的问题在于大量的复杂计算，而决定后验分布类型的只有f(X∣θ)π(θ)f(X|\theta)\pi(\theta)f(X∣θ)π(θ)，所以通常有后验核就可以了。在贝叶斯统计中，上面定义的风险函数不再是一个确定的函数了，因为state-of-nature也是随机的。Bayesian定义了贝叶斯风险（Bayesian risk）
rB(π,θ^)=∫ΘR(θ,θ^)π(θ)dθ=EθEX∣θL(θ,θ^)r_B(\pi,\hat{\theta})=\int_{\Theta} R(\theta,\hat{\theta})\pi(\theta) d\theta = E_{\theta}E_{X|\theta} L(\theta,\hat{\theta}) rB(π,θ^)=∫ΘR(θ,θ^)π(θ)dθ=EθEX∣θL(θ,θ^)
贝叶斯规则的目标就是通过最小化贝叶斯风险来估计参数
θ^Bπ=arg min⁡θ^rB(π,θ^)\hat{\theta}^{\pi}_{B} = \argmin_{\hat{\theta}} r_B(\pi,\hat{\theta}) θ^Bπ=θ^argminrB(π,θ^)
这种估计量叫贝叶斯估计。然而还是同样的问题，光是rB(π,θ^)r_B(\pi,\hat{\theta})rB(π,θ^)的那个积分计算上就很复杂了，更何况还要做最优化。因此另一种更可行的方法是定义后验风险（posterior risk）
r(θ^∣X)=∫ΘL(θ,θ^)π(θ∣X)dθ=Eθ∣XL(θ,θ^)r(\hat{\theta}|X)=\int_{\Theta} L(\theta,\hat{\theta})\pi(\theta|X)d\theta = E_{\theta|X} L(\theta,\hat{\theta}) r(θ^∣X)=∫ΘL(θ,θ^)π(θ∣X)dθ=Eθ∣XL(θ,θ^)
后验风险是样本的函数，它和贝叶斯风险存在如下关联
rB(π,θ^)=EXr(θ^∣X)r_B(\pi,\hat{\theta}) = E_X r(\hat{\theta}|X) rB(π,θ^)=EXr(θ^∣X)
证明也比较容易，就是用一下全概率公式
rB(π,θ^)=EθEX∣θL(θ,θ^)=EX,θL(θ,θ^)=EXEθ∣XL(θ,θ^)=EXr(θ^∣X)r_B(\pi,\hat{\theta})=E_{\theta}E_{X|\theta} L(\theta,\hat{\theta})=E_{X,\theta} L(\theta,\hat{\theta})=E_XE_{\theta|X} L(\theta,\hat{\theta})=E_X r(\hat{\theta}|X) rB(π,θ^)=EθEX∣θL(θ,θ^)=EX,θL(θ,θ^)=EXEθ∣XL(θ,θ^)=EXr(θ^∣X)
这个关系可以给贝叶斯规则带来一个新的计算思路
θ^Bπ=min⁡Xmin⁡θ^r(θ^∣X=x)\hat{\theta}^{\pi}_{B} = \min_{\mathbb{X}} \min_{\hat{\theta}} r(\hat{\theta}|X=x) θ^Bπ=Xminθ^minr(θ^∣X=x)
在实践中，这个方法比直接找贝叶斯估计量更容易计算。

监督学习理论的基本概念

将统计决策理论的框架用到监督学习（Supervised Learning）上，可以初步建立起监督学习理论。假设(X,Y)={(Xi,Yi)}i=1n(X,Y)=\{(X_i,Y_i)\}_{i=1}^n(X,Y)={(Xi,Yi)}i=1n表示训练集，(Xi,Yi)∼iidP(x,y)(X_i,Y_i) \sim_{iid} P(x,y)(Xi,Yi)∼iidP(x,y)，且满足Y=f(X)Y=f(X)Y=f(X)，监督学习的目标就是构建fff的估计量f^\hat{f}f^。

Optimal Learner

监督学习的损失函数可以写成L(Y,f(X))L(Y,f(X))L(Y,f(X))，风险函数是
R(f)=EX,YL(Y,f(X))=∫X,YL(Y,f(X))dP(X,Y)R(f) = E_{X,Y} L(Y,f(X)) = \int_{\mathbb{X},\mathbb{Y}} L(Y,f(X))dP(X,Y) R(f)=EX,YL(Y,f(X))=∫X,YL(Y,f(X))dP(X,Y)
它又被称为expected prediction error (EPE(f))。因此Optimal Learner的定义是
f^=arg min⁡fR(f)\hat{f} = \argmin_{f} R(f) f^=fargminR(f)
理论机器学习的文章都是试图证明某种方法的EPE会趋近optimal learner。与贝叶斯规则类似，监督学习也可以做简化处理，
R(f)=EX,YL(Y,f(X))=EXEY∣XL(Y,f(X))R(f)=E_{X,Y} L(Y,f(X)) = E_X E_{Y|X} L(Y,f(X)) R(f)=EX,YL(Y,f(X))=EXEY∣XL(Y,f(X))
给定X=xX=xX=x时，optimal learner就是最小化EY∣XL(Y,f(X))E_{Y|X} L(Y,f(X))EY∣XL(Y,f(X))的解。以平方损失函数为例，考虑最优化
min⁡fEY∣X=xL(Y,f(x))=EY∣X=x(Y−f(x))2\min_f E_{Y|X=x} L(Y,f(x)) = E_{Y|X=x} (Y-f(x))^2 fminEY∣X=xL(Y,f(x))=EY∣X=x(Y−f(x))2
其解为f∗(x)=E(Y∣X=x)f^*(x)=E(Y|X=x)f∗(x)=E(Y∣X=x)，正是平方损失下的贝叶斯估计量，因此贝叶斯风险是平方损失下EPE的下确界。如果对EPE做分解
EPE(f)=EX,Y(Y−f(X))2=EX,Y[(Y−E(Y∣X))+(E(Y∣X)−f(X))]2EPE(f)=E_{X,Y} (Y-f(X))^2 = E_{X,Y} [(Y-E(Y|X))+(E(Y|X)-f(X))]^2 EPE(f)=EX,Y(Y−f(X))2=EX,Y[(Y−E(Y∣X))+(E(Y∣X)−f(X))]2
其中交叉项也会为零，EX,Y[(Y−E(Y∣X))]2E_{X,Y} [(Y-E(Y|X))]^2EX,Y[(Y−E(Y∣X))]2是平方损失下的贝叶斯风险，因此
EPE(f)=rB(π,θ^)+EX(f(X)−E(Y∣X))2EPE(f) = r_B(\pi,\hat{\theta})+ E_{X}(f(X) - E(Y|X))^2 EPE(f)=rB(π,θ^)+EX(f(X)−E(Y∣X))2
后者衡量learner与贝叶斯估计之间的差距，设计learner的目标就是控制这一项。

经验损失函数与ERM

在实际问题中，概率测度P(X,Y)P(X,Y)P(X,Y)都是未知的，一般只能用经验风险函数（empirical risk function）来替代EPE。经验风险函数又叫训练误差（training error），其定义是
Remp(f)=1n∑i=1nL(Yi,f(Xi))R_{emp}(f) = \frac{1}{n} \sum_{i=1}^{n} L(Y_i,f(X_i)) Remp(f)=n1i=1∑nL(Yi,f(Xi))
最小化经验风险来寻找optimal learner的原则叫ERM（Principle of empirical risk minimization）。从理论上看，当训练集足够大时，经验风险自然会趋近于EPE，但当训练集不够大的时候需要防止模型过拟合（overfitting）。过拟合指的是模型的训练误差很小，但泛化能力较差。因为最小化经验风险与最小化EPE的结果并不一定总是一致的，所以会有过拟合。为了防止过拟合，可以给参数加上roughness penalty。ERM与贝叶斯估计量类似，都是试图寻找全局的最优解，但全局最优通常无法找到，所以限制模型的类别，比如线性、非线性、参数模型、非参模型等，在子集上找最优解是比较常规的做法。假设模型集合为F\mathbf{F}F，某个类别的子集为F1\mathbf{F}_1F1，f∗f^*f∗是optimal learner，
f∗=arg min⁡f∈FEPE(f)f^* = \argmin_{f \in \mathbf{F}} EPE(f) f∗=f∈FargminEPE(f)
f^\hat{f}f^是在模型子集F1\mathbf{F}_1F1上根据ERM找到的最优解
f^=arg min⁡f∈F1Remp(f)\hat{f} = \argmin_{f \in \mathbf{F}_1} R_{emp}(f) f^=f∈F1argminRemp(f)
f~\tilde{f}f~是模型子集F1\mathbf{F}_1F1的理论最优解
f~=arg min⁡f∈F1EPE(f)\tilde{f} = \argmin_{f \in \mathbf{F}_1} EPE(f) f~=f∈F1argminEPE(f)
则f^\hat{f}f^与optimal learner之间的误差可以做如下分解
EPE(f^)−EPE(f∗)=[EPE(f^)−EPE(f~)]+[EPE(f~)−EPE(f∗)]EPE(\hat{f})-EPE(f^*)=[EPE(\hat{f})-EPE(\tilde{f})]+[EPE(\tilde{f})-EPE(f^*)] EPE(f^)−EPE(f∗)=[EPE(f^)−EPE(f~)]+[EPE(f~)−EPE(f∗)]
第一项的含义是在模型子集F1\mathbf{F}_1F1的估计误差，第二项是将模型限制在F1\mathbf{F}_1F1上的近似误差。

监督学习理论的内容

从上面的描述中，我们已经可以窥见监督学习理论需要回答的几个问题了。ERM收敛的条件是什么？收敛速度怎么样？怎么才能控制它的收敛？这三个问题都有实际意义。第一个问题可以回答基于ERM的监督学习算法在哪些情境下适用；第二个问题可以回答为了保证结果尽可能接近Optimal Learner，至少需要多大的训练集；第三个问题可以回答过拟合能不能避免。以下给出一致性理论的简单介绍。

ERM的一致性

ERM的一致性理论建立在概统渐进理论的基础上，提供了ERM收敛的充要条件，满足这些充要条件的算法才有机会收敛到Optimal Learner。

Worst Case Analysis

假设风险函数R(f)R(f)R(f)有界，则ERM具有一致性的充要条件是Remp(f)R_{emp}(f)Remp(f)依概率单边一致收敛（uniformly one-sided convergence in probability）到R(f)R(f)R(f)，∀f∈F\forall f \in \mathbf{F}∀f∈F，即
lim⁡n→∞P{sup⁡f∈F(R(f)−Remp(f))>ϵ}=0,∀ϵ>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (R(f)-R_{emp}(f)) >\epsilon\}=0, \forall \epsilon>0 n→∞limP{f∈Fsup(R(f)−Remp(f))>ϵ}=0,∀ϵ>0
因为Remp(f)R_{emp}(f)Remp(f)是(X,Y)(X,Y)(X,Y)的函数，所以这里的概率测度就是上面那个概率测度P(X,Y)P(X,Y)P(X,Y)。这个结论其实是很直观的，ERM的一致性指大样本的时候，希望ERM的最优结果趋近于Optimal Learner，这个结论说的是要实现这个效果，那么首先在大样本的时候训练误差就要一致收敛到EPE。这个定理是监督学习理论一个非常关键的定理，因为要保证训练误差一致收敛，就要求我们必须分析最坏的情况，即考虑sup⁡f∈F(Remp(f)−R(f))\sup_{f \in \mathbf{F}} (R_{emp}(f)-R(f))supf∈F(Remp(f)−R(f))。这其实就是在强调对ERM一致性的分析，其实是一种Worst Case Analysis。

Vapnik-Cervonenkis Entropy (VC-Entropy)

接下来要做的事情，就是分析Remp(f)R_{emp}(f)Remp(f)依概率单边一致收敛到R(f)R(f)R(f)的充要条件。为了做这个分析，需要定义一个新的结构，VC-Entropy。先举一个例子介绍一下VC-Entropy的思想。假设学习任务是做一个二分类问题，YYY被标注为0和1，如果只有5个观察对象，观察足够多次后得到的f(X)f(X)f(X)只有这四种结果(0,1,1,0,0), (0,1,0,1,0), (1,0,1,1,1), (0,0,1,0,1) （根据观察到的特征用分类器fff分类的结果）。这四个向量在五维空间中构成的图形（这个图形相当于所有分类结果的边界）有4个顶点，由此可以定义这个分类器的随机熵（random entropy）为ln⁡4\ln4ln4。这个值用来衡量分类器分类结果的离散程度。现在将这个定义推广到一般情况。对于训练集(X,Y)={(Xi,Yi)}i=1n(X,Y)=\{(X_i,Y_i)\}_{i=1}^n(X,Y)={(Xi,Yi)}i=1n与算法fff，定义随机向量
q(f)=[f(X1),f(X2),...,f(Xn)]T∈Rnq(f)=[f(X_1),f(X_2),...,f(X_n)]^T \in \mathbb{R}^n q(f)=[f(X1),f(X2),...,f(Xn)]T∈Rn
则这个向量表示算法fff所有可能输出在Rn\mathbb{R}^nRn空间中的位置。然后利用ϵ\epsilonϵ-net去定义所有这些q(f)q(f)q(f)的边界的“顶点”，用N(ϵ,X)N(\epsilon,X)N(ϵ,X)表示“顶点”的个数，用H(ϵ,X)=ln⁡N(ϵ,X)H(\epsilon,X)=\ln N(\epsilon,X)H(ϵ,X)=lnN(ϵ,X)用来衡量输出的离散程度，则VC-entropy的定义是
H(ϵ,n)=EXH(ϵ,X)H(\epsilon,n) = E_X H(\epsilon,X) H(ϵ,n)=EXH(ϵ,X)
这个定义已经将特征的不确定性考虑在内了，其含义是输入的特征（随机变量）经过算法fff处理后输出结果的平均离散程度，只与ϵ\epsilonϵ的选取与训练集大小nnn有关。

一致性的充要条件

Remp(f)R_{emp}(f)Remp(f)依概率双边一致收敛（uniformly two-sided convergence in probability）到R(f)R(f)R(f)，∀f∈F\forall f \in \mathbf{F}∀f∈F，即
lim⁡n→∞P{sup⁡f∈F(∣R(f)−Remp(f)∣)>ϵ}=0,∀ϵ>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\}=0, \forall \epsilon>0 n→∞limP{f∈Fsup(∣R(f)−Remp(f)∣)>ϵ}=0,∀ϵ>0
的充要条件是
lim⁡n→∞H(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞limnH(ϵ,n)=0,∀ϵ>0
因为双边收敛比单边收敛强，所以这个结果也是单边一致收敛的充要条件。这个结果也是比较直观的，相当于是在限制所有可能输出的边界的大小，假设上面的极限等于一个正实数，那么“顶点”的个数会指数增加，随着训练集越来越大，算出输出的值域反而会扩张，从而出现类似过拟合的现象，显然是不会收敛的；假设上面的极限是一个负实数，那么“顶点”的个数会指数减少，随着训练集越来越大，算法输出的值域会逐渐坍塌，出现类似欠拟合的现象，这样也不会收敛。监督学习理论讨论了一致性的充要条件后，还讨论了快速收敛（快速收敛指的是指数收敛）的充要条件，快速收敛且独立于概率测度（也就是可以在不同的context下都具有一致性）的充要条件。基于N(ϵ,X)N(\epsilon,X)N(ϵ,X)构建另外两个结构。退化VC-entropy
Hann(ϵ,n)=ln⁡EN(ϵ,X)H_{ann}(\epsilon,n)=\ln EN(\epsilon,X) Hann(ϵ,n)=lnEN(ϵ,X)
以及增长函数
G(ϵ,X)=ln⁡sup⁡XN(ϵ,X)G(\epsilon,X) = \ln \sup_X N(\epsilon,X) G(ϵ,X)=lnXsupN(ϵ,X)
根据定义可以直接得到VC-entropy的边界
H(ϵ,n)≤Hann(ϵ,n)≤G(ϵ,X)H(\epsilon,n) \le H_{ann}(\epsilon,n) \le G(\epsilon,X) H(ϵ,n)≤Hann(ϵ,n)≤G(ϵ,X)
其中
lim⁡n→∞Hann(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{H_{ann}(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞limnHann(ϵ,n)=0,∀ϵ>0
是快速收敛的充要条件。
lim⁡n→∞G(ϵ,n)n=0,∀ϵ>0\lim_{n \to \infty} \frac{G(\epsilon,n)}{n} = 0, \forall \epsilon>0 n→∞limnG(ϵ,n)=0,∀ϵ>0
快速收敛且独立于概率测度的充要条件。

UA MATH574M 统计学习I 监督学习理论相关推荐

UA MATH574M 统计学习I 监督学习理论下
UA MATH574M 统计学习I 监督学习理论下 Hoeffding's inequality 证明这一讲讨论上一讲结束时提到的监督学习的一致性的概念.假设风险函数 R(f)R(f)R(f)有界, ...
UA MATH574M 统计学习 Variable Selection：Cross Validation
UA MATH574M 统计学习 Variable Selection:Cross Validation LOOCV LOOCV score的计算 K-fold CV Generalized CV 故 ...
UA MATH574M 统计学习V Variable Selection: LASSO
UA MATH574M 统计学习V Variable Selection: LASSO 基本概念 Oracle Property Penalized Regularization Framework ...
UA MATH574M 统计学习V Variable Selection简介
UA MATH574M 统计学习V Variable Selection简介两个基础方法 Ranking Variables Best Subset Algorithm 对基础方法的改进 Gener ...
UA MATH574M 统计学习II 高维数据的二元分类
UA MATH574M 统计学习II 高维数据的二元分类 LDA的直观解释 NSC 上一讲提到了高维数据相比低维数据的特殊性,并介绍了处理高维数据二元分类最简单的一个模型independent rul ...
UA MATH574M 统计学习II 二元分类例子与高维问题
UA MATH574M 统计学习II 二元分类例子与高维问题数值例子高维数据的二分类问题 Independence Rule 数值例子用模拟数值做一个二分类的例子. library(MASS)# ...
UA MATH574M 统计学习II 二元分类
UA MATH574M 统计学习II 二元分类基础基础模型 Bayes分类器均等成本不等成本线性概率模型线性分类器线性判别分析(LDA) Logistics回归基础模型假设一个二元分类 ...
统计学习方法学习笔记（1）统计学习方法及监督学习理论
统计学习方法及监督学习理论 1.1.统计学习 1.1.1.统计学习的特点 1.1.2.统计学习的对象 1.1.3.统计学习的目的 1.1.4.统计学习的方法 1.1.5.统计学习的研究 1.1.6.统 ...
UA MATH566 统计理论 Bayes统计基础
UA MATH566 统计理论 Bayes统计基础共轭分布基于后验概率预测新的观测值 Bayes统计思想的基础是Bayes公式 P(Ci∣A)=P(A,Ci)P(A)=P(A∣Ci)P(Ci)∑i ...

UA MATH574M 统计学习I 监督学习理论