1. 泛化误差

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质。测试误差是依赖于测试数据集的，泛化误差是理论上的概念，如果学到的模型是f^\hat{f}f^，那么这个模型对未知数据预测的误差即为泛化误差：
Rexp(f^)=EP[L(Y,f^(X))]=∫X×YL(y,f^(x))P(x,y)dxdy……（1)R_{exp}(\hat{f})=E_P[L(Y,\hat{f}(X))]=\int_{\mathcal{X}\times\mathcal{Y}}L(y,\hat{f}(x))P(x,y)dxdy ……（1)Rexp(f^)=EP[L(Y,f^(X))]=∫X×YL(y,f^(x))P(x,y)dxdy……（1)
泛化误差就是学习到的模型的期望风险。

2. 泛化误差上界

学习方法的泛化能力分析往往是研究泛化误差的概率上界，简称泛化误差上界。我们先用一个简单的二分类问题的例子来理解泛化上界：
设训练数据集T=(x1,y1),(x2,y2),⋯,(xN,yN)T={(x_1,y1),(x_2,y_2),\cdots ,(x_N,y_N)}T=(x1,y1),(x2,y2),⋯,(xN,yN)，T是从联合概率分布P(X,Y)独立同分布产生的，X∈Rn,Y∈{−1,+1}X\in R^n, Y\in \{-1,+1\}X∈Rn,Y∈{−1,+1}，假设空间是函数的有限集合F={f1,f2,⋯,fd}\mathcal{F}=\{f_1,f_2,\cdots ,f_d\}F={f1,f2,⋯,fd}，设f是从F\mathcal{F}F中选取的函数，损失函数是0-1损失，则关于f的期望风险和经验风险分别是：
R(f)=E[L(Y,f(X))]……（2）R^(f)=1N∑i=1NL(yi,f(xi))……（3）R(f)=E[L(Y,f(X))] ……（2）\\ \hat{R}(f)=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i)) ……（3） R(f)=E[L(Y,f(X))]……（2）R^(f)=N1i=1∑NL(yi,f(xi))……（3）
经验风险最小化函数是：
fN=argmin⁡f∈FR^(f)……（4）f_N=arg\min\limits_{f\in\mathcal{F}}\hat{R}(f)……（4）fN=argf∈FminR^(f)……（4）
f_N依赖于样本，因为只能从样本得到模型，所以人们更关心的是f_N的泛化能力。
R(fN)=E[L(Y,fN(X))]……（5）R(f_N)=E[L(Y,f_N(X))] ……（5）R(fN)=E[L(Y,fN(X))]……（5）

这样就可以根据f的训练误差，确定在一定概率下，f泛化误差的范围。

【统计学习笔记】泛化误差上界相关推荐

李航统计学习方法笔记——泛化误差上界
泛化误差上界 References 统计学习方法(第2版)李航著 p25~27 定理对于二分类问题,当假设空间是有限个函数的集合F={f1,f2,...,fd}F=\{f_1,f_2,...,f_d ...
模型泛化能力(泛化误差+泛化误差上界)| 15mins 入门 | 《统计学习方法》学习笔记（六）
泛化能力一. 泛化误差学习方法的泛化能力(generalization ability):方法学习到的模型对未知数据的预测能力. 评价标准:测试误差. 但因为测试数据集是有限的,很有可能由此得到的 ...
机器学习（1）泛化误差上界的实现及分析
本文在假设空间有限情况下的泛化误差上界分析,并给出了简要的C语言实现.参考文献是李航老师写的<统计学习方法>. 简单引出泛化误差是什么.对于任意给定的数据,选定模型对数据监 ...
【机器学习】泛化误差上界
泛化能力:模型对未知数据的预测能力泛化误差:模型是f^\hat{f}f^,该模型对于未知数据预测的误差即为泛化误差: Rexp⁡(f^)=EP[L(Y,f^(X))]=∫X×YL(y,f^(x)) ...
高维统计学习笔记1——LASSO和Oracle性质
高维统计学习笔记1--LASSO和Oracle性质主要参考资料:Sara Van De Geer<Estimation and Testing Under Sparsity> 前言当年 ...
【统计学习笔记】最大似然法
[统计学习笔记]最大似然法最大似然原理随机试验有若干个可能的结果,如果在一次试验中结果A发生,而导致结果A发生的原因有很多,在分析导致结果A发生的原因时,使结果A发生的概率最大的原因,推断为导致结 ...
Hoeffding不等式与泛化误差上界
Hoeffding不等式本篇文章不详细证明霍夫丁不等式怎么来的,主要讨论如何由霍夫丁不等式证明不等式: 左端即为泛化误差,右端则为泛化误差上界.泛化误差也可以理解为期望风险,而右式第一个也叫做经验风 ...
统计学习笔记（1）——统计学习方法概论
1.统计学习统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习.统计学习是数据驱动的学科.统计学习是一门概率论.统计学.信息论.计算理论.最优化理 ...
oracle常用数据统计,学习笔记:Oracle DBMS_STATS常用方法汇总常用于收集统计oracle...
天萃荷净 Oracle数据库中DBMS_STATS常用方法(收集oracle数据库.索引.表等信息) –收集Oracle数据库信息命令 EXEC DBMS_STATS.gather_database_ ...

【统计学习笔记】泛化误差上界

【统计学习笔记】泛化误差上界

1. 泛化误差

2. 泛化误差上界

【统计学习笔记】泛化误差上界相关推荐

最新文章

热门文章