统计学习方法-李航(第一章4)

  • 泛化能力
    • 泛化误差
    • 泛化误差上界
      • 考虑二分类问题的泛化误差上界
        • 泛化误差上界定理
        • 泛化误差上界定理证明

泛化能力

泛化误差

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力,但这种评价依赖测试数据集,测试数据集是有限的。
统计上试图从理论上对学习方法的泛化能力进行分析。
如果学到的模型是f^\hat ff^​,那么对未知数据预测的误差即为泛化误差(generalization error):
Rexp(f^)=Ep[L(Y,f^(X))]=∫X∗YL(y,f^(x))P(x,y)dxdyR_{exp}(\hat f)=E_p[L(Y,\hat f(X))]=\int_{X*Y}L(y,\hat f(x))P(x,y)dxdyRexp​(f^​)=Ep​[L(Y,f^​(X))]=∫X∗Y​L(y,f^​(x))P(x,y)dxdy

泛化误差上界

性质:
1、它是样本容量的函数,当样本容量增加时,泛化上界趋于0;
2、它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。

考虑二分类问题的泛化误差上界

已知训练数据集T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),... ,(x_N,y_N)\}T={(x1​,y1​),(x2​,y2​),...,(xN​,yN​)},它是从联合概率分布P(X,Y)P(X,Y)P(X,Y)独立同分布产生的,X∈Rn,Y∈{−1,+1}X\in R^n,Y\in\{ -1,+1\}X∈Rn,Y∈{−1,+1}。假设空间是函数的有限集合F={f1,f2,...,fd}F=\{ f_1,f_2,...,f_d\}F={f1​,f2​,...,fd​},ddd是函数个数。设fff是从FFF中选取的函数,损失函数是0-1损失。关于fff的期望风险和经验风险是:
R(f)=E[L(Y,f(X))]R( f)=E[L(Y, f(X))]R(f)=E[L(Y,f(X))]
R^(f)=1N∑i=1NL(yi,f(xi))\hat R( f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))R^(f)=N1​i=1∑N​L(yi​,f(xi​))
经验风险最小化函数为:
fN=argmin⁡f∈FR^(f)f_N=arg\min_{f\in F}\hat R(f)fN​=argf∈Fmin​R^(f)
fNf_NfN​的泛化能力R(fN)=E[L(Y,fN(X))]R( f_N)=E[L(Y, f_N(X))]R(fN​)=E[L(Y,fN​(X))].
讨论F={f1,f2,...,fd}F=\{ f_1,f_2,...,f_d\}F={f1​,f2​,...,fd​}中任意选出的函数fff的泛化误差上界。

泛化误差上界定理

泛化误差上界定理证明


训练误差小的模型,泛化误差也会小。
以上讨论的只是假设空间包含有限个函数情况下的泛化误差上界。

统计学习方法-李航(4)相关推荐

  1. 统计学习方法-李航(6)

    统计学习方法-李航(6) 分类问题 评价指标 标注问题 过程 学习 标注 回归问题 过程 分类问题 在监督学习中,当输出变量Y取有限个离散值时, 预测问题便成为分类问题. 分类问题包括学习和分类两个过 ...

  2. 统计学习方法-李航(5)

    统计学习方法-李航(5) 生成模型与判别模型 监督学习方法 生成方法(generative approach) 生成模型(generative model) 判别方法(discriminative a ...

  3. 统计学习方法-李航(3)

    统计学习方法-李航(第一章3) 模型评估与模型选择 训练误差与测试误差 过拟合与模型选择 例如:多项式拟合 正则化和交叉验证 正则化 例如:回归问题 交叉验证 简单交叉验证 S折交叉验证(S-fold ...

  4. 统计学习方法-李航(2)

    统计学习方法-李航(第一章2) 如何对经验风险进行矫正 经验风险最小化(ERM) 缺点 结构风险最小化 极大似然估计和贝叶斯估计(PR) 极大似然估计 贝叶斯估计 如何对经验风险进行矫正 在现实中,由 ...

  5. 统计学习方法-李航(1)

    统计学习方法-李航(第一章1) 第一章 统计学习概论 1.1 统计学习 1.2 监督学习 1.3 统计学习的三要素 第一章 统计学习概论 1.1 统计学习 1.统计学习是关于计算机基于数据构建概论统计 ...

  6. 统计学习方法 李航 读书笔记

    ************************************************************ 李航教授<统计学习方法> 统计学教材总结 主要介绍监督学习方法 * ...

  7. 统计学习方法---李航

    统计学习方法笔记 第一章:统计学习概论 1.1 统计学习 统计学习( statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科.统计学习也 ...

  8. 统计学习方法-李航-第一章:统计学习方法概论-笔记1

    文章目录 0 机器学习分类 0.1 监督学习 0.2 无监督学习 0.3 半监督学习 0.4 强化学习 1 统计学习方法概论 1.1 监督学习的步骤 1.2 统计学习三要素 1.3 模型评估 1.4 ...

  9. 统计学习方法-李航-期末复习流程图

    <统计学习方法>流程图-期末复习(上) X-mind绘制,转载注明出处 第一章-概论 第二章-感知机 第六章-逻辑回归

最新文章

  1. 二分查找与二叉排序树
  2. 100多个基础常用JS函数和语法集合大全
  3. 第一个实例-----我与node.js的第一步接触
  4. Hadoop之道--MapReduce之Hello World实例wordcount
  5. C语言sprintf函数(发送格式化输出到 str 所指向的字符串)(format 标签属性)(字符串拼接)(数字转字符串、浮点数转字符串)
  6. java map byte[],java中byte数组不能作为map的key使用
  7. 单元测试mock当前时间
  8. 服务框架及服务治理组件——业界调研
  9. JSON实现桌面可移动的小便签
  10. [0716] Jsoi B Isbn
  11. 5 句话,带你看准区块链和分布式账本最新趋势!
  12. win7创建mysql odbc数据源_Win7下如何创建odbc数据源
  13. 小米招股书披露:员工平均年薪福利28万!
  14. Typora+picgo+gitee图片外链失效,Typora历史笔记无法显示图片
  15. 神仙打架!清华公布2020特奖候选人名单,有人三篇顶会一作,还有人...
  16. phpstudy安装yar扩展
  17. reactjs中使用高德地图计算两个经纬度之间的距离
  18. 学生DW网页设计作业成品 html+css 制作我的网站主页 (web前端期末作业)
  19. X3DAudio中声道音量跳变的问题
  20. 在ubuntu上绑定USB接口的两种方式

热门文章

  1. 38 SD配置-销售凭证设置-定义拒绝原因
  2. ‘UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xff in position 0: invalid start byte‘成功解决
  3. 数据结构无向图顶点的度c语言_图-储存及基本操作
  4. linux 内核设备管理模型sysfs(进阶篇)
  5. CUDA中的一些基本概念
  6. python numpy ndarray之basic operations
  7. 注意力公式步骤每一步的含义,总共三步
  8. Transfomer入门:Self-attention + Multi-head Self-attention
  9. CORS跨域时axios无法获取服务器自定义的header信息 - 番外篇
  10. 价值80元的emlog博客用户注册插件