小吴的《机器学习 周志华》学习笔记 第二章 2.4 比较检验、 2.5 偏差与方差

2.4 比较检验

上一周提到了实验的评价方法和性能量度,步骤简单可以看成:先使用某种实验评估方法测得学习器的某个性能量度的结果,然后对这些结果进行比较。但是如何进行“比较”?直接比较大小吗?
其实要复杂的多。这里面涉及了几个因素:1. 希望比较的是泛化性能,然而通过实验评估方法我们获得的是测试集上的性能,这两者对比结果可能未必相同;2. 测试集上的性能与测试集本身选择有关,测试结果会不同;3. 很多机器学习算法有一定的随机性,即使相同参数在相同测试集上运行,结果也会不同。
所以这时,我们需要统计假设验证(hypothesis test)。基于假设结果我们可以推断出,若在测试集上观察到学习器A比B好,则A到泛化性能是否在统计意义上优于B,以及这个结论的把握有多大。这里默认一错误率为性能量度,用ε表示。

2.4.1 假设检验

泛化错误率为ε的学习器在一个样本上犯错误的概率为ε,(接下来的符号太多,看手写的图片吧,字丑请见谅):
则这符合二项分布,ε=0.3时,则10个样本中测得3个被误分类的概率最大:
对于一般情况,ε<=ε0,则在1-α的概率内所能观测到的最大错误率如下表达式,这里的1-α反应了“置信度”,(s.t. 表示左边式子在右边条件满足时成立):

(若想对假设检验的概念进行了解,下面附上链接:
https://wenku.baidu.com/view/fefcac6b1eb91a37f1115cc0.html

在很多时候,我们并非做一次留出法估计,是通过反复的留出法或者交叉验证的方法,这个时候就会得到多个测试错误率,所以可以使用“t检验”,得到k个测试错误率,以及错误率μ和方差σ^2:


服从自由度为k-1的t分布如下图所示:

这里是“双侧检验”,若平均错误率μ与ε0之差|μ-ε0|位于临界值 [t-α/2,tα/2],内则不能拒绝假设“μ=ε0”,置信度为1-α,否则拒绝。

2.4.2 交叉验证t检验

(这里打字太麻烦了。。我大量贴图)

上面式(2.31),只需要将t检验公式中μ0=0,就可以得到。上面的理解与t分布类似,小于临界值假设不能被拒绝,认为两个学习器没有显著差别,否则拒绝。
(书中还提到了“5X2交叉验证”的检验方法,说实话,我没看懂。。有兴趣的可以去研究一下)

2.4.3 McNemar 检验

对于二分类的问题,使用留出法可以获得两学习器分类结果的差别,得到下面的“列联表”:

若我们假设两学习器性能相同,则应有e01=e10,因为不论从哪个角度看,这两个值都是一个量,变量|e01-e10|服从正态分布,McNemar 检验考虑变量:

(e01+e10通常很小,需要考虑连续矫正,分子有-1项)
下面给出部分原论文和论文中的例子:

2.4.4 Friedman 检验与 Nemenyi 后续检验

交叉t验证和McNemar检验都是在一个数据集上进行的,但很多时候,我们会在一组数据集上对多个算法进行比较,Friedman 检验是使用基于算法排序的方法。
假定我们使用D1、D2、D3和D4四个数据集对算法A、B、C进行比较,我们可以得出下面的表:

根据性能的好坏,赋予序值1,2 ,…,用Friedman 检验来判断性能是否相同:

(具体公式推导可见:
https://wenku.baidu.com/view/876670b9e009581b6bd9eb71.html
由式(2.34)可得,TF服从自由度为k-1和(k-1)(N-1)的F分布,下面是常用临界值:

若“所有算法性能相同被拒绝”,则说明这个算法性能显著不同,这时候需要做“后续检验”来进一步区分各个算法,常用的后续检验Nemenyi 后续检验:

书中还给出了表2.5的例子,篇幅太大,但是很容易理解,代数据计算查表即可,查书44页。

2.5 偏差与方差

对学习算法除了通过实验估计泛化性能,人们还想了解“为什么”有这些性能,“偏差-方差分解”是一个重要的工具。


也就是说,泛化误差可以分解为偏差、方差和噪声的和。
偏差-方差分解说明,泛化能力是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。
下面是方差-窘境的概率,很好理解:

这一周就到这里,下一周要开始忙了?。。。

小吴的《机器学习 周志华》学习笔记 第二章 2.4 比较检验、2.5 偏差与方差相关推荐

  1. 《机器学习》 周志华学习笔记第二章 模型评估与选择(课后习题)

    模型选择与评估 一.内容 1.经验误差与过拟合 1.1 学习器在训练集上的误差称为训练误差(training error),在新样本上的误差称为泛化误差(generalizion error). 1. ...

  2. 机器学习-周志华-学习记录-第一章绪论

    文章目录 绪论 一.什么是机器学习 二.基本术语 三.假设空间 四.归纳偏好 总结 参考链接 绪论 为了更早地适应研究生的生活,我决定重新学习周志华老师的机器学习这本书.同时也为了能够养成博客记录的习 ...

  3. 《机器学习》 周志华学习笔记第一章 绪论(课后习题)

    最近需要学习机器学习,有一点点基础但是很少,希望能通过写博客的方式和大家交流以及学习达到共同进步的目的. 绪论 : 一.内容 1.基本术语 2.假设空间与版本空间 3.归纳偏好(常用的有奥卡姆剃刀) ...

  4. 西瓜书(机器学习 周志华)读书笔记--第一章 绪论

    1.1 引言 略 1.2 基本术语 1.2.1 数据集相关的基本概念 假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽= ...

  5. 《机器学习》周志华 学习笔记

    <机器学习>周志华 学习笔记 第一章 绪论 1.1 引言 机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. 经验:"经验"通常以"数据& ...

  6. 《机器学习》 周志华学习笔记第四章 决策树(课后习题)python 实现

    一.基本内容 1.基本流程 决策树的生成过程是一个递归过程,有三种情形会导致递归返回 (1)当前节点包含的yangben全属于同一类别,无需划分: (2)当前属性集为空,或是所有yangben在所有属 ...

  7. 《机器学习》 周志华学习笔记第十四章 概率图模型(课后习题)python实现

    一.基本内容 1.隐马尔可夫模型 1.1. 假定所有关心的变量集合为Y,可观测变量集合为O,其他变量集合为R, 生成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O),给定一组 ...

  8. 《机器学习》 周志华学习笔记第八章 集成学习(课后习题)python实现

    1.个体与集成 1.1同质集成 1.2异质集成 2.boosting:代表AdaBoost算法 3.Bagging与随机森林 3.1Bagging 是并行式集成学习方法最著名的代表(基于自主采样法bo ...

  9. 《机器学习》 周志华学习笔记第六章 支持向量机(课后习题)python 实现

    一. 1.间隔与支持向量 2.对偶问题 3.核函数 xi与xj在特征空间的內积等于他们在原始yangben空间中通过函数k(.,.)计算的结果. 核矩阵K总是半正定的. 4.软间隔与正则化 软间隔允许 ...

最新文章

  1. Kotlin implements 的实现
  2. 数据结构与算法(2-1)线性表之顺序存储(顺序表)
  3. [转]解决Windows 7下Windows Live Messenger(MSN) 9.0在一直停靠任务栏而不在系统栏显示的问题...
  4. Windows server 2008 R2实现多用户远程连接
  5. MFC 获取其他窗口的Edit文本和单击Button
  6. lua upvalue
  7. udev   ksm
  8. mac使用之必备神器
  9. uni-app开发小说阅读器
  10. Python自动化测试之PO模式
  11. 微信小程序超级占内存_微信小程序占内存吗?
  12. 数据分析基础——基本运算
  13. java计算机毕业设计列车票务信息管理系统源程序+mysql+系统+lw文档+远程调试
  14. Markdown语法笔记
  15. RADARE2+FRIDA=R2FRIDA Best Dynamic Debugging Tool
  16. 怎样在Windows下挂载ESP分区
  17. 用户开启了iCloud 照片库,选择了“优化 iPhone/iPad 储存空间”获取图片失败
  18. swift reduce
  19. systemd:源自红帽的系统初始化和服务管理套件
  20. 基于遗传算法的BP神经网络优化算法(附代码)

热门文章

  1. C/C++Linux后台开发(入门到精通) 学习路线-架构师篇
  2. 手机处理器天梯_手机处理器(SOC)天梯表2020年3月
  3. vue学习笔记(一):vue devtools+简单入门程序
  4. uniapp中使用ucharts组件开发App中的折线图流程
  5. 【重要通知】中国图象图形学学会2022年度系列奖励推荐工作启动
  6. 低压变频器市场Q3同比小幅负增长,市场回暖迹象不明显
  7. 区分数组中奇数和偶数
  8. 免费获取知网文献----浙江图书馆+支付宝
  9. B端产品经理的职业生涯
  10. TIA博途Wincc Advanced下载项目的具体方法演示(V16版本)