小吴的《机器学习周志华》学习笔记第二章 2.4 比较检验、 2.5 偏差与方差

2.4 比较检验

上一周提到了实验的评价方法和性能量度，步骤简单可以看成：先使用某种实验评估方法测得学习器的某个性能量度的结果，然后对这些结果进行比较。但是如何进行“比较”？直接比较大小吗？
其实要复杂的多。这里面涉及了几个因素：1. 希望比较的是泛化性能，然而通过实验评估方法我们获得的是测试集上的性能，这两者对比结果可能未必相同；2. 测试集上的性能与测试集本身选择有关，测试结果会不同；3. 很多机器学习算法有一定的随机性，即使相同参数在相同测试集上运行，结果也会不同。
所以这时，我们需要统计假设验证（hypothesis test）。基于假设结果我们可以推断出，若在测试集上观察到学习器A比B好，则A到泛化性能是否在统计意义上优于B，以及这个结论的把握有多大。这里默认一错误率为性能量度，用ε表示。

2.4.1 假设检验

泛化错误率为ε的学习器在一个样本上犯错误的概率为ε，（接下来的符号太多，看手写的图片吧，字丑请见谅）：
则这符合二项分布，ε=0.3时，则10个样本中测得3个被误分类的概率最大：
对于一般情况，ε<=ε₀，则在1-α的概率内所能观测到的最大错误率如下表达式，这里的1-α反应了“置信度”，（s.t. 表示左边式子在右边条件满足时成立）：

（若想对假设检验的概念进行了解，下面附上链接：
https://wenku.baidu.com/view/fefcac6b1eb91a37f1115cc0.html）

在很多时候，我们并非做一次留出法估计，是通过反复的留出法或者交叉验证的方法，这个时候就会得到多个测试错误率，所以可以使用“t检验”，得到k个测试错误率，以及错误率μ和方差σ^2：

服从自由度为k-1的t分布如下图所示：

这里是“双侧检验”，若平均错误率μ与ε₀之差|μ-ε₀|位于临界值 [t_-α/2,t_α/2]，内则不能拒绝假设“μ=ε₀”，置信度为1-α，否则拒绝。

2.4.2 交叉验证t检验

（这里打字太麻烦了。。我大量贴图）

上面式(2.31)，只需要将t检验公式中μ₀=0，就可以得到。上面的理解与t分布类似，小于临界值假设不能被拒绝，认为两个学习器没有显著差别，否则拒绝。
（书中还提到了“5X2交叉验证”的检验方法，说实话，我没看懂。。有兴趣的可以去研究一下）

2.4.3 McNemar 检验

对于二分类的问题，使用留出法可以获得两学习器分类结果的差别，得到下面的“列联表”：

若我们假设两学习器性能相同，则应有e₀₁=e₁₀，因为不论从哪个角度看，这两个值都是一个量，变量|e₀₁-e₁₀|服从正态分布，McNemar 检验考虑变量：

（e₀₁+e₁₀通常很小，需要考虑连续矫正，分子有-1项）
下面给出部分原论文和论文中的例子：

2.4.4 Friedman 检验与 Nemenyi 后续检验

交叉t验证和McNemar检验都是在一个数据集上进行的，但很多时候，我们会在一组数据集上对多个算法进行比较，Friedman 检验是使用基于算法排序的方法。
假定我们使用D₁、D₂、D₃和D₄四个数据集对算法A、B、C进行比较，我们可以得出下面的表：

根据性能的好坏，赋予序值1，2 ，…，用Friedman 检验来判断性能是否相同：

（具体公式推导可见：
https://wenku.baidu.com/view/876670b9e009581b6bd9eb71.html）
由式(2.34)可得，T_F服从自由度为k-1和(k-1)(N-1)的F分布，下面是常用临界值：

若“所有算法性能相同被拒绝”，则说明这个算法性能显著不同，这时候需要做“后续检验”来进一步区分各个算法，常用的后续检验Nemenyi 后续检验：

书中还给出了表2.5的例子，篇幅太大，但是很容易理解，代数据计算查表即可，查书44页。

2.5 偏差与方差

对学习算法除了通过实验估计泛化性能，人们还想了解“为什么”有这些性能，“偏差-方差分解”是一个重要的工具。

也就是说，泛化误差可以分解为偏差、方差和噪声的和。
偏差-方差分解说明，泛化能力是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。
下面是方差-窘境的概率，很好理解：

这一周就到这里，下一周要开始忙了?。。。