[DataAnalysis]基于统计假设检验的机器学习模型性能评估—

一、为什么需要统计假设检验衡量学习器性能

看起来P-R曲线和ROC曲线可以解决学习器的性能评估问题，然而机器学习中性能比较这件事情比想象中复杂得多。原因如下：

（1）我们想比价的是泛化性能，然而通过实验评估方法我们得到的是测试集上的性能

（2）测试集上的性能与测试集本身的选择有很大关系，且不论使用不同大小的测试集会得到不同的结果，即便用相同大小的测试集，若包含的测试样例不同，测试结果也会有所不同。

（3）机器学习算法本身的随机性，即便用相同的参数在相同的测试集上多次运行同一个模型，得到的模型结果也会不同。

统计假设检验为我们进行学习器性能的比较提供了重要依据。基于假设检验结果我们可推断出，若在测试集上观察到学习器A比学习器B好，则A的泛化性能是否在统计意义上优于B，以及这个结论的把握有多大。

二、对泛化错误率进行假设检验的思想

泛化错误率为 $\epsilon$ 的学习样本在一个样本上犯错的概率是 $\epsilon$ ；测试错误率 $\hat{\epsilon }$ 以为着在m个测试样本中恰有 $\hat{\epsilon }*m$ 个样本被误分类。举个例子，我们可以用二项检验对“ $\epsilon\leqslant \epsilon_0$ ”这样的假设进行检验。则在 $1-\alpha$ 的置信度内能观测到的最大错误率如下式所示：

$\bar{\epsilon}=max \epsilon$ $s.t.$ $\sum_{i=\epsilon _{0}*m+1}^{m}\epsilon _i(1-\epsilon)^{m-i}<\alpha$

如果测试错误率 $\hat{\epsilon }$ 小于临界值 $\bar\epsilon$ ，则在 $\alpha$ 的显著性水平下，假设“ $\epsilon\leqslant \epsilon_0$ ”不能被拒绝。

三、多个测试错误率的统计检验

很多时候我们并非仅做一次留出法估计，通过多次重复留出或者交叉验证法进行多次训练/测试时，我们会得到多个测试错误率。

1、单个学习器的泛化误差检验（t检验）

假定我们得到了k个测试错误率， $\hat{\epsilon_1},\hat{\epsilon_2},\hat{\epsilon_3},...\hat{\epsilon_k},$ 则可以算出测试误差率的均值 $\mu$ 和方差 $\sigma ^2$ 。考虑到这k个测试错误率可以看作泛化错误率 $\epsilon_0$ 的独立采样，则检验统计量

$\tau _t=\frac{\sqrt{k}(\mu-\epsilon_0)}{\sigma}$

服从自由度为 $k-1$ 的 $t$ 分布。

2、两个学习器（交叉验证t检验）

对两个学习器A和B，若我们使用k折交叉验证法得到的测试错误率分别为 $\epsilon_{1}^{A},\epsilon_{2}^{A},...,\epsilon_{k}^{A}$ , $\epsilon_{1}^{B},\epsilon_{2}^{B},...,\epsilon_{k}^{B}$ ，基本思想是如果两个学习器性能相同，则它们使用相同的训练/测试集得到的测试错误率应该相同，即 $\epsilon_i^A=\epsilon_i^B$ 。从而我们可以用成对t检验。

先对每对测试错误率结果求差， $\bigtriangledown _i=\epsilon_i^A-\epsilon_i^B$ ，然后得到差值 $\bigtriangledown _1,\bigtriangledown _2,...\bigtriangledown _k$ ，计算出这些差值的均值 $\mu$ 和方差 $\sigma ^2$ ，在显著性水平 $\alpha$ 下，则检验统计量

$\tau _t=|\frac{\sqrt{k}\mu}{\sigma}|$

3、McNemar检验

对于二分类问题，使用留出法不仅可以估计出学习器A和B的测试错误率，还可获得两学习器分类结果的差别，得到如下列联表

两学习器分类差别列联表
算法B	算法A
算法B	正确	错误
正确	$e_{00}$	$e_{01}$
错误	$e_{10}$	$e_{11}$

假设两学习器性能相同，则 $e_{01}=e_{10}$ ，即变量 $|e_{01}-e_{10}|$ 应当服从正态分布。构造检验统计量

$\tau _{\chi ^2}=\frac{(|e_{01}-e_{10}|-1)^2}{e_{01}+e_{10}}$ 服从自由度为1的 $\chi ^2$ 分布。

4、Friedman检验和Nemenyi检验

参照西瓜书。

[DataAnalysis]基于统计假设检验的机器学习模型性能评估——泛化误差率的统计检验相关推荐

R使用交叉验证（cross validation）进行机器学习模型性能评估
R使用交叉验证(cross validation)进行机器学习模型性能评估目录 R使用交叉验证(cross validation)进行机器学习模型性能评估
机器学习模型性能评估_如何评估机器学习模型的性能
机器学习模型性能评估 Table of contents: 目录: Why evaluation is necessary?为什么需要评估? Confusion Matrix混淆矩阵 Accurac ...
机器学习模型性能评估（二）：P-R曲线和ROC曲线
上文简要介绍了机器学习模型性能评估的四种方法以及应用场景,并详细介绍了错误率与精度的性能评估方法.本文承接上文,继续介绍模型性能评估方法:P-R曲线和ROC曲线. ...
提高机器学习模型性能的五个关键方法
提高机器学习模型性能的五个关键方法 1. 数据预处理 2. 特征工程 3. 机器学习算法 4. 模型集成与融合 5. 数据增强以下是各个方面的具体分析和方法: [ 说明:1.这里主要是各个关键方法的 ...
使用学习曲线诊断机器学习模型性能
学习曲线是模型学习性能随经验或时间变化的曲线. 学习曲线是机器学习中广泛使用的诊断工具,用于从训练数据集中增量学习算法.该模型可以在训练数据集和每次训练更新后的验证数据集上进行评估,并可以创建测试性能 ...
R︱mlr包挑选最适机器学习模型+变量评估与选择（案例详解）
一.R语言的mlr packages选择最适机器学习模型 install.packages("mlr")之后就可以看到R里面有哪些机器学习算法.在哪个包里面. a<-list ...
回归和分类模型性能评估指标MSE,MAE,PR,ROC,AUC
文章目录 0. 模型评估是什么,为什么 1. 不同类型问题的评估指标 1.1 回归问题 1.2 分类问题 1.2.1 准确率和错误率 1.2.2 精确率和召回率 1.2.3 PR曲线图 1.2.4 F ...
图解机器学习之回归模型性能评估指标
一个房价预测的任务,老板说你看看这个模型咋样? 我们先绘制一个坐标轴: Y 轴为房价,X 轴为年份.将过去房价数据绘制为绿色,回归模型绘制为蓝色. 关键问题是,怎么知道这个模型的好坏呢? 为了评估该模 ...
(附源码)基于sklearn的多种机器学习模型在降水降尺度中的应用(KNN\LR\RF\Ada\Xg\GBDT)
最近学习了机器学习, 有一些感触,但是没有时间详细写.这里简单给一下我写的源码(并且我是在jupyter notebook上面做的报告,所以代码格式也是jupyter notebook的,如果你需要移 ...
机器学习模型性能提升技巧：指数加权平均（EMA）
主要内容什么是EMA? 为什么EMA在测试过程中使用通常能提升模型表现? Tensorflow实现 PyTorch实现 Refercences 什么是EMA? 滑动平均(exponential mo ...

[DataAnalysis]基于统计假设检验的机器学习模型性能评估——泛化误差率的统计检验

[DataAnalysis]基于统计假设检验的机器学习模型性能评估——泛化误差率的统计检验相关推荐

最新文章

热门文章