一、为什么需要统计假设检验衡量学习器性能

看起来P-R曲线和ROC曲线可以解决学习器的性能评估问题,然而机器学习中性能比较这件事情比想象中复杂得多。原因如下:

(1)我们想比价的是泛化性能,然而通过实验评估方法我们得到的是测试集上的性能

(2)测试集上的性能与测试集本身的选择有很大关系,且不论使用不同大小的测试集会得到不同的结果,即便用相同大小的测试集,若包含的测试样例不同,测试结果也会有所不同。

(3)机器学习算法本身的随机性,即便用相同的参数在相同的测试集上多次运行同一个模型,得到的模型结果也会不同。

统计假设检验为我们进行学习器性能的比较提供了重要依据。基于假设检验结果我们可推断出,若在测试集上观察到学习器A比学习器B好,则A的泛化性能是否在统计意义上优于B,以及这个结论的把握有多大。

二、对泛化错误率进行假设检验的思想

泛化错误率为的学习样本在一个样本上犯错的概率是;测试错误率以为着在m个测试样本中恰有个样本被误分类。举个例子,我们可以用二项检验对“”这样的假设进行检验。则在的置信度内能观测到的最大错误率如下式所示:

            

如果测试错误率小于临界值,则在的显著性水平下,假设“”不能被拒绝。

三、多个测试错误率的统计检验

很多时候我们并非仅做一次留出法估计,通过多次重复留出或者交叉验证法进行多次训练/测试时,我们会得到多个测试错误率。

1、单个学习器的泛化误差检验(t检验)

假定我们得到了k个测试错误率,则可以算出测试误差率的均值和方差。考虑到这k个测试错误率可以看作泛化错误率的独立采样,则检验统计量

服从自由度为分布。

2、两个学习器(交叉验证t检验)

对两个学习器A和B,若我们使用k折交叉验证法得到的测试错误率分别为,​​​​,基本​思想是如果两个学习器性能相同,则它们使用相同的训练/测试集得到的测试错误率应该相同,即。从而我们可以用成对t检验。

先对每对测试错误率结果求差,,然后得到差值,计算出这些差值的均值和方差,在显著性水平下,则检验统计量

3、McNemar检验

对于二分类问题,使用留出法不仅可以估计出学习器A和B的测试错误率,还可获得两学习器分类结果的差别,得到如下列联表

两学习器分类差别列联表
算法B 算法A
正确 错误
正确
错误

假设两学习器性能相同,则,即变量应当服从正态分布。构造检验统计量

服从自由度为1的分布。

4、Friedman检验和Nemenyi检验

参照西瓜书。

[DataAnalysis]基于统计假设检验的机器学习模型性能评估——泛化误差率的统计检验相关推荐

  1. R使用交叉验证(cross validation)进行机器学习模型性能评估

    R使用交叉验证(cross validation)进行机器学习模型性能评估 目录 R使用交叉验证(cross validation)进行机器学习模型性能评估

  2. 机器学习 模型性能评估_如何评估机器学习模型的性能

    机器学习 模型性能评估 Table of contents: 目录: Why evaluation is necessary?为什么需要评估? Confusion Matrix混淆矩阵 Accurac ...

  3. 机器学习模型性能评估(二):P-R曲线和ROC曲线

    上文简要介绍了机器学习模型性能评估的四种方法以及应用场景,并详细介绍了错误率与精度的性能评估方法.本文承接上文,继续介绍模型性能评估方法:P-R曲线和ROC曲线.                   ...

  4. 提高机器学习模型性能的五个关键方法

    提高机器学习模型性能的五个关键方法 1. 数据预处理 2. 特征工程 3. 机器学习算法 4. 模型集成与融合 5. 数据增强 以下是各个方面的具体分析和方法: [ 说明:1.这里主要是各个关键方法的 ...

  5. 使用学习曲线诊断机器学习模型性能

    学习曲线是模型学习性能随经验或时间变化的曲线. 学习曲线是机器学习中广泛使用的诊断工具,用于从训练数据集中增量学习算法.该模型可以在训练数据集和每次训练更新后的验证数据集上进行评估,并可以创建测试性能 ...

  6. R︱mlr包挑选最适机器学习模型+变量评估与选择(案例详解)

    一.R语言的mlr packages选择最适机器学习模型 install.packages("mlr")之后就可以看到R里面有哪些机器学习算法.在哪个包里面. a<-list ...

  7. 回归和分类模型性能评估指标MSE,MAE,PR,ROC,AUC

    文章目录 0. 模型评估是什么,为什么 1. 不同类型问题的评估指标 1.1 回归问题 1.2 分类问题 1.2.1 准确率和错误率 1.2.2 精确率和召回率 1.2.3 PR曲线图 1.2.4 F ...

  8. 图解机器学习之回归模型性能评估指标

    一个房价预测的任务,老板说你看看这个模型咋样? 我们先绘制一个坐标轴: Y 轴为房价,X 轴为年份.将过去房价数据绘制为绿色,回归模型绘制为蓝色. 关键问题是,怎么知道这个模型的好坏呢? 为了评估该模 ...

  9. (附源码)基于sklearn的多种机器学习模型在降水降尺度中的应用(KNN\LR\RF\Ada\Xg\GBDT)

    最近学习了机器学习, 有一些感触,但是没有时间详细写.这里简单给一下我写的源码(并且我是在jupyter notebook上面做的报告,所以代码格式也是jupyter notebook的,如果你需要移 ...

  10. 机器学习模型性能提升技巧:指数加权平均(EMA)

    主要内容 什么是EMA? 为什么EMA在测试过程中使用通常能提升模型表现? Tensorflow实现 PyTorch实现 Refercences 什么是EMA? 滑动平均(exponential mo ...

最新文章

  1. MySQL 高级 - 存储过程 - 语法 - if判断 || 传递参数 (IN - 输入 OUT-输出)
  2. 东平县农民丰收节-农业大健康·万祥军:功能性谋定生态品牌
  3. npm 安装yarn_问题解决记录-npm和yarn全局安装成功后命令无法执行的问题
  4. matlab如何画函数的外包络曲线,怎样在MATLAB中划出一个函数的包络线?
  5. Spring之AOP实现
  6. 十二、实战启动页(一)
  7. php项目怎么分配,php项目目录的合理划分和Pipeline 组件的使用场景
  8. python log模块_Python日志模块-logging
  9. linux 6.5端口开启关闭,linux CentOS6.5 防火墙(关闭除提供系统服务以外的端口)...
  10. TensorFlow之Numpy(3)
  11. ICS工业控制安全类方向赛题简单总结
  12. 平房误差函数_最小平方误差准则函数.ppt
  13. 政务内网、政务外网、政务专网
  14. ct上的img表示什么_X线/CT/MR影像片子上的标识你是否都认识?
  15. 小米平板4 Plus简单刷成开发版获取Root超级权限的流程
  16. 限期4个月:苹果严控版号,开发者将如何自救?
  17. 车辆运动学模型到动力学模型推导
  18. HTTP协议和XMPP协议
  19. Hyperledger -超级账本 学习报告
  20. Github项目推荐:网易云音乐 API

热门文章

  1. 广告商业形态与应用架构
  2. 平均值、中位数、众数、极差分别是什么?各有什么有点和缺点?
  3. 企业微信第三方服务商应用开发及上架教程
  4. Java对中文字符串按照拼音排序的思索
  5. 微信公众平台的发展历史
  6. 利用excel生成word并在其中批量插入图片和题注、文字描述等内容
  7. IT软件工程师工作内容
  8. 幼儿园进行计算机培训心得体会,幼儿园家园共育的开展感受和体会
  9. 那些烦人的VC++库、win10中的VC++库(全部)
  10. 用VS编译出不依赖VC运行库的可独立运行的程序