参考文献:机器学习与数据挖掘参考文献

图1 分类结果混淆矩阵

很多学习器是为测试样本产生一个实值或概率预测,然后将这个预测值与一个分类阈值进行比较,若大于阈值则分为正类,否则为反类。例如,神经网络在一般情形下是对每个测试样本预测出宇哥[0.0, 1.0]之间的实值,然后将这个值与0.5进行比较,大于0.5则判为正例,否则为反例。这个实值或概率预测结果的好坏,直接决定了学习器的泛化能力。实际上,根据这个实值或概率预测结果,可将测试样本进行排序,“最可能”是正例的排在最前面,“最不可能”是正例的排在最后面。这样,分类过程就相当于在这个排序中以某个“截断点”将样本分为两部分,前一部分判作正例,后一部分则判作反例。

在不同的应用任务中,可根据任务需求来采用不同的截断点,若更重视“查准率”(又称为精确率, Precision,P=TP/(TP+FP)),则可选择排序中靠前的位置进行截断;若更重视“查全率”(又称为召回率,Recall,R=TP/(TP+FN)),则可选择靠后的位置进行截断。因此,排序本身的质量好坏,体现了综合考虑学习器在不同任务下的“期望泛化性能”的好坏,或者说,“一般情况下”泛化性能的好坏。ROC曲线则是从这个角度出发来研究学习器泛化性能的有力工具。

ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线。根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横、纵坐标作图,就得到了“RPC曲线”。ROC曲线的纵轴是“真正例率”(True Positive Rate,TPR),横轴是“假正例率”(False Positive Rate,FPR),两者分别定义为

TPR=TP/(TP+FN)

FPR=FP/(TN+FP)

显示ROC曲线的图称为“ROC图”,如图2所示。对角线对应于“随机猜测”模型,而点(0,1)对应于将所有正例排在所有反例之前的“理想模型”。

图2 ROC图

现实任务中通常是利用有限个测试样例来绘制ROC图,此时仅能获得有限个(真正例率,假正例率)坐标对。绘图过程:给定m+个正例和m-个反例,根据学习器预测结果对样例进行排序,然后把分类阈值设为最大,即把所有样例均预测为反例,此时真正例率和假正例率均为0,在坐标(0,0)处标记一个点。设前一个标记点坐标为(x,y),当前若为真正例,则对应标记点的坐标为(x,y+1/m+);当前若为假正例,则对应标记点的坐标为(x+1/m-,y),然后用线段连接相邻点即得。

进行学习器的比较时,若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者;若两个学习器的ROC曲线发生交叉,则难以一般性地断言两者孰优孰劣。此时如果一定要进行比较,则较为合理的判据是比较ROC曲线下的面积,即AUC(Area Under ROC Curve)。AUC可通过对ROC曲线下各部分的面积求和而得。

机器学习与数据挖掘之ROC与AUC相关推荐

  1. 机器学习模型评估指标ROC、AUC详解

    我是小z ROC/AUC作为机器学习的评估指标非常重要,也是面试中经常出现的问题(80%都会问到).其实,理解它并不是非常难,但是好多朋友都遇到了一个相同的问题,那就是:每次看书的时候都很明白,但回过 ...

  2. 机器学习(四)ROC 和 AUC

    ROC 和 AUC AUC是一种模型分类指标,且仅仅是二分类模型的评价指标.AUC是Area Under Curve的简称,那么Curve就是ROC(Receiver Operating Charac ...

  3. 五分钟秒懂机器学习混淆矩阵、ROC和AUC

    本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第18篇文章,我们来看看机器学习领域当中,非常重要的其他几个指标. 混淆矩阵 在上一篇文章当中,我们在介绍召回率.准确率 ...

  4. Interview:算法岗位面试—上海某公司算法岗位技术(偏机器学习,证券基金行业)面试考点之进程与线程区别、GD改进的算法、ROC和AUC

    Interview:算法岗位面试-上海某公司算法岗位技术(偏机器学习,证券基金行业)面试考点之进程与线程区别.GD改进的算法.ROC和AUC 导读:其实,考察的知识点,博主都做过,但是,emmm,这些 ...

  5. ROC和AUC也不是评估机器学习性能的金标准

    承接:样本分布不平衡,机器学习准确率高又有什么用? 对于不平衡数据集,AUC值是分类器效果评估的常用标准.但如果在解释时不仔细,它也会有一些误导.以Davis and Goadrich (2006)中 ...

  6. 机器学习笔记 - IOU、mAP、ROC、AUC、准确率、召回率、F分数

    一.什么是交并比? 1.交并比(IOU)概述 交并比(Intersection over Union) 是一种评估指标,用于衡量目标检测器在特定数据集上的准确性.任何提供预测边界框作为输出的算法都可以 ...

  7. 机器学习分类模型评价指标之ROC 曲线、 ROC 的 AUC 、 ROI 和 KS

    前文回顾: 机器学习模型评价指标之混淆矩阵 机器学习模型评价指标之Accuracy.Precision.Recall.F-Score.P-R Curve.AUC.AP 和 mAP 图裂的话请参考:ht ...

  8. 机器学习分类问题指标评估内容详解(准确率、精准率、召回率、F1、ROC、AUC等)

    文章目录 前言 一.混淆矩阵(confusion matrix) 二.准确率,精准率,召回率,F1分数 1. 准确率(Accuracy) 2. 精确率(Precision) 3. 召回率(Recall ...

  9. 机器学习 - 模型评估(TPR、FPR、K1、ROC、AUC、KS、GAIN、LIFT、GINI、KSI)

    以下内容多为个人理解,如有不当之处,欢迎指正! 1. 混淆矩阵 一个二分类模型,是对现实情况的一种预测.如病例(阴性/阳性.有病/没病).邮件(垃圾邮件/非垃圾邮件)等.以病例为例,对于一个患者,存在 ...

  10. 机器学习中的评价指标(分类指标评Accuracy、Precision、Recall、F1-score、ROC、AUC )(回归指标评价MSE、RMSE、MAE、MAPE、R Squared)

    文章目录 1.机器学习中的评价指标 基础 (一)分类指标评价 1.Accuracy 2.Precision.查准率 3.Recall.查全率 4.F1-score 举个例子: 5.ROC 6.AUC ...

最新文章

  1. 毁掉云计算项目的三个“好办法”
  2. linux top p 乱码,将Linux top命令输入到指定文件时的乱码问题
  3. 电脑f2还原系统步骤_手把手教你如何创建系统还原点,让你的电脑也能时光倒流...
  4. 博客目录列表(C与Linux部分)
  5. Spring Boot 一个依赖搞定 session 共享,没有比这更简单的方案了!
  6. 转换图片保持画质_图片格式怎么相互转换,如何转换jpg、 bmp、png格式
  7. Linux如何查询目录默认权限,如何设置UNIX/Linux中新创建目录或文件的默认权限
  8. mysql与oracle存储过程_5分钟学会oracle与mysql存储过程insertinto
  9. C专家编程(学习笔记)_第10章 再论指针
  10. 将强化学习应用到量化投资中实战篇(神经网络模块开发)
  11. 考虑实时安全优化的自学习自适应交通信号控制
  12. 路由器和交换机的基本配置
  13. qq自定义diy名片代码复制_这个QQ技巧厉害了,艾特闪退QQ群表情霸屏无法撤回删除...
  14. VScode开发PHP的必要插件
  15. 连续变量的全概率和贝叶斯公式_条件概率、全概率公式与贝叶斯公式
  16. 在Centos上启动nodejs项目,并使用pm2管理nodejs应用
  17. android实现按键找图功能,按键精灵安卓版找图教程 找图功能使用技巧介绍
  18. DCDC开关电源电磁兼容(二)什么是LISN(有内部电路详细解释)
  19. windows开启SMB服务
  20. 在计算机领域cda,什么是CDA

热门文章

  1. 知道华为HMS ML Kit文本识别、银行卡识别、通用卡证识别、身份证识别的区别吗?深度好文教你区分
  2. 蓝芯保护卡_蓝芯防毒卡无忧版
  3. 六维空间:优秀的教育网IPV6免费资源共享平台!
  4. 新中大怎么修改服务器,新中大软件服务器地址修改
  5. windwos11降级,重装Windows10
  6. 大话USB驱动之基础概念
  7. 一个毕业设计手机病毒软件查杀
  8. 强制删除“无法删除文件/文件夹”方法全集合
  9. sandisk主控量产工具_[转载]群联PS3109主控固态硬盘修复教程_固态修复案例方法...
  10. 拼音加加 V4.0B 正式版