机器学习与数据挖掘之ROC与AUC

参考文献：机器学习与数据挖掘参考文献

图1 分类结果混淆矩阵

很多学习器是为测试样本产生一个实值或概率预测，然后将这个预测值与一个分类阈值进行比较，若大于阈值则分为正类，否则为反类。例如，神经网络在一般情形下是对每个测试样本预测出宇哥[0.0, 1.0]之间的实值，然后将这个值与0.5进行比较，大于0.5则判为正例，否则为反例。这个实值或概率预测结果的好坏，直接决定了学习器的泛化能力。实际上，根据这个实值或概率预测结果，可将测试样本进行排序，“最可能”是正例的排在最前面，“最不可能”是正例的排在最后面。这样，分类过程就相当于在这个排序中以某个“截断点”将样本分为两部分，前一部分判作正例，后一部分则判作反例。

在不同的应用任务中，可根据任务需求来采用不同的截断点，若更重视“查准率”（又称为精确率， Precision，P=TP/(TP+FP)），则可选择排序中靠前的位置进行截断；若更重视“查全率”（又称为召回率，Recall，R=TP/(TP+FN)），则可选择靠后的位置进行截断。因此，排序本身的质量好坏，体现了综合考虑学习器在不同任务下的“期望泛化性能”的好坏，或者说，“一般情况下”泛化性能的好坏。ROC曲线则是从这个角度出发来研究学习器泛化性能的有力工具。

ROC全称是“受试者工作特征”（Receiver Operating Characteristic）曲线。根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，分别以它们为横、纵坐标作图，就得到了“RPC曲线”。ROC曲线的纵轴是“真正例率”（True Positive Rate，TPR），横轴是“假正例率”（False Positive Rate，FPR），两者分别定义为

TPR=TP/(TP+FN)

FPR=FP/(TN+FP)

显示ROC曲线的图称为“ROC图”，如图2所示。对角线对应于“随机猜测”模型，而点（0,1）对应于将所有正例排在所有反例之前的“理想模型”。

图2 ROC图

现实任务中通常是利用有限个测试样例来绘制ROC图，此时仅能获得有限个（真正例率，假正例率）坐标对。绘图过程：给定m+个正例和m-个反例，根据学习器预测结果对样例进行排序，然后把分类阈值设为最大，即把所有样例均预测为反例，此时真正例率和假正例率均为0，在坐标（0,0）处标记一个点。设前一个标记点坐标为（x,y），当前若为真正例，则对应标记点的坐标为（x,y+1/m+）；当前若为假正例，则对应标记点的坐标为（x+1/m-,y），然后用线段连接相邻点即得。

进行学习器的比较时，若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者；若两个学习器的ROC曲线发生交叉，则难以一般性地断言两者孰优孰劣。此时如果一定要进行比较，则较为合理的判据是比较ROC曲线下的面积，即AUC（Area Under ROC Curve）。AUC可通过对ROC曲线下各部分的面积求和而得。

机器学习与数据挖掘之ROC与AUC相关推荐

机器学习模型评估指标ROC、AUC详解
我是小z ROC/AUC作为机器学习的评估指标非常重要,也是面试中经常出现的问题(80%都会问到).其实,理解它并不是非常难,但是好多朋友都遇到了一个相同的问题,那就是:每次看书的时候都很明白,但回过 ...
机器学习（四）ROC 和 AUC
ROC 和 AUC AUC是一种模型分类指标,且仅仅是二分类模型的评价指标.AUC是Area Under Curve的简称,那么Curve就是ROC(Receiver Operating Charac ...
五分钟秒懂机器学习混淆矩阵、ROC和AUC
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第18篇文章,我们来看看机器学习领域当中,非常重要的其他几个指标. 混淆矩阵在上一篇文章当中,我们在介绍召回率.准确率 ...
Interview：算法岗位面试—上海某公司算法岗位技术(偏机器学习，证券基金行业)面试考点之进程与线程区别、GD改进的算法、ROC和AUC
Interview:算法岗位面试-上海某公司算法岗位技术(偏机器学习,证券基金行业)面试考点之进程与线程区别.GD改进的算法.ROC和AUC 导读:其实,考察的知识点,博主都做过,但是,emmm,这些 ...
ROC和AUC也不是评估机器学习性能的金标准
承接:样本分布不平衡,机器学习准确率高又有什么用? 对于不平衡数据集,AUC值是分类器效果评估的常用标准.但如果在解释时不仔细,它也会有一些误导.以Davis and Goadrich (2006)中 ...
机器学习笔记 - IOU、mAP、ROC、AUC、准确率、召回率、F分数
一.什么是交并比? 1.交并比(IOU)概述交并比(Intersection over Union) 是一种评估指标,用于衡量目标检测器在特定数据集上的准确性.任何提供预测边界框作为输出的算法都可以 ...
机器学习分类模型评价指标之ROC 曲线、 ROC 的 AUC 、 ROI 和 KS
前文回顾: 机器学习模型评价指标之混淆矩阵机器学习模型评价指标之Accuracy.Precision.Recall.F-Score.P-R Curve.AUC.AP 和 mAP 图裂的话请参考:ht ...
机器学习分类问题指标评估内容详解（准确率、精准率、召回率、F1、ROC、AUC等）
文章目录前言一.混淆矩阵(confusion matrix) 二.准确率,精准率,召回率,F1分数 1. 准确率(Accuracy) 2. 精确率(Precision) 3. 召回率(Recall ...
机器学习 - 模型评估（TPR、FPR、K1、ROC、AUC、KS、GAIN、LIFT、GINI、KSI）
以下内容多为个人理解,如有不当之处,欢迎指正! 1. 混淆矩阵一个二分类模型,是对现实情况的一种预测.如病例(阴性/阳性.有病/没病).邮件(垃圾邮件/非垃圾邮件)等.以病例为例,对于一个患者,存在 ...
机器学习中的评价指标(分类指标评Accuracy、Precision、Recall、F1-score、ROC、AUC ）（回归指标评价MSE、RMSE、MAE、MAPE、R Squared）
文章目录 1.机器学习中的评价指标基础 (一)分类指标评价 1.Accuracy 2.Precision.查准率 3.Recall.查全率 4.F1-score 举个例子: 5.ROC 6.AUC ...

机器学习与数据挖掘之ROC与AUC

机器学习与数据挖掘之ROC与AUC相关推荐

最新文章

热门文章