1.什么是AUC?

AUC(are under curve)是一个模型的评价指标,用于分类任务。
那么这个指标代表什么呢?这个指标想表达的含义,简单来说其实就是随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。

2.如何计算AUC?

方法一

在有M个正样本,N个负样本的数据集里。一共有MN对样本(一对样本即,一个正样本与一个负样本)。统计这MN对样本里,正样本的预测概率大于负样本的预测概率的个数。


这里第一个条件应该为P(正样本)>P(负样本)。
举例:

假设有4条样本。2个正样本,2个负样本,那么M*N=4。即总共有4个样本对。分别是:
(D,B),(D,A),(C,B),(C,A)。
在(D,B)样本对中,正样本D预测的概率大于负样本B预测的概率(也就是D的得分比B高),记为1
同理,对于(C,B)。正样本C预测的概率小于负样本C预测的概率,记为0.
最后可以算得,总共有3个符合正样本得分高于负样本得分,故最后的AUC为 1 + 1 + 1 + 0 4 = 0.75 \frac{1+1+1+0}{4}=0.75 41+1+1+0​=0.75。
在这个案例里,没有出现得分一致的情况,假如出现得分一致的时候,例如:

同样本是4个样本对,对于样本对(C,B)其I值为0.5。最后的AUC为 1 + 1 + 1 + 0.5 4 = 0.875 \frac{1+1+1+0.5}{4}=0.875 41+1+1+0.5​=0.875。

方法二


这个公式看起来有点吓人,其实就是先对预测概率进行排序,然后对正样本的序号相加,减去后面的常数项,最后除以M*N。
r a n k i n s i rank_{ins_i} rankinsi​​:代表第i条样本的序号。(概率得分从小到大排,排在第rank个位置)。
∑ \sum ∑ 代表对属于正样本的序号加和。

同样的,我们用上面的例子。

将这个例子排序。按概率排序后得到:

按照上面的公式,只把正样本的序号加起来也就是只把样本C,D的rank值加起来后减去一个常数项 M ( M + 1 ) 2 \frac{M(M+1)}{2} 2M(M+1)​,即 ( 4 + 2 ) − 2 ∗ ( 2 + 1 ) 2 2 ∗ 2 = 6 − 3 4 0.75 \frac{(4+2)-\frac{2*(2+1)}{2}}{2*2}=\frac{6-3}{4}0.75 2∗2(4+2)−22∗(2+1)​​=46−3​0.75。这个答案和我们上面所计算的是一样的。

这个时候,我们有个问题,假如出现得分一致的情况怎么办?下面举一个例子说明:

在这个例子中,我们有4个取值概率为0.5,而且既有正样本也有负样本的情况。计算的时候,其实原则就是相等得分的rank取平均值。具体来说如下:
先排序:

这里需要注意的是:相等概率得分的样本,无论正负,谁在前,谁在后无所谓。
由于只考虑正样本的rank值:
对于正样本A,其rank值为7
对于正样本B,其rank值为6
对于正样本E,其rank值为(5+4+3+2)/4
对于正样本F,其rank值为(5+4+3+2)/4
最后我们得到:

机器学习评价指标AUC计算公式相关推荐

  1. 机器学习评价指标PRF的计算(转载)

    机器学习评价指标PRF的计算 记录转载 https://zhuanlan.zhihu.com/p/147663370

  2. auc计算公式_图解机器学习的准确率、精准率、召回率、F1、ROC曲线、AUC曲线

    机器学习模型需要有量化的评估指标来评估哪些模型的效果更好. 本文将用通俗易懂的方式讲解分类问题的混淆矩阵和各种评估指标的计算公式.将要给大家介绍的评估指标有:准确率.精准率.召回率.F1.ROC曲线. ...

  3. 机器学习之AUC、AUPRC、F1等评价指标的含义

    AUC = 0.506031 AUC(area under the curve)是模型评估指标,特别是二分类模型使用的主要离线评测指标之一. 参考博客,AUC值是ROC曲线与x轴围成的面积.AUC的来 ...

  4. 机器学习评价指标ROC AUC

    https://blog.csdn.net/qq_20011607/article/details/81712811

  5. 机器学习评价指标大汇总

    转自: http://www.zhaokv.com/2016/03/ml-metric.html 在使用机器学习算法的过程中,针对不同场景需要不同的评价指标,在这里对常用的指标进行一个简单的汇总. ( ...

  6. 推荐系统遇上深度学习(九)--评价指标AUC原理及实践

    预计阅读时间15分钟. 引言 CTR问题我们有两种角度去理解,一种是分类的角度,即将点击和未点击作为两种类别.另一种是回归的角度,将点击和未点击作为回归的值.不管是分类问题还是回归问题,一般在预估的时 ...

  7. auc到多少有意义_对模型评价指标AUC的理解

    AUC是一种衡量机器学习模型分类性能的重要且非常常用的指标,其只能用于二分类的情况. AUC的本质含义反映的是对于任意一对正负例样本,模型将正样本预测为正例的可能性 大于 将负例预测为正例的可能性的 ...

  8. 对模型评价指标AUC的理解

    AUC是一种衡量机器学习模型分类性能的重要且非常常用的指标,其只能用于二分类的情况. AUC的本质含义反映的是对于任意一对正负例样本,模型将正样本预测为正例的可能性 大于 将负例预测为正例的可能性的 ...

  9. 机器学习备忘录 | AUC值的含义与计算方法

    内容导读 在机器学习领域, AUC 值经常用来评价一个二分类模型的训练效果,对于许多机器学习或者数据挖掘的从业者或在校学生来说, AUC 值的概念也经常被提起,但由于大多数时候我们都是借助一些软件包来 ...

最新文章

  1. freemarker中运算符_如何在Web应用系统表示层开发中应用Velocity模板技术
  2. 悬浮框_纯HTML实现某宝优惠券、商品列表和活动悬浮等布局(文末有源码)
  3. LintCode: Single Number II
  4. 人工智能:物体检测之Faster RCNN模型
  5. 贪心算法———房间搬桌子
  6. 资深美术分享:游戏开发如何确定画风?
  7. python检验阿姆斯特朗数_python 之九九乘法表,润年,奇偶数,阿姆斯特朗数判断分享...
  8. (转)淘淘商城系列——搜索系统搭建
  9. 想跟大家一起做件小事
  10. mysql字符集设置lampp_xampp下mariaDB数据库设置默认字符集utf8(Windows)
  11. spring 项目中设置maven镜像源
  12. 抛物线交点式公式_抛物线公式大全
  13. python pandas按照行数切分文件
  14. 2022年全球市场羊毛纱总体规模、主要生产商、主要地区、产品和应用细分研究报告
  15. JRebel进行热部署时修改的mapper.xml或者mapper的注解不生效
  16. vscode占内存太大问题
  17. 计算机三级网络技术(重点)
  18. [野狐行][内存辅助][二重门更新中][2016/6/1]
  19. 遥感原理与应用总结——第七章:遥感图像判读
  20. Kerberos简介——教你做个好人

热门文章

  1. 如何下载centos dvd版本
  2. 建立自己的3389肉鸡(基础级)
  3. 使用http://itunes.apple.com/lookup?id= 获取不到数据
  4. libvirt/qemu外置快照命令
  5. 智能中医诊疗系统php代码,中医体质辨识与调理师-平安四众 - 中医体质辨识与调理【中医体质辨识与调理师】...
  6. 特征值和特征向量在现代控制理论的简单应用
  7. 皮皮搞笑sign算法分析
  8. 推荐一本有关嵌入式系统事件驱动编程的图书
  9. 缓冲区溢出攻击与防范
  10. linux 俄文输入法,Linux配置中文输入法-Go语言中文社区