auc 和loss_深入理解AUC
在机器学习的评估指标中,AUC是一个最常见也是最常用的指标之一。
AUC本身的定义是基于几何的,但是其意义十分重要,应用十分广泛。
本文作者深入理解AUC,并总结于下。
AUC是什么
在统计和机器学习中,常常用AUC来评估二分类模型的性能。AUC的全称是 area under the curve,即曲线下的面积。
通常这里的曲线指的是受试者操作曲线(Receiver operating characteristic, ROC)。
相比于准确率、召回率、F1值等依赖于判决阈值的评估指标,AUC则没有这个问题。
ROC曲线早在第二次世界大战期间就被使用在电子工程和雷达工程当中,被用于军事目标检测。
后来,ROC曲线也被应用到心理学、医学、机器学习和数据挖掘等领域的模型性能评估。
对于二分类问题,预测模型会对每一个样本预测一个得分s或者一个概率p。
然后,可以选取一个阈值t,让得分s>t的样本预测为正,而得分s
这样一来,根据预测的结果和实际的标签可以把样本分为4类:
正样本
负样本
预测为正
TP(真正例)
FP(假正例)
预测为负
FN(假负例)
TN(真负例)
随着阈值t选取的不同,这四类样本的比例各不相同。定义真正例率TPR和假正例率FPR为:
对于真正例率TPR,分子是得分>t里面正样本的数目,分母是总的正样本数目。
而对于假正例率FPR,分子是得分>t里面负样本的数目,分母是总的负样本数目。
因此,如果定义分别为得分大于t的样本中正负样本数目,为总的正负样本数目,
那么TPR和FPR可以表达为阈值t的函数
随着阈值t的变化,TPR和FPR在坐标图上形成一条曲线,这条曲线就是ROC曲线。
显然,如果模型是随机的,模型得分对正负样本没有区分性,那么得分大于t的样本中,正负样本比例和总体的正负样本比例应该基本一致。
也就是说
结合上面的式子可知TPR和FPR相等,对应的ROC曲线是一条直线!
反之,如果模型的区分性非常理想,也就是说正负样本的得分可以完全分开,所有的正样本都比负样本得分高,此时ROC曲线表现为「 字形。
因为正例得分都比负例搞,所以要么TPR=0要么FPR=0!
实际的模型的ROC曲线则是一条上凸的曲线,介于随机和理想的ROC曲线之间。而ROC曲线下的面积,即为AUC!
这里的x和y分别对应TPR和FPR,也是ROC曲线的横纵坐标。
AUC的概率解释
概率解释的证明
AUC常常被用来作为模型排序好坏的指标,原因在于AUC可以看做随机从正负样本中选取一对正负样本,其中正样本的得分大于负样本的概率!
这个结论很容易证明,考虑随机取得这对正负样本中,负样本得分在之间的概率为
如果很小,那么该正样本得分大于该负样本的概率为
所以,
注意积分区间,对应ROC图像最右上角的点,而对应ROC图像最左下角的点。所以,计算面积是。
可以看出,积分项里面实际上是这样一个事件的概率:随机取一对正负样本,负样本得分为t且正样本大于t!
因此,对这个概率微元积分就可以到正样本得分大于负样本的概率!
AUC的排序特性
根据上述概率解释,AUC实际上在说一个模型把正样本排在负样本前面的概率!
所以,AUC常用在排序场景的模型评估,比如搜索和推荐等场景!
这个解释还表明,如果将所有的样本的得分都加上一个额外的常数,并不改变这个概率,因此AUC不变!
因此,在广告等需要绝对的点击率场景下,AUC并不适合作为评估指标,而是用logloss等指标。
AUC对正负样本比例不敏感
利用概率解释,还可以得到AUC另外一个性质,对正负样本比例不敏感。
在训练模型的时候,如果正负比例差异比较大,例如正负比例为1:1000,训练模型的时候通常要对负样本进行下采样。当一个模型训练完了之后,用负样本下采样后的测试集计算出来的AUC和未采样的测试集计算的AUC基本一致,或者说前者是后者的无偏估计!
如果采样是随机的,对于给定的正样本,假定得分为,那么得分小于的负样本比例不会因为采样而改变!
例如,假设采样前负样本里面得分小于的样本占比为70%,如果采样是均匀的,即的负样本和的负样本留下的概率是相同的,那么显然采样后这个比例仍然是70%!
这表明,该正样本得分大于选取的负样本的概率不会因为采样而改变,也就是是不变的,因此,AUC也不变!
相比于其他评估指标,例如准确率、召回率和F1值,负样本下采样相当于只将一部分真实的负例排除掉了,然而模型并不能准确地识别出这些负例,所以用下采样后的样本来评估会高估准确率;因为采样只对负样本采样,正样本都在,所以采样对召回率并没什么影响。这两者结合起来,最终导致高估F1值!
AUC的计算
AUC可以直接根据ROC曲线,利用梯形积分进行计算。此外,还有一个比较有意思的是,可以
利用AUC与Wilcoxon-Mann-Whitney测试的U统计量的关系,来计算AUC。这可以从AUC的概率意义推导而来。
假设我们将测试集的正负样本按照模型预测得分 从小到大 排序,对于第个正样本,假设它的排序为 ,
那么说明排在这个正样本前面的总样本有 个,其中正样本有 个(因为这个正样本在所有的正样本里面排第j),
所以排在第j个正样本前面(得分比它小)的负样本个数为 个。也就是说,对于第j个正样本来说,其得分比随机取的一个负样本大(排序比它靠后)的概率是 ,其中是总的负样本数目。所以,平均下来,随机取的正样本得分比负样本大的概率为
所以
因此,很容易写出计算AUC的SQL代码
select
(ry - 0.5*n1*(n1+1))/n0/n1 as auc
from(
select
sum(if(y=0, 1, 0)) as n0,
sum(if(y=1, 1, 0)) as n1,
sum(if(y=1, r, 0)) as ry
from(
select y, row_number() over(order by score asc) as r
from(
select y, score
from some.table
)A
)B
)C
AUC的优化
采用极大似然估计对应的损失函数是logloss,因此极大似然估计的优化目标并不是AUC。
在一些排序场景下,AUC比logloss更贴近目标,因此直接优化AUC可以达到比极大似然估计更好的效果。
实际上,pairwise的目标函数就可以看做一种对AUC的近似。因为损失函数都是作用与正负样本得分差之上!
例如,
rank-SVM
rank-net
指数损失
TOP 损失
显然,这些损失函数都是对的正负样本对进行惩罚!
此外,也有一些其它对AUC近似度更好的损失函数,例如
分别表示正例和负例的得分。
这解释了为什么某些问题中,利用排序损失函数比logloss效果更好,因为在这些问题中排序比概率更重要!
AUC要到多少才算好的模型
AUC越大表示模型区分正例和负例的能力越强,那么AUC要达到多少才表示模型拟合的比较好呢?在实际建模中发现,预测点击的模型比预测下单的模型AUC要低很多,在月活用户里面预测下单和日活用户里面预测下单的AUC差异也很明显,预测用户未来1小时下单和预测未来1天的下单模型AUC差异也很大。这表明,AUC非常依赖于具体任务。
以预测点击和预测下单为例,下单通常决策成本比点击高很多,这使得点击行为比下单显得更加随意,也更加难以预测,所以导致点击率模型的AUC通常比下单率模型低很多。
那么月活用户和日活用户那个更容易区分下单与不下单用户呢?显然月活用户要容易一些,因为里面包含很多最近不活跃的用户,所以前者的AUC通常要高一些。
对于预测1小时和预测1天的模型,哪一个更加困难?因为时间越长,用户可能发生的意料之外的事情越多,也越难预测。举个极端的例子,预测用户下一秒中内会干啥,直接预测他会做正在干的事情即可,这个模型的准确率就会很高,但是预测长期会干啥就很困难了。所以对于这两个模型,后者更加困难,所以AUC也越低。
auc 和loss_深入理解AUC相关推荐
- auc 和loss_如何理解机器学习和统计中的AUC?
看到前面答主的答案,我表示很激动的想来一个简化的版本. 曾经面试的时候被问到过这么一个问题,怎么向一个没有任何计算机.数学.统计等基础的人介绍下什么是AUC,当时我败北了.不过后来我有一天顿悟了,为了 ...
- auc 和loss_为什么是AUC值而不是GSEA来挑选转录因子呢
前面我们通过RcisTarget包的 cisTarget()函数,一句代码就完成了我们的hypoxiaGeneSet.txt文本文件的171个基因的转录因子注释.见:基因集的转录因子富集分析 通过学习 ...
- 如何直观理解AUC评价指标?
导语 最近一直在思考如何直观理解AUC,查了维基百科的以及网上的讲解描述,感觉仍然很难把这个概念表述得通俗易懂,直到昨天周会后拿笔在纸上画了画,感觉似乎找到了一种比较有意思的理解方法,下面就请各位看官 ...
- AUC含义的通俗理解
AUC含义的通俗理解 假设有一个分类器,并且该分类器可以得到将一个样本预测为正的概率,并将此概率称为这个样本的得分. 首先说一下AUC的含义:随机给定一个正样本和一个负样本,用一个分类器进行分类和预测 ...
- auc 损失_如何理解机器学习和统计中的AUC?
一只蚂蚁:到底如何理解AUC?zhuanlan.zhihu.com AUC相关概念及作用定义 AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会 ...
- auc 和loss_精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?
模型评估有时候要用precision和recall,有时候用AUC,不存在优缺点问题,只存在适用性问题. 模型评估为啥不用precision和recall?因为它支持不了我的决策啊.. 同样的问题,根 ...
- 深刻理解AUC指标与ROC曲线的关系
一定要理解ROC曲线和AUC指标两者之间的关系: 图中的曲线和直线的含义搞清楚: ROC 曲线:图中无论是曲线还是直线,曲线或直线每一个点都代表一个阈值,遍历所有的阈值,就得到了ROC曲线.曲线距离左 ...
- auc指标含义的理解
机器学习实践中分类器常用的评价指标就是auc,不想搞懂,简单用的话,记住一句话就行 auc取值范围[0.5,1],越大表示越好,小于0.5的把结果取反就行. 想搞懂的,看An introduction ...
- auc到多少有意义_理解AUC
本文主要讨论了auc的实际意义,并给出了auc的常规计算方法及其证明 1 ROC曲线和auc 从二分类说起,假设我们的样本全集里,所有样本的真实标签(label)为0或1,其中1表示正样本,0表示负样 ...
最新文章
- 获取子页面iframe的点击事件及iframe跨域的交互
- “现金贷”产品的获客之道,这一篇就够了!
- python response.read_AttributeError:“Response”对象没有“read”属性
- AIProCon在线大会笔记之Google李双峰:TensorFlow的最新进展
- BZOJ2938: [Poi2000]病毒(AC自动机)
- 使用GitHub构建个人博客网站
- Java开发中更多常见的危险信号
- sougou ubuntu 优麒麟_搜狗输入法 Linux – V2.3 版发布,完美适配优麒麟 19.10
- OS X 平台的 8 个终端实用工具
- 104.202.60.2/.index.php,web扫描
- 中国 App 出海“变形记”
- timestamp和recycle同时开启,导致连接成功率降低
- ASCⅡ码与字符的相互转化
- 电脑重启只剩下c盘怎么办_我的电脑正在正常运行突然自动重启了,重启后发现系统只剩下C盘了,请教怎么恢复?...
- C++静态代码分析工具横向对比
- DEV C++ 关于自动缺省源设置问题
- 【Java:JDBC+MySQL实现学生信息管理系统】
- 【前端全家桶】 HTTP协议类
- Linux:系统进程---->查看命令【ps:静态查看进程】【top:动态查看进程】
- Windows系统自带的DOS窗口