PR曲线、ROC曲线、AUC、AP简单梳理

是不是对一堆PR曲线、ROC曲线、AUC、AP傻傻分不清楚？是不是学完就忘忘了又学？希望这篇文章能帮你梳理清楚一坨乱麻。

1、混淆矩阵

每次在重温理解AUC、PR曲线、ROC曲线的时候，第一步就是在纸上画出来这个混淆矩阵，方便后序进阶。

预测/真实	1（Postive）	0（Negative）
1 (Postive)	TP（True Postive:真阳）	FP (False Postive:假阳)
0 (Negative	FN (False Negative:假阴)	TN (True Negative:真阴)

2、ROC曲线 & AUC

真阳率:

TPR=TPTP+FN=TPPTPR=\frac{TP}{TP+FN}=\frac{TP}{P}TPR=TP+FNTP=PTP
含义：TP除以第一列，即预测为1实际为1的样本在所有真实1类别中的占比。

假阳率：

FPR=FPFP+TN=FPNFPR=\frac{FP}{FP+TN}=\frac{FP}{N}FPR=FP+TNFP=NFP
含义：FP除以第二列，即预测为1实际为0的样本在所有真实0类别中的占比。

ROC曲线：

在模型预测的时候，我们输出的预测结果是一堆[0,1]之间的数值，怎么把数值变成二分类？设置一个阈值，大于这个阈值的值分类为1，小于这个阈值的值分类为0。ROC曲线就是我们从[0,1]设置一堆阈值，每个阈值得到一个（TPR,FPR）对，纵轴为TPR，横轴为FPR，把所有的（TPR,FPR）对连起来就得到了ROC曲线。

AUC(area under the curve)：

（1）计算方法一

AUC即ROC曲线下的面积。曲线越靠近左上角，意味着TPR>FPR，模型的整体表现也就越好。所以我们可以断言，ROC曲线下的面积越大，模型效果越好。

最坏的情况是，总是有TPR=FPR，如下图，表示对于不论真实类别是1还是0的样本，分类器预测为1的概率是相等的。换句话说，分类器对于正例和负例毫无区分能力。如果AUC小于0.5，那么只要把预测类别取反，便得到了一个AUC大于0.5的分类器。

（2）计算方法二

AUC还有一种解释就是任取一对正负样本，正样本的预测值大于负样本的预测值的概率。
显然可以写出计算AUC伪代码为：
1.统计所有正样本个数P，负样本个数N；
2.遍历所有正负样本对，统计正样本预测值大于负样本预测值的样本总个数number
3.AUC=numberP∗NAUC = \frac{number }{P * N}AUC=P∗Nnumber
一些计算细节是当正负样本预测值刚好相等时，该样本记为0.5个。
PS: 在实际代码实现过程中其实可以和第一种方法一样进一步优化，可以先对正负样本排序，利用dp的思想迭代计算个数，可以将复杂度从O(N^2)降低为O(NlogN)。
具体参考：https://blog.csdn.net/weixin_43264415/article/details/99072092

3、PR曲线 & AP

Recall召回率（查全率）:

Recall=TPTP+FNRecall=\frac{TP}{TP+FN}Recall=TP+FNTP
含义：TP除以第一列，即预测为1实际为1的样本在所有真实为1类别中的占比。等价于真阳率。

Presession精准率（查准率）：

Presession=TPTP+FPPresession=\frac{TP}{TP+FP}Presession=TP+FPTP
含义：FP除以第一行，即预测为1实际为1的样本在所有预测为1类别中的占比。

PR曲线：

同理ROC曲线。在模型预测的时候，我们输出的预测结果是一堆[0,1]之间的数值，怎么把数值变成二分类？设置一个阈值，大于这个阈值的值分类为1，小于这个阈值的值分类为0。ROC曲线就是我们从[0,1]设置一堆阈值，每个阈值得到一个（Presession，Recall）对，纵轴为Presession，横轴为Recall，把所有的（Presession，Recall）对对连起来就得到了PR曲线。

AP（PR曲线下的面积）：

跟TPR和FPR不一样的是，在PR关系中，是一个此消彼长的关系，但往往我们希望二者都是越高越好，所以PR曲线是右上凸效果越好（也有例外，有比如在风险场景当预测为1实际为0时需要赔付时，大致会要求Recall接近100%，可以损失Precision）。所以除了特殊情况，通常情况都会使用Precision-recall曲线，来寻找分类器在Precision与Recall之间的权衡。

AP就是Precision-recall 曲线下面的面积，通常来说一个越好的分类器，AP值越高。
mAP是多个类别AP的平均值。这个mean的意思是对每个类的AP再求平均，得到的就是mAP的值，mAP的大小一定在[0,1]区间，越大越好。该指标是目标检测算法中最重要的一个。

4、ROC曲线、PR曲线优缺点

ROC曲线：

（1）优点

A.兼顾正例和负例的权衡。因为TPR聚焦于正例，FPR聚焦于与负例，使其成为一个比较均衡的评估方法。适用于评估分类器的整体性能。
B.ROC曲线的两个指标， TPR的分母是所有正例，FPR的分母是所有负例，故都不依赖于具体的类别分布。

（2）缺点

在类别不平衡的背景下，当负例N的数量远超正例P时，FP的大幅增长只能换来FPR的增长不明显，导致ROC曲线呈现一个过分乐观的效果估计。
如果主要关心正例的预测准确性的话，这就不太可接受了。

PR曲线：

（1）优点

PR曲线的两个指标都聚焦于正例。类别不平衡问题中由于主要关心正例，所以在此情况下PR曲线被广泛认为优于ROC曲线。

（2）缺点

只关注正例，不关注负例

ROC&PR曲线使用场景

（1）如果想兼顾正例与负例，则选用ROC曲线；如果在类别不平衡中，或者更看重正例的场景中比如推荐信息检索，则选用PR曲线
（2）如果有多份数据且存在不同的类别分布，比如信用卡欺诈问题中每个月正例和负例的比例可能都不相同，这时候如果只想单纯地比较分类器的性能且剔除类别分布改变的影响，则ROC曲线比较适合，因为类别分布改变可能使得PR曲线发生变化时好时坏，这种时候难以进行模型比较；反之，如果想测试不同类别分布下对分类器的性能的影响，则PR曲线比较适合。

【Reference】

周志华西瓜书
https://www.zhihu.com/question/39840928/answer/241440370
https://zhuanlan.zhihu.com/p/34655990
https://blog.csdn.net/weixin_43264415/article/details/99072092