机器学习中精准率/召回率/PR曲线/AUC-ROC曲线等概念

TP/TN/FP/FN

accuracy(准确率)

precision(精确率/查准率)

recall(召回率/查全率)

F1分数与Fβ分数

PR曲线(precision recall curve)

AUC-ROC曲线

如何将AUC-ROC曲线用于多分类模型

		预测类别
		正	负
实际类别	正	真正例（TP）	假负例（FN）
实际类别	负	假正例（FP）	真负例（TN）

TP/TN/FP/FN

TP：真正例，被分类器预测为正类的正样本；
TN：真负例，被分类器预测为负类的负样本；
FP：假正例，被分类器预测为正类的负样本；
FN：假负例，被分类器预测为负类的正样本。

accuracy(准确率)

表示总样本中分类器正确分类的样本数量占比。

$accuracy=\frac{TP+TN}{TP+TN+FP+FN}$

precision(精确率/查准率)

表示预测为正的样本中分类器判断正确的样本数量占比。

$precision=\frac{TP}{TP+FP}$

recall(召回率/查全率)

表示正样本中分类器判断正确的样本数量占比。

$recall=\frac{TP}{TP+FN}$

F1分数与Fβ分数

F1分数是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率，可以看作是精确率和召回率的一种调和平均数，数值介于0-1之间。

$F_{1}=\frac{2*precision*recall}{precision+recall}$

Fβ是对F1分数的拓展，在统计学中也经常使用F2和F0.5分数。F2分数表示召回率的权重高于精确率，而F0.5分数表示精确率的权重高于召回率。

$F_{\beta }=\frac{(1+\beta ^{2})*precision*recall}{\beta ^{2}*precision+recall}$

PR曲线(precision recall curve)

纵轴：precision(精确率/查准率)；横轴：recall(召回率/查全率)。

对分类器预测正例的概率倒序排列，移动阙值使得预测正例的概率从最大到最小移动（大于阈值的认为是正例，小于阈值的认为是负例），在每个阈值处标记precision和recall，通过这种方式画出一条曲线，即PR曲线。

precision和recall是相互矛盾的一组指标，recall提高，precision就会降低。

如果有两个算法，或者一个算法用两个不同参数进行训练，那么通常曲线与x/y轴相交面积更大的模型会更好。因为面积更大的曲线，每个点的精确率和召回率都可能更好。

AUC-ROC曲线

在机器学习中，性能评估是必不可少的任务。AUC-ROC曲线是针对各种阈值设置下分类问题的性能度量。ROC(the Receiver Operating Characteristic)是概率曲线，AUC(Area Under Curve)表示可分离的程度，它告诉我们模型多大程度上能够正确区分类别。

1）ROC曲线
纵轴：真阳性率(TPR) = TP/(TP+FN) ，与recall等价，即正样本中分类器判断正确的样本数量占比；
横轴：假阳性率(FPR) = FP/(FP+TN) ，即负样本中分类器判断错误的样本数量占比。

类似于PR曲线，不同的点在于ROC曲线是用TPR和FPR来绘制的。

TPR和FPR呈现正向的相关关系，FPR提高，TPR也会提高。

2）AUC指标

AUC越高，正确分类的概率越高。出色的模型的AUC接近1，这意味着它具有良好的可分离性，较差的模型的AUC接近于0，这意味着它的可分离性程度最差。当AUC为0.5时，表示模型没有类别分离能力，与随机分类效果差不多。

如何将AUC-ROC曲线用于多分类模型

在多分类模型中，可以使用One VS All的方法绘制n个分类器的n个AUC-ROC曲线

参考资料：机器学习中的精确率召回率和PR曲线_GwentBoy的博客-CSDN博客_精确率和召回率曲线