准确率、精度和召回率

原文链接

精度（查准率）和召回率（查全率）是衡量机器学习模型性能的重要指标，特别是数据集分布不平衡的案例中。

什么是分布不平衡的数据集？

倘若某人声称创建一个能够识别登上飞机的恐怖分子的模型，并且准确率（accuracy）高达 99%。你相信吗？好了，有这么一个模型：将美国机场起飞的所有乘客简单地标注为非恐怖分子。已知美国全年平均有 8 亿人次乘客，并且在 2000-2017 年间共发现了 19 名恐怖分子，这个模型达到了接近完美的准确率——99.9999999%。尽管这个模型拥有接近完美的准确率，但是在这个问题中准确率显然不是一个合适的度量指标。

恐怖分子检测是一个不平衡的分类问题：需要鉴别的类别有两个——恐怖分子和非恐怖分子，其中一个类别代表了极大多数的数据点。

另一个不平衡分类问题出现在当疾病在公众中的发病率很低时的疾病监测。在这两种情况下，正例类别——疾病或恐怖分子，远远少于负例类别的数量。这种问题是数据科学中常见的例子，准确率并不是这类模型性能很好的衡量标准。

直观地说，我们应该聚焦于正例（恐怖分子）的识别。

一、召回率

我们应最大化的是统计学上称为召回率或查全率（recall）的衡量指标，或者是最大化模型找到数据集中所有相关案例的能力。

召回率=真正例 /（真正例+假反例）。也就是正确判为恐怖分子占实际所有恐怖分子的比例。

这个等式中的一些细节：如果我们将所有的个体都预测为恐怖分子，那么模型的召回率就是 1.0！因为预测所有人都是恐怖分子，自然包括了恐怖分子。分子terrorists correctly identified = 全部恐怖分子数，分母terrorists incorrectly labeled as not terrorists = 0。

这个模型依旧不行，我们想要最大化的指标之间存在一个权衡。在召回率的例子中，当召回率增大时，精度会减小。

二、精度

精度=真正例/（真正例+假正例），就是所有判为恐怖分子中，真正的恐怖分子的比例。

随着精度增加，召回率会降低，反之亦然。

三、精度—召回率权衡

1.结合精度和召回率

某些情况中，也许需要以牺牲另一个指标为代价来最大化精度或者召回率。
例如，在对患者进行随访检查的初步疾病筛查中，我们可能希望得到接近于 1 的召回率：想找到所有实际患病的患者。
然而，如果想要找到精度和召回率的最佳组合，可以使用 F1 score 来对两者进行结合。

2.可视化精度和召回率

（1）混淆矩阵（confusion matrix）：给定一个模型的预测标签时，它可以被用来快速计算精度和召回率。

二分类混淆矩阵包含四个不同的结果：真正例（TP）、假正例（FP）、真反例（TN），假反例（FN）。
例如，如果将一个数据点预测为正例，但是它实际上是反例，那么这就是一个假正例。

（2）受试者特征曲线（ROC 曲线，Receiver Operating Characteristic curve）：

ROC 曲线展示当改变在模型中识别为正例的阈值时，召回率和精度的关系会如何变化。

如果有一个用来识别疾病的模型，模型可能会为每一种疾病输出介于 0 到 1 之间的一个分数，为了将某个病人标记为患有某种疾病（一个正例标签），我们为每种疾病在这个范围内设置一个阈值，通过改变这个阈值，可以尝试实现合适的精度和召回率之间的平衡。ROC 曲线在 Y 轴上画出了真正例率（TPR），在 X 轴上画出了假正例率 (FPR)。TPR 是召回率，FPR 是反例被报告为正例的概率。这两者都可以通过混淆矩阵计算得到。

对于二分类问题：

真正例（TP）：实际上是正例的数据点被标记为正例
假正例（FP）：实际上是反例的数据点被标记为正例
真反例（TN）：实际上是反例的数据点被标记为反例
假反例（FN）：实际上是正例的数据点被标记为反例

召回率和精度衡量指标：

召回率（R）：分类模型识别所有相关实例的能力
精度（P）：分类模型仅仅返回相关实例的能力
F1 score：使用调和平均结合召回率和精度的指标