准确率(Accuracy)，精确率/查准率(Precision)，召回率/查全率(Recall)和F1-Measure

机器学习(ML), 自然语言处理(NLP), 信息检索(IR)等领域, 评估(Evaluation)是一个必要的工作, 而其评价指标往往有如下几点: 准确率(Accuracy), 精确率(Precision), 召回率(Recall) 和 F1-Measure.(注：相对来说，IR 的 ground truth 很多时候是一个 Ordered List, 而不是一个 Bool 类型的 Unordered Collection，在都找到的情况下，排在第三名还是第四名损失并不是很大，而排在第一名和第一百名，虽然都是“找到了”，但是意义是不一样的，因此更多可能适用于 MAP 之类评估指标.)

本文将简单介绍其中几个概念. 中文中这几个评价指标翻译各有不同, 所以一般情况下推荐使用英文.

现在我先假定一个具体场景作为例子.

首先我们可以计算准确率(accuracy), 其定义是: 对于给定的测试数据集，分类器正确分类的样本数与总样本数之比. 也就是损失函数是0-1损失时测试数据集上的准确率.

这样说听起来有点抽象，简单说就是，前面的场景中，实际情况是那个班级有男的和女的两类，某人(也就是定义中所说的分类器)他又把班级中的人分为男女两类. accuracy 需要得到的是此君分正确的人占总人数的比例. 很容易，我们可以得到:他把其中70(20女+50男)人判定正确了, 而总人数是100人，所以它的 accuracy 就是70 %(70 / 100).

由准确率，我们的确可以在一些场合，从某种意义上得到一个分类器是否有效，但它并不总是能有效的评价一个分类器的工作. 举个例子, google 抓取了 argcv 100个页面，而它索引中共有10,000,000个页面, 随机抽一个页面，分类下, 这是不是 argcv 的页面呢?如果以 accuracy 来判断我的工作，那我会把所有的页面都判断为"不是 argcv 的页面", 因为我这样效率非常高(return false, 一句话), 而 accuracy 已经到了99.999%(9,999,900/10,000,000), 完爆其它很多分类器辛辛苦苦算的值, 而我这个算法显然不是需求期待的, 那怎么解决呢?这就是 precision, recall 和 f1-measure 出场的时间了.

再说 precision, recall 和 f1-measure 之前, 我们需要先需要定义 TP, FN, FP, TN 四种分类情况.

按照前面例子, 我们需要从一个班级中的人中寻找所有女生, 如果把这个任务当成一个分类器的话, 那么女生就是我们需要的, 而男生不是, 所以我们称女生为"正类", 而男生为"负类".

可以很容易看出, 所谓 TRUE/FALSE 表示从结果是否分对了, Positive/Negative 表示我们认为的是"是"还是"不是".

通过这张表, 我们可以很容易得到这几个值:

TP=20
FP=30
FN=0
TN=50

精确率/查准率(precision)的公式是P =TP/(TP+FP) 即 TP / 自选P，这里自选P 是自选出来的50个认为是“女生” -- 亦即 TP+FP , 它计算的是所有"正确被检索的结果(TP)"占所有"实际被检索到的(TP+FP)"的比例.

在例子中就是希望知道此君得到的所有人中, 正确的人(也就是女生)占有的比例. 所以其 precision 也就是40%(20女生/(20女生+30误判为女生的男生)).

召回率/查全率(recall)的公式是R = TP/(TP+FN) 即 TP / 实际P，这里实际P就是实际上女生的个数， -- 亦即 TP + FN, 它计算的是所有"正确被检索的结果(TP)"占所有"应该检索到的结果(TP+FN)"的比例.

在例子中就是希望知道此君得到的女生占本班中所有女生的比例, 所以其 recall 也就是100%(20女生/(20女生+ 0 误判为男生的女生))

对调和平均直观上的例子

在一个小公园的长椅上坐着看天，徒弟来电话询问一个题目，“轮胎问题”：自行车的前轮胎和后轮胎是相同的，可以交换。但是同样的轮胎在前轮和后轮上使用的时间是不同的。上在前轮上可以行驶500千米，上在后轮上只能行驶300千米。因此，适当的时候交换前轮胎和后轮胎可以让前轮胎和后轮胎同时报废。问题是，行驶多少千米交换合适？这样一对轮胎最多能同时行驶多少千米？

我告诉让他这是个相遇问题、分数工程问题，可能很隐晦，不容易看出来。下面作出详细的解释。

我们先看几个容易解决的同构问题：

一艘轮船从A码头顺流而下到C码头然后原路返回，顺流而下去时速度30千米/时，逆流而上返回20千米/时。求往返平均速度。容易错成（30＋20）÷2＝25（千米/时），因为往返使用的时间是不同的。事实上结果应该是30和20的调和平均数。2/（1/20＋1/30）＝2×20×30/（20＋30）＝24（千米/时）。可以这样解释算是的算理：去时每千米耗时1/30小时，返回时每千米耗时1/20小时，因此在每1千米的路上，往返一次共行驶2千米，耗时（1/20＋1/30）小时，也就是每小时行驶2/（1/20＋1/30）千米。也可以根据2×20×30/（20＋30）的提示这样解释，假设AC之间的航程是20×30千米，往返一次的总路程和总时间分别为2×20×30千米和（20＋30）千米。

现在我将这个问题稍稍复杂化一点：问题是，在这条航道上是否存在一点B，顺流而下到B和逆流而上到B用的时间相同？答案是肯定的，也是显然的。我们可以假设，顺流而下的船出发，同时有一艘同样的船逆流而上，两船相遇的地点就是所求的B点。而且这个点很容易确定，AB：BC＝3：2。这个点B有这样的特点：从A顺流而下到B所用的时间与从C逆流而上到B所用的时间相等。

我们再看一个更容易理解的问题。

A、C夫妇二人在不同的公司上班，因为乘车次数不同，同样价值的公交乘车卡，A可以用40天，C可以用60天，他们为了同时给公交卡充值，需要在某一天交换公交卡，使得同时用光公交卡中的钱，他们的公交卡最多能同时用多少天？他们应该在几天后交换乘车卡？

显然，他们的公交卡最多能同时使用的天数就是40和60的调和平均数。2×40×60/（40＋60）＝48（天）。算式很容易理解：假设两个公交卡中共有2×40×60日元，A每天需要花60日元，C每天需要花40日元。显然，48÷2＝24天后就应该交换公交卡。这个结果恰好是1÷（1/40＋1/60）＝24（天）。这也不难理解：A每天用去公交卡的1/40，C每天用去公交卡的1/60，当两人一共用掉1张公交卡的时候，就应该交换公交卡。

现在我们再看看“轮胎问题”进行一个巧妙的假设。我们假设骑自行车的目的就是磨轮胎。让这个自行车变成两辆独轮车——前轮A和后轮C，一条轮胎让A磨每千米磨损1/500，让C磨每千米磨损1/300。A和C同时合作磨轮胎，当刚好磨损掉一条轮胎的时候就应该交换前后轮。此时都行驶了1÷（1/300＋1/500）＝187.5（千米）。交换后还可以行驶187.5千米，一共行驶了375千米。

References

[1] 李航. 统计学习方法[M]. 北京:清华大学出版社,2012.
[2] 准确率（Precision）、召回率（Recall）以及综合评价指标（F1-Measure ）注意, 此篇引用一般化似有问题
[3] F-Measure in Wikipedia
[4] https://www.zhihu.com/question/23096098

from : https://blog.argcv.com/articles/1036.c