返回主目录

返回决策树目录

上一章：机器篇——决策树(四)

下一章：机器篇——决策树(六)

本小节，细说评估指标的相关曲线(ROC、KS、PR)，下一小节开始细说评估指标的交叉验证。

三. 评估指标

1. 混淆矩阵

混淆矩阵(confusion matrix) 也称为误差矩阵，是表示精度评价的一种标准格式，用 $n$ 行 $n$ 列的矩阵形式来表示。可以理解为就是一张表格而已。

下面以终端营销为例：

营销命中率 = $\tfrac{1500}{2000} = 75\%$

营销误判率 = $\tfrac{1000}{8000} = 12.5\%$

营销成功率 = $\tfrac{1500}{2500} = 60\%$

2. ROC 曲线

(1). 定义

ROC 曲线(Receiver Operating Characteristic Curve, ROC) 又称接收者操作特征曲线，是描述分类预测模型命中率和误判率之间的一种图形化方法。

(2). 该曲线绘制了两个参数

①. 真正例率： $TPR$

$TPR = \tfrac{TP}{TP + FN}$

真正例率 $TPR$ 是召回率 $Recall$ 的同义词，即： $Recall = TPR$

②. 假正例率： $FPR$

$FPR = \tfrac{FP}{FP + TN}$

$TP$ : 命中(True Positive, TP)

$FN$ : 漏判(False Negative, FN)

$FP$ : 误判(False Positive, FP)

$TN$ : 真负例(True Negative, TN)

精确率 $Precision = \tfrac{TP}{TP + FP}$

$ACC = \tfrac{TP + TN}{TP + FN + FP + TN}$

(3). ROC 曲线思路

根据学习器的预测结果对样本例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值(TPR、FPR)，分别以它们为横、纵坐标轴作图。

(4). ROC 曲线示图

(5). 绘制 ROC 曲线

可以设定阈值大于 0.5 为正样本，否则为负样本。

设置不同的阈值，可以得到不同的 ROC 曲线。

具体流程如下：

①. 假设为正类定义了连续值输出，对检验记录按它们的输出值递增排序。

②. 把检验样本都作为正类进行预测。这相当于所有的正检验样本都被正确分类，而所有的负检验样本都被误分。因此， $TPR = FPR = 1$ $(FN = TN= 0)$

③. 从排序列表中选择下一个检验记录，把选择的记录以及那些秩高于它记录的指派为正类，而把那些秩低于它记录的指派为负类。通过考察前面选择的记录的实际类标号来更新 $TP$ 和 $FP$ 计数。如果前面选择的记录为正类，则 $TP$ 计数减少而 $FP$ 计数不变。如果前面选择的记录为负类，则 $FP$ 计数减少而 $TP$ 计数不变。

④. 重复步骤 ③，并相应地更新 $TP$ 和 $FP$ 计数，直到最高秩的计算被选择。

⑤. 根据分类器的 $FPR$ 画出 $TPR$ 曲线

(6). ROC 曲线的主要作用

①. ROC 曲线能方便地查出给定命中率或误判率的任意约束区间时，预测模型对目标的识别能力。

②. 常用来比较两种以上不同预测模型的精准营销能力。靠近左边上角的 ROC 曲线所代表的预测模型更加精准。亦可通过计算 ROC 曲线下的面积 AUC 进行比较，AUC 越大，则预测模型越精准。

③. ROC 曲线对实际营销策略的意义

首先，选择 ROC 曲线最佳的预测模型(最佳算法)

其次，在最佳 ROC 曲线中选择最佳的点(最佳参数)

(7). AUC 的概念与示例

ROC 曲线下方的面积 AUC (Area Under The ROC Curve, AUC) 提供了评价模型平均性能的一种方法。如果模型是完美的，则它的 AUC = 1；如果模型是简单的随机猜测模型，那么它的 AUC = 0.5。如果一个模型好于另一个，则它的 ROC 曲线下方是的面积 AUC 会相对较大

(8). AUC 值作为评价标准

①. AUC 被定义为 ROC 曲线下的面积，取值范围一般在 0.5~1.0 之间。使用 AUC 值作为评估标准是因为很多时候 ROC曲线并不能很清晰地说明哪个分类器效果更好，而作为一个数值，对应 AUC 更大的分类器效果更好。(AUC 为一个概率值)

②. AUC 的计算法

a. 非参数法

(a). 梯形法则

早期由于测试样本有限，得到的 AUC 曲线呈阶梯状。曲线上的每点向 x 轴做垂线，得到若干梯形，这些梯形面积之和也就是 AUC

(b). Mean-Whitney 统计量：

统计正负样本对中，有多少个组中的正样本概率大于负样本概率。这种估计随着样本规模的扩大而逐渐逼近真实值。

b. 参数法：

主要适用于二项分布的数据，即正反样本分布符合正态分布，可以通过均值和方差来计算。

③. 从 AUC 判断分类器(预测模型)优劣的标准

a. AUC = 1.0，是完美分类器，采用这个预测模型时，存在至少一个阈值能得出完美预测。绝大多数预测的场合不存在完美分类器。

b. 0.5 < AUC < 1.0，优于随机猜测。这个分类器(模型)妥善设定阈值的话，能有预测价值。

c. AUC = 0.5，跟随机猜测一样(例：抛硬币)，模型没有预测价值。

d. AUC < 0.5，比随机猜测还差；但只要反预测而行，就优于随机猜测。

(9). 可以通过 KS 曲线得到 ROC 曲线的最好阈值

①. KS (Kolmogorov-Smirnov, KS) 值越大，表示模型能够将正、负例率分开的程度越大。KS值的取值范围为 [0, 1]

②. KS 曲线的纵轴表示 $TPR$ 和 $FPR$ 的值，就你是这两个值可以同时在一个纵轴上体现。横轴就是阈值，然后在两条曲线分割最开的地方，对应的就是最好的阈值，也是该模型最好的 AUC 值。

图示：一条曲线是 $TPR$ ，一条是 $FPR$

(10). PR 曲线(Precision-Recall, PR)

①.介绍

PR 曲线和 ROC 曲线类似，ROC 曲线是 $FPR$ 和 $TPR$ 的点连成的线，PR 曲线是准确率(查准率) Precision 和召回率(查全率) Recall 的点连成的线。

②. PR 曲线示图

③. 如果一个学习器的 PR 曲线被另一个学习器的 PR 曲线完全包住，则可断言后者的性能优于前者，例如上图的 B 和 C 优于学习器 A，但是 B 和 C 的性能无法直接判断，但往往仍希望把学习器 B 和 C 进行比较，此时可以根据曲线下方的面积大小来进行比较，但更常用的是平衡点或者 $F_1$ 值。平衡点(BEP)是 查准率 = 查全率 时的取值。如果这个值较大，则说明学习器的性能较好。而 $F_{1} = \tfrac{2 \times P \times R}{P + R}$ ，同样， $F_1$ 值越大，可以认为该学习器的性能越好。

④. ROC 曲线和 PR 曲线的取舍

相对来讲，ROC 曲线会稳定很多，在正负样本量都足够的情况下，ROC 曲线足够反映模型的判断能力。因此对于同一模型，PR 和 ROC 曲线都可以说明一定的问题，而二者有一定的相关性，如果想评测模型效果，也可以把两条曲线都画出来综合评估。对于有监督的二分类问题，在正负样本都足够的情况下，可以直接用 ROC 曲线、AUC、KS 评估模型效果。在确定阈值过程中，可以根据 Precision、Recall 或 $F_1$ 来评价模型的分类效果。对于多分类问题，可以对每一类分类计算 Precision、Recall 和 $F_1$ ，综合作为模型评价指标。