[机器学习]机器学习常用的模型评估方法

混淆矩阵

正确率

精确率

召回率

灵敏度

伪阳性率

特异度

P-R曲线：

F1-值

ROC曲线

AUC面积

均方误差

均方根误差

平均绝对误差

混淆矩阵

实际值\预测值		预测值
实际值\预测值		Positive	Negative
实际值	Positive	TP	FN
实际值	Negative	FP	TN

TP：真阳性，即实际为阳性，预测为阳性

FP：假阳性，即实际为阴性，预测为阳性

FN：假阴性，即实际为阳性，预测为阴性

TN：真阴性，即实际为阴性，预测为阴性

在信息检索领域，精确率和召回率又被称为查准率和查全率：

查准率＝检索出的相关信息量/检索出的信息总量
查全率＝检索出的相关信息量/系统中的相关信息总量

正确率

正确率（Accuracy）又叫准确率，反映一个模型能够预测正确的程度。当数据十分不平衡的时候，将会把所有结果预测为某一类，如样本阳性：阴性为100000:1时，可能预测为阳性的概率非常高。

精确率

精准率（precision）又叫查准率、精准率、精度：是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本。

召回率

召回率（Recall）又叫查全率：是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。

灵敏度

灵敏度（Sensitivity）真阳性率、命中率 (hit rate)：预测为阳性中占实际为阳性比重，和召回率同一个计算方式。值越高，说明漏掉阳性的比例越低，但是有可能出现假阳性。

伪阳性率

伪阳性率(FPR, false positive rate) 又称错误命中率，假警报率 (false alarm rate)，即假阳性站实际阴性的比重。

特异度

特异度（Specificity）也称真阴性率：预测为阴性中占实际为阴性比重。值越高，说明漏掉阴性的比例越低，但是有可能出现假阴性。

P-R曲线：

即精确率-召回率曲线。横坐标为召回率Recall，纵坐标为精准率Precision。

P-R曲线反映查准率和查全率之间的关系，查准率和查全率是一对矛盾的度量，一般来说，查准率高时，查全率往往偏低，查全率高时，查准率往往偏低。

当用该指标衡量模型好坏时，在多个P-R曲线比较中，在该图中有两个指标值能说明该指标的差异：

（1）一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住，则可断言后者的性能优于前者

（2）查准率=查全率时的取值，如果这个值较大，则说明学习器的性能较好

F1-值

F1-值（F1-Measure）也称F1-Sore，是精准率和召回率的调和平均数。用于衡量模型的健壮性，实际中如果对业务不是太熟悉，一般把取该值的最大值作为模型的最好状态。

ROC曲线

接收者操作特征曲线(receiver operating characteristic curve)，是反映敏感性和伪阳性率连续变量的综合指标，将伪阳性率(FPR)定义为 X 轴，真阳性率(TPR)定义为 Y 轴。

从 (0, 0) 到 (1,1) 的对角线将ROC空间划分为左上/右下两个区域，在这条线的以上的点代表了一个好的分类结果(胜过随机分类)，而在这条线以下的点代表了差的分类结果(劣于随机分类)。

完美的预测是在左上角的点，在ROC空间座标 (0,1)点，X=0 代表着没有伪阳性，Y=1 代表着没有伪阴性(所有的阳性都是真阳性)；也就是说，不管分类器输出结果是阳性或阴性，都是100%正确。

AUC面积

AUC（Area under curve）即ROC曲线下的面积，是一个模型评价的指标，只能用于二分类模型的评价。 ROC曲线的横轴是FPR，纵轴是TPR，当二者相等时，即y=x，表示的意义是：对于不论真实类别是阳性还是阴性的样本，分类器预测为阳性的概率是相等的，实际上该模型没有任何意义。实际训练模型中应该使TPR尽量大，FPR尽量小，即取AUC的极大值。

均方误差

均方误差（MSE）又称为二次损失，L2损失（Mean Square Error, Quadratic Loss, L2 Loss），是最常用的回归损失函数，用于衡量回归模型，值越小，证明模型越好。损失函数是衡量预测模型预测期望结果表现的指标。寻找函数最小值。

均方根误差

均方根误差即RMSE（Root Mean Square Error），均方误差（MSE）的平方根。

平均绝对误差

平均绝对误差又称为L1损失（Mean Absolute Error, L1 Loss），平均绝对误差（MAE）是另一种用于回归模型的损失函数。MAE是目标变量和预测变量之间差异绝对值之和。因此，它在一组预测中衡量误差的平均大小，而不考虑误差的方向。

MSE与MAE差异：MSE越大，如果数据有某些点离数据中心很远，MSE增长得就很快。直观来说，对观测数据，如果我们只给一个预测结果来最小化MSE，那么该预测值是所有目标值的均值。但是如果我们试图最小化MAE，那么这个预测就是所有目标值的中位数。中位数对于离群点比平均值更鲁棒，这使得MAE比MSE更加鲁棒。

在实际业务中，如果离群点是会影响业务、而且是应该被检测到的异常值，那么我们应该使用MSE。另一方面，如果我们认为离群点仅仅代表数据损坏，那么我们应该选择MAE作为损失。