《机器学习》------模型评价指标

错误率（error rate）：分错样本占总样本的比例；

对于数据集 D D D，分类错误率定义为：
E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f;D)=\frac{1}{m}\sum_{i=1}^m\mathbb{I}(f(x_i)\neq y_i) E(f;D)=m1i=1∑mI(f(xi)=yi)

精度（accuracy）：精度 = 1 - 错误率

精度的定义为：

a c c ( f , D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f ; D ) \begin{aligned} acc(f,D)&=\frac{1}{m}\sum_{i=1}^m\mathbb{I}(f(x_i)= y_i)\\ &=1-E(f;D) \end{aligned} acc(f,D)=m1i=1∑mI(f(xi)=yi)=1−E(f;D)

对于二分类问题，可将样例根据其真实类别与学习预测类别的组合划分为真正例（true positive）、假正例（false positive）、真反例（true negative）、假反例（false negative），简写为 TP、FP、TN、FN，有 TP+FP+TN+FN = 样例总数.
可以用一个“混淆矩阵”来表示

真实情况\ 预测结果	正例	负例
正例	TP（真正例）	FN（假反例）
负例	FP（假正例）	TN（真反例）

查准率 P P P （precision）与查全率 R R R （recall） 分别定义为：
P = T P T P + F P P = \frac{TP}{TP+FP} P=TP+FPTP
R = T P T P + F N R = \frac{TP}{TP+FN} R=TP+FNTP

一般来说，查准率高时，查全率往往偏低；而查全率高时，查准率偏低.

例子说明：若希望将好瓜尽可能多的选出来，则可以通过增加选瓜的数量来实现，如果将所有的西瓜都选上，那么所有的好瓜也必然都被选上了，但这样查准率就会较低;若希望选出的好瓜比例尽可能高，则可只挑选最有把握的瓜，但这样也会漏掉不少好瓜，使得查全率较低.通常只有在一些简单的任务中，才可能使查全率和查准率都很高.

为了表达分类器对查准率和查全率的不同偏好，用 F β F_\beta Fβ 表示，定义为：
F β = ( 1 + β 2 ) ∗ P ∗ R ( β 2 ∗ P ) + R F_\beta = \frac{(1+\beta^2)*P*R}{(\beta^2*P)+R} Fβ=(β2∗P)+R(1+β2)∗P∗R
当 β > 1 \beta>1 β>1 时查全率有更大的影响； β < 1 \beta<1 β<1 时查准率有更大的影响

根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，分别以它们为横、纵坐标作图，就得到了”ROC曲线“.其纵轴是”真正例率（TPR）“，横轴是”假正率（FPR）“
T P R = T P T P + F N TPR = \frac{TP}{TP+FN} TPR=TP+FNTP
F P R = F P T N + F P FPR = \frac{FP}{TN+FP} FPR=TN+FPFP

ROC曲线与横轴围成的面积称为AUC，即AUC越大分类器性能越高

特异度（Specificity）-TNR
S p e c i f i c i t y = T N T N + F P Specificity = \frac{TN}{TN+FP} Specificity=TN+FPTN

假警报率 - FDR
F D R = F P F P + T N FDR = \frac{FP}{FP+TN} FDR=FP+TNFP

G-mean
G − m e a n = R e c a l l ∗ S p e c i f i c i t y G-mean = \sqrt{Recall*Specificity} G−mean=Recall∗Specificity
当数据不平衡的时候，这个值很有参考价值

更加详细的介绍请参考：https://www.zhihu.com/tardis/sogou/art/406121884

《机器学习》------模型评价指标相关推荐

混淆矩阵评价指标_机器学习模型评价指标 -- 混淆矩阵
机器学习模型评价指标 – 混淆矩阵在机器学习领域中,混淆矩阵(confusion matrix)是一种评价分类模型好坏的形象化展示工具.其中,矩阵的每一列表示的是模型预测的样本情况:矩阵的每一行表示 ...
机器学习模型评价指标 -- 混淆矩阵
机器学习模型评价指标 – 混淆矩阵在机器学习领域中,混淆矩阵(confusion matrix)是一种评价分类模型好坏的形象化展示工具.其中,矩阵的每一列表示的是模型预测的样本情况:矩阵的每一行表示 ...
机器学习模型评价指标及拟合概念
机器学习模型评价指标及拟合概念一.机器学习模型评价指标回归问题等连续值的差值的判断 1) MAE平均绝对误差: 2)MSE均方误差: 3)RMSE均方根误差: 4)R平方: 分类问题 1)混淆矩阵 ...
机器学习模型评价指标一览
本文有Mcgill大学本科,waterloo大学硕士生林羿在圣一信息技术有限公司实习时,所做的收集. 在这篇文档里,我们会介绍一些常用的机器学习模型评价指标.这些指标会根据模型的目标而分成以下两类: ...
机器学习模型评价指标及R实现
1.ROC曲线考虑一个二分问题,即将实例分成正类(positive)或负类(negative).对一个二分问题来说,会出现四种情况.如果一个实例是正类并且也被预测成正类,即为真正类(True po ...
R语言︱机器学习模型评价指标+（转）模型出错的四大原因及如何纠错
笔者寄语:机器学习中交叉验证的方式是主要的模型评价方法,交叉验证中用到了哪些指标呢? 交叉验证将数据分为训练数据集.测试数据集,然后通过训练数据集进行训练,通过测试数据集进行测试,验证集进行验证. 模 ...
机器学习模型评价指标+模型出错的四大原因及如何纠错
笔者寄语:机器学习中交叉验证的方式是主要的模型评价方法,交叉验证中用到了哪些指标呢? 交叉验证将数据分为训练数据集.测试数据集,然后通过训练数据集进行训练,通过测试数据集进行测试,验证集进行验证. 模 ...
机器学习模型评价指标分析
背景:近期主要是在ROC曲线上的问题,数据集是titanic.heart disease 以及python自带的数据集iris 参考链接1:混淆矩阵(https://blog.csdn.net/sea ...
机器学习模型评价指标：准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线
转自机器学习:准确率(Precision).召回率(Recall).F值(F-Measure).ROC曲线.PR曲线摘要: 数据挖掘.机器学习和推荐系统中的评测指标-准确率(Precision).召 ...
机器学习分类模型评价指标之ROC 曲线、 ROC 的 AUC 、 ROI 和 KS
前文回顾: 机器学习模型评价指标之混淆矩阵机器学习模型评价指标之Accuracy.Precision.Recall.F-Score.P-R Curve.AUC.AP 和 mAP 图裂的话请参考:ht ...

《机器学习》------模型评价指标

《机器学习》------模型评价指标相关推荐

最新文章

热门文章