参考：链接：https://www.jianshu.com/p/4dde15a56d44

https://blog.csdn.net/heyongluoyao8/article/details/49408319

评价指标(Evaluation metrics)

评价指标是机器学习任务中非常重要的一环。不同的机器学习任务有着不同的评价指标，同时同一种机器学习任务也有着不同的评价指标，每个指标的着重点不一样。如分类（classification）、回归（regression）、排序（ranking）、聚类（clustering）、热门主题模型（topic modeling）、推荐（recommendation）等。并且很多指标可以对多种不同的机器学习模型进行评价，如精确率－召回率（precision-recall），可以用在分类、推荐、排序等中。像分类、回归、排序都是监督式机器学习，本文的重点便是监督式机器学习的一些评价指标

一、从二分类评估指标说起

1.1 混淆矩阵confusion_matrix

我们首先来看一下混淆矩阵，对于二分类问题，真实的样本标签有两类，我们学习器预测的类别有两类，那么根据二者的类别组合可以划分为四组，如下表所示：

上表即为混淆矩阵，其中，行表示预测的label值，列表示真实label值。TP，FP，FN，TN分别表示如下意思：

TP（true positive）：表示样本的真实类别为正，最后预测得到的结果也为正；
FP（false positive）：表示样本的真实类别为负，最后预测得到的结果却为正；
FN（false negative）：表示样本的真实类别为正，最后预测得到的结果却为负；
TN（true negative）：表示样本的真实类别为负，最后预测得到的结果也为负.

可以看到，TP和TN是我们预测准确的样本，而FP和FN为我们预测错误的样本。

sklearn.metrics.confusion_matrix(y_true, y_pred, labels=None, sample_weight=None)

coding :

y_true: 是样本真实分类结果，y_pred: 是样本预测分类结果
labels：是所给出的类别，通过这个可对类别进行选择
sample_weight : 样本权重

1.2 准确率Accruacy

准确率表示的是分类正确的样本数占样本总数的比例，假设我们预测了10条样本，有8条的预测正确，那么准确率即为80%。

用混淆矩阵计算的话，准确率可以表示为：

虽然准确率可以在一定程度上评价我们的分类器的性能，不过对于二分类问题或者说CTR预估问题，样本是极其不平衡的。对于大数据集来说，标签为1的正样本数据往往不足10%，那么如果分类器将所有样本判别为负样本，那么仍然可以达到90%以上的分类准确率，但这个分类器的性能显然是非常差的。

1.3 平均准确率(Average Per-class Accuracy)

为了应对每个类别下样本的个数不一样的情况，对准确率进行变种，计算每个类别下的准确率，然后再计算它们的平均值。举例，类别0的准确率为80%，类别1下的准确率为97.5%，那么平均准确率为(80%+97.5%)/2=88.75%。因为每个类别下类别的样本个数不一样，即计算每个类别的准确率时，分母不一样，则平均准确率不等于准确率，如果每个类别下的样本个数一样，则平均准确率与准确率相等。
平均准确率也有自己的缺点，比如，如果存在某个类别，类别的样本个数很少，那么使用测试集进行测试时（如k-fold cross validation），可能造成该类别准确率的方差过大，意味着该类别的准确率可靠性不强。

1.4 精确率Precision和召回率Recall

为了衡量分类器对正样本的预测能力，我们引入了精确率Precision和召回率Recall。

精确率表示预测结果中，预测为正样本的样本中，正确预测为正样本的概率；
召回率表示在原始样本的正样本中，最后被正确预测为正样本的概率；

二者用混淆矩阵计算如下：

精确率和召回率往往是一对矛盾的指标。在CTR预估问题中，预测结果往往表示会被点击的概率。如果我们对所有的预测结果进行降序排序，排在前面的是学习器认为最可能被点击的样本，排在后面的是学习期认为最不可能被点击的样本。

如果我们设定一个阈值，在这个阈值之上的学习器认为是正样本，阈值之下的学习器认为是负样本。可以想象到的是，当阈值很高时，预测为正样本的是分类器最有把握的一批样本，此时精确率往往很高，但是召回率一般较低。相反，当阈值很低时，分类器把很多拿不准的样本都预测为了正样本，此时召回率很高，但是精确率却往往偏低。

1.5 F-1 Score

为了折中精确率和召回率的结果，我们又引入了F-1 Score，计算公式如下：

对于F1 Score有很多的变化形式，感兴趣的话大家可以参考一下周志华老师的西瓜书，我们这里就不再介绍了。

1.6 ROC与AUC （只能用于二分类）

AUC：Area under the Curve 曲线（ROC）下的面积

ROC:Receiver Operating Characteristic

1)AUC的全称是Area under the Curve，即曲线下的面积，这条曲线便是ROC曲线，全称为the Receiver Operating Characteristic曲线，它最开始使用是上世纪50年代的电信号分析中，在1978年的“Basic Principles of ROC Analysis ”开始流行起来。ROC曲线描述分类器的True Positive Rate（TPR，分类器分类正确的正样本个数占总正样本个数的比例）与False Positive Rate（FPR，分类器分类错误的负样本个数占总负样本个数的比例）之间的变化关系。如下图所示：
![Alt text](./屏幕快照 2015-09-27 下午12.42.54.png)
如上图，ROC曲线描述FPR不断变化时，TPR的值，即FPR与TPR之间的关系曲线。显而易见，最好的分类器便是FPR＝0%，TPR＝100%，但是一般在实践中一个分类器很难会有这么好的效果，即一般TPR不等于1，FPR不等于0的。当使用ROC曲线对分类器进行评价时，如果对多个分类器进行比较时，如果直接使用ROC曲线很难去比较，只能通过将ROC分别画出来，然后进行肉眼比较，那么这种方法是非常不便的，因此我们需要一种定量的指标去比较，这个指标便是AUC了，即ROC曲线下的面积，面积越大，分类器的效果越好，AUC的值介于0.5到1.0之间。
具体如何描绘ROC曲线，如在二分类中，我们需要设定一个阈值，大于阈值分类正类，否则分为负类。因此，我们可以变化阈值，根据不同的阈值进行分类，根据分类结果计算得到ROC空间中的一些点，连接这些点就形成ROC曲线。ROC曲线会经过(0,0)与(1,1)这两点，实际上这两点的连线形成的ROC代表一个随机分类器，一般情况下分类器的ROC曲线会在这条对角连线上方。
在ROC曲线中，点(0,0)表示TPR＝0，FPR＝0，即分类器将每个实例都预测为负类；点(1,1)表示TPR＝1，FPR＝1，即分类器将每个实例都预测为正类；点(0,0)表示TPR＝1，FPR=0，即分类器将每个正类实例都预测为正类，将每个负类实例都预测为负类，这是一个理想模型。
ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。在实际的数据集中，经常会出现类别不平衡（class imbalance）现象，即负样本比正样本少很多（或者相反），而且测试数据集中的正负样本的分布也可能随时间发生变化。关于ROC与AUC更多的讲解，参见这里。

2)排序结果很重要呀，不管预测值是多少，只要正例的预测概率都大于负例的就好了呀。

没错，ROC和AUC便可以解决我们上面抛出的两个问题。

ROC全称是“受试者工作特征”，（receiver operating characteristic）。我们根据学习器的预测结果进行排序，然后按此顺序逐个把样本作为正例进行预测，每次计算出两个重要的值，分别以这两个值作为横纵坐标作图，就得到了ROC曲线。

这两个指标是什么呢？是精确率和召回率么？并不是的，哈哈。

ROC曲线的横轴为“假正例率”（True Positive Rate,TPR)，又称为“假阳率”；纵轴为“真正例率”(False Positive Rate,FPR)，又称为“真阳率”，

假阳率，简单通俗来理解就是预测为正样本但是预测错了的可能性，显然，我们不希望该指标太高。横坐标

真阳率，则是代表预测为正样本但是预测对了的可能性，当然，我们希望真阳率越高越好。纵坐标

ROC计算过程如下：
1)首先每个样本都需要有一个label值，并且还需要一个预测的score值（取值0到1）;
2)然后按这个score对样本由大到小进行排序，假设这些数据位于表格中的一列，从上到下依次降序;
3)现在从上到下按照样本点的取值进行划分，位于分界点上面的我们把它归为预测为正样本，位于分界点下面的归为负样本;
4)分别计算出此时的TPR和FPR，然后在图中绘制（FPR, TPR）点。

说这么多，不如直接看图来的简单：

每个黑实点即阈值（截断点）

AUC（area under the curve）就是ROC曲线下方的面积，如下图所示，阴影部分面积即为AUC的值：

AUC量化了ROC曲线表达的分类能力。这种分类能力是与概率、阈值紧密相关的，分类能力越好（AUC越大），那么输出概率越合理，排序的结果越合理。

在CTR预估中，我们不仅希望分类器给出是否点击的分类信息，更需要分类器给出准确的概率值，作为排序的依据。所以，这里的AUC就直观地反映了CTR的准确性（也就是CTR的排序能力）。

1.7、ROC曲线和P-R曲线有什么特点？

相比P-R曲线，ROC曲线有一个特点，当正负样本分布变化的时候，ROC曲线的形状能够基本保持不变，而P-R曲线的形状会发生比较剧烈的变化

P-R曲线：横召回率，纵精确率

ROC曲线：横假阳，纵真阳

实际应用中正负样本的比例往往比较不平衡，所以ROC 应用的场景会更多，被广泛用在排序，推荐，广告等领域。

2、AUC的计算

关于AUC的计算方法，如果仅仅根据上面的描述，我们可能只能想到一种方法，那就是积分法，我们先来介绍这种方法，然后再来介绍其他的方法。

2.1 积分思维

这里的积分法其实就是我们之前介绍的绘制ROC曲线的过程，用代码简单描述下：

auc = 0.0
height = 0.0for each training example x_i, y_i：if y_i = 1.0:height = height + 1/(tp+fn)else auc +=  height * 1/(tn+fp)return auc

在上面的计算过程中，我们计算面积过程中隐含着一个假定，即所有样本的预测概率值不想等，因此我们的面积可以由一个个小小的矩形拼起来。但如果有两个或多个的预测值相同，我们调整一下阈值，得到的不是往上或者往右的延展，而是斜着向上形成一个梯形，此时计算梯形的面积就比较麻烦，因此这种方法其实并不是很常用。

2.2 Wilcoxon-Mann-Witney Test

关于AUC还有一个很有趣的性质，它和Wilcoxon-Mann-Witney是等价的，而Wilcoxon-Mann-Witney Test就是测试任意给一个正类样本和一个负类样本，正类样本的score有多大的概率大于负类样本的score。

根据这个定义我们可以来探讨一下二者为什么是等价的？首先我们偷换一下概念，其实意思还是一样的，任意给定一个负样本，所有正样本的score中有多大比例是大于该负类样本的score？ 由于每个负类样本的选中概率相同，那么Wilcoxon-Mann-Witney Test其实就是上面n2（负样本的个数）个比例的平均值。

那么对每个负样本来说，有多少的正样本的score比它的score大呢？是不是就是当结果按照score排序，阈值恰好为该负样本score时的真正例率TPR？没错，相信你的眼睛，是这样的！理解到这一层，二者等价的关系也就豁然开朗了。ROC曲线下的面积或者说AUC的值与测试任意给一个正类样本和一个负类样本，正类样本的score有多大的概率大于负类样本的score

哈哈，那么我们只要计算出这个概率值就好了呀。我们知道，在有限样本中我们常用的得到概率的办法就是通过频率来估计之。这种估计随着样本规模的扩大而逐渐逼近真实值。样本数越多，计算的AUC越准确类似，也和计算积分的时候，小区间划分的越细，计算的越准确是同样的道理。具体来说就是：统计一下所有的 M×N(M为正类样本的数目，N为负类样本的数目)个正负样本对中，有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的 score相等的时候，按照0.5计算。然后除以MN。公式表示如下：

实现这个方法的复杂度为O(n^2 )。n为样本数(即n=M+N)

2.3 Wilcoxon-Mann-Witney Test的化简

该方法和上述第二种方法原理一样，但复杂度降低了。首先对score从大到小排序，然后令最大score对应的sample的rank值为n，第二大score对应sample的rank值为n-1，以此类推从n到1。然后把所有的正类样本的rank相加，再减去正类样本的score为最小的那M个值的情况。得到的结果就是有多少对正类样本的score值大于负类样本的score值，最后再除以M×N即可。值得注意的是，当存在score相等的时候，对于score相等的样本，需要赋予相同的rank值(无论这个相等的score是出现在同类样本还是不同类的样本之间，都需要这样处理)。具体操作就是再把所有这些score相等的样本的rank取平均。然后再使用上述公式。此公式描述如下：

有了这个公式，我们计算AUC就非常简单了，下一节我们会给出一个简单的Demo

3、AUC计算代码示例

这一节，我们给出一个AUC计算的小Demo，供大家参考：

import numpy as nplabel_all = np.random.randint(0,2,[10,1]).tolist()
pred_all = np.random.random((10,1)).tolist()print(label_all)
print(pred_all)posNum = len(list(filter(lambda s: s[0] == 1, label_all)))if (posNum > 0):negNum = len(label_all) - posNumsortedq = sorted(enumerate(pred_all), key=lambda x: x[1])posRankSum = 0for j in range(len(pred_all)):if (label_all[j][0] == 1):posRankSum += list(map(lambda x: x[0], sortedq)).index(j) + 1auc = (posRankSum - posNum * (posNum + 1) / 2) / (posNum * negNum)print("auc:", auc)

输出为：

[[1], [1], [1], [1], [0], [0], [1], [0], [1], [0]]
[[0.3338126725065774], [0.916003907444231], [0.21214487870979226], [0.7598235037160891], [0.07060830328081447], [0.7650759555141832], [0.16157972737309945], [0.6526480840746645], [0.9327233203035652], [0.6581121768195201]]auc: 0.5833333333333334

二、回归评价指标 SSE/MSE/RMSE/MAE/R-Squared

与分类不同的是，回归是对连续的实数值进行预测，即输出值是连续的实数值，而分类中是离散值。例如，给你历史股票价格，公司与市场的一些信息，需要你去预测将来一段时间内股票的价格走势。那么这个任务便是回归任务

分类问题的评价指标是准确率，那么回归算法的评价指标就是

SSE、MSE，RMSE,MAE、MAPE：预测值和真实值

R-Squared：预测值和真实平均值

1、SSE 和方差

该统计参数计算的是拟合数据和原始数据对应点的误差的平方和，计算公式如下

SSE越接近于0，说明模型选择和拟合更好，数据预测也越成功。

2、均方误差（MSE）

该统计参数是预测数据和原始数据对应点误差的平方和的均值，也就是SSE/n

MSE （Mean Squared Error）叫做均方误差。

这里的y是测试集上的。

用真实值-预测值然后平方之后求和平均。

猛着看一下这个公式是不是觉得眼熟，这不就是线性回归的损失函数嘛！！！对，在线性回归的时候我们的目的就是让这个损失函数最小。那么模型做出来了，我们把损失函数丢到测试集上去看看损失值不就好了嘛。简单直观暴力。

3、均方根误差（RMSE）（Root Mean Squard Error）均方根误差（又称RMSD: root mean square deviation）。

其中，yiyi是第ii个样本的真实值，yi^yi^是第ii个样本的预测值，nn是样本的个数。该评价指标使用的便是欧式距离。
RMSE虽然广为使用，但是其存在一些缺点，因为它是使用平均误差，而平均值对异常点（outliers）较敏感，如果回归器对某个点的回归值很不理性，那么它的误差则较大，从而会对RMSE的值有较大影响，即平均值是非鲁棒的。
* Quantiles of Errors

4、MAE:mean asolute error 平均绝对误差预测、真实数据

5、MAPE mean absolute percent error

为了改进RMSE的缺点，提高评价指标的鲁棒性，使用误差的分位数来代替，如中位数来代替平均数。假设100个数，最大的数再怎么改变，中位数也不会变，因此其对异常点具有鲁棒性。
在现实数据中，往往会存在异常点，并且模型可能对异常点拟合得并不好，因此提高评价指标的鲁棒性至关重要，于是可以使用中位数来替代平均数，如MAPE：

MAPE是一个相对误差的中位数，当然也可以使用别的分位数。
* “Almost Crrect” Predictions
有时我们可以使用相对误差不超过设定的值来计算平均误差，如当|yi−yi^|/yi|yi−yi^|/yi超过100%（具体的值要根据问题的实际情况）则认为其是一个异常点，，从而剔除这个异常点，将异常点剔除之后，再计算平均误差或者中位数误差来对模型进行评价。

MAPE 相当于每个点误差进行归一化，降低了个别离群点带来的绝对误差的影响

在这之前，我们所有的误差参数都是基于预测值(y_hat)和原始值(y)之间的误差(即点对点)，从下面开始是所有的误差都是相对原始数据平均值(y_ba)而展开的(即点对全)!!!

6、R Squared 预测值真实数据平均值

上面的几种衡量标准针对不同的模型会有不同的值。比如说预测房价那么误差单位就是万元。数子可能是3，4，5之类的。那么预测身高就可能是0.1，0.6之类的。没有什么可读性，到底多少才算好呢？不知道，那要根据模型的应用场景来。
看看分类算法的衡量标准就是正确率，而正确率又在0～1之间，最高百分之百。最低0。如果是负数，则考虑非线性相关。很直观，而且不同模型一样的。那么线性回归有没有这样的衡量标准呢？答案是有的。
那就是R Squared也就R方

(1)SSR：Sum of squares of the regression，即预测数据与原始数据均值之差的平方和，公式如下

(2)SST：Total sum of squares，即原始数据和均值之差的平方和，公式如下

细心的网友会发现，SST=SSE+SSR，呵呵只是一个有趣的问题。而我们的“确定系数”是定义为SSR和SST的比值，故

其实“确定系数”是通过数据的变化来表征一个拟合的好坏。由上面的表达式可以知道“确定系数”的正常取值范围为[0 1]，越接近1，表明方程的变量对y的解释能力越强，这个模型对数据拟合的也较好

那结果就来了。
如果结果是0，就说明我们的模型跟瞎猜差不多。
如果结果是1。就说明我们模型无错误。
如果结果是0-1之间的数，就是我们模型的好坏程度。
如果结果是负数。说明我们的模型还不如瞎猜。（其实导致这种情况说明我们的数据其实没有啥线性关系）

scikit-learn中的各种衡量指标
from sklearn.metrics import mean_squared_error #均方误差
from sklearn.metrics import mean_absolute_error #平方绝对误差
from sklearn.metrics import r2_score#R square
#调用
mean_squared_error(y_test,y_predict)
mean_absolute_error(y_test,y_predict)
r2_score(y_test,y_predict)

机器学习：评价指标：分类问题、回归问题、排序问题相关推荐

机器学习中二分类逻辑回归的学习笔记
1 致谢感谢 Andrew Ng的教导! 2 前言逻辑回归是机器学习中很重要而且很基础的算法,它也代表了分类算法最基本的思想. 3 二分类逻辑回归逻辑回归算法 3.1 假设函数假设函数的形式为: ...
机器学习的分类、回归、聚类问题
分类.回归问题都是监督学习,本质都是对输入做出预测,都要建立映射关系.分类问题输出的是物体所属的类别(瓜是好瓜吗),回归问题输出的是数值(瓜会卖到多少钱).聚类是无监督学习一.分类问题分类问题输出 ...
机器学习中分类和回归模型的评价指标
分类算法的效果评估 1,准确率accuracy_score from sklearn.metrics import accuracy_score 2,精确率/查准率precision_score fr ...
机器学习之分类、回归、标注问题
机器学习的目的是为了解决实际问题.我们将实际问题分为三类:分类问题.回归问题.标注问题. 本文尽量以我的通俗语言描述: 1.分类问题在机器学习算法中,很大一部分问题是分类问题,比如文本分类.图片分类 ...
机器学习：分类，回归，聚类
https://blog.csdn.net/qq_38462321/article/details/81777402 分类: 分类方法是一种对离散型随机变量建模或预测的监督学习算法.使用案例包括邮件过 ...
机器学习：分类、回归、决策树
分类:具有明确的类别如:去银行借钱,会有借或者不借的两种类别回归:不具有明确的类别和数值如:去银行借钱,预测银行会借给我多少钱,如:1~100000之间的一个数值 ...
1. 分类与回归树原理（CART）
1. 简介分类与回归树(Classification And Regression Tree),采用二分递归分割技术,将当前样本集划分成两个子集,即其结构为二叉树,每个内部节点均只有两个分支.左分支 ...
【理论 | 代码】机器学习分类与回归性能评估指标大全
一.回归指标 1.1 均方误差(Mean Squared Error, MSE) MSE 称为均方误差,又被称为 L2 范数损失,该统计参数是预测数据和原始数据对应点误差的平方和的均值,公式如下: M ...
R语言机器学习Caret包（Caret包是分类和回归训练的简称）、数据划分、数据预处理、模型构建、模型调优、模型评估、多模型对比、模型预测推理
R语言机器学习Caret包(Caret包是分类和回归训练的简称).数据划分.数据预处理.模型构建.模型调优.模型评估.多模型对比.模型预测推理目录
[云炬python3玩转机器学习笔记] 2-6关于回归和分类
在这一章,我们了解到了,机器学习主要可以处理的两大类问题,是回归和分类.看起来,似乎有些局限,但是,非常出人意料的,在我们现实生活中,很多问题,都可以通过化简,或者转换的手段,转换成分类问题或者回归问 ...

机器学习：评价指标：分类问题、回归问题、排序问题

评价指标(Evaluation metrics)

一、从二分类评估指标说起

1.1 混淆矩阵confusion_matrix

1.2 准确率Accruacy

1.3 平均准确率(Average Per-class Accuracy)

1.4 精确率Precision和召回率Recall

1.5 F-1 Score

1.6 ROC与AUC （只能用于二分类）

1.7、ROC曲线和P-R曲线有什么特点？

相比P-R曲线，ROC曲线有一个特点，当正负样本分布变化的时候，ROC曲线的形状能够基本保持不变，而P-R曲线的形状会发生比较剧烈的变化

2、AUC的计算

2.1 积分思维

2.2 Wilcoxon-Mann-Witney Test

2.3 Wilcoxon-Mann-Witney Test的化简

3、AUC计算代码示例

二、回归评价指标 SSE/MSE/RMSE/MAE/R-Squared

1、SSE 和方差

2、均方误差（MSE）

3、均方根误差（RMSE）（Root Mean Squard Error）均方根误差（又称RMSD: root mean square deviation）。

4、MAE:mean asolute error 平均绝对误差预测、真实数据

5、MAPE mean absolute percent error

在这之前，我们所有的误差参数都是基于预测值(y_hat)和原始值(y)之间的误差(即点对点)，从下面开始是所有的误差都是相对原始数据平均值(y_ba)而展开的(即点对全)!!!

6、R Squared 预测值真实数据平均值

机器学习：评价指标：分类问题、回归问题、排序问题相关推荐

最新文章

热门文章

机器学习：评价指标：分类问题、回归问题、排序问题

评价指标(Evaluation metrics)

一、从二分类评估指标说起

1.1 混淆矩阵confusion_matrix

1.2 准确率Accruacy

1.3 平均准确率(Average Per-class Accuracy)

1.4 精确率Precision和召回率Recall

1.5 F-1 Score

1.6 ROC与AUC （只能用于二分类）

1.7、ROC曲线和P-R曲线有什么特点？

相比P-R曲线，ROC曲线有一个特点，当正负样本分布变化的时候，ROC曲线的形状能够基本保持不变，而P-R曲线的形状会发生比较剧烈的变化

2、AUC的计算

2.1 积分思维

2.2 Wilcoxon-Mann-Witney Test

2.3 Wilcoxon-Mann-Witney Test的化简

3、AUC计算代码示例

二、回归评价指标 SSE/MSE/RMSE/MAE/R-Squared

1、SSE 和方差

2、均方误差（MSE）

3、均方根误差（RMSE）（Root Mean Squard Error）均方根误差（又称RMSD: root mean square deviation）。

4、MAE:mean asolute error 平均绝对误差 预测、真实数据

5、MAPE mean absolute percent error

在这之前，我们所有的误差参数都是基于预测值(y_hat)和原始值(y)之间的误差(即点对点)，从下面开始是所有的误差都是相对原始数据平均值(y_ba)而展开的(即点对全)!!!

6、R Squared 预测值 真实数据平均值

机器学习：评价指标：分类问题、回归问题、排序问题相关推荐

最新文章

热门文章

4、MAE:mean asolute error 平均绝对误差预测、真实数据

6、R Squared 预测值真实数据平均值