机器学习中算法的性能评估

机器学习和推荐系统中的评测指标—（1）准确率（Accuracy）；（2）错误率（Error rate）（3）精确率、精度(Precision)；（4）召回率(Recall)；（5）灵敏度/敏感性（sensitive）；（6）特效度/特异性（specificity）；（7）F值(F-Measure)简介/综合评价指标（F-Measure）；（8）计算速度；（9）鲁棒性；（10）可扩展性；（11）可解释性；（12）ROC曲线（Receiver Operating Characteristic）;（13）PR曲线（Precision-Recall曲线）；（14）AUC（Area UnderCharacteristic）。

在介绍以上指标时先引入几个概念：（必须先了解“混淆矩阵”）（正确和错误是True和False表示预测结果是否正确，T表示不管是在预测为P还是N的结果中预测正确的情况）（正负是positive和Negative表示预测的结果，就是样本被预测为P还是N）

True Positive（TP：真正）：在判定为positive（正）的样本中，判断正确的数目（真实情况为正例，预测情况为正例）---即将真类预测为正类数。（就是在将测试样本判定为Positive的预测结果样本中，有多少个True就是预测正确的数目）（统计在Positive预测结果中，预测正确True的数目）

False Positive（FP：假正）：在判定为positive（正）的样本中，判断错误的数目（真实情况为反例，预测情况为正例）---即将假类预测为正类数（误报）。（就是在将测试样本判定为Positive的结果样本中，有多少个False就是预测错误的数目））（统计在Positive预测结果中，预测错误False的数目）

True Negative（TN：真负）：在判定为Negative的样本中，判断正确的数目（（真实情况为反例，预测情况为反例））---即将真类预测为负类数。（就是在将测试样本判断为Negative的结果样本中，有多少个True就是预测正确的数目）（统计在Negative预测结果中，预测正确True的数目）

False Negative（FN：假负）：在判定为Negative的样本中，判断错误的数目（真实情况为正例，预测情况为反例）---即将假类预测为负类数。（就是在将测试样本判断为Negative的结果样本中，有多少个False就是预测错误的数目，即将真的也预测为Negative了，就是预测错误了，要统计将真的预测为Negative的数目）（统计在Negative预测结果中，预测错False的数目）

	Positive	Negative
True	TP	TN
False	FP	FN

实际类别和预测类别：

		预测类别
		Yes/P/正例	No/N/负例	总计
实际类别	Yes/T/预测正确	TP	FN	P（本来实际为Yes）
	No/F/预测错误	FP	TN	N（本来实际为No）
	总计	$P^{'}$ （被分为Yes）(所有的实际是Y/N被预测为P的数目)	$N^{'}$ （所有的实际为Y/N的被预测为N的数目）	P+N

（1）准确率（Accuracy）计算公式A：（被分对的样本除以所有的样本数）

$ACC=A=\frac{TP+TN}{TP+TN+FP+FN}$

(准确率就是预测正确的（TP、TN）除以所有的结果)（T表示在P和N的预测结果中预测正确）

正确率越高，分类器越好。

（2）错误率（Error rate）计算公式：（错误率与准确率相反，描述被分类器错分的比例）

$erroe \ rate=\frac{FP+FN}{TP+TN+FP+FN}$

分对与分错是互斥事件，所以accuracy=1-error rate

（3）精确率、精度(Precision)计算公式：

$P=\frac{TP}{TP+FP}$

表示被分为正例（positive）的示例中实际为正例的比例。

（精确率和召回率是相互影响的，理想情况下两者都高，但是一般情况下准确率高，召回率就低；召回率高，精确率就低；如果两者都低应该是哪里算的有问题）

（4）召回率(Recall)计算公式R：

$reacll=R=\frac{TP}{TP+FN}=\frac{TP}{P}=sensitive$

召回率是覆盖面的度量，度量有多少个正例被分为正例。（有多少个正例中的正例值的是正确分为正例的个数，被分为正例中的正例包含正确分的和错误分的（错误分的就是正例被分到N中就是N中分错的即FN））

可以看到召回率和灵敏度是一样的。

（5）灵敏度（sensitive）计算公式：（表示所有正例中P被分对的TP比例，衡量了分类器对负例的识别能力）

$sensitive=\frac{TP}{P}$

（6）特效度（specificity）计算公式：（表示所有负例中N被分对的TN比例，衡量了分类器对负例的识别能力）

$specificity=\frac{TN}{N}$

（7）F值(F-Measure)简介/综合评价指标（F-Measure）（又称为F-Fcore）：

P和R有时间会出现矛盾的情况下，在P精确率和R召回率都要求高的情况下，综合衡量P和R就用F值：

F-Measure是Precision和Recall的加权调和平均：

$F=\frac{\left ( a^{2}+1 \right )P*R}{a^{2}(P+R)}$

当参数 $a=1$ 时，就是最常见的F1（F1 score），也即

$F1=\frac{2*P*R}{P+R}$

可知F1综合了P和R的结果，当F1较高时则能说明实验方法比较有效；一般多个模型假设进行比较时，F1 score越高，说明它越好。

（8）计算速度：分类器训练和预测需要的时间。

（9）鲁棒性：处理缺失值和异常值的能力。

（10）可扩展性：处理大数据集的能力。

（11）可解释性：分类器的预测标准的可理解性，像决策树产生的规则就是很容易理解，而神经网络的一堆参数就不好理解，我们只好把它看成一个黑盒子。

（12）ROC曲线（Receiver Operating Characteristic）：

ROC曲线是以假正例率（FP_rate（真实值为负例，而预测为正例的比例）和真正例率（TP_rate（真实值是正例，且预测为正例的比例））为轴的曲线，ROC曲线下面的面积我们叫做AUC，一般AUC值越大，说明模型越好。如图所示：（ROC曲线一般横轴是FP_rate，纵轴是TP_rate）

（13）PR曲线（Precision-Recall曲线）

假设N_c>>P_c（即Negative的数量远远大于Positive的数量），若FP很大，即有很多N的sample被预测为P，因为，因此FP_rate的值仍然很小（如果利用ROC曲线则会判断其性能很好，但是实际上其性能并不好），但是如果利用PR，因为Precision综合考虑了TP和FP的值，因此在极度不平衡的数据下（Positive的样本较少），PR曲线可能比ROC曲线更实用。

（14）AUC（Area UnderCharacteristic）

ROC曲线下面积是分类器区分类的能力的度量，用作ROC曲线的总结。AUC越高，模型在区分正类和负类方面的性能越好。

1）当AUC=1时，分类器能够正确区分所有的正类点和负类点。然而，如果AUC为0，那么分类器将预测所有的否定为肯定，所有的肯定为否定。

2）当0.5<AUC<1时，分类器很有可能区分正类值和负类值。这是因为与假反例和假正例相比，分类器能够检测更多的真正例和真反例。

3）当AUC=0.5时，分类器无法区分正类点和负类点。这意味着分类器要么预测所有数据点的随机类，要么预测常量类。

因此，分类器的AUC值越高，其区分正类和负类的能力就越好。

参考连接：http://www.jisuapp.cn/news/8752.html

机器学习中算法的性能评估相关推荐

机器学习（17）无监督学习 -- K-means算法与性能评估
目录一.K-means 1.概念 2.过程 3.API(K-means) 二.K-means性能评估 1.轮廓系数 2.API(轮廓系数) 一.K-means 1.概念无监督学习:没有目标值(没有 ...
【理论 | 代码】机器学习分类与回归性能评估指标大全
一.回归指标 1.1 均方误差(Mean Squared Error, MSE) MSE 称为均方误差,又被称为 L2 范数损失,该统计参数是预测数据和原始数据对应点误差的平方和的均值,公式如下: M ...
机器学习中算法与模型的区别
点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要7分钟跟随小博主,每天进步一丢丢 Datawhale干货来自:Datawhale 作者:Sambodhi,海边的拾遗者导读机器学习涉及到 ...
图解机器学习之回归模型性能评估指标
一个房价预测的任务,老板说你看看这个模型咋样? 我们先绘制一个坐标轴: Y 轴为房价,X 轴为年份.将过去房价数据绘制为绿色,回归模型绘制为蓝色. 关键问题是,怎么知道这个模型的好坏呢? 为了评估该模 ...
机器学习算法的效果评估和优化方法
当我们运用训练好了的模型来预测未知数据的时候发现有较大的误差,我们下一步可以做什么? 1.获得更多的训练实例--通常是有效的,但代价较大,下面的方法也可能有效,可考虑先采用下面的几种方法. 2.尝试减 ...
机器学习中的概念区分：模型 vs 算法
文章目录 1. 刷题里的算法 2. 机器学习里的算法 2.1 理解1:比较浅显,靠近常规认知 2.2 理解2:比较复杂,有点矛盾 2.3 我的理解 2.3.1 目标函数 vs 损失函数以前没有注意过 ...
终于有人把机器学习中的评价指标讲清楚了
前言在人工智能领域,机器学习的效果需要用各种指标来评价.本文将阐述机器学习中的常用性能评价指标,矢量卷积与神经网格的评价指标不包括在内. 训练与识别当一个机器学习模型建立好了之后,即模型训练 ...
当谈论机器学习中的公平公正时，我们该谈论些什么？
作者 | Synced 来源 | 机器之心(almosthuman2014) 随着人工智能系统和应用程序在我们日常生活中的广泛应用,人工智能已经成为了辅助人们决策的重要工具,例如,使用推荐系统算法做出 ...
主流监督式机器学习分类算法
主流监督式机器学习分类算法的性能比较姓名:欧阳qq 学号:169559 摘要:机器学习是未来解决工程实践问题的一个重要思路.本文采比较了目前监督式学习中几种主流的分类算法(决策树.SVM.贝 ...

机器学习中算法的性能评估

机器学习中算法的性能评估相关推荐

最新文章

热门文章