模型评估与改进（三）// 评估指标

1、常用的评估指标有哪些？
回答：评估分类算法的性能用精度accuracy；评估回归算法的性能用R方（R的平方）。

第一部分：二分类的评估指标

2、精度accuracy指标对评估二分类模型的不足？
回答：实际应用场景中，单一的精度accuracy指标不能满足要求，甚至是不合适的，需要寻找其他衡量指标。①错误类型。二分类算法在实践中是最常用的机器学习应用，由于模型不是完美的，它会误判，误判包括假正例（错误的阳性预测）、假反例（错误的阴性预测）。有时候，误判是不容忽视。②数据集不平衡。如果数据集中反类占比99%，正类占比1%，当预测精度accuracy为99%时，即便如此，我们不能断定模型性能是好的。

3、混淆矩阵confusion matrix是什么？
回答：混淆矩阵是二分类算法中实际标签和预测标签的矩阵表达。行代表实际标签，列代表预测标签。图示如下：

4、由混淆矩阵引申的一些常用指标？
回答：包括accuracy、precision、recall、f-score等。
精度accuracy=(TP+TN)/(TP+TN+FP+FN)；
准确率precision=TP/(TP+FP)，也称为阳性预测值（positive predictive value,PPV）；
召回率recall=TP/(TP+FN)，也称为灵敏度（sensitivity)、命中率（hit rate)、真正例率（true positive rate,TPR)；
f-分数f-score=2*（precision*recall）/（precision+recall），是准确率和召回率的调和平均；
假正例率FPR=FP/(FP+TN)；
在优化召回率与优化准确率直接通常需要折中（注：通常两者负相关）。

5、如何评估预测的不确定性？
回答：大多数分类器都提供了一个decision_function或predict_proba方法来评估预测的不确定度。预测可以被看作是以某个固定点作为decision_function或predict_proba输出的阈值——在二分类问题中，我们使用0作为决策函数的阈值，0.5作为predict_proba的阈值。
如SVC分类器有.decision_function方法，随机森林分类器有.predict_proba方法。

6、准确率-召回率曲线precision_recall_curve是什么？
回答：改变模型中用于做分类决策的阈值，是一种调节给定分类器的准确率和召回率之间折中的方法。曲线中，横轴是准确率，纵轴是召回率。曲线越靠近右上角，则分类器越好，说明准确率与召回率都很高。

7、ROC曲线roc_curve是什么？
回答：同上，分析不同阈值下，显示假正例率与真正例率的曲线图。曲线中，横轴是假正例率（公式：FP/(TN+FP)），纵轴是真正例率（召回率）。曲线越靠近左上角，则分类器越好，说明召回率高且假正例率低。
注：假正例率=1-真假例率（0的召回率）

8、二分类评估指标的常用sklearn库？

from sklearn.metrics import confusion_matrix
from sklearn.metrics import f1_scorefrom sklearn.metrics import classification_report #查看precision 、recall 、f1-score 、support值
from sklearn.metrics import classificationfrom sklearn.metrics import precision_recall_curve #准确率-召回率曲线
from sklearn.metrics import average_precision_score #平均准确率，即准确率-召回率曲线下面积from sklearn.metrics import precision_recall_fscore_support
from sklearn.metrics import precision_scorefrom sklearn.metrics import roc_curve #ROC曲线（假正率-真正率曲线）
from sklearn.metrics import roc_auc_score #AUC，即ROC曲线下面积

第二部分：多分类的评估指标

9、精度accuracy指标对评估多分类模型的不足？
回答：如果标签类别是不平衡的，精度accuracy就不是很好的评估度量。

10、如何有效评估多分类模型？
回答：对于不平衡数据集的多分类，常用的评估工具有混淆矩阵和分类报告，常用的评估指标是多分类版本的f-分数。多分类f-分数背后的想法是，对每个类别计算一个二分类f-分数，其中该类别是正类，其他所有类别是反类。然后使用以下三种策略之一计算平均f-分数。
第一种：宏macro平均。计算未加权的按类别f-分数。它对所有类别给出相同的权重，无论类别中的样本量大小。
第二种：加权weighted平均。以每个类别的支持作为权重来计算按类别f-分数的平均值。分类报告中给出的就是这个值。
第三种：微micro平均。计算所有类别中假正例、假反例和真正例的总数，然后利用这些计数计算准确率、召回率，进一步计算f-分数。

11、多分类评估指标的常用sklearn库？

from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report #查看precision 、recall 、f1-score 、support值

第三部分：回归的评估指标

12、回归的评估指标有哪些？
回答：除了R方（R的平方）外，有时候也会用均方误差MSE或平均绝对误差MAE。
R-squared = SSR/SST=1-SSE/SST
（SST=SSR+SSE，SST(total sum of squares)为总平方和，SSR(regression sum of squares)为回归平方和，SSE(error sum of squares) 为残差平方和）

第四部分：设置评估指标

13、如何在python实现设置评估指标？
回答：可通过修改参数scoring为其他评估指标。如，cross_val_score中参数scoring=‘roc_auc’，GridSearchCV中参数scoring=‘roc_auc’

注：有些书本accuracy翻译为精度、precision翻译为准确率；有些书本刚好相反，accuracy翻译为准确率、precision翻译为精确度。为了不引起误解，我直接用英文。在分类算法中，评估模型的score是指标accuracy。

以上总结，参考《Python机器学习基础教程》，感谢！

模型评估与改进（三）// 评估指标相关推荐

机器学习笔记之——模型评估与改进之评估指标与评分
评估指标与评分到目前为止,我们使用精度(正确分类的样本所占的比例)来评估分类性能,使用 R2 来评估回归性能.但是,总结监督模型在给定数据集上的表现有多种方法,这两个指标只是其中两种.在实践中,这些 ...
R语言glm拟合logistic回归模型：模型评估（计算模型拟合的统计显著性）、模型评估（赤信息AIC指标计算）
R语言glm拟合logistic回归模型:模型评估(计算模型拟合的统计显著性).模型评估(赤信息AIC指标计算) 目录
【机器学习技巧】回归模型的几个常用评估指标（R2、Adjusted-R2、MSE、RMSE、MAE、MAPE）及其在sklearn中的调用方式
目录回归模型评估的两个方面 1. 预测值的拟合程度 2. 预测值的准确度以糖尿病数据集的回归模型为计算示例-计算各指标 1. 决定系数R2 1.1 R2求解方式一----从metrics调用r2_ ...
语义级代码克隆检测数据集的评估与改进
摘要:应用深度学习来检测语义代码克隆受到了研究界的广泛关注. 本文分享自华为云社区<语义级代码克隆检测数据集的评估与改进>,作者:软件分析Lab. 一.背景介绍代码克隆检测[1]是软件工 ...
大数据新算法在个人信用风险评估模型中使用效果的评估
风控系统资料 https://www.jianshu.com/p/db2aece905a7 基于大数据和机器学习的Web异常参数检测系统Demo实现 https://www.freebuf.com/a ...
评估车辆之间安全距离的指标
由于自己跟导师的工程上需要用到这部分知识,都是自己从零记录,刚好分享给大家. 评估车辆之间安全距离的指标包括: 源自相对速度的安全距离(Safe distance derived from relat ...
自动化比手工测试成本高？使用Selenium评估测试自动化的ROI指标
跨浏览器测试是一种测试,需要大量的精力和时间.通过不同的浏览器,操作系统,设备,屏幕分辨率测试Web应用程序,以评估针对各种受众的Web内容呈现的过程是一项活动. 特别是如果手动处理,使用Seleni ...
2020大学计算机学科评估,【第四轮学科评估】学科评估2020完整(三篇汇总)word版（26页）-原创力文档...
学科有若干种含义.第一种含义是学术分类.指一定科学领域或一门科学的分支.如自然科学中的化学.生物学.物理学;社会科学中的法学.社会学等. 学科是与知识相联系的一个学术概念,是自然科学.社会科学两大知识 ...
解释任何ML模型？--关于XAI的目标和能；基于梯度的动态RRAM阵列神经形态学习；SARNet：大规模城市点云的语义增强注册；基于加权一致性指数损失的多模式生存模型在鼻咽癌放疗放射性脑病评估中的应用
可解释的机器学习中文标题:解释任何ML模型?–关于XAI的目标和能力英文标题:Explaining Any ML Model? – On Goals and Capabilities of XAI ...
TVM性能评估分析（三）
TVM性能评估分析(三) Figure 1. TVM's WebGPU backend close to native GPU performance when deploying models to ...

模型评估与改进（三）// 评估指标

模型评估与改进（三）// 评估指标相关推荐

最新文章

热门文章