关于模型评价标准的例子

昨天一道笔试题，举例解释说明如下模型评价指标的含义

accuracy = (TP + TN) / (TP + FP + TN + FN)
TPR = TP /(TP + FN)
TNR = TN /(TN + FP)
precision = TP / (TP+FP)

心里如下造句中：
一箱苹果，其中实际90个好苹果，10个坏苹果。模型预测为92个好苹果，8个坏苹果。
那么：easy
accuracy 表现模型整体的预测能力
         =(猜中好苹果90个+猜中坏苹果8个) / (猜中好苹果90个+猜错成好苹果的2个（实际为坏的）+ 猜中坏苹果8个+猜错成坏苹果的0个（实际为好的）)
         = 98/100 = 98%
TPR     表现模型对好苹果的辨别能力 (敏感度)
         = 猜中好苹果90个 / 实际真正好苹果90个
         = 90/90 = 100%
TNR     表现模型对好苹果的辨别能力   (特异性)
         = 猜中坏苹果8个 / 实际真正坏苹果10个
         = 8/10 = 80%
precision 表现模型对好苹果的的判断有效性
       = 猜中好苹果90个 / (猜中好苹果90个+猜错成好苹果的2个（实际为坏的）)
       = 90/92 = 97.8%

其实写着写着，觉得有点不对劲了。预测92个好苹果，就一定是有90个预测正确吗?
如果1-10号苹果为实际的坏苹果，模型预测的92个好苹果分别为1-5和11-97，那正确数量只有87个呀。

例子改为60个苹果 40个梨，也有同样的问题。。逻辑过程好像没问题啊，问题在哪里?
好一会(近半小时)都没绕过来，换例子吧：

检测某种疾病，实际10个阳性，90个阴性。模型输出为13个阳性，87个阴性。
好像能说通了：
accuracy 表现模型整体的预测能力
         =(猜中阳性10个+猜中阴性87个) / (猜中阳性10个+猜错成阳性的3个（实际为阴性的）+ 猜中阴性87个+猜错成阴性的0个（实际为阳性）)
         = 97/100 = 97%
TPR     表现模型对阳性疾病（患病）的辨别能力 (敏感度)
         = 猜中阳性10个 / 实际真正阳性10个
         = 10/10 = 100%
TNR     表现模型对阴性疾病（未患病）的辨别能力   (特异性)
         = 猜中阴性87个 / 实际真正阴性90个
         = 87/90 = 96.7%
precision 表现模型对阳性疾病的判断有效性
       = 猜中阳性10个 / (猜中阳性10个+猜错成阳性的3个（实际为坏的）)
       = 90/93 = 96.8%

当时不知为何这个例子好像又能讲通。今天想明白了，因为去判断疾病是阳性还是阴性心理上一般觉得是根据某个阈值来的，最后算出来的结果大于阈值则认为阳性，小于阈值则认为阴性。
而好苹果坏苹果，苹果和梨的例子中，没有阈值的概念。判断 1-5和11-97 号苹果是好苹果，还是1-92号苹果是好苹果，判断的依据如果没有说明是某一个经过分析处理后的连续值，就容易有这种错乱的感觉。

所以个人理解：对于判别模型，一般模型的输出应该是个连续非离散的概率值。而不考虑这种判断依据非连续值的场景。

###########################

20181201 更正如下： (汗，之前总结的是错的，误导初学者实在抱歉！)

另外，真正，真负，假真，假负，一定要记住第二个字是判断结果，第一个字是判断的正确性。
真正，判断为正判断正确了 (实际正)
真负，判断为负判断正确了 (实际负)
假正，判断为正判断错误了 (实际负)
假负，判断为负判断错误了 (实际正)

我们总希望判断正确的越多越好，即真正真负越多越好，也即灵敏度特异度越高越好
但实际调整阈值时，这两个有一个好另一个必然会差。要根据模型实际运用的场景来看，是灵敏度（识别出来正类）更重要吗? 还是其他类型的指标更重要。

###########################

关于模型评价标准的例子相关推荐

二分类最优阈值确定_分类模型评价标准，AUC还是Macro F1？
在人工智能领域,分类任务占据了很大的比例,例如物体识别(计算机视觉).信用卡欺诈(数值型预测).情感分析(自然语言处理)等等.针对众多的分类需求,模型的评价标准只是简单的准确率(Accuracy)吗? ...
[基本功]分类模型评价标准
混淆矩阵: 预测阳性预测阴性总计实际阳性 TP FN P 实际阴性 FP TN N 总计 X Y ntotaln_{total}ntotal 准确率(accuracy) TP+TNntotal ...
OVR模式和sklearn模型评价标准学习
OvR则是每次将一个类的样例作为正例.所有其他类的样例作为反例来训练N个分类器.在测试时若仅有一个分类器预测为正类,则对应的类别标记作为最终分类结果如图3.4所示若有多个分类器预测为正类.则通常考虑分 ...
深度学习模型评价标准
1.查准率,精度(precision)和召回率,查全率(recall) 查准率:预测为正例中实际的正例数比例查全率:有多少个正例被分为正例 ROC曲线横坐标是特异性(FPR):负正类 FP / ( ...
算法模型好坏、评价标准、算法系统设计
算法模型好坏的评价通用标准: 1.解的精确性与最优性.基于正确性基础上. 2.计算复杂度,时间成本. 3.适应性.适应变化的输入和各种数据类型. 4.可移植性. 5.鲁棒性.健壮性. 鲁棒性(robu ...
机器学习中的模型评价、模型选择及算法选择
链客,专为开发者而生,有问必答! 此文章来自区块链技术社区,未经允许拒绝转载. 正确使用模型评估.模型选择和算法选择技术无论是对机器学习学术研究还是工业场景应用都至关重要.本文将对这三个任务的相关技术 ...
lasso模型交替方向matlab_TCGA系列学习笔记（7）建模及模型评价
微信公众号:生信小知识关注可了解更多的教程及单细胞知识.问题或建议,请公众号留言; TCGA系列学习笔记(7)建模及模型评价内容目录前言1. 背景知识1.1 Cox前提假设的验证1.2 lass ...
特征工程之特征分箱（决策树分箱、卡方分箱、bestks以及评价标准WOE和IV)
特征工程之特征分箱:决策树分箱.卡方分箱.bestks以及评价标准 1.WOE和IV 2.无监督分箱 2.1等频分箱 2.2等距分箱 3.有监督分箱 3.1决策树分箱 3.2best-ks分箱 3.3 ...
python程序题求roc-auc是一种常用的模型评价指标_模型评价方法
第五章模型评价方法 5.1 模型的评价方法介绍 5.1.1~5 accuracy,precision,recall,F1-score,ROC曲线分别画图举例,要说出应用场景,例如什么情况用什么评价 ...

关于模型评价标准的例子

关于模型评价标准的例子相关推荐

最新文章

热门文章