昨天一道笔试题,举例解释说明 如下模型评价指标 的含义

accuracy = (TP + TN) / (TP + FP + TN + FN)
TPR = TP /(TP + FN) 
TNR = TN /(TN + FP) 
precision = TP / (TP+FP)

心里如下造句中:
一箱苹果,其中实际90个好苹果,10个坏苹果。模型预测为92个好苹果,8个坏苹果。
那么:easy
accuracy 表现模型整体的预测能力 
         =(猜中好苹果90个+猜中坏苹果8个) / (猜中好苹果90个+猜错成好苹果的2个(实际为坏的)+ 猜中坏苹果8个+猜错成坏苹果的0个(实际为好的))
         = 98/100 = 98%
TPR     表现模型对好苹果的辨别能力  (敏感度)
         = 猜中好苹果90个 / 实际真正好苹果90个
         = 90/90 = 100%
TNR     表现模型对好苹果的辨别能力   (特异性)
         = 猜中坏苹果8个 / 实际真正坏苹果10个
         = 8/10 = 80%
precision  表现模型 对好苹果的的判断有效性
       =  猜中好苹果90个 / (猜中好苹果90个+猜错成好苹果的2个(实际为坏的))
       = 90/92 = 97.8%
      
其实写着写着,觉得有点不对劲了。预测92个好苹果,就一定是有90个预测正确吗?
如果1-10号苹果为实际的坏苹果,模型预测的92个好苹果分别为1-5和11-97,那正确数量只有87个呀。

例子改为60个苹果 40个梨,也有同样的问题。。 逻辑过程好像没问题啊,问题在哪里?
好一会(近半小时)都没绕过来,换例子吧:

检测某种疾病,实际10个阳性,90个阴性。模型输出为13个阳性,87个阴性。
好像能说通了:
accuracy 表现模型整体的预测能力 
         =(猜中阳性10个+猜中阴性87个) / (猜中阳性10个+猜错成阳性的3个(实际为阴性的)+ 猜中阴性87个+猜错成阴性的0个(实际为阳性))
         = 97/100 = 97%
TPR     表现模型对阳性疾病(患病)的辨别能力  (敏感度)
         = 猜中阳性10个 / 实际真正阳性10个
         = 10/10 = 100%
TNR     表现模型对阴性疾病(未患病)的辨别能力   (特异性)
         = 猜中阴性87个 / 实际真正阴性90个
         = 87/90 = 96.7%
precision  表现模型 对阳性疾病的 判断有效性
       = 猜中阳性10个 / (猜中阳性10个+猜错成阳性的3个(实际为坏的))
       = 90/93 = 96.8%

当时不知为何这个例子好像又能讲通。今天想明白了,因为去判断疾病是阳性还是阴性心理上一般觉得是根据某个阈值来的,最后算出来的结果 大于阈值则认为阳性,小于阈值则认为阴性。
而好苹果 坏苹果 ,苹果和梨的例子中,没有阈值的概念。 判断 1-5和11-97 号苹果是好苹果,还是1-92号苹果是好苹果,判断的依据 如果没有说明是某一个经过分析处理后的连续值,就容易有这种错乱的感觉。

所以个人理解: 对于判别模型,一般模型的输出应该是个连续非离散的概率值。而不考虑这种 判断依据非连续值 的场景。

###########################

20181201 更正如下:  (汗,之前总结的是错的,误导初学者实在抱歉!)

另外,真正,真负,假真,假负, 一定要记住  第二个字是判断结果,第一个字是判断的正确性。
真正,判断为正 判断正确了 (实际正)
真负,判断为负 判断正确了 (实际负)
假正,判断为正 判断错误了 (实际负)
假负,判断为负 判断错误了 (实际正)

我们总希望 判断正确的越多越好,即真正真负越多越好,也即灵敏度特异度越高越好
但实际调整阈值时,这两个有一个好另一个必然会差。  要根据模型实际运用的场景来看,是灵敏度(识别出来正类)更重要吗? 还是 其他类型的指标更重要。

###########################

关于模型评价标准的例子相关推荐

  1. 二分类最优阈值确定_分类模型评价标准,AUC还是Macro F1?

    在人工智能领域,分类任务占据了很大的比例,例如物体识别(计算机视觉).信用卡欺诈(数值型预测).情感分析(自然语言处理)等等.针对众多的分类需求,模型的评价标准只是简单的准确率(Accuracy)吗? ...

  2. [基本功]分类模型评价标准

    混淆矩阵: 预测阳性 预测阴性 总计 实际阳性 TP FN P 实际阴性 FP TN N 总计 X Y ntotaln_{total}ntotal​ 准确率(accuracy) TP+TNntotal ...

  3. OVR模式和sklearn模型评价标准学习

    OvR则是每次将一个类的样例作为正例.所有其他类的样例作为反例来训练N个分类器.在测试时若仅有一个分类器预测为正类,则对应的类别标记作为最终分类结果如图3.4所示若有多个分类器预测为正类.则通常考虑分 ...

  4. 深度学习模型评价标准

    1.查准率,精度(precision)和召回率,查全率(recall) 查准率:预测为正例中实际的正例数比例 查全率:有多少个正例被分为正例 ROC曲线 横坐标是特异性(FPR):负正类 FP / ( ...

  5. 算法模型好坏、评价标准、算法系统设计

    算法模型好坏的评价通用标准: 1.解的精确性与最优性.基于正确性基础上. 2.计算复杂度,时间成本. 3.适应性.适应变化的输入和各种数据类型. 4.可移植性. 5.鲁棒性.健壮性. 鲁棒性(robu ...

  6. 机器学习中的模型评价、模型选择及算法选择

    链客,专为开发者而生,有问必答! 此文章来自区块链技术社区,未经允许拒绝转载. 正确使用模型评估.模型选择和算法选择技术无论是对机器学习学术研究还是工业场景应用都至关重要.本文将对这三个任务的相关技术 ...

  7. lasso模型交替方向matlab_TCGA系列学习笔记(7)建模及模型评价

    微信公众号:生信小知识 关注可了解更多的教程及单细胞知识.问题或建议,请公众号留言; TCGA系列学习笔记(7)建模及模型评价 内容目录 前言1. 背景知识1.1 Cox前提假设的验证1.2 lass ...

  8. 特征工程之特征分箱(决策树分箱、卡方分箱、bestks以及评价标准WOE和IV)

    特征工程之特征分箱:决策树分箱.卡方分箱.bestks以及评价标准 1.WOE和IV 2.无监督分箱 2.1等频分箱 2.2等距分箱 3.有监督分箱 3.1决策树分箱 3.2best-ks分箱 3.3 ...

  9. python程序题求roc-auc是一种常用的模型评价指标_模型评价方法

    第五章 模型评价方法 5.1 模型的评价方法介绍 5.1.1~5 accuracy,precision,recall,F1-score,ROC曲线 分别画图举例,要说出应用场景,例如什么情况用什么评价 ...

最新文章

  1. 深入浅出WPF——x:Class详解
  2. 周末不用过来了,好好休息吧_如何好好休息
  3. ibtmp1文件过大
  4. 【黑马程序员 C++教程从0到1入门编程】【笔记6】C++核心编程(文件操作)
  5. 字符串从右截取_跟运维组学Python基础day04(字符串str的索引和切片)
  6. 面试官:Redis的事务满足原子性吗?
  7. PCB-电解电容的封装
  8. Python HTMLCalendar类| 带实例的formatyear()方法
  9. 视图可视化 后台_如何在单视图中可视化复杂的多层主题
  10. jquery每次动态加载dom,绑定事件会多一次,
  11. CSRF 跨站请求伪造 为什么b网站请求a网站的地址能带上a网站的cookie
  12. wangEditor-3.1.1 自己扩展的,增加代码块行号
  13. 【React深入】setState的执行机制
  14. 蓝桥杯2015年第六届C/C++省赛C组第二题-立方尾不变
  15. c语言编写自由落体运动程序,3个C语言程序急求大神编写,再次先谢过了、
  16. ArcGis——资源三号卫星的DSM提取流程
  17. No module named ‘win32com‘
  18. C语言实现求两个数的和
  19. 如何在单片机中用汇编优雅的点灯
  20. 天梯赛+01训练总结

热门文章

  1. Win10超详细 JavaJDK的安装(D盘)及环境配置
  2. java多线程设计模式详解
  3. 音乐music says
  4. kali下载软件时出现“部分索引文件下载失败,如果忽略他们,那将转而使用旧的索引文件”
  5. 【测试面经】软件测试面试题大全,软件测试必问必背面试题,敢说会70%就可以轻松拿offer......
  6. STM32单片机控制A1333角度传感器磁编码器
  7. Nanopi NEO Core测试
  8. 张量(一):张量基础
  9. PCIe(二)——TLP包构成
  10. 乡村老师网络计算机培训日志,乡村年轻女教师 “教育日记”火爆网络