评估模型的方法与指标

目录

评估模型的方法与指标

1.P-R曲线

2.ROC曲线

3.mAP

4.IOU


1.P-R曲线

查准率(precision)-------P-R曲线的纵坐标

查全率,召回率(recall)------------P-R曲线的横坐标

对于二分类问题,可以将样例根据其真实类别和学习器预测类别的组合划分四种情况:

真正例(true positive)----TP
假正例(false positive)---FP
真反例(true negative)----TN
假反例(false negative)---FN
真实情况 预测结果 预测结果
  正例 反例
正例 TP(正确的标记为正)实际是人脸,你把它标注为人脸,是对的 FN(错误的标记为负)实际是人脸,但你标注他不是人脸,所以你标错了,你错误的把他标注成不是人脸
反例 FP(错误的标记为正)实际不是人脸,但是你把它标为人脸,所以标注错了,你错误的把不是的标为是了 TN(正确的标记为负)实际不是人脸,然后你正确的把它标注为不是人脸,标对了

查准率关心的是”预测出正例的正确率”即从正反例子中挑选出正例的问题.
查全率关心的是”预测出正例的保证性”即从正例中挑选出正例的问题。
​
准确率P是评估你预测的准不准(看预测列),而召回率R是看你找的全不全(看实际行).
查准率和查全率是相互矛盾的,一般来说,当查准率高时,查全率往往会偏低,而查全率高时,查准率会偏低,鱼与熊掌的关系

在进行比较时,若一个学习器的P-R曲线被另一个完全包住,则可断言后者优于前者,如图,A优于C;如果两个学习器的P-R曲线发生了交叉,如A和B,则难以一般性的断言两者孰优孰劣,只能在具体的P或R条件下进行比较。然而,在很多情形下,人们往往仍希望把学习器A和B比个高低,这时一个比较合理的判断依据是比较曲线下面积的大小,它在一定程度上表征了学习器在P和R上取得相对“双高”的比例,但这个值不太容易估算,因此人们设计了一些综合考虑P和R的度量。平衡点(brerak-even point,BEP)就是这样一个度量,是P=R时的取值,基于BEP,可判断A优于B。

2.ROC曲线

ROC曲线(受试者工作特征曲线--receiver operating characteristic curve)

横坐标--假正例率(True Positive Rate)----TPR

纵坐标--真正例率(False Positive Rate)---FPR

AUC (Area Under ROC Curve) 被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。

从AUC判断分类器(预测模型)优劣的标准(AUC越大,分类效果就越好):

  • AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。

  • 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。

  • AUC = 0.5,跟随机猜测一样,就像扔硬币一样,模型没有预测价值。

  • AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

3.mAP

mAP:mean Averge Precision,作为object detection中衡量检测精度的指标。

在目标检测中,每一类都可以根据recall和precision绘制P-R曲线,AP就是该曲线下的面积。而mAP就是所有类AP的平均值。

  1. 计算AP值,若use_07_metric=true,则用11个点采样的方法,将rec从0-1分成11个点,这些点prec值求平均近似表示AP

  2. 若use_07_metric=false,则采用更为精确的逐点积分方法

4.IOU

重叠度IOU--------Intersection over Union

物体检测需要定位出物体的bounding box,对于bounding box的定位精度,有一个很重要的概念: 因为我们算法不可能百分百跟人工标注的数据完全匹配,因此就存在一个定位精度评价公式:IOU。 它定义了两个bounding box的重叠度,

一般来说,这个score > 0.5 就可以被认为一个不错的结果了。

机器学习——模型测试与评估方法与指标相关推荐

  1. 谈谈机器学习AI模型测试与评估方法分析

    随着数字化转型与人工智能发展,AI应用软件层出不穷,人们虽然理解人工智能趋势,但是,企业往往很难接受这样AI应用软件,其中质疑点主要有: 预测或识别的准确性 模型相关性 鲁棒性 安全性 数据隐私 性能 ...

  2. 机器学习模型在携程海外酒店推荐场景中的应用

    导读 互联网企业的核心需求是"增长",移动互联时代下的在线旅游业也不例外.随着大数据.云计算和人工智能等技术的不断进步,通过算法和模型来实现增长已成为核心. 近年来推荐系统迅速崛起 ...

  3. 干货 | 机器学习模型在携程海外酒店推荐场景中的应用

    "关于作者:Louisa,携程算法工程师,热爱前沿算法和技术在个性化推荐和广告建模等业务的性能优化和落地. 大数据产业创新服务媒体 --聚焦数据 · 改变商业 导读 互联网企业的核心需求是& ...

  4. 机器学习中qa测试_机器学习项目测试怎么做?(看实例)

    机器学习交付项目通常包含两部分产物,一部分是机器学习模型,另一部分是机器学习应用系统.机器学习模型是嫁接在应用之上产生价值的.比如:一款预测雷雨天气的APP,它的雷雨预测功能就是由机器学习模型完成的. ...

  5. 机器学习中的模型评估方法和指标

    机器学习模型的评估方法和指标 1.选择怎样的评估指标 1.1 Online metrics vs Offline metrics Online metrics是直接在线上环境做AB测试,比较两个实验组 ...

  6. 机器学习模型常用评估方法和指标

    文章目录 1. 学习曲线 1).低偏差.低方差(恰当拟合)的学习曲线: 2).高偏差(欠拟合)的学习曲线: 3).高方差(过拟合)的学习曲线: 2.评价指标 1). 混淆矩阵(Confusion Ma ...

  7. 机器学习模型 知乎_机器学习:模型评估之评估方法

    ​机器学习已经成为了人工智能的核心研究领域之一,它的研究动机就是为了让计算机系统具有人的学习能力以便实现人工智能.目前,关于机器学习定义的说法比较多,而被广泛采用的定义是"利用经验来改善计算 ...

  8. 机器学习模型评估指标总结!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:太子长琴,Datawhale优秀学习者 本文对机器学习模型评估指标 ...

  9. 【机器学习基础】非常详细!机器学习模型评估指标总结!

    作者:太子长琴,Datawhale优秀学习者 本文对机器学习模型评估指标进行了完整总结.机器学习的数据集一般被划分为训练集和测试集,训练集用于训练模型,测试集则用于评估模型.针对不同的机器学习问题(分 ...

最新文章

  1. html5 Web Workers
  2. 成都计算机职业学院排名,成都计算机职高排名
  3. 夺命雷公狗-----tp中遇到数据乘积的问题的遇见
  4. java 中文字符和unicode编码值相互转化
  5. FPGA不可综合语句
  6. cad2010多个文件并排显示_飞利浦显示器推荐,提升你的工作效率与水平
  7. 梯度消失、梯度爆炸及其解决方法
  8. 201506170744_《JavaScript权威指南(第六版)——函数调用变长实参和可选形参、》(P171-175)...
  9. Lyn for Mac v2.1 中文版 – 轻量级图片浏览器
  10. 【网络安全】物理层(网线、接口、信号、MB/s和Mb/s)
  11. 低功耗验证 (二)UPF,低功耗流程,VCS NLP
  12. 如何在safri查看网页源代码
  13. 【2022吉比特】春招技术笔试A卷-AK题解
  14. Adobe Photoshop 2022v23.4.2.603茶末余香增强版
  15. 关于徐晓东,传统武术,以及太极拳
  16. 当下移动互联网的6个泡沫,快要破了!
  17. 如何让网站在浏览器网址前面显示小图标?ico图标怎么放?
  18. AI教程:自定义参考线
  19. java 圆角窗口_JAVA实现圆角窗体 .
  20. IT未来发展五大趋势

热门文章

  1. Exp 8 Web基础 20164302 王一帆
  2. MyBatis if标签的用法
  3. 上三角矩阵的特征值分解
  4. Odoo进销存业务学习笔记
  5. Hitcon 2016 Pwn赛题学习
  6. 30 个 php 操作 redis 常用方法代码例子
  7. 十五个步骤收获学习的习惯
  8. java获取达梦数据库_Java连接达梦数据库驱动dm_jdbc
  9. redis消息队列写入mysql_redis怎么实现将消息队列持久化到数据库中?
  10. flume写入mysql_Flume高级之自定义MySQLSource