深度学习各场景评估指标总结

下表总结了机器学习在常见场景下使用的评估指标：

（PS：原文档包含截图，已上传到个人资源）

类别	场景	场景描述	应用场景	指标说明
图像	图像分类	识别一张图中是否是某类物体/状态/场景，适用于图片内容单一、需要给整张图片分类的场景	1、图片内容检索：定制训练需要识别的各种物体，并结合业务信息展现更丰富识别结果 2、图片审核：定制图像审核规则，如训练直播场景中抽烟等违规现象 3、制造业分拣或质检：定制生产线上各种产品识别，进而实现自动分拣或者质检 4、医疗诊断：定制识别医疗图像，辅助医生肉眼诊断	准确率（正确分类的样本数与总样本数之比）	精确率（对某类别而言为正确预测为该类别的样本数与预测为该类别的总样本数之比，此处为各类别精确率的平均数）	召回率（对某类别而言为正确预测为该类别的样本数与该类别的总样本数之比，此处为各类别召回率的平均数）	F1-score（对某类别而言为精确率和召回率的调和平均数，此处为各类别F1-score的平均数）	不同分类的F1-score（如果不同分类的F1-score存在差异很大的情况下，整体模型效果有被低精度的分类效果拉低的可能。建议检查训练数据中不同标签的目标数情况，建议不同分类的目标数尽可能均衡。）	top1-top5准确率（对于每一个评估的图片文件，模型会给根据置信度高低，依次给出top1-top5的识别结果，其中top1置信度最高，top5的置信度最低。那么top1的准确率值是指对于评估标准为“top1结果识别为正确时，判定为正确”给出准确率。top2准确率值是指对于评估标准为“top1或者top2只要有一个命中正确的结果，即判定为正确”给出的准确率。……以此类推。）
	物体检测	可以检测出图片里面的所有目标物体名称、位置。适用于一张图片中要识别多个物体，物体计数等场景中。	1、视频监控：如检测是否有违规物体、行为出现 2、工业质检：如检测图片里微小瑕疵的数量和位置 3、医疗诊断：如医疗细胞计数、中草药识别等	mAP（mAP(mean average precision)是物体检测(Object Detection)算法中衡量算法效果的指标。对于物体检测任务，每一类object都可以计算出其精确率(Precision)和召回率(Recall)，在不同阈值下多次计算/试验，每个类都可以得到一条P-R曲线，曲线下的面积就是average）	精确率（经比较F1-score最高的阈值0.2下的结果。精确率为该阈值下正确预测的物体数与预测物体总数之比）	召回率（经比较F1-score最高的阈值0.2下的结果。召回率为该阈值下正确预测的物体数与真实物体数之比）	不同阈值下的F1-score	不同标签的平均精度（通过查看不同标签的平均精度可以有效观测不同标签的精度对比。如果存在精度差异很大的情况下，整体模型效果有被低精度的标签效果拉低的可能。建议检查训练数据中不同标签的目标数情况，建议不同标签的目标数尽可能均衡。）	不同标签的mAP
	图像分割	在图中包含多个目标时，识别每个目标的名称、位置（像素级），按目标名称计数。适合图中有多个目标、需用多边形标注或需识别目标轮廓的场景。	1、专业检测：应用于专业场景的图像分析，比如在卫星图像中识别建筑、道路、森林，或在医学图像中定位病灶、测量面积等 2、智能交通：识别道路信息，包括车道标记、交通标志等	mAP	精确率	召回率	不同阈值下的F1-score	不同标签的平均精度	不同标签的mAP
文本	文本分类	基于自建分类体系的机器学习方法，可实现文本自动分类。	1、投诉信息分类：训练客服投诉信息的自动分类，将每个用户投诉的内容进行分类管理，节省大量客服人力 2、媒体文章分类：训练网络媒体文章的自动分类，进而实现各类文章的自动分类 3、文本审核：定制训练文本审核的模型，如训练文本中是否含有违规/偏激性质的描述 4、其他：尽情脑洞大开，训练你希望实现的文本分类模型	准确率	精确率	召回率	F1-score	不同分类的F1-score	top1-top5准确率
	短文本匹配	可判断两段短文本的相似度	在客服问答场景中，通过训练短文本匹配的模型，能够快速识别出知识库中与用户问题相似的相关问题，并推荐出相应的答案，快速提升客服问答效率	准确率	精确率	召回率	F1-score	各分类的F1-score/各分类的精确值/各分类的召回率
	序列标注	通过定制标签，实现对一串文本中的每个序列单元进行分类标注。能够实现分词，词性标注，命名实体识别，关键词抽取，词义角色标注等应用功能	可以用于金融场景、医疗场景等的关键信息抽取，或者对对话的关键词槽的识别应用		精确率	召回率	F1-score
视频	视频分类	可以分析视频的内容，识别出视频内人体做的是什么动作，物体/环境发生了什么变化。	1、人体动作监控：定制监控人体特殊动作，比如特殊手势，工地/后厨人员行为等 2、环境变化监控：定制监控环境变化，比如山体塌方，泥石流等 3、视频内容分析：快速分析视频内容，可用于短视频APP和直播平台中 4、物体状态变化监控：定制识别特定物体的移动方向、形态变化等	准确率	精确率	召回率	F1-score	不同分类的F1-score	top1-top5准确率
声音	声音分类	可以定制识别出当前音频是哪种声音，或者是什么状态/场景的声音	1、安防监控：定制识别不同的异常或正常的声音，进而用于突发状况预警。比如监控在工业生产场景中监控是否出现了异常噪音，从而辅助人工测试的时候判断是否出现bug。 2、科学研究：定制识别同一物种的不同个体的声音、或者不同物种的声音，协助野外作业研究。比如动物研究机构从野外采集的声音，借助于EasyDL声音分类模型，判断当前音频属于什么物种。	准确率	精确率	召回率	F1-score	不同分类的F1-score	top1-top5准确率

深度学习各场景评估指标总结相关推荐

如何绘制深度学习-目标检测评估指标P-R（precision-recall）曲线？如何计算AP（average-precision）？
参考文章:深度学习-目标检测评估指标P-R曲线.AP.mAP 文章目录 P-R曲线: AP计算: 下面通过具体例子说明. 首先用训练好的模型得到所有测试样本的confidence score,每一类( ...
【深度学习】——模型评估指标MAP计算实例计算
目录一.知识储备 1.IOU--交集面积与并集面积之比 2.混淆矩阵(TP.FP.FN.TN) 问题1:上面的TP等具体是如何计算得到的? 3.精度precision&召回率recall 二 ...
深度学习-目标检测评估指标P-R曲线、AP、mAP
基本概念 P-R曲线中,P为图中precision,即精准度,R为图中recall,即召回率. Example 下面通过具体例子说明. 首先用训练好的模型得到所有测试样本的confidence sc ...
深度学习框架的评估与比较
深度学习框架的评估与比较时间 2016-01-28 08:00:00 InfoQ 原文 http://www.infoq.com/cn/news/2016/01/evaluation-compa ...
基于深度学习的场景分割算法研究综述
基于深度学习的场景分割算法研究综述人工智能技术与咨询来自<计算机研究与发展> ,作者张蕊等摘要场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问 ...
矩阵的点乘和叉乘--深度学习应用场景针对有矩阵基础的解惑版
矩阵的点乘和叉乘–深度学习应用场景针对有矩阵基础的解惑版大学刚学完矩阵论,一搞深度学习,代码.dot 和矩阵* 傻傻分不清了.这里就帮各位大佬区分一下. 先讲叉乘规则大家都知道,讲个记忆.叉乘吗 ...
基于深度学习的场景文本检测和识别（Scene Text Detection and Recognition）综述
1. 引言文字是人类最重要的创作之一,它使人们在时空上可以有效地.可靠的传播或获取信息. 场景中的文字的检测和识别对我们理解世界很有帮助,它应用在图像搜索.即时翻译.机器人导航.工业自动化等领域. ...
深度学习实现场景字符识别模型｜代码干货
作者|李秋键出品|AI科技大本营(ID:rgznai100) # 前言 # 文字是人从日常交流中语音中演化出来,用来记录信息的重要工具.文字对于人类意义非凡,以中国为例,中国地大物博,各个地方的口音 ...
大规模深度学习预测场景下 codegen 的思考与应用
更多关于 RTP 系统的介绍请见深度预测平台RTP介绍背景简介 RTP 系统 RTP 系统(即 Rank Service),是一个面向搜索和推荐的 ranking 需求,支持多种模型的在线 inf ...

深度学习各场景评估指标总结

深度学习各场景评估指标总结相关推荐

最新文章

热门文章