目标检测的性能上界讨论
点击上方“计算机视觉工坊”,选择“星标”
干货第一时间送达
发现了最近 arxiv 上的一篇文章 Empirical Upper-bound in Object Detection and More,作者们在多个数据集上探讨了多种检测器所能达到的性能上限,颇有当年 Speed/accuracy trade-offs for modern convolutional object detectors 的风采。“目标检测还有什么能做的?”这个问题确实很令人迷茫,但自己今后仍然会密切关注这个方向,希望能和这篇文章一样,为大家带来一些启发。
01
Abstract
(1)在作者的计算方式下,PASCAL VOC (test2007) 的上界可以达到 91.6%,COCO (val2017) 可以达到 78.2%, OpenImages V4 (val) 可以达到 58.9%,它们的上界离现在所能达到的最佳的性能仍有很大的差距;
(2)发现分类错误(混淆/漏检)比定位错误和重复检测错误更加重要;
(3)分析了一些数据增强的措施对检测器的影响。
02
分析
1. 实验细节
(1)平台:主流检测框架 mmdetection,detectron2 ;
(2)模型:R-CNN 系列(FasterRCNN, MaskRCNN, GridRCNN, LibraRCNN, CascadeRCNN, MaskScoringRCNN, GAFasterRCNN, HTC),one-stage/anchor-free系列 (RetinaNet,SSD, FCOS, CenterNet [objects as points]);
(3)数据集:PASCAL VOC (训练 07+12, 测试 07test), MS COCO (训练 train2017, 测试 val2017), OpenImages V4 (as Kaggle Competition), Fashion dataset (作者自个的);
(4)评价标准:COCO-style AP;
2. 如何估计性能上界
(1)假定性能上界是由 best object classifier 能达到的,即认为定位问题已经解决;
(2)探究实验,利用大网络 ResNet152 对目标进行分类,能得到多少的准确率(top-1 accuracy),发现将 object 单独分离出来效果是最好的;
图中的 0.2, 0.4, 0.6 ... 表示 box 的放缩倍数
(3)准备基于 recognition accuracy 来估计 AP 上界。设计一种生成 candidate box 的机制,用于生成不同 IoU 的 bounding-boxes 来计算 AP,并且基于这些 bounding-boxes 重新训练 ResNet-152 分类器;
(4)对于每一个 bounding-box 分配 ResNet-152 的 top-1 score 所对应的 label;
3. 各数据集的上界
(1) PASCAL VOC
(2)COCO
(3)OpenImages V4
(4)AP 与识别 accuracy 的关联
不同类别识别精度与对应 AP 的关联
4. Error Diagnosis
(1)定义四种错误类型:
(2)对于每种错误,人为地消除后观察其提升,没有了分类方面的错误后,性能提升最明显:
5. Invariance Analysis
做各种数据处理,观察性能变化。总的来说,FCOS,RetinaNet 属于最优秀的那一档。
03
结论
(1)现在检测器的性能还没有离上界还有一定差距(但似乎在 IoU@0.5 时已经十分接近上界了);
(2)检测器的瓶颈在目标识别(recognition)上;
(3)检测器缺乏鲁棒性;
(4)context 对小物体比较重要,但是影响大物体的性能(掉点)。
最后,辛苦作者们了!他们的分析工具开源链接:github.com/aliborji/Dee,但是现在似乎还是空的,后面应该会放上去。
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。
下载2
在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。
下载3
在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。
重磅!计算机视觉工坊-学习交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
目标检测的性能上界讨论相关推荐
- 信号检测与估计理论 pdf_目标检测的性能上界讨论
加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
- 分类和目标检测的性能评价指标【转载】
文章目录 1. mAP (mean Avearage Precision) 2. FLOPs (浮点运算数) 3. 模型参数大小 对于深度学习的网络模型,希望其 速度快, 内存小, 精度高.因此需要量 ...
- 提升目标检测模型性能的tricks
提升目标检测模型性能的tricks bag of freebies pixel-wise调整 几何畸变 光照变化 遮挡 Random Erase CutOut Hide-and-Seek Grid M ...
- Kaggle竞赛中使用YOLOv5将目标检测的性能翻倍的心路历程
导语:本文的原作者是一位名叫Mostafa Ibrahim的外国友人,简要记录了其在参加kaggle目标检测比赛中,从建立基线到一步一步的优化过程,最终将performance提升了一倍,我觉得是一篇 ...
- Hinton团队CV新作:用语言建模做目标检测,性能媲美DETR
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来自|arxiv 编译|机器之心 目标检测的「尽头」是语言建模?近 ...
- 图灵奖大佬Hinton团队CV新作:用语言建模做目标检测,性能媲美DETR
来源:机器之心 目标检测的「尽头」是语言建模?近日,Hinton 团队提出了全新目标检测通用框架 Pix2Seq,将目标检测视作基于像素的语言建模任务,实现了媲美 Faster R-CNN 和 DET ...
- 语言模型“不务正业”做起目标检测,性能还比DETR、Faster R-CNN更好 | Hinton团队研究...
博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 长期以来,CNN都是解决目标检测任务的经典方法. 就算是引入了Transformer的DETR,也是结合CNN来预测最终的检测结果的. 但现 ...
- 【深度学习】目标检测的性能评价指标,mAP_0.5,mAP_0.5,0.95,0.05
指标 指标有检测精度和检测速度之分: mAP mAP是一个容易混淆的概念.计算mAP之前先考虑我们有的数值:图片原label的bbox.模型预测的bbox.模型预测的bbox的置信度.模型预测的bbo ...
- 推荐CVer的总结 | 性能最强的One-stage目标检测算法
前言 2019.07.07,CVer 曾推出一篇:大盘点 | 性能最强的目标检测算法,大家对此反映很好,还有很多同学私信要盘点 FPS 最快的目标检测算法. 要知道衡量目标检测最重要的两个性能就是 精 ...
- 【CV】大盘点 | 性能最强的目标检测算法
前言 去年7月,Amusi 曾做过一篇整理:大盘点 | 性能最强的目标检测算法,那时收集的情况是:改进后的 Cascade R-CNN 算法是截止(2019.07.07)目标检测方向性能最强的算法,其 ...
最新文章
- 困扰一周的奇葩bug:重复相似代码多,导致单片机程序跑飞
- 【学习笔记】10、循环语句—for
- 从0到1学习Vue.js,包含例子及实战项目(三)
- vue项目中处理左侧导航栏问题的分享
- 2017级面向对象程序设计 作业二
- 【gulp】----gulp的使用
- trunk vlan 加路由
- MySQL常用日期时间函数
- wpf获取当前窗体的屏幕坐标
- 将war文件解压到指定目录
- java怎么获取观看记录_java – 在Android手机上获取用户行为(应用历史记录,浏览历史记录等)...
- 博通linux网卡驱动,在64位CentOS 6 系统上安装Broadcom网卡驱动
- 认知层次不同的人,是很难沟通的
- sparse_to_dense()和sparse_tensor_to_dense()的用法
- 2014年880个合集Android_实例子源代码文件下载地址合集-2014
- 全球主流社交媒体算法解析:Facebook、YouTube、Twitter如何利用算法推荐内容?
- 【知识图谱】实践篇——基于医疗知识图谱的问答系统实践(Part1):项目介绍与环境准备
- kubesphere_越南 ZaloPay 使用 KubeSphere 构建核心商户平台支持亿级用户
- 手机发射机的功能电路(4)---上变频器、功率放大器
- android 自定义饼图半径不定,【Android】仿支付宝账单统计饼状图的自定义view