目标检测的性能上界讨论

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

发现了最近 arxiv 上的一篇文章 Empirical Upper-bound in Object Detection and More，作者们在多个数据集上探讨了多种检测器所能达到的性能上限，颇有当年 Speed/accuracy trade-offs for modern convolutional object detectors 的风采。“目标检测还有什么能做的？”这个问题确实很令人迷茫，但自己今后仍然会密切关注这个方向，希望能和这篇文章一样，为大家带来一些启发。

Abstract

（1）在作者的计算方式下，PASCAL VOC (test2007) 的上界可以达到 91.6%，COCO (val2017) 可以达到 78.2%， OpenImages V4 (val) 可以达到 58.9%，它们的上界离现在所能达到的最佳的性能仍有很大的差距；

（2）发现分类错误（混淆/漏检）比定位错误和重复检测错误更加重要；

（3）分析了一些数据增强的措施对检测器的影响。

分析

1. 实验细节

（1）平台：主流检测框架 mmdetection，detectron2 ;

（2）模型：R-CNN 系列（FasterRCNN, MaskRCNN, GridRCNN, LibraRCNN, CascadeRCNN, MaskScoringRCNN, GAFasterRCNN, HTC），one-stage/anchor-free系列（RetinaNet，SSD, FCOS, CenterNet [objects as points]）;

（3）数据集：PASCAL VOC (训练 07+12, 测试 07test), MS COCO (训练 train2017, 测试 val2017), OpenImages V4 (as Kaggle Competition), Fashion dataset (作者自个的)；

（4）评价标准：COCO-style AP；

2. 如何估计性能上界

（1）假定性能上界是由 best object classifier 能达到的，即认为定位问题已经解决；

（2）探究实验，利用大网络 ResNet152 对目标进行分类，能得到多少的准确率（top-1 accuracy），发现将 object 单独分离出来效果是最好的；

图中的 0.2, 0.4, 0.6 ... 表示 box 的放缩倍数

（3）准备基于 recognition accuracy 来估计 AP 上界。设计一种生成 candidate box 的机制，用于生成不同 IoU 的 bounding-boxes 来计算 AP，并且基于这些 bounding-boxes 重新训练 ResNet-152 分类器；

（4）对于每一个 bounding-box 分配 ResNet-152 的 top-1 score 所对应的 label；

3. 各数据集的上界

（1） PASCAL VOC

（2）COCO

（3）OpenImages V4

（4）AP 与识别 accuracy 的关联

不同类别识别精度与对应 AP 的关联

4. Error Diagnosis

（1）定义四种错误类型：

（2）对于每种错误，人为地消除后观察其提升，没有了分类方面的错误后，性能提升最明显：

5. Invariance Analysis

做各种数据处理，观察性能变化。总的来说，FCOS，RetinaNet 属于最优秀的那一档。

结论

（1）现在检测器的性能还没有离上界还有一定差距（但似乎在 IoU@0.5 时已经十分接近上界了）；

（2）检测器的瓶颈在目标识别（recognition）上；

（3）检测器缺乏鲁棒性；

（4）context 对小物体比较重要，但是影响大物体的性能（掉点）。

最后，辛苦作者们了！他们的分析工具开源链接：github.com/aliborji/Dee，但是现在似乎还是空的，后面应该会放上去。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复：深度学习，即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复：计算机视觉，即可下载计算机视觉相关17本pdf书籍，包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复：SLAM，即可下载独家SLAM相关视频课程，包含视觉SLAM、激光SLAM精品课程。

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

目标检测的性能上界讨论相关推荐

信号检测与估计理论 pdf_目标检测的性能上界讨论
加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
分类和目标检测的性能评价指标【转载】
文章目录 1. mAP (mean Avearage Precision) 2. FLOPs (浮点运算数) 3. 模型参数大小对于深度学习的网络模型,希望其速度快, 内存小, 精度高.因此需要量 ...
提升目标检测模型性能的tricks
提升目标检测模型性能的tricks bag of freebies pixel-wise调整几何畸变光照变化遮挡 Random Erase CutOut Hide-and-Seek Grid M ...
Kaggle竞赛中使用YOLOv5将目标检测的性能翻倍的心路历程
导语:本文的原作者是一位名叫Mostafa Ibrahim的外国友人,简要记录了其在参加kaggle目标检测比赛中,从建立基线到一步一步的优化过程,最终将performance提升了一倍,我觉得是一篇 ...
Hinton团队CV新作：用语言建模做目标检测，性能媲美DETR
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达来自|arxiv 编译|机器之心目标检测的「尽头」是语言建模?近 ...
图灵奖大佬Hinton团队CV新作：用语言建模做目标检测，性能媲美DETR
来源:机器之心目标检测的「尽头」是语言建模?近日,Hinton 团队提出了全新目标检测通用框架 Pix2Seq,将目标检测视作基于像素的语言建模任务,实现了媲美 Faster R-CNN 和 DET ...
语言模型“不务正业”做起目标检测，性能还比DETR、Faster R-CNN更好 | Hinton团队研究...
博雯发自凹非寺量子位报道 | 公众号 QbitAI 长期以来,CNN都是解决目标检测任务的经典方法. 就算是引入了Transformer的DETR,也是结合CNN来预测最终的检测结果的. 但现 ...
【深度学习】目标检测的性能评价指标，mAP_0.5，mAP_0.5,0.95,0.05
指标指标有检测精度和检测速度之分: mAP mAP是一个容易混淆的概念.计算mAP之前先考虑我们有的数值:图片原label的bbox.模型预测的bbox.模型预测的bbox的置信度.模型预测的bbo ...
推荐CVer的总结 | 性能最强的One-stage目标检测算法
前言 2019.07.07,CVer 曾推出一篇:大盘点 | 性能最强的目标检测算法,大家对此反映很好,还有很多同学私信要盘点 FPS 最快的目标检测算法. 要知道衡量目标检测最重要的两个性能就是精 ...
【CV】大盘点 | 性能最强的目标检测算法
前言去年7月,Amusi 曾做过一篇整理:大盘点 | 性能最强的目标检测算法,那时收集的情况是:改进后的 Cascade R-CNN 算法是截止(2019.07.07)目标检测方向性能最强的算法,其 ...

目标检测的性能上界讨论

目标检测的性能上界讨论相关推荐

最新文章

热门文章