DINO：目标检测benchmark COCO屠榜的正确姿势

作者丨陈泰红（已授权）

来源丨https://zhuanlan.zhihu.com/p/478461226

编辑丨极市平台

不小心在paperwithcode看到，DETR系列的论文又屠榜了，在COCO test-dev达到创纪录的63.3AP，忍不住想写一下，2020年以来DETR系列的优势和历程（如何灌水的）,虽然原作者也经常上知乎，班门弄斧只为抛砖引玉，更多的思想交流吧。

1 DETR干了啥？

DETR是2020年，由Facebook AI提出，开创性将Transformer引入Detection领域，去掉传统两阶段FasterRCNN和一阶段CenterNet的代表性小技巧（面试最容易考），如RoIpooling，NMS，anchor generation等。

Transformer中attention机制能够有效建模图像中的长程关系（long range dependency），真正实现end-to-end的目标检测新范式。

DETR将目标检测看作一种set prediction问题，并提出了一个十分简洁的目标检测pipeline：backbone CNN提特征，送入Transformer做关系建模，得到的输出通过二分图匹配算法与图片上的ground truth做匹配。

2 DINO能干啥？

最新屠榜的这篇DINO，是清华大学，香港科技大学等人提出来的，比较奇怪是论文相互引用，作者也几乎是同一套班底，DN-DETR发表在CVPR2022, DAB-DETR发表在ICLR2022,idea有很多相似的地方。

论文的说法是，解决三个问题:

a. Contrastive DeNoising Training

为了改善one-to-one匹配问题，训练的时候正样本和负样本同时加了噪声。添加smaller noise的作为正样本，其他作为负样本，主要目的是去重box。

b. Mixed Query Selection

类似于经典的two-stage模型，提出mixed query selection method，有助于改善queries的初始化。

c. Look Forward Twice

类似于经典的FPN，引入非临近层的特征，更像是增加感受一下，提高小目标的表达能力。

想了解DETR系列如何刷榜COCO的，可以看看Awesome Detection Transformer

https://github.com/IDEACVR/awesome-detection-transformer

3 为什么是COCO，objects365&openimages去哪里了？

去年的一个工作是用一个backbone，训练openimages& objects365&COCO 1000+目标，说的就是这篇论文Uninet，累的要命，objects365 64w图片，openimages 150w图片，而COCO只有12万，80类检测目标。训练objects365需要32G V100 8卡机一周，而训练COCO只需要32G V100 8卡机二小时，三个分支加一起就得1个月才能训练一遍。发论文需要千百次训练，哪有那么多时间，要是我也愿意在COCO做些文章，万一过拟合也能涨点不是。

4 Detection还要解决那些问题？

1. Transformer需要对特征图上每个位置都参与计算，高分辨率图像必然导致高计算量和空间复杂度，小目标检测一般，目前主要靠多尺度增强小目标的检测能力。

2. Transformer在初始化的时候，attention weights 几乎是平均的，迭代周期长，训练速度也会慢很多。

参考：

[1]DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection.

[paper]：https://arxiv.org/abs/2203.03605

[code]：https://github.com/IDEACVR/DINO

[2]DN-DETR: Accelerate DETR Training by Introducing Query DeNoising.

[paper] ：https://arxiv.org/abs/2203.01305

[code]：https://github.com/FengLi-ust/DN-DETR

[3]DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR.

[paper] ：https://arxiv.org/abs/2201.12329

[code]：https://github.com/SlongLiu/DAB-DETR

[4][DETR] End-to-End Object Detection with Transformers.

[paper] ：https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2005.12872

[code]：https://link.zhihu.com/?target=https%3A//github.com/facebookresearch/detr

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~