作者丨陈泰红(已授权)

来源丨https://zhuanlan.zhihu.com/p/478461226

编辑丨极市平台

不小心在paperwithcode看到,DETR系列的论文又屠榜了,在COCO test-dev达到创纪录的63.3AP,忍不住想写一下,2020年以来DETR系列的优势和历程(如何灌水的),虽然原作者也经常上知乎,班门弄斧只为抛砖引玉,更多的思想交流吧。

1 DETR干了啥?

DETR是2020年,由Facebook AI提出,开创性将Transformer引入Detection领域,去掉传统两阶段FasterRCNN和一阶段CenterNet的代表性小技巧(面试最容易考),如RoIpooling,NMS,anchor generation等。

Transformer中attention机制能够有效建模图像中的长程关系(long range dependency),真正实现end-to-end的目标检测新范式。

DETR将目标检测看作一种set prediction问题,并提出了一个十分简洁的目标检测pipeline:backbone CNN提特征,送入Transformer做关系建模,得到的输出通过二分图匹配算法与图片上的ground truth做匹配。

2 DINO能干啥?

最新屠榜的这篇DINO,是清华大学,香港科技大学等人提出来的,比较奇怪是论文相互引用,作者也几乎是同一套班底,DN-DETR发表在CVPR2022, DAB-DETR发表在ICLR2022,idea有很多相似的地方。

论文的说法是,解决三个问题:

a. Contrastive DeNoising Training

为了改善one-to-one匹配问题,训练的时候正样本和负样本同时加了噪声。添加smaller noise的作为正样本,其他作为负样本,主要目的是去重box。

b. Mixed Query Selection

类似于经典的two-stage模型,提出mixed query selection method,有助于改善queries的初始化。

c. Look Forward Twice

类似于经典的FPN,引入非临近层的特征,更像是增加感受一下,提高小目标的表达能力。

想了解DETR系列如何刷榜COCO的,可以看看Awesome Detection Transformer

https://github.com/IDEACVR/awesome-detection-transformer

3 为什么是COCO,objects365&openimages去哪里了?

去年的一个工作是用一个backbone,训练openimages& objects365&COCO 1000+目标,说的就是这篇论文Uninet,累的要命,objects365 64w图片,openimages 150w图片,而COCO只有12万,80类检测目标。训练objects365需要32G V100 8卡机一周,而训练COCO只需要32G V100 8卡机二小时,三个分支加一起就得1个月才能训练一遍。发论文需要千百次训练,哪有那么多时间,要是我也愿意在COCO做些文章,万一过拟合也能涨点不是。

4 Detection还要解决那些问题?

1. Transformer需要对特征图上每个位置都参与计算,高分辨率图像必然导致高计算量和空间复杂度,小目标检测一般,目前主要靠多尺度增强小目标的检测能力。

2. Transformer在初始化的时候,attention weights 几乎是平均的,迭代周期长,训练速度也会慢很多。

参考:

[1]DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection.

[paper]:https://arxiv.org/abs/2203.03605

[code]:https://github.com/IDEACVR/DINO

[2]DN-DETR: Accelerate DETR Training by Introducing Query DeNoising.

[paper] :https://arxiv.org/abs/2203.01305

[code]:https://github.com/FengLi-ust/DN-DETR

[3]DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR.

[paper] :https://arxiv.org/abs/2201.12329

[code]:https://github.com/SlongLiu/DAB-DETR

[4][DETR] End-to-End Object Detection with Transformers.

[paper] :https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2005.12872

[code]:https://link.zhihu.com/?target=https%3A//github.com/facebookresearch/detr

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

DINO:目标检测benchmark COCO屠榜的正确姿势相关推荐

  1. 目标检测别再刷榜了,让流感知来展示真正的技术!ECCV 2020 最佳论文提名

    作者 | 赛文 编辑 | 陈彩娴 今天解读的论文的是不久前获得ECCV 2020 最佳论文提名奖的<Towards Streaming Perception>. 在这篇论文中,来自CMU和 ...

  2. 目标检测Workshop | COCO三连冠带你探索检测新世界

    在哲威老师与各位同学 畅聊旷视研究院AI计算组的宝藏科技 -RIFE 光流估计算法后 我们接着与大家一起探索 目标检测的现在和未来 这个暑假,跟紧旷妹的脚步 缓解你的CV焦虑感,斩获CV幸福感! 本期 ...

  3. CVPR2020 | PV-RCNN: 3D目标检测 Waymo挑战赛+KITTI榜 单模态第一算法

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨Shaoshuai Shi@知乎 来源丨https://zhuanlan.zhihu.com/p ...

  4. CVPR2020 | PV-RCNN: 3D目标检测Waymo挑战赛+KITTI榜单模态第一算法

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:知乎Shaoshuai Shi,https://zhuanl ...

  5. 深度学习目标检测数据VisDrone2019(to yolo / voc / coco)---MMDetection数据篇

    1.VisDrone2019数据集介绍 配备摄像头的无人机(或通用无人机)已被快速部署到广泛的应用领域,包括农业.航空摄影.快速交付和监视.因此,从这些平台上收集的视觉数据的自动理解要求越来越高,这使 ...

  6. ICCV 2021 Best Paper | Swin Transformer何以屠榜各大CV任务!

    作者:陀飞轮@知乎(已授权) 来源:https://zhuanlan.zhihu.com/p/360513527 编辑:智源社区 近日,Swin Transformer拿到2021 ICCV Best ...

  7. 屠榜各大CV任务!最强骨干网络:Swin Transformer来了

    原文地址:https://mp.weixin.qq.com/s/z91JuI2w1QZg-3ZxN-OmwQ paper: https://arxiv.org/abs/2103.14030 code: ...

  8. 目标检测的稀疏对抗攻击,代码已开源

    题目:Sparse Adversarial Attack to Object Detection 论文:https://arxiv.org/pdf/2012.13692v1.pdf 代码:https: ...

  9. LVC | 一种简单的小样本目标检测方法

      欢迎关注我的公众号 [极智视界],获取我的更多笔记分享   大家好,我是极智视界,本文解读一下 Label, Verify, Correct (LVC):一种简单的小样本目标检测方法.   本文的 ...

最新文章

  1. [PWA] Show Notifications when a Service Worker is Installed or Updated
  2. 揭开雷达的面纱(科普)探测能力
  3. 日志库 winston 的学习笔记 - logger.info 打印到控制台上的实现原理
  4. js 实现文件导出、文件下载
  5. @Service @Autowired
  6. SpringMVC-数据处理(三)
  7. wordpress python 采集_Python3利用Selenium3模拟wordpress博客登陆
  8. java hbase流量日志,Spark+Hbase 亿级流量分析实战(日志存储设计)
  9. 怎样调整input框背景颜色_不用花钱,自己也能制作证件照,更换背景色、排版全搞定...
  10. java 二分查找_Java二分法查找
  11. 原型工具Axure:常用效果制作(选中、淘宝网导航、轮播图、toast效果、呼出键盘、省市二级联动、步进器、订单详情案例、中继器)
  12. python狗狗年龄换算程序_1分钟检测狗狗是否老了,还有狗年龄换算表,快看你家狗的情况...
  13. python web游戏实例_Python实现小黑屋游戏的完整实例
  14. python中国社区-Python中文社区名称的统一
  15. 图像处理学习 灰度图像与二值图像
  16. Windows Sockets 函数api (微软官方文档)
  17. 高性能架构学习路线图-分布式架构演进,mybatis一对一一对多面试题
  18. GBase 8s灾备集群HAC (四) 异地灾备RSS
  19. 后一个数 减 前一个数 形成新列表
  20. 终于搞懂了,用大白话给你解释Zookeeper的选举机制,包教会

热门文章

  1. DATA GUARD架构(一)
  2. Apache和Tomcat的区别是什么?
  3. MySQL排错工具perror
  4. C++ 对象的内存布局(上)
  5. native 关键的理解
  6. 硅谷产品实战-总结:23、增长的核心在于减少用户阻力
  7. 我总结的30条架构原则
  8. 纯 Git 实现前端 CI/CD
  9. 分布式事务,阿里为什么钟爱TCC
  10. 高并发下的秒杀系统架构设计实战!