作者丨轻尘一笑 @知乎

来源丨https://zhuanlan.zhihu.com/p/489839282

编辑丨CVer

导读:在CVPR 2022上,新加坡南洋理工大学和商汤研究院的科研团队提出了SAM-DETR —— 利用语义对齐匹配加速DETR检测器收敛。它仅引入一个简单的即插即用的模块,通过采样“目标显著点”的特征使object query和图像特征的语义对齐,使DETR能够在MS-COCO数据集上迅速收敛。由于此方法即插即用的特性,SAM-DETR可以轻易地与现有的其他加速收敛的方法结合,实现更好的结果。根据作者已开源的代码,在MS-COCO数据集上,仅用ResNet-50,所提出的方法能在12 epoch内达到42.8% AP的检测精度,并能在50 epoch内达到47.1% AP的检测精度。

论文名称:Accelerating DETR Convergence via Semantic-Aligned Matching

论文:https://arxiv.org/abs/2203.06883

代码(现已开源):https://github.com/ZhangGongjie/SAM-DETR

问题和挑战

DEtection TRansformer(DETR) [1] 是一个新颖的目标检测框架。相比传统的基于Faster R-CNN或YOLO的目标检测器,DETR因其无需人为设计的组件(如Anchor、Non-Maximum-Suppression、训练时正负样本的采样规则等)的优势以及更优秀的检测精度受到了很多的关注。然而,DETR的最大的一个问题是其收敛非常缓慢,因而需要长时间的训练才能达到较高的精度。在MS-COCO数据集上,Faster R-CNN一般只需要12~36个epoch的训练即可收敛,而DETR则需要训练500个epoch才能达到理想的精度。如此高昂的训练成本限制了基于DETR框架的检测器的广泛使用。

动机

DETR [1] 使用一组object query来表示图像中不同位置的潜在目标,作为Transformer decoder的输入。如上图左部所示,DETR的Transformer decoder中的Cross-Attention(Encoder-Decoder Attention)模块可以被理解为一个“匹配+信息提取”的过程:每个object query需要先匹配与之对应的区域,再从这些区域中提取特征以供后续的预测。此过程也可用公式描述为:

其中Q表示object query,F表示Transformer Encoder输出的图像特征,Q’表示包含从F中提取的特征的object query。

然而,作者观察到在Transformer decoder中的Cross-Attention模块里,object query很难精确地匹配到其所对应的区域,这使得object query无法在Cross-Attention中精准地提取其所对应区域的特征。这直接导致了DETR的训练困难。如上图右部所示,造成object query无法正确聚焦于特定区域的原因是Cross-Attention之间的多个模块(Self-Attention和FFN)对object query进行了多次映射,使得object query与图像特征F的语义未对齐,也就是说,object query和图像特征F被映射到了不同的嵌入空间(Embedding Space)内。这使得object query和图像特征F之间的点乘(Dot-Product)+ Softmax难以聚焦在特定区域。

方法介绍

基于上述观察,作者提出了Semantic-Aligned-Matching DETR(SAM-DETR)以实现快速收敛的DETR。其方法的核心思想是利用孪生网络(Siamese Network)在各类匹配任务中的优秀性能,使Cross-Attention中的object query能更容易地聚焦于特定区域。孪生网络(Siamese Network)的核心思想是利用完全相同的两个子网络使匹配的双方被映射到同一个嵌入空间内,也就是说,匹配的双方将在相同的语义下计算相似度。这降低了匹配的难度,并提升了匹配的精确度。

具体来说,如上图所示,SAM-DETR在每层Transformer Decoder Layer的Cross-Attention之前插入了一个“即插即用”的模块 – Semantics Aligner。Semantics Aligner对输入到Cross-Attention中的每一个object query从图像特征F中重采样,以确保匹配双方在语义上是对齐的。此外,不同于DETR [1] 为每一个object query建模一个对应的可学习的位置编码(Position Embedding),作者直接为每一个object query建模一个参考框(Reference Box),以限制重采样的范围。此外,其他设置与原始的DETR [1] 基本保持一致。由于所提出的SAM-DETR的核心部分是一个“即插即用”的模块,不需要对Cross-Attention进行魔改,所以SAM-DETR能够很轻易地与现有的DETR收敛解决方案进行结合,达到更好的效果。

1. 利用重采样实现语义对齐的匹配

上图所示是作者提出的Semantics Aligner的主要结构。对每个object query,Semantics Aligner根据参考框(Reference Box)用RoIAlign从图像特征中得到其对应区域的2D特征,并从中重采样(Re-Sampling)作为输入到Cross-Attention中的object query embedding。作者尝试了多种重采样方式(包括AvgPool,MaxPool等,见实验结果部分),发现使用多个搜索到的显著点(Salient Point)的特征效果最好。

2. 利用显著点特征进行重采样

对于检测任务而言,物体的显著点(Salient Point)(包括边界点、端点、强语义点等)是其识别和定位的关键。所以,作者对显著点的特征进行采样作为Semantics Aligner的输出。

作者直接对RoIAlign得到的区域特征进行卷积+MLP的操作,预测出8个显著点的坐标,再利用双线性插值(Bilinear Interpolation)从图像特征中采样相应位置的特征,并concatenate到一起作为新的object query embedding。相似地,这些显著点的坐标也用于生成对应的位置编码(Position Embedding),同样也concatenate到一起作为输出。搜索到的显著点如下图所示。这样得到的新的object query及其位置编码也可以不加改动地输入到后续的多头注意力(Multi-Head Attention)机制中进行处理。

3. 通过特征重加权利用先前的信息

通过上述操作,Semantics Aligner输出了新的object query作为Cross-Attention的输入。但先前的object query仍然包含对Cross-Attention有用的信息。为有效利用这些信息,作者用之前的object query产生重加权参数,对新的object query进行特征重加权(Feature Reweighting)。如此,先前的信息得到了有效的利用,同时也保持了输出的object query的语义仍是与图像特征对齐的。

4. 与现有方法的结合

由于SAM-DETR仅引入了一个即插即用的模块,所以它可以很轻易地与现有方法进行结合。作者以SMCA-DETR [2] 为例,证明了SAM-DETR良好的可拓展性。

实验结果

下图为SAM-DETR与DETR [1] 的可视化对比。可以发现,SAM-DETR成功搜索到有意义的显著点,且相比DETR,SAM-DETR的Cross-Attention的响应更加集中。这证明了SAM-DETR能有效地降低object query与图像特征的匹配难度。

下表是消融实验的结果,证明了语义对齐和搜索显著点特征的有效性。

最后和当前SOTA的对比,SAM-DETR能在很短的训练周期下收敛。值得注意的是,当与SMCA [2] 结合时,即使仅在MS-COCO数据集上训练12个epoch,其检测精度也超过了Faster R-CNN。

值得一提的是,在作者开源的代码中,还额外提供了SAM-DETR的多尺度版本和已训练好的模型。在MS-COCO数据集,12-epoch下检测精度可达42.8% AP,50-epoch下检测精度可达47.1% AP。

结语

本文介绍了SAM-DETR检测器以加速DETR的收敛。SAM-DETR 的核心是一个简单的即插即用模块,它能在语义上对齐object query和图像特征,以促进它们之间的匹配。此模块还显式搜索显著点的特征以进行语义对齐匹配。SAM-DETR 可以很容易地与现有的DETR收敛解决方案集成,以进一步提高性能。即使仅训练12个epoch,作者所提出的方法也可在MS-COCO数据集上超越Faster R-CNN的检测精度。

References

[1] Carion, Nicolas, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. "End-to-end object detection with Transformers." In European Conference on Computer Vision (ECCV), pp. 213-229. 2020.

[2] Gao, Peng, Minghang Zheng, Xiaogang Wang, Jifeng Dai, and Hongsheng Li. "Fast convergence of DETR with spatially modulated co-attention." In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 3621-3630. 2021.

本文仅做学术分享,如有侵权,请联系删文。

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~

CVPR 2022 | 即插即用!南洋理工商汤开源SAM-DETR: 利用语义对齐匹配实现快速收敛的DETR...相关推荐

  1. 重磅!清华商汤开源CVPR2018超高精度人脸对齐算法LAB

    清华&商汤开源超高精度人脸对齐算法LAB 同时发布含10000张人脸的多属性人脸关键点数据集 该算法来自CVPR2018论文<Look at Boundary: A Boundary-A ...

  2. 3d人脸对齐代码matlab,重磅!清华商汤开源CVPR2018超高精度人脸对齐算法LAB

    清华&商汤开源超高精度人脸对齐算法LAB 同时发布含10000张人脸的多属性人脸关键点数据集 该算法来自CVPR2018论文<Look at Boundary: A Boundary-A ...

  3. CVPR 2022 | 商汤/上交/港中文提出U2PL:使用不可靠伪标签的半监督语义分割

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:Pascal  |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhih ...

  4. CVPR 2022|U2PL:使用不可靠伪标签的半监督语义分割

    本文转自商汤学术 导读 半监督任务的关键在于充分利用无标签数据,商汤科技联合上海交通大学.香港中文大学,基于「 Every Pixel Matters」的理念,有效利用了包括不可靠样本在内的全部无标签 ...

  5. CVPR 2022: 图像分割论文大盘点

    1 前言 本文盘点了CVPR 2022 目前为止的2D图像分割相关论文,包含语义分割和实例分割,总计22篇论文,值得学习. 2 语义分割 2.1 强监督 (1) ReSTR: Convolution- ...

  6. CVPR 2022 最新106篇论文分方向整理|包含目标检测、动作识别、图像处理等32个方向

    CVPR 2022 已经放榜,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%.在CVPR2022正式会议召开前,为了让大家更快地获取和学习到计算机视觉前沿技术,极市对CVPR022 ...

  7. 一举打败16个同类模型,视频超分比赛冠军算法入选CVPR 2022,来自商汤南洋理工大学...

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩, ...

  8. CVPR 2022 | 华南理工提出VISTA:双跨视角空间注意力机制实现3D目标检测SOTA,即插即用...

    来源:机器之心 本文提出了 VISTA,一种新颖的即插即用多视角融合策略,用于准确的 3D 对象检测.为了使 VISTA 能够关注特定目标而不是一般点,研究者提出限制学习的注意力权重的方差.将分类和回 ...

  9. CVPR 2022 Oral | 清华开源FineDiving:细粒度动作质量评估数据集

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:荷塘小八戒 |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu. ...

  10. CVPR 2022|处理速度仅用0.2秒!港科大腾讯AI lab开源基于GAN反演的高保真图像编辑算法...

    作者丨Tengfei Wang 来源丨港科大.腾讯 AI Lab 编辑丨极市平台 论文:https://arxiv.org/abs/2109.06590 代码:https://github.com/T ...

最新文章

  1. HttpClient4.4 登录知乎(详细过程)
  2. 2021China SAFe Day中国规模化敏捷会
  3. Java锁机制学习笔记——synchronized 和 Lock
  4. android sqlite 自增长序列号归0
  5. 超级列表框排序mysql_超级列表框List Ctrl
  6. 双色球得一些基础分析[sql]
  7. hihocder 1181 : 欧拉路·二
  8. boost::allocate_shared相关的测试程序
  9. win10安装net3.5不成功出现 0x8024402c_在移动硬盘中安装win10和macos双系统
  10. web前端常用知识点
  11. c# 多线程实现ping 多线程控制控件
  12. 功能机也不放过,谷歌或为 Chrome 提供非触控模式
  13. Android开发笔记(九十六)集合动画与属性动画
  14. 深入理解C语言指针的奥秘-4
  15. 汇编语言将正负数复制到不同的数组
  16. COPY 一种接近最优的导航网格生成算法以及基于导航网格的寻路算法
  17. 猛文:关于中国歼20气动性能…
  18. css and HTMLpicture knowledge
  19. SDOI2018 一轮培训划水祭
  20. C++大作业 商品库存管理系统

热门文章

  1. 856. Score of Parentheses
  2. 图解clientWidth,offsetWidth,scrollWidth,scrollTop
  3. 0-1之间的随机数 C/C++
  4. 【LeetCode】59. Spiral Matrix II
  5. CSS中怎么让DIV水平居中
  6. How do I filtered TextBox with an Integer Data Type
  7. Linux里如何查找文件内容
  8. SqlServer复制表结构:从另一张表中获取某些字段和类型并添加到一张已经存在的表中...
  9. 查看被系统或程序打开文件工具 OpenedFilesView
  10. 正确使用 realloc()