点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

极市导读

本文提出一种新颖的动态头框架,它采用注意力机制将不同的目标检测头进行统一。COCO数据集上实验验证了所提方案的有效性与高效性。以ResNeXt-101-DCN为骨干,将目标检测的性能提升到了54.0AP。

paper: https://arxiv.org/abs/2106.08322

code: https://github.com/microsoft/DynamicHead

Abstract

目标检测中定位与分类合并的复杂性衍生出了各式各样的算法,然而这些方法从不同的角度出发进行目标检测性能的提升,难以从一个统一的角度进行分析度量。

本文提出一种新颖的动态头框架,它采用注意力机制将不同的目标检测头进行统一。通过特征层次之间的注意力机制用于尺度感知,空间位置之间的注意力机制用于空间感知,输出通道内的注意力机制用于任务感知,该方法可以在不增加计算量的情况显著提升模型目标检测头的表达能力。

COCO数据集上实验验证了所提方案的有效性与高效性。以ResNeXt-101-DCN为骨干,我们将目标检测的性能提升到了54.0AP,取得了一个新的高度;更进一步,采用最新的Transformer骨干与额外数据,我们可以将COCO的指标推到一个新记录:60.6AP

Method

为将尺度感知、空间位置感知以及任务感知同时嵌入一个目标检测头中,我们需要了解已有方法对目标检测头的改进。

给定以金字塔形式拼接的L级特征,我们可以通过上采样/下采样将连续特征朝中间级特征缩放。尺度重调整的特征金字塔可以描述为4D张量。我们进一步定义并将上述特征reshape为3D张量。基于该表达,我们将对每个张量维度的作用进行探索:

  • 目标尺度的差异对应了不同尺度的特征,改进不同级的表达能力可以有效提升目标检测器的尺度感知能力;

  • 不相似目标形状的不同几何变换对应了特征的不同空间位置,改进不同空间位置的表达能力可以有效提升目标检测器的空间位置感知能力;

  • 目标表达与任务的多样性对应了不同通道特征,改进不同通道的表达能力可以有效提升目标检测的任务感知能力。

我们发现:上述方向可以统一到一个高效注意力学习问题中。本文也是首个尝试采用多注意力将三个维度组合构建统一头并最大化其性能的工作。

Dynamic Head: Unifying with Attentions

给定特征张量,自注意力的广义形式可以描述如下:

一种最朴素的方案是采用全连接层,但是在所有维度上直接学习注意力函数会导致过多的计算量,且由于高维度问题而 不切实际。

相反,我们将注意力函数转换为三个序列注意力,每个注意力仅聚焦一个维度:

Scale-aware Attention  我们首先引入尺度感知注意力基于其语义重要性对不同尺度特征进行融合:

其中,为线性函数,采用卷积近似,为hard-sigmoid激活函数。

Spatial-aware Attention  我们接下来引入另一个空间位置感知注意力模块以聚焦不同空间位置的判别能力。考虑到S的高纬度,我们对其进行解耦:首先采用形变卷积对注意力学习稀疏化,然后进行特征跨尺度集成:

其中,K为稀疏采样位置数。其他参数信息与形变卷积中的参数信息类似,故略过。

Task-aware Attention  为促进联合学习与目标表达能力的泛化性,我们设计了一种任务感知注意力。它可以动态开关特征通道以辅助不同任务:

其中,为超参数,用于控制激活阈值,而类似于DyReLU。

最后,将上述注意力机制以序列方式实施,我们可以堆叠实施多次。下图给出了DynamicHead的配置示意图。

总而言之,基于所提DynamicHead的目标检测框架图见下图。任意类型的骨干网络均可用于提取特征金字塔并进一步缩放到统一尺度构建3D张量,然后将其作为DynamicHead的输入。接下来,多个包含尺度感知、空间位置感知以及任务感知的DyHead模块串行堆叠。动态头的输出可以用于不同的任务,比如分类、中心/方框回归等等。

以上图底部为例,我们可以看到不同类型注意力的输出。可以看到:

  • 源自骨干的初始特征由于域差异存在噪声;

  • 经过尺度感知注意力模块处理后,特征就对不同尺度的目标变的更敏感;

  • 经过空间位置感知注意力模块处理后,特征变的更稀疏,聚焦于不同位置的前景目标;

  • 经过任务感知注意力模块处理后,特征会基于不同下游任务形成不同的激活。

以上可视化结果很好的验证了每个注意力模块的有效性。

Generalizing to Existing Detectors

接下来,我们将验证如何将所提DynamicHead集成到现有检测器中以提升其性能。

One-stage Detector 单阶段检测器通过在特征图上稠密采样方式预测目标位置,这种方式简化了目标检测器的设计。经典的单阶段检测器(如RetinaNet)包含一个骨干网络提取稠密特征、多个任务相关子网络处理不同任务。正如DyReLU一文所提到:目标分类子网络的行为与回归子网络的差异甚大。不同于这种经典方案,我们仅在骨干之后附加一个统一分支,受益多注意力机制,它可以同时处理多个任务。通过这种方式,架构可以进一步简化,同时提升了效率。将DyHead与单阶段检测器集成的方式可参考见下图b。

Two-stage Detector 两阶段检测器采用Region Proposal与ROI-pooling层从特征金字塔中提取中间表达。为耦合该特性,我们首先在ROI-pooling添加实施尺度感知注意力与空间位置感知注意力,然后采用任务感知注意力替换原始的全连接层。具体实现方式可参见上图c。

Experiments

我们在MS-COCO数据集上对所提方案的有效性进行了验证,检测器的架构以Mask R-CNN为基准,动态头的训练则参考了ATSS框架。

Main Results

我们先来看一下总体结果,见上面两个表,从中可以看到:

  • 所提方案以较大的优势超越了其他已有方案;

  • 相比同配置的最佳检测器BorderDet,采用ResNet101骨干时所提方案取得了1.1AP指标提升;采用ResNeXt-x4d-1-1骨干时取得了1.2AP指标提升;

  • 相比仅采用多尺度寻览的方法,所提方案仅需2x训练即可取得新的SOTA指标 52.3AP;

  • 相比EfficientDet与SpineNet,所提方法训练时间更少(仅1/20);

  • 当同时采用多尺度训练与测试时,所提方法取得了新的SOTA指标54.0AP,以1.3AP指标优于此前最佳。

Still Improve

我们在前述结果的基础上计息提升模型的性能,但引入更优异的Transformer骨干、额外的数据后,所提方案取得了新的记录:60.6AP

Ablation Study

接下来,我们将通过一系列实验验证所提DyHead的有效性与高效性。

上表对比了不同注意力机制的有效性,可以看到:

  • 在baseline基础上单独添加分别可以取得0.9AP、2.4AP以及1.3AP指标提升。空间位置感知注意力模块可以取得最大收益。

  • 当同时使用L与S时,模型性能提升可以达到2.9AP;

  • 当同时使用三者时,模型性能提升可以进一步提升到3.6AP。

上图对比了注意力学习的有效性,可以看到:尺度感知注意力模块倾向于将更高分辨率特征向更低分辨率特征调节(见Level5),将更低分辨率特征向更高分辨率调节以平滑不同尺度特征(见Level1)见的尺度混淆

上表对比了不同深度头的效率对比,可以看到:

  • 仅需两个模块,所提方案即可取得比baseline更佳的性能;

  • 当采用6个模块时,模型性能提升达到最大,而计算量提升相比骨干可以忽略。

上表对比了不同将所提DyHead集成到不同检测器时的性能对比,可以看到:所提DyHead可以一致性提升所有主流目标检测器性能:1.2~3.2AP

本文亮点总结

1.COCO数据集上实验验证了所提方案的有效性与高效性。以ResNeXt-101-DCN为骨干,我们将目标检测的性能提升到了54.0AP,取得了一个新的高度;更进一步,采用最新的Transformer骨干与额外数据,我们可以将COCO的指标推到一个新记录:60.6AP。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

COCO新记录:60.6AP!微软提出采用注意力机制进行检测头统一的Dynamic Head相关推荐

  1. 新研究起底人类和机器注意力机制的区别|一周AI最火论文

    大数据文摘专栏作品 作者:Christopher Dossman 编译:笪洁琼.conrad.云舟 呜啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly栏目又和大家见面啦! AI Schol ...

  2. CVPR 2022 | 华南理工提出VISTA:双跨视角空间注意力机制实现3D目标检测SOTA,即插即用...

    来源:机器之心 本文提出了 VISTA,一种新颖的即插即用多视角融合策略,用于准确的 3D 对象检测.为了使 VISTA 能够关注特定目标而不是一般点,研究者提出限制学习的注意力权重的方差.将分类和回 ...

  3. CVPR 2022 | 华南理工提出VISTA:双跨视角空间注意力机制实现3D目标检测SOTA

    ©作者 | 邓圣衡.梁智灏.孙林.贾奎 来源 | 机器之心 本文提出了 VISTA,一种新颖的即插即用多视角融合策略,用于准确的 3D 对象检测.为了使 VISTA 能够关注特定目标而不是一般点,研究 ...

  4. TIP | 自动化所谭铁牛院士团队提出用带注意力机制的图神经网络GARN,多个数据集上SOTA!

    TIP | 自动化所谭铁牛院士团队提出用带注意力机制的图神经网络GARN,多个数据集上SOTA! [写在前面] 图像-文本匹配旨在衡量图像和文本描述之间的相似性,最近取得了很大进展.这种跨模态匹配任务 ...

  5. NeurIPS2021 VALUE:快来刷榜吧!微软提出视频多模态新基准,同时含检索、caption、QA等多个任务!...

    关注公众号,发现CV技术之美 文中提出 NeurIPS 2021 论文『VALUE: A Multi-Task Benchmark for Video-and-Language Understandi ...

  6. 【经典回顾】静态结构不能满足模型部署性能需求?微软提出动态卷积结构,Top-1准确率提高2.9%!(附复现代码)...

    关注公众号,发现CV技术之美 本文分享论文『Dynamic Convolution: Attention over Convolution Kernels』,静态的结构依旧不能满足性能需求了?微软提出 ...

  7. CVPR2021 Oral《Seeing Out of the Box》北科大中山大学微软提出端到端视觉语言表征预训练方法...

    本文分享一篇 CVPR 2021 Oral 论文,由北科大&中山大学&微软提出端到端视觉语言表征学习的预训练方法.『Seeing Out of the Box: End-to-End ...

  8. 论文笔记:InternImage—基于可变形卷积的视觉大模型,超越ViT视觉大模型,COCO 新纪录 64.5 mAP!

    目录 文章信息 写在前面 Background & Motivation Method DCN V2 DCN V3 模型架构 Experiment 分类 检测 文章信息 Title:Inter ...

  9. 2 分 31 秒,腾讯云创造 128 卡训练 ImageNet 新记录

    来源 | 腾讯云 编辑 | 白峰 转自 | 新智元 8月21日,腾讯云正式对外宣布成功创造了128卡训练ImageNet业界新记录,以2分31秒的成绩一举刷新了这个领域的世界记录. 刷新世界纪录:2分 ...

最新文章

  1. 独家 | 一文盘点AutoML 库
  2. THINKPHP_关联模型_HAS_ONE/HAS/MANY/BELONGS_TO
  3. VS2010 连接SQLSERVER数据库步骤
  4. android 监听手机开机
  5. envi插件大津法_IDL打开科学数据集
  6. 【Java线程】深入理解Volatile关键字和使用
  7. Java8新特性(Integer,Long,Byte,Short)
  8. js读写json文件
  9. 链接Linux工具(SecureCRT)
  10. 查看本地计算机ip命令,查看你本机的IP信息的命令ipconfig详解【图】
  11. ips细胞最新进展:利用iPS细胞成功培养出抑制宫颈癌繁殖的免疫杀伤T细胞,有望实现宫颈癌的免疫细胞疗法
  12. hyperlink的学习
  13. 工作 10 年后,我突然决定读硕士了!
  14. Excel根据单元格内容分类并插入空行的方法
  15. 美国将派大量自动昆虫机器人到火星执行任务
  16. 真菌多样性分析ITS序列
  17. 5G NR Polar码简介(一)
  18. android扫雷需求分析,Android扫雷游戏实现
  19. pycharm调试技巧:添加数字书签bookmark
  20. linux使用df命令

热门文章

  1. 算法笔记_157:算法提高 c++_ch02_01(Java)
  2. Odoo小数精度及货币精度详解
  3. iOS下bound,center和frame
  4. winform - FixedDialog
  5. Windows Server 2003 R2實現域內共享打印機智能部署
  6. 亿级流量架构实战之秒杀设计
  7. 全民K歌内容挖掘与召回
  8. 数字化转型案例:源自阿里,中台设计流程及方法
  9. 某程序员吐槽:面试八股文害死人!公司新来的应届生满口框架,根本不会写代码!网友:八股文只能招到背题家!...
  10. 全民捡破烂,转转和闲鱼谁能胜出?