• 链接:https://arxiv.org/abs/2203.16527

  • 作者单位:Facebook AI Research

1导读

3月30日,何恺明大神团队在ArXiv上发布了最新研究工作,该工作主要研究了一种适用于目标检测任务的非层次化结构主流骨干网络ViTDet。该研究表明ViTDet无需重新设计用于预训练的分层主干网络,只对传统的FPN模块最后一个Stage进行微调(简化处理)即可。实验结果表明:若使用MAE(恺明大神一作提出的无监督学习方法)进行预训练,则ViTDet可以与之前强具竞争力的层次化主干网络(Swin和 MViTv2)的性能相匹敌。其中ViTDet+MAE仅在ImageNet-1K上进行预训练然后直接进行迁移便可以在COCO数据集上达到61.3 AP的性能。

ps:恺明大神团队这应该是在重新挖掘ViT架构中主流骨干网络的设计原理,希望设计一种简易通用的视觉主流网络,以此来打通上下游间的任务,希望消除由于下游任务的不同而带来的约束限制,期待未来有一个视觉上下游任务都通用的主流骨干网络。

2核心创新点

  1. 这项工作中,我们主要追求一种仅使用普通、非分层主干结构的目标检测器。由于遵循ViT在追求通用特征时“减少归纳偏差”的准则下,采取通过更大的数据量,也能学到具有变换等变(translation equivariant)的特征,那应该也可以学到尺度等变(scale equivariant)的特征。因此,直接用ViT最后一层的特征,对它做简单的上采样和下采样便可以实现尺度特征变换,由此主干backbone的设计也可不受目标检测任务的约束。

  2. 我们发现在普通的 ViT 主干中,分层次结构设计并不是必需的。本文重新基于FPN结构设计了一种更简化的特征金字塔结构,它可以更好地在backbone和物体检测的neck/head中,仅通过使用微调手段就可搭建两者的桥梁。

  3. 为了有效地从高分辨率图像中提取特征,ViTDet使用简单的非重叠窗口注意力(无需移动窗口)。其中少量的跨窗口块可能是全局注意力或卷积操作,只用于传播信息。这些调整仅在微调期间进行,不会影响预训练过程。

  4. 本文提出的方法保持了将特定于检测器的设计与与任务无关的主干分离的理念。这种理念与重新设计 Transformer主干(比如PVT、 Swin、 MViTv2等)以支持多尺度层次结构的趋势形成鲜明对比。本文提出的方法检测特定的先验知识仅在微调期间引入,无需在预训练中先验地调整主干网络设计。这使得我们的检测器可以与各个研究方向任务上的ViT兼容,而且不再受分层次结构设计的约束,例如模块设计、自监督学习和尺度缩放策略。

3模块设计

本文主要目标是消除骨干网络中的分层结构约束,主要探索一种适用于目标检测的普通骨干网络。为此,我们的目标是进行最少的修改,以仅在微调期间便可使简单的主干网络适应目标检测任务。由于FPN是构建用于目标检测的特征金字塔的常见解决方案。若主干网络采用分层结构,FPN主要可用来结合早期阶段的高分辨率特征和后期阶段的更强语义特征,其中主要通过自上而下和横向连接的路径实现的(如上图 左所示)。若主干网络不采用分层次结构,那么FPN就体现不出来作用,因为主干中的所有特征图都具有相同的分辨率。本文我们对FPN结构进行简化,仅使用主干中的最后一个极具语义信息的特征图,并在最后一个特征图上并行应用一组卷积或反卷积来生成多尺度特征图。具体来说,使用标准的ViT步长stride=16,然后利用下采样卷积得到1/32,1/16的尺度特征图,利用反卷积操作得到1/8,1/4尺度特征图。这个简化的特征金字塔结构如上图(C)所示,本文采用的主干网络可作为物体检测任务中的backbone和neck的纽带。

本文还采用几个跨窗口的模块来计算Window attention,对于给定高分辨率特征图我们将其划分为常规的非重叠窗口,在每个窗口内计算自注意力。与 Swin 不同,我们不会跨层“移动”窗口。为了允许信息传播,我们使用了极少数(默认情况下,4 个)可以传播的块。我们将预训练的主干网络平均分成 4 个块子集(例如,对于 24 块 ViT-L,每个子集中有 6 个)。我们在每个子集的最后一个块中应用传播策略。我们研究两种策略:

(i)  Global propagation。在每个子集的最后一个块中执行全局自我注意。由于全局块的数量很少,内存和计算成本是可行的。这类似于MViTv2中与 FPN 联合使用的网格窗口注意力。

(ii) Convolutional propagation。作为替代方案,我们在每个子集之后添加一个额外的卷积块。卷积块是一个残差块,由一个或多个卷积和一个恒等连接操作组成。该块中的最后一层被初始化为零,因此该块的初始状态是一个标记。将块初始化为身份允许我们将其插入到预训练主干中的任何位置,而不会破坏主干的初始状态。我们的骨干适应很简单,并且使检测微调与全局自注意力预训练兼容。

4实验结果展示

A simple feature pyramid is sufficient

  • 该实验证明在利用尺度特征图信息交互时,只需在每个模块的最后阶段做处理即可,而且应用简化后的特征金字塔结构能带来更大的性能增益。

Masked Autoencoders provide strong pre-trained backbones

  • 采用MAE无监督方法进行预训练能带来更多的性能增益

Comparisons with Hierarchical Backbones

System-level comparisons with the leading results on COCO

5总结

本文的工作表明plain-backbone 检测器是一个很有前途的研究方向。这种方法可以在很大程度上保持通用主干和下游特定任务设计的独立性——这在基于 ConvNet 的研究中是普遍适用的,但在基于 Transformer 的研究中却不是。 本文主要通过提出基于ViT的骨干网络与具体任务结合的方法,将预训练与微调分离开来。例如,在自然语言处理 (NLP) 中,通用预训练 (GPT 、BERT ) 极大地推动了该领域的发展,并一直支持各种下游任务。在这项研究中,我们的普通骨干检测器受益于 MAE  中现成的预训练模型。我们希望这种方法也有助于拉近计算机视觉和 NLP 领域的距离。

欢迎加入DLer-CVPR2022论文分享交流群

大家好,这是CVPR2022论文分享群里,群里会第一时间发布CVPR2022的论文解读和交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

何恺明大神新作:一种用于目标检测的主流ViT架构,效果SOTA相关推荐

  1. 何恺明大神新作--UnNAS:无监督神经网络架构搜索

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 作者:江山如画 编辑:Cver 链接:https://zhuanlan.zhihu.com/p ...

  2. 聊聊恺明大神MAE的成功之处!

    卷友们好,我是rumor. 这两天忍不住又卷去看CV领域的论文了,主要是前些日子恺明大神的MAE太过强大,感觉不看会错过一个亿.看了之后果然不负我的期待,大道至简,思路太清晰了.太深刻了,给他投光我的 ...

  3. 【前沿】何恺明大神ICCV2017最佳论文Mask R-CNN的Keras/TensorFlow/Pytorch 代码实现

    我们提出了一个概念上简单.灵活和通用的用于目标实例分割(object instance segmentation)的框架.我们的方法能够有效地检测图像中的目标,同时还能为每个实例生成一个高质量的分割掩 ...

  4. 聊聊我眼中恺明大神MAE的成功之处

    卷友们好,我是rumor. 这两天忍不住又卷去看CV领域的论文了,主要是前些日子恺明大神的MAE太过强大,感觉不看会错过一个亿.看了之后果然不负我的期待,大道至简,思路太清晰了.太深刻了,给他投光我的 ...

  5. 何恺明大神巨作:Faster R-CNN 论文笔记

    视频链接:https://www.bilibili.com/video/BV1j5411e7aH/ 何恺明大神奠基Two-stage目标检测算法的一篇巨作. 1.看abstract时候的问题(看其他部 ...

  6. 何恺明团队新作ViTDet:用于目标检测的视觉Transformer主干网络

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:机器之心 | 编辑:张倩.小舟 做目标检测就一定需要 FPN 吗?昨天,来自 Facebook AI ...

  7. 今日重磅!恺明大神又一力作!重新思考万能的ImageNet预训练模型

    译者 | 刘畅 林椿眄 整理 | Jane 出品 | AI科技大本营 Google 最新的研究成果 BERT 的热度还没褪去,大家都还在讨论是否 ImageNet 带来的预训练模型之风真的要进入 NL ...

  8. 那些年,我们一起追过的恺明大神!

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要10分钟 Follow小博主,每天更新前沿干货 来源丨AI算法与图像处理 编辑丨极市平台 导读 何恺明是CV领域的大神,发表过需要有对后续CV ...

  9. 【目标检测】54、YOLO v7 | 又是 Alexey AB 大神!专为实时目标检测设计

    文章目录 一.背景 二.方法 2.1 结构 2.2 Trainable bag-of-freebies 三.效果 论文:YOLOv7: Trainable bag-of-freebies sets n ...

最新文章

  1. CVPR | 让合成图像更真实,上交大提出基于域验证的图像和谐化
  2. 大学生学单片机怎么入门?
  3. 博途v15做上位画面_realme真我V15评测:当科技遇上国潮 越级还能这么玩
  4. Manacher's algorithms(马拉车算法)最长回文子串
  5. Java黑皮书课后题第3章:*3.17(游戏:剪刀、石头、布)编写可以玩流行的剪刀-石头-布游戏的程序
  6. Pensando Distributed Services Architecture [Pensando 分布式服务架构] - 翻译
  7. SAP License:ERP是什么
  8. iperf 服务端发送数据_iperf使用指南
  9. ae渲染出现错误是什么问题_AE渲染输出总是损坏怎么办-解决AE渲染输出被损坏的方法 - 河东软件园...
  10. arcgis地理配准
  11. 《计算机网络》-- 第一章 概述
  12. python调用rf关键字_RobotFramework之关键字
  13. 优化USB UVC ISO传输速度
  14. 教你如何复制别人的QQ空间为自己用
  15. AI不仅要智能,更需要人文:联邦学习重构大数据风控范式
  16. python网盘下载文件_python下载文件的几种常用方法
  17. 高中会考计算机试题及答案,高中计算机会考试题及答案
  18. 防止excel单元格有效性验证因被粘贴而失效
  19. 【历史上的今天】12 月 16 日:晶体管问世;IBM 停售 OS/2;科幻小说巨匠诞生
  20. 罗升阳:那两年炼就的Android内功修养(转)

热门文章

  1. HBase解决Region Server Compact过程占用大量网络出口带宽的问题
  2. 为什么这些死脑筋们在用 VI ?
  3. 【转】ASP.NET中“字母和数字混合的验证码”详解
  4. github 视觉测量_计算机视觉八大任务全概述:PaddlePaddle工程师详解热门视觉模型...
  5. 贵港java_贵港人才网:经典java笔试题及答案分享
  6. Import-Module : 未能加载指定的模块“\Neo4j-Management.psd1”
  7. 为什么我在gpu上训练模型但是gpu利用率为0且运行速度还是很慢?
  8. matplotlib绘制多个子图
  9. 概率x^2 t F三大分布的联系
  10. windows 的系统命令介绍