点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

微软的Swin Transformer去年横空出世,一举突破了Transformer做视觉任务复杂度过高的问题。

这种把Transformer“卷积网络”化的做法,也成为当前ViT研究领域的热门方向。

但现在,何恺明团队的最新论文提出了不同的观点:

在目标检测任务上,像Swin Transformer那样的复杂操作可能是没有必要的。

只用普通ViT做骨干网络,一样能在目标检测任务上拿下高分。

不对ViT引入分层设计

ViT可以说是打开了Transformer跨界处理视觉任务的新大门。

但原始ViT的问题在于,它是一个非层次化的架构。也就是说,ViT只有一个单一尺度的特征图。

于是在目标检测这样的任务中,ViT就面临着两个问题:

其一,如何在下游任务中用预训练好的骨干网络来处理好各种大小不同的物体?

其二,全局注意力机制的复杂度与输入图像尺寸的平方呈正比,在面对高分辨率图像时,处理效率低下。

以Swin Transformer为代表,给出的解决方案是向CNN学习,将分层设计重新引入骨干网络:

  • 基于分层特征图,利用特征金字塔网络(FPN)或U-Net等技术进行密集预测

  • 将自注意力计算限制在不重叠的局部窗口中,同时允许跨窗口连接,从而带来更高的效率。

而何恺明团队的这篇新论文,则试图寻找一个新的突破方向。

其核心,是放弃FPN设计。

具体而言,研究人员通过对ViT的最后一层特征图进行卷积或反卷积,得到了多尺度特征图,从而重建出一个简单的FPN。

相比于标准特征金字塔通过bottom-up、top-down和lateral connection做特征融合的方法,可以说得上是简单粗暴。

另外,在对高分辨率图像进行特征提取时,研究人员也采用了窗口注意力机制,但没有选择像Swin Transformer那样做shift。

在进行信息交互时,他们将block均分为四个部分,探索了两种策略:全局传播和卷积传播。

从表格中可以看出,采用4个卷积块(conv block)的效果是最好的。

这种新方法被命名为ViTDet

论文还提到,结合MAE方法进行预训练,效果更好。

从实验结果来看,以ViT作为骨干网络的方法,在模型较大时,展现出了比Swin、MVITv2等采用分层策略的方法更优的性能。

研究人员表示:

使用普通ViT作为骨干网络,基于MAE方法进行预训练,由此得到的ViTDet能与之前所有基于分层骨干网络的先进方法竞争。

关于作者

Yanghao Li,本硕毕业于北京大学,现在在Facebook AI研究院担任研究工程师。

Hanzi Mao,本硕毕业于华中科技大学,2020年在德州农工大学拿到博士学位,现为Facebook AI研究院高级研究科学家。

另外,除了何恺明,Ross Girshick大神也坐镇了这篇论文。

论文地址:
https://arxiv.org/abs/2203.16527

点个在看 paper不断!

何恺明团队新作:只用普通ViT,不做分层设计也能搞定目标检测相关推荐

  1. ECCV2022|何恺明团队开源ViTDet:只用普通ViT,不做分层设计也能搞定目标检测...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨张倩.小舟 来源丨机器之心 编辑丨极市平台 导读 做目标检测就 ...

  2. ECCV2022|何恺明团队开源ViTDet:只用普通ViT,不做分层设计也能搞定目标检测

    导学 该文章证明了将普通的.非分层的视觉 Transformer 作为主干网络进行目标检测的可行性. 研究概述 论文链接:https://arxiv.org/abs/2203.16527 代码(已开源 ...

  3. 解决训练不稳定性,何恺明团队新作来了!自监督学习+Transformer=MoCoV3

    本文是FAIR的恺明团队针对自监督学习+Transformer的一篇实证研究.针对Transformer在自监督学习框架中存在的训练不稳定问题,提出了一种简单而有效的技巧:Random Patch P ...

  4. MoCoV3:何恺明团队新作!解决Transformer自监督训练不稳定问题!

    文 | happy 源 | 极市平台 论文链接: https://arxiv.org/abs/2104.02057 本文是FAIR的恺明团队针对自监督学习+Transformer的一篇实证研究.针对T ...

  5. NeurIPS 2022 | 何恺明团队新作:MAE扩展到视频!学习时空表示,最优Mask比例高达90%!...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:AIWalker 2021年末,何恺明团队提出MAE在CV届引起极大轰动,自上传到arxiv之后,各 ...

  6. 何恺明团队新作!Transformer遇见Mask R-CNN哪家强?

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自丨极市平台   作者丨happy 导读 本文是FAIR的何恺明团队关于ViT在COCO检测任务上的迁移 ...

  7. 何恺明团队新作:图像分割精细度空前,边缘自带抗锯齿,算力仅需Mask R-CNN的2.6%...

    鱼羊 乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 又是何恺明超越何恺明. 其团队最新论文一出,图像分割又往前一大步: 消耗的资源变得更少,算力仅需Mask R-CNN的2.6%. 不 ...

  8. 何恺明团队新作!深度学习网络架构新视角:通过相关图表达理解神经网络

    标题&作者团队 导语:恺明大神出品,必属精品.Facebook的研究员从一个新奇的角度对神经网络的表示与设计进行探索,提出了一种新颖的相关图表示方式.它有助于对现有网络架构进行更深层次的分析与 ...

  9. 【论文解读】深度学习网络架构新视角:通过相关图表达理解神经网络(何恺明团队新作)...

    文章来源于极市平台,作者Happy 标题&作者团队 导语:恺明大神出品,必属精品.Facebook的研究员从一个新奇的角度对神经网络的表示与设计进行探索,提出了一种新颖的相关图表示方式.它有助 ...

最新文章

  1. 教程是php手工注入
  2. 如何在yaml中表示一个空字段
  3. VS2012设置断点的方法
  4. POJ 2029 Get Many Persimmon Trees
  5. Asp.Net Core Blazor之容器部署
  6. 看到喜欢的人时的心跳​
  7. Gitlab 项目上传
  8. pandas处理日期的几种常用方法
  9. JAVA操作属性文件,可进行读 写 更改
  10. 斯坦福DAWNBench最新训练排名!华为云ModelArts用时10分28秒获全球最快
  11. FastReport studio 动态加载数据集 (zhuan)
  12. Fiddler原理~知多少?
  13. SUSE12Sp3安装配置.net core 生产环境-总汇(持续更新中...)
  14. Vue3初始化需要安装的插件
  15. 文QT5下载安装教程
  16. php 小程序生成海报,轻松生成小程序分享海报
  17. 枪林弹雨显示服务器正在维修,枪林弹雨Patcher 已停止工作解决方法教程
  18. 搜狗拼音输入法居然输入不了半角的人民币符号¥¥¥¥¥¥¥¥!!!
  19. 【历史上的今天】6 月 17 日:术语“超文本”的创造者出生;Novell 首席科学家诞生;探索频道开播
  20. ZZULIOJ:1141: 进制转换

热门文章

  1. VS2013中, 无法嵌入互操作类型“……”,请改用适用的接口的解决方法
  2. 百度UEditor开发案例(JSP)
  3. 【ACM】杭电OJ 2012。
  4. 【MATLAB】数据分析之函数数值积分
  5. 16:00面试,16:08就出来了 ,问的实在是太...
  6. 什么?我要对AI礼貌?人机交互面临的道德漏洞
  7. 【官方福利】CSDN内测师限时申请,参与赢年末礼包
  8. CornerNet: 成对关键点物体检测 | CSDN博文精选
  9. 从0到1,Airbnb的深度学习实践经验总结
  10. 谷歌NIPS论文Transformer模型解读:只要Attention就够了