Kaiming在2022年发表了一篇Exploring Plain Vision Transformer Backbones for Object Detection。

文章的主要目的是追求一种包含较少诱导偏差的主干。原因在于:允许使用非检测数据(如ImageNet)对任务无关组件进行预训练可能提供一个优势,因为检测训练数据相对稀缺。主干可以使用大规模数据和/或自我监督进行有效训练。相比之下,检测任务特定组件的可用数据相对较少。

文章其中针对ViT作为目标检测backbone的情况设计了simple feature pyramid的金字塔结构,与传统FPN的结构对比如下图所示。


在作者设计的结构中,只使用来自backbone的最后一个特征映射,它应该具有最强的特性。我们应用一组卷积或反卷积并行产生多尺度特征地图。具体来说,使用默认的规模为1/16(步幅=16)的ViT特征映射,我们使用步幅{2,1,1/2,1/4}的卷积产生了规模{1/32,1/16,1/8,1/4}的特征映射,其中步幅分数表示反卷积。

由于卷积网络的backbone网络一直是多尺度、分层的体系结构,它影响了多尺度(如FPN)目标检测的头部设计。而与典型的ConvNets不同,原始的ViT是一个普通的、非层次结构的架构,它在整个过程中维护一个单尺度的特征图。在分层骨干中,上采样通常借助于侧连接;在普通的ViT主干中,作者根据经验发现这是没有必要的,简单的反卷积就足够了。作者假设这是因为ViT可以依赖于位置嵌入作为编码位置,也因为高维ViT补丁嵌入不一定会丢弃信息。

作者比较了两种同样构建在普通骨干网上的FPN变体。在第一种变体中,骨干网被人为地划分为多个阶段,以模仿分层骨干网的各个阶段,并应用横向和自顶向下连接。第二种变体类似于第一种,但只使用最后一种地图,而不是划分的阶段。实验证明证明这些FPN变体是不必要的,如下图所示。

为了允许信息传播,作者使用了少数(默认为4)块可以跨窗口。将一个预先训练的backbone平均分成4个区块子集(例如,对于24块ViT-L,每个子集6个区块)。作者在每个子集的最后一块执行全局自我关注。作者对框架结构/跨窗口块的位置等进行ablation experiments如下表所示。


COCO数据集上的系统级别的比较如下所示:

Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection相关推荐

  1. 论文阅读-ViTDet:Exploring Plain Vision Transformer Backbones for Object Detection

    目录 A.写在前面 B.有个工作我得说说 C.摘要拆分 D.先看看结果 E.代码细节 1.MaskRCNN部分的修改 2.数据增强部分 3.SFP的实现 F.参考文献 A.写在前面 ViTDet[1] ...

  2. 论文阅读笔记:(2021.10 CoRL) DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

    论文地址:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries | OpenReviewWe introduc ...

  3. 论文阅读笔记:(2021.06, cvpr) Monocular 3D Object Detection: An Extrinsic Parameter Free Approach

    这是一篇发表在了cvpr 2021上,能够在线估计外参的单目3D目标检测算法,借鉴了visual odometry和style transfer的方法,效果好, 速度快(~30ms), 意料之外,情理 ...

  4. 【SOD论文阅读笔记】Visual Saliency Transformer

    [SOD论文阅读笔记]Visual Saliency Transformer 一.摘要 Motivation: Method: Experimental results 二.Introduction ...

  5. 论文阅读笔记——VulDeePecker: A Deep Learning-Based System for Vulnerability Detection

    本论文相关内容 论文下载地址--Engineering Village 论文中文翻译--VulDeePecker: A Deep Learning-Based System for Vulnerabi ...

  6. 论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...

  7. 【论文阅读】Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud

    最近在看3d目标检测的文章,感觉看完东西还是要记一下自己的想法,尤其是有思考的文章. 论文题目:Point-GNN: Graph Neural Network for 3D Object Detect ...

  8. Kaiming He 论文阅读笔记一——Masked Autoencoders

    2022年Kaiming大神又发表了三篇新paper,今天我们阅读其中的Masked Autoencoders Are Scalable Vision Learners以及Masked Autoenc ...

  9. 论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection(深度鉴伪)

    一.论文信息 论文名称:Combining EfficientNet and Vision Transformers for Video Deepfake Detection 论文代码:https:/ ...

最新文章

  1. Spring Boot 实现定时任务的动态增删启停
  2. 2017视频监控趋势的一些思考
  3. [转]SQL SERVER – Find Most Expensive Queries Using DMV
  4. csrf攻击原理与解决方法_信息安全之CSRF攻击
  5. git 拉取远程分支到本地
  6. 成功更新至Win8.1 update
  7. Minio服务限制/租户
  8. opencv imread 读入图像为空
  9. 大数据分析双剑合璧:Apache Kylin 和 Superset
  10. 为什么坐飞机时会耳痛?
  11. 【Spring AOP】AOP 底层实现原理 —— 动态代理类的创建(JDK、CGlib)、工厂如何加工原始对象
  12. 在OpenWrt中使用SmartDNS加速DNS解析
  13. 关系代数表达式_英语学数学 | 英语学代数XYZ,一样很简单
  14. EVOLAB | 再度解析共识机制:POW
  15. ora00054 资源正忙
  16. 【计算机网络自顶向下方法】往返时间评估(EstimatedRTT和DevRTT)和超时间隔(TimeoutInterval )
  17. Windows Server2008 R2搭建AD(Active Directory)域控制器
  18. 关于在vue2.X中使用高德地图api获取用户定位
  19. vue 重新加载当前页面
  20. Chrome下载文件名中文乱码问题

热门文章

  1. java中的print println printf 异同
  2. mysql 参数名 下划线,MySQL表名称中的下划线会引起问题吗?
  3. 球中瑞雪 (Snow Globe) ——关于用程序实现圣诞水晶球的设想
  4. 怎么看matlab程序运行到哪了,matlab中记录程序运行时间
  5. 2023.6.1每日一题
  6. 教你调整视频时长,多个视频同时操作的视频剪辑教程
  7. 移动硬盘文件或目录损坏且无法读取,这样做就对了!
  8. LeetCode题解PDF百度网盘下载
  9. “微信”影响力报告:用数据读懂微信五大业务
  10. try catch用于处理异常抛出,以及promis的reject状态