Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection
Kaiming在2022年发表了一篇Exploring Plain Vision Transformer Backbones for Object Detection。
文章的主要目的是追求一种包含较少诱导偏差的主干。原因在于:允许使用非检测数据(如ImageNet)对任务无关组件进行预训练可能提供一个优势,因为检测训练数据相对稀缺。主干可以使用大规模数据和/或自我监督进行有效训练。相比之下,检测任务特定组件的可用数据相对较少。
文章其中针对ViT作为目标检测backbone的情况设计了simple feature pyramid的金字塔结构,与传统FPN的结构对比如下图所示。
在作者设计的结构中,只使用来自backbone的最后一个特征映射,它应该具有最强的特性。我们应用一组卷积或反卷积并行产生多尺度特征地图。具体来说,使用默认的规模为1/16(步幅=16)的ViT特征映射,我们使用步幅{2,1,1/2,1/4}的卷积产生了规模{1/32,1/16,1/8,1/4}的特征映射,其中步幅分数表示反卷积。
由于卷积网络的backbone网络一直是多尺度、分层的体系结构,它影响了多尺度(如FPN)目标检测的头部设计。而与典型的ConvNets不同,原始的ViT是一个普通的、非层次结构的架构,它在整个过程中维护一个单尺度的特征图。在分层骨干中,上采样通常借助于侧连接;在普通的ViT主干中,作者根据经验发现这是没有必要的,简单的反卷积就足够了。作者假设这是因为ViT可以依赖于位置嵌入作为编码位置,也因为高维ViT补丁嵌入不一定会丢弃信息。
作者比较了两种同样构建在普通骨干网上的FPN变体。在第一种变体中,骨干网被人为地划分为多个阶段,以模仿分层骨干网的各个阶段,并应用横向和自顶向下连接。第二种变体类似于第一种,但只使用最后一种地图,而不是划分的阶段。实验证明证明这些FPN变体是不必要的,如下图所示。
为了允许信息传播,作者使用了少数(默认为4)块可以跨窗口。将一个预先训练的backbone平均分成4个区块子集(例如,对于24块ViT-L,每个子集6个区块)。作者在每个子集的最后一块执行全局自我关注。作者对框架结构/跨窗口块的位置等进行ablation experiments如下表所示。
COCO数据集上的系统级别的比较如下所示:
Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection相关推荐
- 论文阅读-ViTDet:Exploring Plain Vision Transformer Backbones for Object Detection
目录 A.写在前面 B.有个工作我得说说 C.摘要拆分 D.先看看结果 E.代码细节 1.MaskRCNN部分的修改 2.数据增强部分 3.SFP的实现 F.参考文献 A.写在前面 ViTDet[1] ...
- 论文阅读笔记:(2021.10 CoRL) DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries
论文地址:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries | OpenReviewWe introduc ...
- 论文阅读笔记:(2021.06, cvpr) Monocular 3D Object Detection: An Extrinsic Parameter Free Approach
这是一篇发表在了cvpr 2021上,能够在线估计外参的单目3D目标检测算法,借鉴了visual odometry和style transfer的方法,效果好, 速度快(~30ms), 意料之外,情理 ...
- 【SOD论文阅读笔记】Visual Saliency Transformer
[SOD论文阅读笔记]Visual Saliency Transformer 一.摘要 Motivation: Method: Experimental results 二.Introduction ...
- 论文阅读笔记——VulDeePecker: A Deep Learning-Based System for Vulnerability Detection
本论文相关内容 论文下载地址--Engineering Village 论文中文翻译--VulDeePecker: A Deep Learning-Based System for Vulnerabi ...
- 论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey
本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...
- 【论文阅读】Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud
最近在看3d目标检测的文章,感觉看完东西还是要记一下自己的想法,尤其是有思考的文章. 论文题目:Point-GNN: Graph Neural Network for 3D Object Detect ...
- Kaiming He 论文阅读笔记一——Masked Autoencoders
2022年Kaiming大神又发表了三篇新paper,今天我们阅读其中的Masked Autoencoders Are Scalable Vision Learners以及Masked Autoenc ...
- 论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection(深度鉴伪)
一.论文信息 论文名称:Combining EfficientNet and Vision Transformers for Video Deepfake Detection 论文代码:https:/ ...
最新文章
- Spring Boot 实现定时任务的动态增删启停
- 2017视频监控趋势的一些思考
- [转]SQL SERVER – Find Most Expensive Queries Using DMV
- csrf攻击原理与解决方法_信息安全之CSRF攻击
- git 拉取远程分支到本地
- 成功更新至Win8.1 update
- Minio服务限制/租户
- opencv imread 读入图像为空
- 大数据分析双剑合璧:Apache Kylin 和 Superset
- 为什么坐飞机时会耳痛?
- 【Spring AOP】AOP 底层实现原理 —— 动态代理类的创建(JDK、CGlib)、工厂如何加工原始对象
- 在OpenWrt中使用SmartDNS加速DNS解析
- 关系代数表达式_英语学数学 | 英语学代数XYZ,一样很简单
- EVOLAB | 再度解析共识机制:POW
- ora00054 资源正忙
- 【计算机网络自顶向下方法】往返时间评估(EstimatedRTT和DevRTT)和超时间隔(TimeoutInterval )
- Windows Server2008 R2搭建AD(Active Directory)域控制器
- 关于在vue2.X中使用高德地图api获取用户定位
- vue 重新加载当前页面
- Chrome下载文件名中文乱码问题
热门文章
- java中的print println printf 异同
- mysql 参数名 下划线,MySQL表名称中的下划线会引起问题吗?
- 球中瑞雪 (Snow Globe) ——关于用程序实现圣诞水晶球的设想
- 怎么看matlab程序运行到哪了,matlab中记录程序运行时间
- 2023.6.1每日一题
- 教你调整视频时长,多个视频同时操作的视频剪辑教程
- 移动硬盘文件或目录损坏且无法读取,这样做就对了!
- LeetCode题解PDF百度网盘下载
- “微信”影响力报告:用数据读懂微信五大业务
- try catch用于处理异常抛出,以及promis的reject状态