论文阅读：MPViT : Multi-Path Vision Transformer for Dense Prediction

最先进的ViT使用单尺度的patch embedding和单路径transformer编码器

MPViT通过重叠卷积将相同大小的特征和不同大小的patch的同时嵌入。

Ø将多尺度patch嵌入，通过重叠卷积将其拉平成为不同尺寸的token，在适当调整卷积的填充/步幅后产生具有相同序列长度的特征。

Ø然后，来自不同尺度的token被通过多条路径独立并行送到Transformer编码器中，执行全局自我关注。

Ø然后聚合生成的特征，从而在相同的特征级别上实现精细和粗略的特征表示。

由于我们的目标是探索用于密集预测的强大骨干网络，因此我们构建了一个多级体系结构。具体来说，构建了一个四阶段特征层次结构，用于生成不同尺度的特征图。

它们输出密集预测任务四个阶段中，作者在每个阶段对所提出的Multi-scale Patch Embedding(MS-PatchEmbed)和Multi-path Transformer(MP-Transformer)块进行堆叠。

由于多级体系结构具有更高分辨率的特点，因此它本质上需要更多的计算。因此，由于其线性复杂性，我们对整个模型使用了包括Factorzed Self attention的Transformer编码器。

思考：如何应用/改进

论文阅读：MPViT : Multi-Path Vision Transformer for Dense Prediction相关推荐

【论文阅读】MPViT : Multi-Path Vision Transformer for Dense Prediction
发表年份:2021.12 发表单位:Electronics and Telecommunications Research Institute (ETRI), South Korea 期刊/会议:CV ...
Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection
Kaiming在2022年发表了一篇Exploring Plain Vision Transformer Backbones for Object Detection. 文章的主要目的是追求一种包含较 ...
【Transformer】DPT: Vision Transformer for Dense Prediction
文章目录一.背景和动机二.方法 2.1 Transformer encoder 2.2 Convolutional decoder 2.3 处理不同输入大小三.效果 3.1 单目深度估计 3.2 ...
【SOD论文阅读笔记】Visual Saliency Transformer
[SOD论文阅读笔记]Visual Saliency Transformer 一.摘要 Motivation: Method: Experimental results 二.Introduction ...
论文阅读 PCT：Point Cloud Transformer
论文阅读 PCT:Point Cloud Transformer PCT 介绍 Input Embedding native 版本 enhanced 版本 Attention PCT 介绍 PCT是基 ...
[论文阅读] Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet
论文地址:https://arxiv.org/abs/2101.11986 代码:https://github.com/yitu-opensource/T2T-ViT 发表于:ICCV 2021(Ar ...
【读点论文】A Survey on Vision Transformer,2022年华为诺亚最新综述研究，从发展到任务，整体到局部。ViT有研究价值在于有很多问题还没有解决，真理是阶段性的产物
A Survey on Vision Transformer Abstract transformer最早应用于自然语言处理领域,是一种主要基于自注意机制的深度神经网络.由于其强大的表示能力,研究人员 ...
【自监督论文阅读笔记】Integrally Pre-Trained Transformer Pyramid Networks （2022）
Abstract 在本文中,我们提出了一个基于掩码图像建模 (MIM) 的整体预训练框架.我们提倡联合预训练 backbone 和 neck,使 MIM 和下游识别任务之间的迁移差距最小.我们做出了 ...
论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection（深度鉴伪）
一.论文信息论文名称:Combining EfficientNet and Vision Transformers for Video Deepfake Detection 论文代码:https:/ ...
【论文阅读】ICLR 2022: Scene Transformer: A unified architecture for predicting future trajectories of ...
ICLR 2022: Scene Transformer: A unified architecture for predicting future trajectories of multiple ...

论文阅读：MPViT : Multi-Path Vision Transformer for Dense Prediction

论文阅读：MPViT : Multi-Path Vision Transformer for Dense Prediction相关推荐

最新文章

热门文章