Abstract

我们研究了如何将局部性机制引入 Vision Transformer中。Transformer 网络起源于机器翻译，特别擅长对长序列内的远程依赖关系进行建模。尽管可以通过 Transformer 的自我注意机制很好地模拟令牌嵌入之间的全局交互，但缺少用于本地区域内信息交换的本地机制。然而，位置对于图像至关重要，因为它涉及诸如线条，边缘，形状甚至对象之类的结构。

我们通过在前馈网络中引入深度卷积来为视觉变换器添加局部性。这个看似简单的解决方案的灵感来自前馈网络和反向残差块之间的比较。局部性机制的重要性通过两种方式得到验证：

1）广泛的设计选择（激活函数、层放置、扩展比）可用于合并局部性机制，所有适当的选择都可以导致在基线上的性能提升

2）相同的局部性机制成功应用于4个 Vision Transformer，显示了局部性概念的泛化。特别是对于 ImageNet-2012 分类，局部增强转换器的性能优于 DeiT-T 和 PVT-T ，2.6% 和 3.1%，而参数数量和计算量的增加可以忽略不计

Method

Input interpretation

从不同角度可视化 Transformer 中的前馈网络

(a) 输入被视为一个令牌序列

(b) 一个等效的观点是仍然将标记重新排列为 2D 点阵

Locality

由于仅对特征图应用了 1×1 卷积，因此相邻像素之间缺乏信息交互

此外，transformer 的自注意力部分仅捕获所有令牌之间的全局依赖关系

因此，transformer 块没有一种机制来模拟附近像素之间的局部依赖关系

故， (c) 将局部性机制引入转换器的最终使用网络之间的比较

“DW”表示深度卷积。为了应对卷积操作，在（c）中通过“Seq2Img”和“Img2Seq”添加了序列和图像特征图之间的转换

Experiments

实验目标：不同 CNN 和 ViT 的图像分类结果。为四个不同的 ViT 启用了 Local 功能

实验结果：启用 Local 后的 ViT 效果均有明显提升

【CNN+VIT】LocalViT: Bringing Locality to Vision Transformers相关推荐

【文本分类】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
·阅读摘要: Bert是继Transformer之后的又一杰出的模型.Bert是一种预训练语言模型,是在GPT.Elmo.Transformer的基础上提出的.基于Bert的多个NLP领域任务都取 ...
#Reading Paper# 【序列推荐】ICKM 2022 RETR：Recommender Transformers with Behavior Pathways
#论文题目:[序列推荐]RETR:Recommender Transformers with Behavior Pathways(RETR:具有行为路径的推荐transformer) #论文地址:ht ...
【CNN基础】为什么要用较小的卷积核
目录 0. 前言 1. 减少计算量 2. 引入更多非线性 3. BottleNeck结构 0. 前言在构建卷积神经网络时,我们该挑选多大尺寸的卷积核呢?如VGG16等很多网络结构都选用了大量的3x3 ...
【CNN结构设计】无痛的涨点技巧：ACNet
❝ 论文链接:https://arxiv.org/pdf/1908.03930.pdf ❞ 1. 前言不知道你是否发现了,CNN的结构创新在这两年已经变得相对很少了,同时要做出有影响力并且Solid ...
【CNN基础】常见的loss函数及其实现(一)——TV Loss
Total Variation loss 在图像复原过程中,图像上的一点点噪声可能就会对复原的结果产生非常大的影响,因为很多复原算法都会放大噪声.这时候我们就需要在最优化问题的模型中添加一些正则项来保 ...
【文献精读】HeadFi: Bringing Intelligence to All Headphones
Mobicom 2021文章文章地址:https://dl.acm.org/doi/10.1145/3447993.3448624 文章目录 1 简述 2 背景 3 headfi实现基础 3.1 耦 ...
【CNN分类】基于贝叶斯优化卷积神经网络BO-CNN实现故障诊断附matlab代码
✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信.
【论文精读】CMT: Convolutional Neural Networks MeetVision Transformers
声明不定期更新自己精读的论文,通俗易懂,初级小白也可以理解涉及范围:深度学习方向,包括 CV.NLP.Data fusion.Digital Twin 论文标题: CMT: Convolution ...
【论文阅读】CoaT：Co-Scale Conv-Attentional Image Transformers
发表年份:2021.4 发表单位:加州大学圣地亚哥分校期刊/会议:ICCV2021 论文链接:https://arxiv.org/abs/2104.06399 代码链接:https://github ...
【论文阅读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
文章目录论文内容摘要(Abstract) 1. 介绍(Introduction) 2. 相关工作(略) 3. BERT 3.1 预训练BERT(Pre-training BERT) 4. 个人总结 ...

【CNN+VIT】LocalViT: Bringing Locality to Vision Transformers