论文标题:LocalViT: Bringing Locality to Vision Transformers

论文链接:https://arxiv.org/abs/2104.05707v1

论文代码:https://github.com/ofsoundof/LocalViT

发表时间: 2021年4月

Abstract

我们研究了如何将局部性机制引入 Vision Transformer中。Transformer 网络起源于机器翻译,特别擅长对长序列内的远程依赖关系进行建模。尽管可以通过 Transformer 的自我注意机制很好地模拟令牌嵌入之间的全局交互,但缺少用于本地区域内信息交换的本地机制。然而,位置对于图像至关重要,因为它涉及诸如线条,边缘,形状甚至对象之类的结构。

我们通过在前馈网络中引入深度卷积来为视觉变换器添加局部性。这个看似简单的解决方案的灵感来自前馈网络和反向残差块之间的比较。局部性机制的重要性通过两种方式得到验证:

1)广泛的设计选择(激活函数、层放置、扩展比)可用于合并局部性机制,所有适当的选择都可以导致在基线上的性能提升

2)相同的局部性机制成功应用于4个 Vision Transformer,显示了局部性概念的泛化。特别是对于 ImageNet-2012 分类,局部增强转换器的性能优于 DeiT-T 和 PVT-T ,2.6% 和 3.1%,而参数数量和计算量的增加可以忽略不计

Method

Input interpretation

从不同角度可视化 Transformer 中的前馈网络

(a) 输入被视为一个令牌序列

(b) 一个等效的观点是仍然将标记重新排列为 2D 点阵

Locality

由于仅对特征图应用了 1×1 卷积,因此相邻像素之间缺乏信息交互

此外,transformer 的自注意力部分仅捕获所有令牌之间的全局依赖关系

因此,transformer 块没有一种机制来模拟附近像素之间的局部依赖关系

故, (c) 将局部性机制引入转换器的最终使用网络之间的比较

“DW”表示深度卷积。 为了应对卷积操作,在(c)中通过“Seq2Img”和“Img2Seq”添加了序列和图像特征图之间的转换

Experiments

实验目标:不同 CNN 和 ViT 的图像分类结果。为四个不同的 ViT 启用了 Local 功能

实验结果:启用 Local 后的 ViT 效果均有明显提升

【CNN+VIT】LocalViT: Bringing Locality to Vision Transformers相关推荐

  1. 【文本分类】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    ·阅读摘要:   Bert是继Transformer之后的又一杰出的模型.Bert是一种预训练语言模型,是在GPT.Elmo.Transformer的基础上提出的.基于Bert的多个NLP领域任务都取 ...

  2. #Reading Paper# 【序列推荐】ICKM 2022 RETR:Recommender Transformers with Behavior Pathways

    #论文题目:[序列推荐]RETR:Recommender Transformers with Behavior Pathways(RETR:具有行为路径的推荐transformer) #论文地址:ht ...

  3. 【CNN基础】为什么要用较小的卷积核

    目录 0. 前言 1. 减少计算量 2. 引入更多非线性 3. BottleNeck结构 0. 前言 在构建卷积神经网络时,我们该挑选多大尺寸的卷积核呢?如VGG16等很多网络结构都选用了大量的3x3 ...

  4. 【CNN结构设计】无痛的涨点技巧:ACNet

    ❝ 论文链接:https://arxiv.org/pdf/1908.03930.pdf ❞ 1. 前言 不知道你是否发现了,CNN的结构创新在这两年已经变得相对很少了,同时要做出有影响力并且Solid ...

  5. 【CNN基础】常见的loss函数及其实现(一)——TV Loss

    Total Variation loss 在图像复原过程中,图像上的一点点噪声可能就会对复原的结果产生非常大的影响,因为很多复原算法都会放大噪声.这时候我们就需要在最优化问题的模型中添加一些正则项来保 ...

  6. 【文献精读】HeadFi: Bringing Intelligence to All Headphones

    Mobicom 2021文章 文章地址:https://dl.acm.org/doi/10.1145/3447993.3448624 文章目录 1 简述 2 背景 3 headfi实现基础 3.1 耦 ...

  7. 【CNN分类】基于贝叶斯优化卷积神经网络BO-CNN实现故障诊断附matlab代码

    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信.

  8. 【论文精读】CMT: Convolutional Neural Networks MeetVision Transformers

    声明 不定期更新自己精读的论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV.NLP.Data fusion.Digital Twin 论文标题: CMT: Convolution ...

  9. 【论文阅读】CoaT:Co-Scale Conv-Attentional Image Transformers

    发表年份:2021.4 发表单位:加州大学圣地亚哥分校 期刊/会议:ICCV2021 论文链接:https://arxiv.org/abs/2104.06399 代码链接:https://github ...

  10. 【论文阅读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    文章目录 论文内容 摘要(Abstract) 1. 介绍(Introduction) 2. 相关工作(略) 3. BERT 3.1 预训练BERT(Pre-training BERT) 4. 个人总结 ...

最新文章

  1. 项目管理5大过程组与10大知识领域
  2. nginx域名配置非80端口的301跳转
  3. 最近的生活 - 18年03月20日
  4. @NotNull 、@NotBlank、@NotEmpty区别
  5. Mr.J--简易的判断输入两次密码是否一致(静态)
  6. HCIE Security 常见WEB攻击 备考笔记(幕布)
  7. 分析“关于Linux内核引入的accept_local参数的一个问题”
  8. 关于支持FLV、HLS、RTSP、WS-FLV/WS-RTSP、WEBRTC、HEVC/H265的永久免费H5直播点播播放器SkeyeWebPlayer.js断线重连问题
  9. “冲击波”病毒的症状和解决方案
  10. 台式计算机主板接口识别,硬件丨当前台式机主板接口知识普及与主板结构全讲解...
  11. 根据输入的姓氏,随机获取对应的男生和女生姓名
  12. linux一键烧写应用程序工具--自制
  13. [Python]自学笔记36:论一只爬虫的自我修养3:隐藏
  14. 【Lintcode】1132. Valid Triangle Number
  15. FC炸弹人 java源码下载
  16. 计算机多媒体技术的应用,计算机多媒体技术及其应用.ppt
  17. Flow 是一个静态类型检测工具
  18. AStar寻路算法的Python实现
  19. ffmpeg录屏命令
  20. Oracle经典书籍

热门文章

  1. ReadyState的五种状态详解
  2. 解决两台路由器串联上网问题
  3. 嵌入式MRZ机读码OCR识别电子护照阅读器模块|模组安装与测试注意事项
  4. 2018-8-10-win10-uwp-如何开始写-uwp-程序
  5. 网站文章采集器-万能文章采集器
  6. 【镜像取证篇】常见镜像文件类型
  7. java实现deflate数据压缩和gzip数据压缩
  8. 这是一个没有标题的故事
  9. Deep Inductive Logic Reasoning深度感应逻辑推理模型 论文笔记
  10. 如何保证战略落地_【管理前沿】保障战略规划落地的三大措施