文章目录

  • 一、背景和动机
  • 二、方法
  • 三、效果

一、背景和动机

卷积核自注意机制是两个很有效的特征提取方法,但这两个方法通常被认为是两种不同机制的方法。

卷积方法是对局部进行特征抽取,全局特征共享,自注意力方法是全局像素的权重提取。

本文作者认为这两者有很强的底层关系,所以从大范围上来说,这两者的计算机制是类似的。

之前也有一些工作将这两者进行结合,如:

  • SENet,CBAM 等则说明了自注意机制可以对卷积网络模型起到帮助。
  • SAN,BoTNet 等使用自注意模型来代替卷积操作
  • AA-ResNet,Container 等将两者进行了结合,但两个模块分别使用了不同的 path,所以本质上还是分别使用了两种机制。

所以,两者之间的底层联系其实还没有被完全探索

基于此,作者开始了探索两者之间的关系

分解两者之后,作者认为他们都是依赖于 1x1 卷积的,所以作者提出了一个混合模型——ACMix,将两者结合在一起。

二、方法

1、将输入特征使用 1x1 卷积映射为中间特征

2、将该中间特征分别使用自注意和卷积进行处理

ACMix 的过程如图2c所示:

Stage 1:使用 3 个 1x1 卷积,将输入映射为 3 种不同的特征,并将没种特征切分为 N pieces,此时就得到了 3xN 个中间特征

Stage 2:对 Stage 1 得到的中间特征分别处理

  • self-attention path:将中间特征聚合为 N 个组,每个组中包含了 3 个 pieces,每个 pieces 都来自于不同的 1x1 卷积产生的特征。然后将这 3 个 pieces 的特征用作 q、k、v,输入多头自注意模块中。
  • convolution path:使用全连接层产生 k2k^2k2 个特征图,然后通过平移和聚合,产生和卷积相同的效果。

最后,使用如下方法聚合两者:

三、效果

【Transformer】ACMix:On the Integration of Self-Attention and Convolution相关推荐

  1. 【Transformer】ViT:An image is worth 16x16: transformers for image recognition at scale

    文章目录 一.背景和动机 二.方法 三.效果 四.Vision Transformer 学习到图像的哪些特征了 五.代码 代码链接:https://github.com/lucidrains/vit- ...

  2. 【Transformer】HRFormer:High-Resolution Transformer for Dense Prediction

    文章目录 一.背景 二.动机 三.方法 四.效果 论文链接:https://arxiv.org/abs/2110.09408 代码链接:https://github.com/HRNet/HRForme ...

  3. 【Transformer】CrossFormer:A versatile vision transformer based on cross-scale attention

    文章目录 一.背景 二.动机 三.方法 3.1 Cross-scale Embedding Layer(CEL) 3.2 Cross-former Block 3.2.1 Long Short Dis ...

  4. 【NLP】GPT:第一个引入Transformer的预训练模型

    目前两种最重要的预训练语言模型,一种是前面介绍过的BERT,另外一种就是GPT. GPT出了两个版本,GPT1.0和GPT2.0,GPT2.0相对于GPT1.0差别不大,可以认为是它的增强版.本篇介绍 ...

  5. 【自然语言处理】【多模态】UniT:基于统一Transformer的多模态多任务学习

    UniT:基于统一Transformer的多模态多任务学习 <UniT:Multimodal Multitask Learning with a Unified Transformer> ...

  6. 【NLP】XLnet:GPT和BERT的合体,博采众长,所以更强

    前面介绍过BERT,作为一种非常成功的预训练模型,取得了非常不错的成绩,那么,他还有改进的空间吗? 本文介绍BERT的改进版,XLnet.看看它用了什么方法,改进了BERT的哪些弱点. 作者& ...

  7. 【自然语言处理】【多模态】CLIP:从自然语言监督中学习可迁移视觉模型

    从自然语言监督中学习可迁移视觉模型 <Learning Transferable Visual Models From Natural Language Supervision> 论文地址 ...

  8. 【自然语言处理】【多模态】OFA:通过简单的sequence-to-sequence学习框架统一架构、任务和模态

    OFA:通过简单的sequence-to-sequence学习框架统一架构.任务和模态 <Unifying Architectures, Task, and Modalities through ...

  9. 【自然语言处理】【多模态】BLIP:面向统一视觉语言理解和生成的自举语言图像预训练

    BLIP: 面向统一视觉语言理解和生成的自举语言图像预训练 <BLIP: Bootstrapping Language-Image Pre-training for Unified Vision ...

最新文章

  1. ASP.NET 获取上一个页面的Url链接
  2. Qt利用avilib实现录屏功能_利用 dogtail 快速进行 GUI 自动化测试
  3. ×××(虚拟专用网)服务实验介绍
  4. python零基础实例-Python初学零基础也不怕,从0开始!
  5. ASP.NET Core Web API
  6. Cmake构建_设置debug与release不同名字
  7. python是一种跨平台开源免费的高级动态编程_Python是一种跨平台、开源、免费的高级动态编程语言。...
  8. 决策支持系统 (Decision-making Support System, DSS) (人机智能系统)
  9. 梯度散度旋度哈密顿量公式
  10. 方格网提取高程点lisp_基于VBA的道路横断面高程点提取方法研究
  11. Python 进阶(七): Word 基本操作
  12. 台式计算机品牌及价格,全球十大台式电脑品牌 联想拥有良好的品质和适合的价格...
  13. IDEA 控制台窗口双击最大化
  14. thinksns php7,centos 7 部署Thinksns的思路详解
  15. GooglePlay应用上架完整流程
  16. Action Game Maker 游戏开发工具介绍
  17. 管理类联考真题解析(199管综)
  18. Linux系统mmap函数映射物理地址
  19. 太极框架阴阳之门(设备管理员)激活的种种困难
  20. 视觉SLAM十四讲笔记 -- 第二讲

热门文章

  1. [20180816]校内模拟赛
  2. SQL Server-聚焦WHERE Column = @Param OR @Param IS NULL有问题?
  3. setjump, longjump学习
  4. Activity后台运行一段时间回来crash问题的分析与解决
  5. 建立SQL Server警告和给操作员发送email通知
  6. rsa实现js前台加密java后台解密
  7. Java 建模:UML 工作簿,第 1 部分
  8. Java事务处理总结【JDBC事务|JTA事务|容器事务】
  9. 球球大作战体验服找不到团战服务器6,球球大作战常见问题汇总 新版本问题解决方法...
  10. 科技核心期刊目录_中医学2019年版中国科技核心期刊目录(附影响因子)