声明

不定期更新自己精读的论文,通俗易懂,初级小白也可以理解

涉及范围:深度学习方向,包括 CV、NLP、Data fusion、Digital Twin

论文标题:

CMT: Convolutional Neural Networks MeetVision Transformers

CMT:卷积神经网络与视觉变压器

论文链接:https://arxiv.org/abs/2107.06263

论文代码:

发表时间:2021年7月

创新点

1、提出了一种新颖的 CMT(CNNs meet transformers)架构用于视觉识别

2、 提出了局部感知单元(LPU)和反向残差前馈网络(IRFFN)

Abstract

Vision Transformer 已成功应用于图像识别任务,因为它们能够捕获图像中的远程依赖关系。然而,Transformer 和现有的卷积神经网络 (CNN) 在性能和计算成本上仍然存在差距。在本文中,我们的目标是解决这个问题并开发一个网络,该网络不仅可以胜过传统的 Transformer,还可以胜过高性能卷积模型

我们提出了一种新的基于 Transformer 的混合网络,利用变压器来捕获远程依赖关系,并利用 CNN 对局部特征进行建模。此外,我们对其进行缩放以获得一系列模型,称为 CMT,与以前的基于卷积和 Transformer 的模型相比,获得了更好的准确性和效率。

特别是,我们的 CMT-S 在 ImageNet 上实现了 83.5% 的 top-1 准确率,而在 FLOP 上分别比现有的 DeiT 和 EfficientNet 小 14 倍和 2 倍。所提出的 CMT-S 在 CIFAR10 (99.2%)、CIFAR100 (91.7%)、Flowers (98.7%) 和其他具有挑战性的视觉数据集如 COCO (44.3% mAP) 上也能很好地推广,而且计算成本要低得多

Method

首先,输入 Image 进入 CMT Stem,CMT Stem 架构是一个 3×3 卷积、步幅为 2 和一个输出通道为 32 的茎架构来减小输入图像的大小,后接的是另外两个步幅为 1 的 3×3 卷积以获得更好的局部 信息

然后,2*2 Conv stride=2 接 CMT Block*3,重复 4 次后 + 全局平均池化 + 全连接 + softmax 的1000 路分类

CMT Block

CMT 模块由一个局部感知单元 (LPU)、一个轻量级多头自注意力 (LMHSA) 模块和一个反向残差前馈网络 (IRFFN) 组成,如图所示,

Local Perception Unit

架构如上图,公式定义如下图

本质就是,将输入图片信息,与 3*3 的卷积操作后相加,旨在增加了空间信息,可以和 ViT 的绝对位置编码的对应理解

Lightweight Multi-head Self-attention

在原始的self-attention模块中,输入 X 被线性变换为 query、key、value 再进行计算,运算成本高

此模块主要功能就是使用深度卷积计算代替了 key 和 value 的计算,从而减轻了计算开销,具体计算过程,可以看一下原文进行参考

 Inverted Residual Feed-forward Network

此块的功能类似于反向残差块,由扩展层、深度卷积和投影层组成。具体来说,改变l连接的位置,以获得更好的性能

Experiments

实验目标:CMT-结构

实验目标:CMT 与流行方法比较

实验结果:CMT 有明显优势

【论文精读】CMT: Convolutional Neural Networks MeetVision Transformers相关推荐

  1. 【读点论文】CMT: Convolutional Neural Networks Meet Vision Transformers

    CMT: Convolutional Neural Networks Meet Vision Transformers Abstract 视觉transformer已经成功地应用于图像识别任务,因为它 ...

  2. 论文阅读2018-Deep Convolutional Neural Networks for breast cancer screening 重点:利用迁移学习三个网络常规化进行分类

    论文阅读2018-Deep Convolutional Neural Networks for breast cancer screening 摘要:我们探讨了迁移学习的重要性,并通过实验确定了在训练 ...

  3. 论文阅读:Convolutional Neural Networks for Sentence Classification 卷积神经网络的句子分类

    Convolutional Neural Networks for Sentence Classification 卷积神经网络的句子分类 目录 Convolutional Neural Networ ...

  4. 读论文系列(二)Convolutional Neural Networks over Tree Structures for Programming Language Processing

    系列文章目录 读论文系列(一)Automated software vulnerability detection with machine learning 文章目录 系列文章目录 Keywards ...

  5. 论文笔记:Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering

    前言 初代频域GCN简单粗暴的将diag(g^(λl))diag(\hat{g}{(\lambda_l)})diag(g^​(λl​))变成了卷积核diag(θl)diag(\theta_l)diag ...

  6. CMT: Convolutional Neural Networks Meet Vision Transformers

    CMT 概要 介绍 transformer存在的问题 CMT中块的设计 相关工作 CNN Vision Transformer 方法 整体架构 CMT Block LPU LMHSA IRFFN 代码 ...

  7. 时间序列论文:Multi-Scale Convolutional Neural Networks

    论文地址:https://arxiv.org/abs/1603.06995 keywords: 时间序列处理; 深度学习; keras 针对现有时间序列分类方法的特征提取与分类过程分离,且无法提取存在 ...

  8. 【论文笔记】Convolutional Neural Networks for Sentence Classification

    Model \(x_i\in{\mathbb{R}^k}\) :第\(i\)个词的\(k\)维词向量表示 经过padding后长度为\(n\)个句子被表示为\(x_{1:n}\), 形状为\(n\ti ...

  9. PATCHY-SAN - Learning Convolutional Neural Networks for Graphs ICML

    文章目录 1 背景 2 PATCHY-SAN模型 Node Sequence Selection - 根据节点排序选择要进行卷积的节点 Neighborhood Assembly - 找到Node的领 ...

最新文章

  1. 【linux】用户和组的管理:添加、修改、删除(useradd usermod userdel groupadd groupdel)
  2. JavaScript-也来谈--闭包
  3. “环太平洋”走进现实,五角大楼研发人与武器互动的意念控制技术
  4. List泛型集合总结(一)
  5. Linux C 函数练习
  6. excel去重_数据处理之EXCEL的高效技巧分享
  7. c 语言 json序列化,C#中json字符串的序列化和反序列化 – 万能的聪哥 – 博客园...
  8. linux基本命令-ls
  9. mysql统计功能和数据库information_schema/performance_schema
  10. Python海龟turtle画图常见画图代码大全
  11. jdom生成与解析xml详解
  12. 阿里数据师最爱用的图表特效,10分钟让可视化报告内涵又炫酷
  13. 如何使丑陋的Arial看起来好看
  14. 无需编程,DIY自己智能小车的Android蓝牙遥控软件(一)
  15. 操作系统:文件系统——空闲块成组链接法的模拟
  16. [bugku]web后面的部分 【脚本,正则 md5 】(疯狂补题qaq) 重点是搞会了 而不是写博客 m...
  17. 营收毛利净利均双位数增长,亚信科技掌握了什么秘诀?
  18. 亚马逊卖家api_亚马逊如何吸引手工卖家并将其晾干
  19. 三星s8怎么分屏操作_领跑折叠屏手机 三星Galaxy Z Fold2 5G魅力何在
  20. Typora 常用快捷键使用汇总

热门文章

  1. Android.view.View类全貌【思维导图】
  2. EndNote7.x/9.x 中基于国家标准的 EndNote 输出样式模板使用说明
  3. 【Python】如何通过官网下载和安装PythonPyCharm(Windows系统)
  4. 随机生成华人姓名的Java工具类:权重 + 随机
  5. 以太坊开发框架——Truffle的基础使用
  6. Django2.0服务器的零基础完全部署
  7. 曾经山寨手机上的跨平台方案
  8. 记录一下,转换树结构数据
  9. R语言patchwork包将多个ggplot2可视化结果组合起来、使用plot_annotation函数以及tag_level参数为组合图添加自定义编码序列(字符向量列表)
  10. PHP执行Shell脚本或Bash脚本文件并返回命令输出详情