【论文精读】CMT: Convolutional Neural Networks MeetVision Transformers
声明
不定期更新自己精读的论文,通俗易懂,初级小白也可以理解
涉及范围:深度学习方向,包括 CV、NLP、Data fusion、Digital Twin
论文标题:
CMT: Convolutional Neural Networks MeetVision Transformers
CMT:卷积神经网络与视觉变压器
论文链接:https://arxiv.org/abs/2107.06263
论文代码:
发表时间:2021年7月
创新点
1、提出了一种新颖的 CMT(CNNs meet transformers)架构用于视觉识别
2、 提出了局部感知单元(LPU)和反向残差前馈网络(IRFFN)
Abstract
Vision Transformer 已成功应用于图像识别任务,因为它们能够捕获图像中的远程依赖关系。然而,Transformer 和现有的卷积神经网络 (CNN) 在性能和计算成本上仍然存在差距。在本文中,我们的目标是解决这个问题并开发一个网络,该网络不仅可以胜过传统的 Transformer,还可以胜过高性能卷积模型。
我们提出了一种新的基于 Transformer 的混合网络,利用变压器来捕获远程依赖关系,并利用 CNN 对局部特征进行建模。此外,我们对其进行缩放以获得一系列模型,称为 CMT,与以前的基于卷积和 Transformer 的模型相比,获得了更好的准确性和效率。
特别是,我们的 CMT-S 在 ImageNet 上实现了 83.5% 的 top-1 准确率,而在 FLOP 上分别比现有的 DeiT 和 EfficientNet 小 14 倍和 2 倍。所提出的 CMT-S 在 CIFAR10 (99.2%)、CIFAR100 (91.7%)、Flowers (98.7%) 和其他具有挑战性的视觉数据集如 COCO (44.3% mAP) 上也能很好地推广,而且计算成本要低得多。
Method
首先,输入 Image 进入 CMT Stem,CMT Stem 架构是一个 3×3 卷积、步幅为 2 和一个输出通道为 32 的茎架构来减小输入图像的大小,后接的是另外两个步幅为 1 的 3×3 卷积以获得更好的局部 信息
然后,2*2 Conv stride=2 接 CMT Block*3,重复 4 次后 + 全局平均池化 + 全连接 + softmax 的1000 路分类
CMT Block
CMT 模块由一个局部感知单元 (LPU)、一个轻量级多头自注意力 (LMHSA) 模块和一个反向残差前馈网络 (IRFFN) 组成,如图所示,
Local Perception Unit
架构如上图,公式定义如下图
本质就是,将输入图片信息,与 3*3 的卷积操作后相加,旨在增加了空间信息,可以和 ViT 的绝对位置编码的对应理解
Lightweight Multi-head Self-attention
在原始的self-attention模块中,输入 X 被线性变换为 query、key、value 再进行计算,运算成本高
此模块主要功能就是使用深度卷积计算代替了 key 和 value 的计算,从而减轻了计算开销,具体计算过程,可以看一下原文进行参考
Inverted Residual Feed-forward Network
此块的功能类似于反向残差块,由扩展层、深度卷积和投影层组成。具体来说,改变l连接的位置,以获得更好的性能
Experiments
实验目标:CMT-结构
实验目标:CMT 与流行方法比较
实验结果:CMT 有明显优势
【论文精读】CMT: Convolutional Neural Networks MeetVision Transformers相关推荐
- 【读点论文】CMT: Convolutional Neural Networks Meet Vision Transformers
CMT: Convolutional Neural Networks Meet Vision Transformers Abstract 视觉transformer已经成功地应用于图像识别任务,因为它 ...
- 论文阅读2018-Deep Convolutional Neural Networks for breast cancer screening 重点:利用迁移学习三个网络常规化进行分类
论文阅读2018-Deep Convolutional Neural Networks for breast cancer screening 摘要:我们探讨了迁移学习的重要性,并通过实验确定了在训练 ...
- 论文阅读:Convolutional Neural Networks for Sentence Classification 卷积神经网络的句子分类
Convolutional Neural Networks for Sentence Classification 卷积神经网络的句子分类 目录 Convolutional Neural Networ ...
- 读论文系列(二)Convolutional Neural Networks over Tree Structures for Programming Language Processing
系列文章目录 读论文系列(一)Automated software vulnerability detection with machine learning 文章目录 系列文章目录 Keywards ...
- 论文笔记:Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering
前言 初代频域GCN简单粗暴的将diag(g^(λl))diag(\hat{g}{(\lambda_l)})diag(g^(λl))变成了卷积核diag(θl)diag(\theta_l)diag ...
- CMT: Convolutional Neural Networks Meet Vision Transformers
CMT 概要 介绍 transformer存在的问题 CMT中块的设计 相关工作 CNN Vision Transformer 方法 整体架构 CMT Block LPU LMHSA IRFFN 代码 ...
- 时间序列论文:Multi-Scale Convolutional Neural Networks
论文地址:https://arxiv.org/abs/1603.06995 keywords: 时间序列处理; 深度学习; keras 针对现有时间序列分类方法的特征提取与分类过程分离,且无法提取存在 ...
- 【论文笔记】Convolutional Neural Networks for Sentence Classification
Model \(x_i\in{\mathbb{R}^k}\) :第\(i\)个词的\(k\)维词向量表示 经过padding后长度为\(n\)个句子被表示为\(x_{1:n}\), 形状为\(n\ti ...
- PATCHY-SAN - Learning Convolutional Neural Networks for Graphs ICML
文章目录 1 背景 2 PATCHY-SAN模型 Node Sequence Selection - 根据节点排序选择要进行卷积的节点 Neighborhood Assembly - 找到Node的领 ...
最新文章
- 【linux】用户和组的管理:添加、修改、删除(useradd usermod userdel groupadd groupdel)
- JavaScript-也来谈--闭包
- “环太平洋”走进现实,五角大楼研发人与武器互动的意念控制技术
- List泛型集合总结(一)
- Linux C 函数练习
- excel去重_数据处理之EXCEL的高效技巧分享
- c 语言 json序列化,C#中json字符串的序列化和反序列化 – 万能的聪哥 – 博客园...
- linux基本命令-ls
- mysql统计功能和数据库information_schema/performance_schema
- Python海龟turtle画图常见画图代码大全
- jdom生成与解析xml详解
- 阿里数据师最爱用的图表特效,10分钟让可视化报告内涵又炫酷
- 如何使丑陋的Arial看起来好看
- 无需编程,DIY自己智能小车的Android蓝牙遥控软件(一)
- 操作系统:文件系统——空闲块成组链接法的模拟
- [bugku]web后面的部分 【脚本,正则 md5 】(疯狂补题qaq) 重点是搞会了 而不是写博客 m...
- 营收毛利净利均双位数增长,亚信科技掌握了什么秘诀?
- 亚马逊卖家api_亚马逊如何吸引手工卖家并将其晾干
- 三星s8怎么分屏操作_领跑折叠屏手机 三星Galaxy Z Fold2 5G魅力何在
- Typora 常用快捷键使用汇总
热门文章
- Android.view.View类全貌【思维导图】
- EndNote7.x/9.x 中基于国家标准的 EndNote 输出样式模板使用说明
- 【Python】如何通过官网下载和安装PythonPyCharm(Windows系统)
- 随机生成华人姓名的Java工具类:权重 + 随机
- 以太坊开发框架——Truffle的基础使用
- Django2.0服务器的零基础完全部署
- 曾经山寨手机上的跨平台方案
- 记录一下,转换树结构数据
- R语言patchwork包将多个ggplot2可视化结果组合起来、使用plot_annotation函数以及tag_level参数为组合图添加自定义编码序列(字符向量列表)
- PHP执行Shell脚本或Bash脚本文件并返回命令输出详情