摘要

将基于自注意力机制的Transformer直接应用于图像分类；传统计算机视觉任务都是以CNN结构为主导。本文采用与原始Transformer几乎相同的结构对图像进行分类，在经过数据集验证后表明在更大量的数据集训练下效果比以往方法好，但是小数据集训练结果较差。

问题描述

受Transformer在NLP领域应用的效果启发，将标准Transformer结构直接应用于图像分类任务。
致在尽量不改动原始的Transformer结构，并且可以进行端到端训练。

本文核心工作

设计一种与标准Transformer Encoder结构几乎相同的ViT网络模型用于图像分类
验证采用不同大小的数据集训练对模型性能的影响

模型

网络模型输入：将图片分成尺寸为(P*P)的几块(patch)，然后将每块拉成一维，作为序列依次进行输入；同时加入Position Embedding，这个Position Embedding也是一维的0,1,2用来表示位置信息。.
Transformer 的输入序列长度与patch大小的平方成反比，因此具有较小patch大小的模型在计算上更昂贵
网络模型输出：最终输入图片的类别序列。
网络由以下几种模块组成：多头注意力机制(Multi-Head Attention)、层归一化(Norm)、多层感知机(MLP)、残差结构

实验

实验设计

对比：ViT-B/32、 ViT-L/16、 ViT-H/14、 ResNet50四种网络模型进行相同训练后的检测效果
对比在不同大小数据集上进行训练后的网络检测效果

数据集

ILSVRC-2012 ImageNet：1k classes and 1.3M images
ImageNet-21k ：21k classes and 14M images

实验结果

实验结果表明在各个大小数据集上经过训练的ViT网络效果都要好于ResNet50网络结构；在更大数据集上训练后的效果更好。

ResNets 在较小的预训练数据集上表现更好，但比 ViT 更快达到稳定状态，后者在较大的预训练数据集上表现更好。

总结

本文将图像分成一系列补丁(Patch)进行输入，使用标准 Transformer 编码器对其进行处理。
该网络模型在大型数据集中进行预训练后，效果很好。
由此Vision Transformer 在许多图像分类数据集上达到或超过了最先进的水平，同时预训练相对更容易。

其他相关文章

一文带你掌（放）握（弃）ViT(Vision Transformer)（原理解读+实践代码）

论文代码：GitHub

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（阅读笔记）相关推荐

AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（VIT）
最近看transformer用于CV比较热门,特意去进行了解,这里用分类的一篇文章进行讲解. NLP中的transformer和代码讲解参考我另一篇文章. 论文链接:AN IMAGE IS WORTH ...
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE——ViT全文翻译
一文读懂ViT:ViT 快速理解 Vision in Transformer 文章目录全文翻译- Vision in Transformer- 相关说明基本信息介绍 ABSTRACT 1 INTR ...
【读点论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（ViT）像处理自然语言那样处理图片
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE abstract 虽然Transformer体系结 ...
李沐精读论文：ViT 《An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale》
视频:ViT论文逐段精读[论文精读]_哔哩哔哩_bilibili 代码:论文源码使用pytorch搭建Vision Transformer(vit)模型 vision_transforme · WZ ...
论文解读：ViT | AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
发表时间:2021 论文地址:https://openreview.net/pdf?id=YicbFdNTTy 项目地址:https://github.com/lucidrains/vit-pytor ...
VIT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(arXiv 2021)
最前面是论文翻译,中间是背景+问题+方法步骤+实验过程,最后是文中的部分专业名词介绍(水平线分开,能力有限,部分翻译可能不太准确) 摘要: 尽管Tansformer结构已经成为自然语言处理的事实标准, ...
用Transformer完全代替CNN：AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
原文地址:https://zhuanlan.zhihu.com/p/266311690 论文地址:https://arxiv.org/pdf/2010.11929.pdf 代码地址:https://g ...
重读经典：《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》
ViT论文逐段精读[论文精读] 这次李沐博士邀请了亚马逊计算机视觉专家朱毅博士来精读 Vision Transformer(ViT),强烈推荐大家去看本次的论文精读视频.朱毅博士讲解的很详细,几乎是逐 ...
[论文阅读] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
论文地址:https://arxiv.org/abs/2010.11929 代码:https://github.com/google-research/vision_transformer 发表于:I ...

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（阅读笔记）

目录

摘要

问题描述

本文核心工作

模型

实验

总结

其他相关文章

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（阅读笔记）相关推荐

最新文章

热门文章