AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（VIT）

2024-06-01 23:30:00

最近看transformer用于CV比较热门，特意去进行了解，这里用分类的一篇文章进行讲解。

NLP中的transformer和代码讲解参考我另一篇文章。

论文链接：AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

一.思想

其实核心问题就是考虑如何把图像数据H*W*C,序列化成一个一个词那种结构，自然就想到将图片crop成一个一个patch，假设有N个patch,维度为p*p*C,reshape加concate一下就变成个N*p^2C,也就类似词向量。

二.模型结构

如下图所示:

1.图像转序列

将图片H*W*C,crop成Ｎ个patch,然后在转换成N*(p^2C),同时为了避免模型结构受到patch size的影响，采用Linear project将不同flatten patchs转换成D维向量。这样的话输入图片数据就成了N*D二维矩阵就和词向量矩阵对应上了。

2.Position embeddings

作者用一个可学习的embedding向量去将图像位置信息加入到序列中。

3.learnable embedding

上图中，带*号的粉色框是一个可学习的embedding，记住Xclass,经过encoder后的结果作为整张图像的表示。之所以不用其中一个patch的embedding是因为，这种embedding不可避免带有path的信息，而新增的这个没有语义信息，能更佳反映整张图片。

4.输入transformer encoder

进行特征提取，我另一篇文章已经很详细了，这里就不赘述了。

整个公式如下:

三.实验结果:

在中等数据集（例如ImageNet）,效果不如resnet,但是在大规模数据集上，表现更佳。

AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（VIT）相关推荐

【读点论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（ViT）像处理自然语言那样处理图片
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE abstract 虽然Transformer体系结 ...
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（阅读笔记）
论文来源:arxiv.org 本文作者:李炎,硕士研究生,目前研究方向为深度学习.计算机视觉. 目录摘要问题描述本文核心工作模型实验总结其他相关文章摘要将基于自注意力机制的Trans ...
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE——ViT全文翻译
一文读懂ViT:ViT 快速理解 Vision in Transformer 文章目录全文翻译- Vision in Transformer- 相关说明基本信息介绍 ABSTRACT 1 INTR ...
论文解读：ViT | AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
发表时间:2021 论文地址:https://openreview.net/pdf?id=YicbFdNTTy 项目地址:https://github.com/lucidrains/vit-pytor ...
VIT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(arXiv 2021)
最前面是论文翻译,中间是背景+问题+方法步骤+实验过程,最后是文中的部分专业名词介绍(水平线分开,能力有限,部分翻译可能不太准确) 摘要: 尽管Tansformer结构已经成为自然语言处理的事实标准, ...
李沐精读论文：ViT 《An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale》
视频:ViT论文逐段精读[论文精读]_哔哩哔哩_bilibili 代码:论文源码使用pytorch搭建Vision Transformer(vit)模型 vision_transforme · WZ ...
用Transformer完全代替CNN：AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
原文地址:https://zhuanlan.zhihu.com/p/266311690 论文地址:https://arxiv.org/pdf/2010.11929.pdf 代码地址:https://g ...
重读经典：《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》
ViT论文逐段精读[论文精读] 这次李沐博士邀请了亚马逊计算机视觉专家朱毅博士来精读 Vision Transformer(ViT),强烈推荐大家去看本次的论文精读视频.朱毅博士讲解的很详细,几乎是逐 ...
[论文阅读] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
论文地址:https://arxiv.org/abs/2010.11929 代码:https://github.com/google-research/vision_transformer 发表于:I ...

最新文章

热门文章