AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(VIT)
最近看transformer用于CV比较热门,特意去进行了解,这里用分类的一篇文章进行讲解。
NLP中的transformer和代码讲解参考我另一篇文章。
论文链接:AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
一.思想
其实核心问题就是考虑如何把图像数据H*W*C,序列化成一个一个词那种结构,自然就想到将图片crop成一个一个patch,假设有N个patch,维度为p*p*C,reshape加concate一下就变成个N*p^2C,也就类似词向量。
二.模型结构
如下图所示:
1.图像转序列
将图片H*W*C,crop成N个patch,然后在转换成N*(p^2C),同时为了避免模型结构受到patch size的影响,采用Linear project将不同flatten patchs转换成D维向量。这样的话输入图片数据就成了N*D二维矩阵就和词向量矩阵对应上了。
2.Position embeddings
作者用一个可学习的embedding向量去将图像位置信息加入到序列中。
3.learnable embedding
上图中,带*号的粉色框是一个可学习的embedding,记住Xclass,经过encoder后的结果作为整张图像的表示。之所以不用其中一个patch的embedding是因为,这种embedding不可避免带有path的信息,而新增的这个没有语义信息,能更佳反映整张图片。
4.输入transformer encoder
进行特征提取,我另一篇文章已经很详细了,这里就不赘述了。
整个公式如下:
三.实验结果:
在中等数据集(例如ImageNet),效果不如resnet,但是在大规模数据集上,表现更佳。
AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(VIT)相关推荐
- 【读点论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(ViT)像处理自然语言那样处理图片
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE abstract 虽然Transformer体系结 ...
- AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(阅读笔记)
论文来源:arxiv.org 本文作者:李炎,硕士研究生,目前研究方向为深度学习.计算机视觉. 目录 摘要 问题描述 本文核心工作 模型 实验 总结 其他相关文章 摘要 将基于自注意力机制的Trans ...
- AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE——ViT全文翻译
一文读懂ViT:ViT 快速理解 Vision in Transformer 文章目录 全文翻译- Vision in Transformer- 相关说明 基本信息介绍 ABSTRACT 1 INTR ...
- 论文解读:ViT | AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
发表时间:2021 论文地址:https://openreview.net/pdf?id=YicbFdNTTy 项目地址:https://github.com/lucidrains/vit-pytor ...
- VIT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(arXiv 2021)
最前面是论文翻译,中间是背景+问题+方法步骤+实验过程,最后是文中的部分专业名词介绍(水平线分开,能力有限,部分翻译可能不太准确) 摘要: 尽管Tansformer结构已经成为自然语言处理的事实标准, ...
- 李沐精读论文:ViT 《An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale》
视频:ViT论文逐段精读[论文精读]_哔哩哔哩_bilibili 代码:论文源码 使用pytorch搭建Vision Transformer(vit)模型 vision_transforme · WZ ...
- 用Transformer完全代替CNN:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
原文地址:https://zhuanlan.zhihu.com/p/266311690 论文地址:https://arxiv.org/pdf/2010.11929.pdf 代码地址:https://g ...
- 重读经典:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》
ViT论文逐段精读[论文精读] 这次李沐博士邀请了亚马逊计算机视觉专家朱毅博士来精读 Vision Transformer(ViT),强烈推荐大家去看本次的论文精读视频.朱毅博士讲解的很详细,几乎是逐 ...
- [论文阅读] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
论文地址:https://arxiv.org/abs/2010.11929 代码:https://github.com/google-research/vision_transformer 发表于:I ...
最新文章
- 写那么多年Java,还不知道啥是Java agent 的必须看一下!
- char(nchar)与varchar(nvarchar)的区别以及选择
- 注入游戏没有焦点_不戴眼镜看3D电影、玩3D游戏,这项技术能焕发端游市场第二春吗?...
- jQuery文本框(input textare)事件绑定方法教程
- 关于百度地图api测距显示NaN的解决方案
- React项目动态设置title标题
- isis simple 运行Maven是报错: No goals have been specified for this build.
- leetcode230. 二叉搜索树中第K小的元素(中序遍历)
- react优秀项目案例_2020中国5G+工业互联网大会:鄂州2项目现场签约,2项目入选十大优秀案例...
- 微软建了个内部AI大学:“我们很缺人!是时候增强自我造血能力了”
- LQR控制实例、传递函数与状态矩阵相互转换
- matlab pdetool解热传导方程,传热学与应用(李晓炜)基于pdetool的热传导数值计算.pdf...
- 计算机公共课3-字处理软件Word 2010
- uniapp 日期时间 计算
- seata分布式事务处理教程
- PHP下载文件的正确方式
- 平凡的世界 田晓霞的日记 摘抄
- 1-交通数据的获取系列学习
- 力扣 2309. 兼具大小写的最好英文字母
- python彩虹蛇_一亿年前巨蟒沃那比蛇一口能吞噬恐龙,沃那比蛇灭绝原因