最近看transformer用于CV比较热门,特意去进行了解,这里用分类的一篇文章进行讲解。

NLP中的transformer和代码讲解参考我另一篇文章。

论文链接:AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

一.思想

其实核心问题就是考虑如何把图像数据H*W*C,序列化成一个一个词那种结构,自然就想到将图片crop成一个一个patch,假设有N个patch,维度为p*p*C,reshape加concate一下就变成个N*p^2C,也就类似词向量。

二.模型结构

如下图所示:

1.图像转序列

将图片H*W*C,crop成N个patch,然后在转换成N*(p^2C),同时为了避免模型结构受到patch size的影响,采用Linear project将不同flatten patchs转换成D维向量。这样的话输入图片数据就成了N*D二维矩阵就和词向量矩阵对应上了。

2.Position embeddings

作者用一个可学习的embedding向量去将图像位置信息加入到序列中。

3.learnable embedding

上图中,带*号的粉色框是一个可学习的embedding,记住Xclass,经过encoder后的结果作为整张图像的表示。之所以不用其中一个patch的embedding是因为,这种embedding不可避免带有path的信息,而新增的这个没有语义信息,能更佳反映整张图片。

4.输入transformer encoder

进行特征提取,我另一篇文章已经很详细了,这里就不赘述了。

整个公式如下:

三.实验结果:

在中等数据集(例如ImageNet),效果不如resnet,但是在大规模数据集上,表现更佳。

AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(VIT)相关推荐

  1. 【读点论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(ViT)像处理自然语言那样处理图片

    AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE abstract 虽然Transformer体系结 ...

  2. AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(阅读笔记)

    论文来源:arxiv.org 本文作者:李炎,硕士研究生,目前研究方向为深度学习.计算机视觉. 目录 摘要 问题描述 本文核心工作 模型 实验 总结 其他相关文章 摘要 将基于自注意力机制的Trans ...

  3. AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE——ViT全文翻译

    一文读懂ViT:ViT 快速理解 Vision in Transformer 文章目录 全文翻译- Vision in Transformer- 相关说明 基本信息介绍 ABSTRACT 1 INTR ...

  4. 论文解读:ViT | AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

    发表时间:2021 论文地址:https://openreview.net/pdf?id=YicbFdNTTy 项目地址:https://github.com/lucidrains/vit-pytor ...

  5. VIT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(arXiv 2021)

    最前面是论文翻译,中间是背景+问题+方法步骤+实验过程,最后是文中的部分专业名词介绍(水平线分开,能力有限,部分翻译可能不太准确) 摘要: 尽管Tansformer结构已经成为自然语言处理的事实标准, ...

  6. 李沐精读论文:ViT 《An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale》

    视频:ViT论文逐段精读[论文精读]_哔哩哔哩_bilibili 代码:论文源码 使用pytorch搭建Vision Transformer(vit)模型 vision_transforme · WZ ...

  7. 用Transformer完全代替CNN:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

    原文地址:https://zhuanlan.zhihu.com/p/266311690 论文地址:https://arxiv.org/pdf/2010.11929.pdf 代码地址:https://g ...

  8. 重读经典:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》

    ViT论文逐段精读[论文精读] 这次李沐博士邀请了亚马逊计算机视觉专家朱毅博士来精读 Vision Transformer(ViT),强烈推荐大家去看本次的论文精读视频.朱毅博士讲解的很详细,几乎是逐 ...

  9. [论文阅读] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

    论文地址:https://arxiv.org/abs/2010.11929 代码:https://github.com/google-research/vision_transformer 发表于:I ...

最新文章

  1. 写那么多年Java,还不知道啥是Java agent 的必须看一下!
  2. char(nchar)与varchar(nvarchar)的区别以及选择
  3. 注入游戏没有焦点_不戴眼镜看3D电影、玩3D游戏,这项技术能焕发端游市场第二春吗?...
  4. jQuery文本框(input textare)事件绑定方法教程
  5. 关于百度地图api测距显示NaN的解决方案
  6. React项目动态设置title标题
  7. isis simple 运行Maven是报错: No goals have been specified for this build.
  8. leetcode230. 二叉搜索树中第K小的元素(中序遍历)
  9. react优秀项目案例_2020中国5G+工业互联网大会:鄂州2项目现场签约,2项目入选十大优秀案例...
  10. 微软建了个内部AI大学:“我们很缺人!是时候增强自我造血能力了”
  11. LQR控制实例、传递函数与状态矩阵相互转换
  12. matlab pdetool解热传导方程,传热学与应用(李晓炜)基于pdetool的热传导数值计算.pdf...
  13. 计算机公共课3-字处理软件Word 2010
  14. uniapp 日期时间 计算
  15. seata分布式事务处理教程
  16. PHP下载文件的正确方式
  17. 平凡的世界 田晓霞的日记 摘抄
  18. 1-交通数据的获取系列学习
  19. 力扣 2309. 兼具大小写的最好英文字母
  20. python彩虹蛇_一亿年前巨蟒沃那比蛇一口能吞噬恐龙,沃那比蛇灭绝原因

热门文章

  1. 下载 | 李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT
  2. 百度作业帮-产品分析
  3. www.sirim-global.com
  4. Golang --- package
  5. python 约束与异常处理
  6. [Unity]限制两个物体之间的距离
  7. Java的for-each循环
  8. python更新后yum问题
  9. 实验五 — — Java网络编程及安全
  10. spring学习笔记06-spring整合junit(出现的问题,解决的思路)