论文来源:arxiv.org

本文作者:李炎,硕士研究生,目前研究方向为深度学习、计算机视觉。

目录

  • 摘要
  • 问题描述
  • 本文核心工作
  • 模型
  • 实验
  • 总结
  • 其他相关文章

摘要

将基于自注意力机制的Transformer直接应用于图像分类;传统计算机视觉任务都是以CNN结构为主导。本文采用与原始Transformer几乎相同的结构对图像进行分类,在经过数据集验证后表明在更大量的数据集训练下效果比以往方法好,但是小数据集训练结果较差。

问题描述

受Transformer在NLP领域应用的效果启发,将标准Transformer结构直接应用于图像分类任务。
致在尽量不改动原始的Transformer结构,并且可以进行端到端训练。

本文核心工作

  1. 设计一种与标准Transformer Encoder结构几乎相同的ViT网络模型用于图像分类

  2. 验证采用不同大小的数据集训练对模型性能的影响

模型

  • 网络模型输入:将图片分成尺寸为(P*P)的几块(patch),然后将每块拉成一维,作为序列依次进行输入;同时加入Position Embedding,这个Position Embedding也是一维的0,1,2用来表示位置信息。.

  • Transformer 的输入序列长度与patch大小的平方成反比,因此具有较小patch大小的模型在计算上更昂贵

  • 网络模型输出:最终输入图片的类别序列。

  • 网络由以下几种模块组成:多头注意力机制(Multi-Head Attention)、层归一化(Norm)、多层感知机(MLP)、残差结构

实验

实验设计

  1. 对比:ViT-B/32、 ViT-L/16、 ViT-H/14、 ResNet50四种网络模型进行相同训练后的检测效果

  2. 对比在不同大小数据集上进行训练后的网络检测效果

数据集

ILSVRC-2012 ImageNet:1k classes and 1.3M images
ImageNet-21k :21k classes and 14M images

实验结果

实验结果表明在各个大小数据集上经过训练的ViT网络效果都要好于ResNet50网络结构;在更大数据集上训练后的效果更好。

ResNets 在较小的预训练数据集上表现更好,但比 ViT 更快达到稳定状态,后者在较大的预训练数据集上表现更好。

总结

  • 本文将图像分成一系列补丁(Patch)进行输入,使用标准 Transformer 编码器对其进行处理。
  • 该网络模型在大型数据集中进行预训练后,效果很好。
  • 由此Vision Transformer 在许多图像分类数据集上达到或超过了最先进的水平,同时预训练相对更容易。

其他相关文章

一文带你掌(放)握(弃)ViT(Vision Transformer)(原理解读+实践代码)

论文代码:GitHub

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(阅读笔记)相关推荐

  1. AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(VIT)

    最近看transformer用于CV比较热门,特意去进行了解,这里用分类的一篇文章进行讲解. NLP中的transformer和代码讲解参考我另一篇文章. 论文链接:AN IMAGE IS WORTH ...

  2. AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE——ViT全文翻译

    一文读懂ViT:ViT 快速理解 Vision in Transformer 文章目录 全文翻译- Vision in Transformer- 相关说明 基本信息介绍 ABSTRACT 1 INTR ...

  3. 【读点论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(ViT)像处理自然语言那样处理图片

    AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE abstract 虽然Transformer体系结 ...

  4. 李沐精读论文:ViT 《An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale》

    视频:ViT论文逐段精读[论文精读]_哔哩哔哩_bilibili 代码:论文源码 使用pytorch搭建Vision Transformer(vit)模型 vision_transforme · WZ ...

  5. 论文解读:ViT | AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

    发表时间:2021 论文地址:https://openreview.net/pdf?id=YicbFdNTTy 项目地址:https://github.com/lucidrains/vit-pytor ...

  6. VIT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(arXiv 2021)

    最前面是论文翻译,中间是背景+问题+方法步骤+实验过程,最后是文中的部分专业名词介绍(水平线分开,能力有限,部分翻译可能不太准确) 摘要: 尽管Tansformer结构已经成为自然语言处理的事实标准, ...

  7. 用Transformer完全代替CNN:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

    原文地址:https://zhuanlan.zhihu.com/p/266311690 论文地址:https://arxiv.org/pdf/2010.11929.pdf 代码地址:https://g ...

  8. 重读经典:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》

    ViT论文逐段精读[论文精读] 这次李沐博士邀请了亚马逊计算机视觉专家朱毅博士来精读 Vision Transformer(ViT),强烈推荐大家去看本次的论文精读视频.朱毅博士讲解的很详细,几乎是逐 ...

  9. [论文阅读] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

    论文地址:https://arxiv.org/abs/2010.11929 代码:https://github.com/google-research/vision_transformer 发表于:I ...

最新文章

  1. R语言编写自定义函数计算R方、使用自助法Bootstrapping估计多元回归模型的R方的置信区间、可视化获得的boot对象、估计单个统计量的置信区间、分别使用分位数法和BCa法
  2. 学习汇编语言 -王爽,自已完成的一道课程设计题 (5)
  3. ***惯用的社会工程学手法
  4. CentOS7援救模式下更改密码
  5. cas单点登陆。就这一篇就够了!!!!!
  6. 2009年计算机二级c语言考试真题,2009年3月全国计算机二级C语言考试真题.doc
  7. 北航java大作业,北航成人继续教育 本科 计算机科学与技术 JAVA——大作业.doc
  8. springcloudstream+rabbitmq+eureka进行消息发送和接收实例代码
  9. php中metadata,模型元数据(Models Metadata)
  10. 培训学校计算机助教是干嘛的,【助教】的意思是什么?【助教】是什么意思?...
  11. 宏图之下服务器维护,《鸿图之下》3月24日维护更新预告
  12. linux文件复制覆盖命令
  13. html svg单击事件,html5 svg 中元素点击事件添加方法
  14. https 配置自建ca
  15. 消息:阿里巴巴落户山东济南,注册资本1亿元
  16. mc网站服务器设置家怎么圈地,我的世界怎么圈地 教你设置自己的领地
  17. 边沿触发是什么意思_epoll边缘触发模式
  18. C#中转义字符\r, \n, \r\n, \t, \b, @作用
  19. iOS多线程简单理解
  20. BQB PTS dongle不识别问题

热门文章

  1. 计算机控制的按钮,电脑键盘上的按钮分别都是什么键?
  2. 用卷积神经网络和自注意力机制实现QANet(问答网络)
  3. php9宫格抽奖程序_PHP实现抽奖功能实例代码
  4. py2neo.database.work.ClientError: [Procedure.ProcedureNotFound]
  5. ImportError: DLL load failed while importing win32api
  6. 苹果官宣了,iPhone 11继续使用这款基带附查询iPhone基代方法教程
  7. oracle19c集群重启,由重启引起的Oracle RAC节点宕机分析及追根溯源
  8. Android 各种图片格式
  9. 会说话的好朋友:汤姆猫开发商Outfit7旗下应用盘点
  10. 【干货收藏】 IGBT 的国产替代