Transformer 技术最开始起源于自然语言处理领域,但今年5月份Facebook 的一篇文章将其应用于计算机视觉中的目标检测(DETR算法,目前已有78次引用)使其大放异彩,并迅速得到CV研究社区的关注。

已有研究表明,Transformer 在计算机视觉领域不仅适用于高级任务如图像分类、目标检测、车道线检测等,在低级任务如图像增强中也取得了突破性进展,毫无疑问,Transformer 是目前计算机视觉领域最值得关注的方向之一。

一时间,在各种视觉任务 + Transformer 的论文正如雨后春笋般涌出。

今天,来自华为诺亚方舟实验室、北京大学、悉尼大学的学者公布论文 A survey on Visual Transformer,对该领域进行了较为系统的文献总结,相信对于想要研究、使用Visual Transformer 技术肯定会有帮助。

该文作者信息:

Transformer 技术发展的里程碑事件:

Transformer 的重要事件

下表列出了 Visual Transformer 代表作品:

Transformer 已经进入的视觉方向:图像分类、目标检测、分割、图像增强、图像生成、视频修补、视频描述等,为解决Transformer 计算效率问题,业界也有多篇论文提出了新的改进。以推进 Transformer 在CV工业界的尽快落地。

Transformer 是什么?

Transformer 的提出最开始用于机器翻译,下图展示了原汁原味 Transformer 的结构:

用于早期自然语言处理任务的 Transformer 架构图

这里输入是一种语言的句子,每个单词变换为512维的向量嵌入,Transformer 时对其进行多次的编码和解码,编码模块中每一个编码器Encoder把上一阶段的结果进行编码,最后一个编码器将数据经过多个解码器Decoder 进行解码,解码器之间也进行串联,最后一个解码器输出另一种语言的句子。

每一个编码器Encoder内含有自注意力(self-attention layer)层和一个前馈神经网络(feed-forward neural network)模块。每一个解码器含有自注意力(self-attention layer)层、编码器-解码器注意力层和一个前馈神经网络(feed-forward neural network)模块。

Transformer 的详细结构图

基于Transformer的语言模型获得了成功应用:

基于Transformer构建的代表性语言模型列表

Vision Transformer(ViT,出自谷歌论文 An image is worth 16x16 words: Transformers for image recognition at scale)示意图:

Vision Transformer 框架

IPT的架构图

分类任务上,在 JFT300M 数据集上预训练的 Vision Transformer 在多个图像识别基准上接近或优于 SOTA,在 ImageNet 上达到 88.36% 的准确率,在 CIFAR-10上达到 99.50%,在 CIFAR-100 上达到 94.55%,在 VTAB 套件的 19个任务上达到 77.16%。

iGPT 、 ViT 、BiT-L的详细结果如下表:

Transformer 用于目标检测突破性算法DETR(出自Facebook 论文 End-to-end object detection with transformers)流程图:

DETR 的整体架构

为使得Visual transformer 模型参数量和计算量更小,使其更具实用性,业界提出了不少算法。

下表列举了基于 transformer 的模型压缩代表作:

作者指出了一些未来的研究方向:

开发更适合视觉任务的transformer 模型;

自然语言处理中的transformer往往一个模型可以在多个任务中有效,CV领域中也值得探索;

研究更加计算高效的transformer。

全文参考156篇文献,欢迎下载查看详情。

https://arxiv.org/abs/2012.12556

点击阅读原文亦可直达。

或者在我爱计算机视觉公众号后台回复“transformer”,即可收到下载地址。

备注:Transformer

Transformer 技术交流群

扫码备注拉你入群。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

华为联合北大、悉尼大学对 Visual Transformer 的最新综述相关推荐

  1. 视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表

    作者 | CV君 来源 | 我爱计算机视觉 Transformer 技术最开始起源于自然语言处理领域,但今年5月份Facebook 的一篇文章将其应用于计算机视觉中的目标检测(DETR算法,目前已有7 ...

  2. 谷歌研究院出品:高效 Transformer 模型最新综述

    2021-01-02 15:23:28 编译 | Mr Bear 编辑 | 陈彩娴 近年来,基于自注意力机制的 Transformer 模型在自然语言处理.计算机视觉.强化学习等领域的学术研究中取得了 ...

  3. TPAMI 2021 华为诺亚悉尼大学陶大程团队提出多功能卷积,助力轻量级网络

    关注公众号,发现CV技术之美 0 写在前面 在本文中,作者提出了一种用于构造高效卷积神经网络的多功能滤波器 ,并应用于各种视觉识别任务中.考虑到硬件上运行高效的深度学习模型的需求,研究者们已经开发了许 ...

  4. 全文翻译 | 华为、北大、悉尼大学:最新视觉Transformer综述(2017-2020年)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨坐化@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/34211 ...

  5. 华为、北大、悉尼大学:最新视觉Transformer综述(2017-2020年)

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要25分钟 Follow小博主,每天更新前沿干货 来源丨https://zhuanlan.zhihu.com/p/342114940 转自丨极市 ...

  6. 华为北大等联手打造的Transformer竟在CV领域超过了CNN:多项底层视觉任务达到SOTA...

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 提起Transformer,就会想到BERT.GPT-3. 但其实,这个在各种自然语言处理任务中「混迹」,强大的无监督预训练模型,现在已经在 ...

  7. ​东京大学商汤悉尼大学等提出融合了动态规划、分治算法的MIM,实现绿色高效层次Transformer!已开源!...

    关注公众号,发现CV技术之美 本文分享论文『Green Hierarchical Vision Transformer for Masked Image Modeling』,由东京大学&商汤& ...

  8. 【读点论文】A Survey on Vision Transformer,2022年华为诺亚最新综述研究,从发展到任务,整体到局部。ViT有研究价值在于有很多问题还没有解决,真理是阶段性的产物

    A Survey on Vision Transformer Abstract transformer最早应用于自然语言处理领域,是一种主要基于自注意机制的深度神经网络.由于其强大的表示能力,研究人员 ...

  9. 悉尼大学陶大程:遗传对抗生成网络有效解决GAN两大痛点

    来源:新智元 本文共7372字,建议阅读10分钟. 本文为你整理了9月20日的AI WORLD 2018 世界人工智能峰会上陶大程教授的演讲内容. [ 导读 ]悉尼大学教授.澳大利亚科学院院士.优必选 ...

最新文章

  1. 使用c#实现tcp的连接和发送接收数据
  2. pythontxt文件怎么读_python怎么读txt文件
  3. cout、cerr、clog
  4. 【浅谈数据结构】《数据结构》Data Structure
  5. 如何判断Socket连接失效
  6. html 无效源,IE bug无效源HTML5音频 - 解决方法
  7. stm8因为固定中断向量表地址引发的一系列问题及其处理
  8. 计算机基础中的分层教学,分层教学法在计算机基础课程中的应用研究
  9. Collecting Bugs POJ - 2096(基础概率dp+期望模板)
  10. 偶然发现一个大佬写的 React 脚手架,叫Moderate, 用起来很方便
  11. HTML5跑酷网页游戏源码
  12. Python is同一性运算符和==相等运算符区别
  13. TraceEventsDB event(跟踪事件)总结
  14. Num70 债权查询 债权审核
  15. 西数linux驱动程序,下载:西数移动硬盘WD SES Driver驱动更新
  16. 天猫魔盘显示无法连接到服务器,天猫魔盘变身USB无线网卡设置图文教程详解
  17. 移动中兴服务器地址,一中国移动宽带各地dns服务器地址.doc
  18. 随机深林-特征重要性计算方式
  19. STMCubeMX+Proteus仿真DHT11(LCD1602显示)
  20. 【原创干货】免费企业服务评测汇总

热门文章

  1. 由摄像机外参矩阵求解像片的外方位线元素
  2. Neginx服务搭建
  3. 《汇编语言》王爽—第六章实验四详解
  4. MATLAB 在图像处理和机器视觉的应用举例01 - 官网培训视频笔记(下)分类/灰度共生矩阵/纹理分类学习
  5. educoder实训平台java入门_educoder上的实训题目(学习-Java包装类之Byte类)
  6. 财经计算机财务函数,会计财务最常用的15个公式函数
  7. fastreport 横向分栏_FastReport开发指南
  8. uml 时序图_面向对象设计与统一建模语言UML
  9. ajax渲染的页面tp怎么赋值,【Vue】前后端不分离的情况下,TP5的视图页面中如何使用vue来接受和传递数据?...
  10. nodebb使用mysql_centos7.6安装nodebb v1.14.3(2020年)