华为联合北大、悉尼大学对 Visual Transformer 的最新综述

Transformer 技术最开始起源于自然语言处理领域，但今年5月份Facebook 的一篇文章将其应用于计算机视觉中的目标检测(DETR算法，目前已有78次引用)使其大放异彩，并迅速得到CV研究社区的关注。

已有研究表明，Transformer 在计算机视觉领域不仅适用于高级任务如图像分类、目标检测、车道线检测等，在低级任务如图像增强中也取得了突破性进展，毫无疑问，Transformer 是目前计算机视觉领域最值得关注的方向之一。

一时间，在各种视觉任务 + Transformer 的论文正如雨后春笋般涌出。

今天，来自华为诺亚方舟实验室、北京大学、悉尼大学的学者公布论文 A survey on Visual Transformer，对该领域进行了较为系统的文献总结，相信对于想要研究、使用Visual Transformer 技术肯定会有帮助。

该文作者信息：

Transformer 技术发展的里程碑事件：

Transformer 的重要事件

下表列出了 Visual Transformer 代表作品：

Transformer 已经进入的视觉方向：图像分类、目标检测、分割、图像增强、图像生成、视频修补、视频描述等，为解决Transformer 计算效率问题，业界也有多篇论文提出了新的改进。以推进 Transformer 在CV工业界的尽快落地。

Transformer 是什么？

Transformer 的提出最开始用于机器翻译，下图展示了原汁原味 Transformer 的结构：

用于早期自然语言处理任务的 Transformer 架构图

这里输入是一种语言的句子，每个单词变换为512维的向量嵌入，Transformer 时对其进行多次的编码和解码，编码模块中每一个编码器Encoder把上一阶段的结果进行编码，最后一个编码器将数据经过多个解码器Decoder 进行解码，解码器之间也进行串联，最后一个解码器输出另一种语言的句子。

每一个编码器Encoder内含有自注意力（self-attention layer）层和一个前馈神经网络（feed-forward neural network）模块。每一个解码器含有自注意力（self-attention layer）层、编码器-解码器注意力层和一个前馈神经网络（feed-forward neural network）模块。

Transformer 的详细结构图

基于Transformer的语言模型获得了成功应用：

基于Transformer构建的代表性语言模型列表

Vision Transformer(ViT，出自谷歌论文 An image is worth 16x16 words: Transformers for image recognition at scale)示意图：

Vision Transformer 框架

IPT的架构图

分类任务上，在 JFT300M 数据集上预训练的 Vision Transformer 在多个图像识别基准上接近或优于 SOTA，在 ImageNet 上达到 88.36% 的准确率，在 CIFAR-10上达到 99.50%，在 CIFAR-100 上达到 94.55%，在 VTAB 套件的 19个任务上达到 77.16%。

iGPT 、 ViT 、BiT-L的详细结果如下表：

Transformer 用于目标检测突破性算法DETR(出自Facebook 论文 End-to-end object detection with transformers)流程图：

DETR 的整体架构

为使得Visual transformer 模型参数量和计算量更小，使其更具实用性，业界提出了不少算法。

下表列举了基于 transformer 的模型压缩代表作：

作者指出了一些未来的研究方向：

开发更适合视觉任务的transformer 模型；

自然语言处理中的transformer往往一个模型可以在多个任务中有效，CV领域中也值得探索；

研究更加计算高效的transformer。

全文参考156篇文献，欢迎下载查看详情。

https://arxiv.org/abs/2012.12556

点击阅读原文亦可直达。

或者在我爱计算机视觉公众号后台回复“transformer”，即可收到下载地址。

备注：Transformer

Transformer 技术交流群

扫码备注拉你入群。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看，让更多人看到

华为联合北大、悉尼大学对 Visual Transformer 的最新综述相关推荐

视觉+Transformer最新论文出炉，华为联合北大、悉尼大学发表
作者 | CV君来源 | 我爱计算机视觉 Transformer 技术最开始起源于自然语言处理领域,但今年5月份Facebook 的一篇文章将其应用于计算机视觉中的目标检测(DETR算法,目前已有7 ...
谷歌研究院出品：高效 Transformer 模型最新综述
2021-01-02 15:23:28 编译 | Mr Bear 编辑 | 陈彩娴近年来,基于自注意力机制的 Transformer 模型在自然语言处理.计算机视觉.强化学习等领域的学术研究中取得了 ...
TPAMI 2021 华为诺亚悉尼大学陶大程团队提出多功能卷积，助力轻量级网络
关注公众号,发现CV技术之美 0 写在前面在本文中,作者提出了一种用于构造高效卷积神经网络的多功能滤波器 ,并应用于各种视觉识别任务中.考虑到硬件上运行高效的深度学习模型的需求,研究者们已经开发了许 ...
全文翻译 | 华为、北大、悉尼大学：最新视觉Transformer综述（2017-2020年）
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨坐化@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/34211 ...
华为、北大、悉尼大学：最新视觉Transformer综述（2017-2020年）
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要25分钟 Follow小博主,每天更新前沿干货来源丨https://zhuanlan.zhihu.com/p/342114940 转自丨极市 ...
华为北大等联手打造的Transformer竟在CV领域超过了CNN：多项底层视觉任务达到SOTA...
杨净发自凹非寺量子位报道 | 公众号 QbitAI 提起Transformer,就会想到BERT.GPT-3. 但其实,这个在各种自然语言处理任务中「混迹」,强大的无监督预训练模型,现在已经在 ...
东京大学商汤悉尼大学等提出融合了动态规划、分治算法的MIM，实现绿色高效层次Transformer！已开源！...
关注公众号,发现CV技术之美本文分享论文『Green Hierarchical Vision Transformer for Masked Image Modeling』,由东京大学&商汤& ...
【读点论文】A Survey on Vision Transformer,2022年华为诺亚最新综述研究，从发展到任务，整体到局部。ViT有研究价值在于有很多问题还没有解决，真理是阶段性的产物
A Survey on Vision Transformer Abstract transformer最早应用于自然语言处理领域,是一种主要基于自注意机制的深度神经网络.由于其强大的表示能力,研究人员 ...
悉尼大学陶大程：遗传对抗生成网络有效解决GAN两大痛点
来源:新智元本文共7372字,建议阅读10分钟. 本文为你整理了9月20日的AI WORLD 2018 世界人工智能峰会上陶大程教授的演讲内容. [ 导读 ]悉尼大学教授.澳大利亚科学院院士.优必选 ...

华为联合北大、悉尼大学对 Visual Transformer 的最新综述

华为联合北大、悉尼大学对 Visual Transformer 的最新综述相关推荐

最新文章

热门文章