1、线性投影

为了开始理解视觉Trans如何处理图像数据，我们分析了它的内部表示。视觉Trans的第一层线性地将平坦的小块投影到一个低维空间(Eq. 1)。图7(左)显示了已学习的嵌入滤波器的顶部主成分。这些成分类似于可信的基函数，用于对每个斑块内的精细结构进行低维表示。

2、位置编码

投影完成后，将学习到的位置嵌入添加到patch表示中。图7(中间)显示，模型学习了在位置嵌入相似度下对图像内的距离进行编码，即越近的patch的位置嵌入越相似。进一步，出现行-列结构;同一行/列中的贴片具有类似的嵌入。最后，对于较大的网格，正弦结构有时是显而易见的(附录D)。位置嵌入学习表示二维图像拓扑结构解释了为什么手工制作的2D感知嵌入变体不能产生改进。

3、总结

探讨了trans在图像识别中的直接应用。不同于以往在计算机视觉中使用自我注意的工作，我们没有引入任何图像特定的归纳偏见到架构中。相反，我们将图像解释为一系列patch，并使用NLP中使用的标准trans编码器来处理它。这种简单但可扩展的策略，在与大型数据集的预训练相结合时，效果惊人地好。因此，视觉trans在许多图像分类数据集上匹配或超过了最先进的水平，同时可以相对便宜地进行预训练。

【未完待续…】

关于transformer是如何处理图像的相关推荐

An Image is worth 16*16 words: Transformers for image recognition at scale.
An Image is worth 16*16 words: Transformers for image recognition at scale. Abstract 虽然Transformer架构 ...
Transformer也能生成图像
选自arXiv 作者:Zhuowen Tu.Ce Liu等机器之心编译编辑:Panda Transformer 已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透, ...
Transformer也能生成图像，新型ViTGAN性能比肩基于CNN的GAN
©作者 | Panda 来源 | 机器之心 Transformer 已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透,开始在一些之前由 CNN 主导的任务上暂露头角. ...
图像融合遇见Transformer
在这篇博客中,主要是收集到一些图像融合框架中引入Transformer结构的文章,提供给大家参考学习,目前图像融合领域引入Transformer结构的文章比较少(我所看到的比较少,也看可能我看的比较少 ...
BEIT: BERT Pre-Training of Image Transformers(图像Transformer的BERT预训练)
文章目录摘要 1. Introduction 2. 方法 2.1 图像表示 2.1.1 Image Patch(图像块) 2.1.2 Visual Token 2.2 Backbone Networ ...
NLP/CV模型跨界进行到底，视觉Transformer要赶超CNN?
机器之心报道机器之心编辑部在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位.不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果.近 ...
CNN被打败！Transformer将统帅人工智能？
来源:新智元现在在AI业界家喻户晓的Transformer,究竟是怎样在短短时间爆火的? Transformer的起源想象一下你逛附近的五金店,在货架上看到一种新型的锤子.它比其他锤子敲得更快.更 ...
NLP/CV模型跨界，视觉Transformer赶超CNN?
在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位.不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果.近日,一篇匿名的 ICLR 20 ...
Transformer 会接管人工智能？
来源:ScienceAI 编辑:绿萝想象一下,你去当地的五金店,在货架上看到一种新的锤子.你听说过这把锤子:它比其他锤子敲得更快.更准确,在过去的几年里,它已经淘汰了许多其他锤子,至少在大多数用途中 ...

关于transformer是如何处理图像的

深入剖析transformer如何处理图像

1、线性投影

2、位置编码

3、总结

关于transformer是如何处理图像的相关推荐

最新文章

热门文章