深入剖析transformer如何处理图像

  • 1、线性投影
  • 2、位置编码
  • 3、总结

1、线性投影

为了开始理解视觉Trans如何处理图像数据,我们分析了它的内部表示。视觉Trans的第一层线性地将平坦的小块投影到一个低维空间(Eq. 1)。图7(左)显示了已学习的嵌入滤波器的顶部主成分。这些成分类似于可信的基函数,用于对每个斑块内的精细结构进行低维表示。

2、位置编码

投影完成后,将学习到的位置嵌入添加到patch表示中。图7(中间)显示,模型学习了在位置嵌入相似度下对图像内的距离进行编码,即越近的patch的位置嵌入越相似。进一步,出现行-列结构;同一行/列中的贴片具有类似的嵌入。最后,对于较大的网格,正弦结构有时是显而易见的(附录D)。位置嵌入学习表示二维图像拓扑结构解释了为什么手工制作的2D感知嵌入变体不能产生改进。

3、总结

探讨了trans在图像识别中的直接应用。不同于以往在计算机视觉中使用自我注意的工作,我们没有引入任何图像特定的归纳偏见到架构中。相反,我们将图像解释为一系列patch,并使用NLP中使用的标准trans编码器来处理它。这种简单但可扩展的策略,在与大型数据集的预训练相结合时,效果惊人地好。因此,视觉trans在许多图像分类数据集上匹配或超过了最先进的水平,同时可以相对便宜地进行预训练。

【未完待续…】

关于transformer是如何处理图像的相关推荐

  1. An Image is worth 16*16 words: Transformers for image recognition at scale.

    An Image is worth 16*16 words: Transformers for image recognition at scale. Abstract 虽然Transformer架构 ...

  2. Transformer也能生成图像

    选自arXiv 作者:Zhuowen Tu.Ce Liu等 机器之心编译 编辑:Panda Transformer 已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透, ...

  3. Transformer也能生成图像,新型ViTGAN性能比肩基于CNN的GAN

    ©作者 | Panda 来源 | 机器之心 Transformer 已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透,开始在一些之前由 CNN 主导的任务上暂露头角. ...

  4. 图像融合遇见Transformer

    在这篇博客中,主要是收集到一些图像融合框架中引入Transformer结构的文章,提供给大家参考学习,目前图像融合领域引入Transformer结构的文章比较少(我所看到的比较少,也看可能我看的比较少 ...

  5. BEIT: BERT Pre-Training of Image Transformers(图像Transformer的BERT预训练)

    文章目录 摘要 1. Introduction 2. 方法 2.1 图像表示 2.1.1 Image Patch(图像块) 2.1.2 Visual Token 2.2 Backbone Networ ...

  6. NLP/CV模型跨界进行到底,视觉Transformer要赶超CNN?

    机器之心报道 机器之心编辑部 在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位.不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果.近 ...

  7. CNN被打败!Transformer将统帅人工智能?

    来源:新智元 现在在AI业界家喻户晓的Transformer,究竟是怎样在短短时间爆火的? Transformer的起源 想象一下你逛附近的五金店,在货架上看到一种新型的锤子.它比其他锤子敲得更快.更 ...

  8. NLP/CV模型跨界,视觉Transformer赶超CNN?

    在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位.不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果.近日,一篇匿名的 ICLR 20 ...

  9. Transformer 会接管人工智能?

    来源:ScienceAI 编辑:绿萝 想象一下,你去当地的五金店,在货架上看到一种新的锤子.你听说过这把锤子:它比其他锤子敲得更快.更准确,在过去的几年里,它已经淘汰了许多其他锤子,至少在大多数用途中 ...

最新文章

  1. react源码总览(翻译)
  2. OSPF多区域配置与汇总
  3. 纯C++版的Faster-Rcnn(通过caffe自定义RPN层实现)
  4. 12新特性格式化输出f-string
  5. 着迷英语900句_开明的系统管理员如何让我着迷于Linux
  6. arm linux vlc移值,vlc-3.0.8在飞凌开发板i.mx6q上移植
  7. php如何无水印解析快手,快手短视频无水印解析过程及代码
  8. 计算机运算器由什么组成部分,运算器由哪些部分组成
  9. C++实现windows平台下音频播放音量调节功能
  10. 双系统装完只能u盘启动_安装双系统后没有双系统启动菜单怎么办?双系统启动菜单修复教程...
  11. 查看pdf文件的目录和添加标签的方法
  12. itest软件测试工具,Monkey测试工具 - iTest99的个人空间 - 51Testing软件测试网 51Testing软件测试网-软件测试人的精神家园...
  13. python loc和iloc_DataFrame的iloc与loc的区别是什么?
  14. KVM虚拟化常用API
  15. Linux 系统投屏显示
  16. 上面两点下面一个三角形_K线图中走出三角形收敛形态必有大波动?一招判断后期走势方向...
  17. Docker最全总结,DockerFile,Docker编排容器,Docker镜像,Docker-compose构建
  18. python绿色版_mPython最新下载_mPython绿色版 - 软件帝
  19. 【Rust日报】2020-10-02 移动操作系统SailfishOS支持Rust了
  20. matlab如何做粒子模拟,求助,如何用matlab做蒙特卡罗模拟!!??

热门文章

  1. gateway网关_使用Sentinel实现gateway网关及服务接口限流
  2. java实现蛇形输出,Java 输入一个正整数,按蛇形打印。
  3. python执行txt中代码_【技术分享】文件解压之过 Python中的代码执行
  4. 基于AUTOSAR的AP平台的应用开发
  5. Chaarshanbegaan at Cafebazaar 水题
  6. 【机器学习-西瓜书】八、集成学习:结合策略;多样性;总结
  7. 【论文笔记】Simple and Deep Graph Convolutional Networks
  8. 舰船目标检测的学习笔记
  9. 标注工具——yarn的学习笔记
  10. 计算机视觉CV中特征点提取SURF算法的学习笔记