©作者 | 机器之心编辑部

来源 | 机器之心

来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 新架构

近年来,计算机视觉领域的新型架构层出不穷,包括视觉 Transformer、MLP 等,它们在很多任务上都取得了超越 CNN 的性能,受到广泛关注。其中,视觉 MLP 具有极其简单的架构,它仅由多层感知器(MLP)堆叠而成。与 CNN 和 Transformer 相比,这些简洁的 MLP 架构引入了更少的归纳偏置,具有更强的泛化性能。

然而,现有视觉 MLP 架构的性能依然弱于 CNN 和 Transformer。来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 架构,在 ImageNet 分类、COCO 检测、ADE20K 分割等多个任务上取得了 SOTA 性能。

论文链接:

https://arxiv.org/abs/2111.12294

PyTorch代码:

https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorch

MindSpore代码:

https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp

Wave-MLP

该研究受量子力学中波粒二象性的启发,将 MLP 中每个图像块 (Token) 表示成波函数的形式,从而提出了一个新型的视觉 MLP 架构——Wave-MLP,在性能上大幅超越了现有 MLP 架构以及 Transformer。

量子力学是描述微观粒子运动规律的物理学分支,经典力学可被视为量子力学的特例。量子力学的一个基本属性是波粒二象性,即所有的个体(比如电子、光子、原子等)都可以同时使用粒子的术语和波的术语来描述。一个波通常包括幅值和相位两个属性,幅值表示一个波可能达到的最大强度,相位指示着当前处在一个周期的哪个位置。将一个经典意义上的粒子用波(比如,德布罗意波)的形式来表示,可以更完备地描述微观粒子的运动状态。

那么,对于视觉 MLP 中的图像块,能不能也把它表示成波的形式呢?该研究用幅值表达每个 Token 所包含的实际信息,用相位来表示这个 Token 当前所处的状态。在聚集不同 Token 信息的时候,不同 Token 之间的相位差会调制它们之间的聚合过程(如图 3 示)。考虑到来自不同输入图像的 Token 包含不同的语义内容,该研究使用一个简单的全连接模块来动态估计每个 Token 的相位。对于同时带有幅度和相位信息的 Token,作者提出了一个相位感知 Token 混合模块(PATM,如下图 1 所示)来聚合它们的信息。交替堆叠 PATM 模块和 MLP 模块构成了整个 Wave-MLP 架构。

图1. Wave-MLP 架构中的一个单元

相比现有的视觉 Transformer 和 MLP 架构,Wave-MLP 有着明显的性能优势(如下图 2 所示)。在 ImageNet,Wave-MLP-S 模型上以 4.5G FLOPs 实现了 82.6% 的 top-1 准确率,比相似计算代价的 Swin-T 高 1.3 个点。此外,Wave-MLP 也可以推广到目标检测和语义分割等下游任务,展现出强大的泛化性能。

图2. Wave-MLP 与现有视觉 Transformer、MLP 架构的比较

1.1 用波表示 Token

在 Wave-MLP 中,Token 被表示为同时具有幅值和相位信息的波 :

其中 是满足 的虚数单位, 表示绝对值运算, 是逐元素乘法。幅值 是实值的特征,表示每个 Token 所包含的内容。 表示相位,即 Token 在一个波周期内的当前位置。

两个 Token 之间的相位差对它们的聚合过程有很大影响 (如下图 3 所示)。当两个 token 具有相同的相位时,它们会相互增强,得到幅值更大的波(图 3(b));当两个 token 相位相反时,他们合成的波将相互减弱。在其他情况下,它们之间的相互作用更加复杂,但仍取决于相位差(图 3(a))。经典方法中使用实值表示 token 的,这实际上是上式的一个特例。

图3. 两个具有不同相位的波的聚合过程。左侧表示两个波在复数域中的叠加,右侧表示它们在实轴上的投影随着相位的变化。虚线表示两个初始相位不同的波,实线是他们的叠加。

1.2 相位感知的 Token 聚合

公式(1)中包含幅值和相位两项,幅值 类似于实值特征,可以采用标准的 Channel-FC 生成:

对于相位,可以使用多种方式来估计。为了使得相位可以捕获每个输入的特定属性,该研究使用一个可学的估计模块来生成相位 。在获得幅值 和相位 之后,可以根据公式(1)得到 Token 的波函数表示图片。同时,公式(1)可以采用欧拉公式展开成连个实值向量拼接的形式:

表示不同的 Token 波函数会通过一个 Token-FC 聚合起来,得到复数域的输出:

类似于量子计算中的测量过程,复数域的需要映射到实数域里才能得到有意义的输出值。将实部和虚部做按照一定的权重进行求和,得到模块的输出:

在视觉 MLP 中,该研究构建了一个相位感知模块(PATM,图 1)来完成 Token 聚合的过程。交替堆叠 PATM 模块和 channel-mixing MLP 组建了整个 WaveMLP 架构。

实验结果

该研究在大规模的分类数据集 ImageNet, 目标检测数据集 COCO 和语义分割数据集 ADE20K 上都进行了大量实验。

ImageNet 上图像分类的结果如表 1,表 2 所示:相比于现有的 Vision MLP 架构和 Transformer 架构,WaveMLP 都取得了明显的性能优势。

在下游目标检测、语义分割等任务中,Wave-MLP 同样表现出更优的性能。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

CVPR 2022 | 华为诺亚北大提出量子启发MLP,性能超越Swin Transfomer相关推荐

  1. 华为诺亚北大提出新视觉 MLP 架构,性能超越Swin (附代码下载)

    来源:计算机视觉研究院 来自华为诺亚方舟实验室.北京大学.悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 新架构. 近年来,计算机视觉领域的新型架构层出不穷,包括视觉 Transformer. ...

  2. 性能超越最新序列推荐模型,华为诺亚方舟提出记忆增强的图神经网络

    作者 | Chen Ma, Liheng Ma等 译者 | Rachel 出品 | AI科技大本营(ID:rgznai100) 用户-商品交互的时间顺序可以揭示出推荐系统中用户行为随时间演进的序列性特 ...

  3. NeurIPS 2021 Transformer部署难?北大华为诺亚提出Vision Transformer的后训练量化方法...

    关注公众号,发现CV技术之美 本文分享 NeurIPS 2021 论文『Post-Training Quantization for Vision Transformer』,由北大&华为诺亚联 ...

  4. 【华为诺亚方舟实验室】2022届毕业生招聘--决策(强化学习)推理方向

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:华为诺亚方舟实验室官微 诺亚方舟实验室(No ...

  5. 【读点论文】A Survey on Vision Transformer,2022年华为诺亚最新综述研究,从发展到任务,整体到局部。ViT有研究价值在于有很多问题还没有解决,真理是阶段性的产物

    A Survey on Vision Transformer Abstract transformer最早应用于自然语言处理领域,是一种主要基于自注意机制的深度神经网络.由于其强大的表示能力,研究人员 ...

  6. ACL 2022丨香港大学华为诺亚方舟新工作:生成式预训练语言模型的量化压缩

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 近日,香港大学与华为诺亚方舟实验室在 ACL 2022 上联合发表了 ...

  7. 收藏 | 图像处理Transformer:华为诺亚、北大等IPT模型,刷榜

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...

  8. 中科院华为诺亚提出ViG:一种全新的骨干网络,性能不输CNN、ViT!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 梦晨 发自 凹非寺 转载自:量子位(QbitAI) 用图神经网络( ...

  9. TPAMI 2022|华为诺亚最新视觉Transformer综述

    来源丨机器之心 编辑丨极市平台 导读 华为诺亚方舟实验室联合北大和悉大整理了业界第一篇视觉Transformer综述. 2021 年对计算机视觉来说是非常重要的一年,各个任务的 SOTA 不断被刷新. ...

最新文章

  1. ACL 2019 | 基于知识增强的语言表示模型,多项NLP任务表现超越BERT(附论文解读)...
  2. Git远程推送和抓取分支
  3. 通用PE工具箱安装图解
  4. CSS三个非常重要的特性分享!
  5. AIX进程监控与管理
  6. can协议解析字符串的原理
  7. RAC+单实例DATAGUARD 配置
  8. python知识点汇总_Python知识点总结大全(一)
  9. java jndi jboss_jboss结合spring中如何配置jndi
  10. java注释html警告,Javadoc中允许的HTML标记
  11. 读:H2-MIL: Exploring Hierarchical Representation with Heterogeneous Multiple Instance Learning for...
  12. 【css】css实现斜线表头
  13. 计算机教室消防说明,6.7 消防专用电话的设置
  14. 《设计心理学》学习笔记之日常的设计(第一册)
  15. 松下GH5相机SD卡格式化后MP4视频碎片重组数据恢复方法
  16. 【Jupyter Notebook】slides演示小技巧
  17. 微信群聊小机器人的服务器,微信群里自动聊天的机器人是怎么弄的?有没有操作教程?...
  18. iOS-图片轮播-SDCycleSCrollView的使用
  19. 「实战案例」基于Python语言开发的信用评分卡
  20. 如何将Word中的数学公式转化成Latex格式

热门文章

  1. 超低延迟直播架构解析
  2. 在线html5 api中文版,HTML5+ API Reference
  3. matlab朴素贝叶斯手写数字识别_TensorFlow手写数字识别(一)
  4. dedecms 备份和恢复的完整流程
  5. Fiori 出试(WEBIDE平台)day1
  6. AOSCP4.1.2 红米Note 4X 2017/10/13 非官方 稳定发布
  7. 汽车拼图游戏 - 汽车积木拼图游戏
  8. Spark SQL之External DataSource外部数据源(二)源代码分析
  9. 【转自CDDN】随笔:sysobjects.Xtype
  10. 谈表达式树的缓存(7):五种缓存方式的总体分析及改进方案