研究表明:自注意力对于视觉Transformer并不重要,因为gMLP可以达到相同的精度,性能优于ResMLP、MLP-Mixer等网络,可比肩DeiT等,在视觉和语言任务中通吃!可媲美Transformer!

注1:文末附【视觉Transformer】交流群

注2:整理不易,欢迎点赞,支持分享!

想看更多CVPR 2021论文和开源项目可以点击:

CVPR2021-Papers-with-Code

gMLP

Pay Attention to MLPs

  • 作者单位:谷歌大脑(Quoc V. Le)
  • 论文下载链接:https://arxiv.org/abs/2105.08050

Transformers已成为深度学习中最重要的架构创新之一,并在过去几年中实现了许多突破。在这里,我们提出了一个简单的,无需注意力的网络体系结构gMLP,该体系结构仅基于带有gating的MLP,并显示了它在语言和视觉应用中的性能可与Transformer媲美。

gMLP细节(建议去看原文):


实验结果

用于视觉的gMLP模型:

我们的比较表明,自注意力对于视觉Transformer并不重要,因为gMLP可以达到相同的精度。


用于语言的gMLP模型:


对于BERT,我们的模型在预训练的Perplexity上与Transformers达到了同等水平,并且在某些下游任务上表现更好。

在gMLP性能较差的微调任务上,使gMLP模型大大变大可以缩小与Transformer的差距。 总的来说,我们的实验表明,gMLP可以在增加的数据和计算方面进行缩放,也可以在Transformer中进行缩放。

CVer-视觉Transformer交流群

建了CVer-Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer9999。加的时候备注一下:Transformer+学校+昵称,即可。然后就可以拉你进群了。

强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。

谷歌大脑提出gMLP:请多多关注MLP相关推荐

  1. EfficientDet:COCO 51.0 mAP!谷歌大脑提出目标检测新标杆

    点击我爱计算机视觉标星,更快获取CVML新技术 昨天谷歌大脑团队发布了论文 EfficientDet: Scalable and Efficient Object Detection ,通过改进 FP ...

  2. 谷歌大脑提出“洗发水”二阶优化算法,Transformer训练时间减少40%,Jeff Dean点赞...

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 机器学习的优化步骤,目前都是一阶方法主导. 无论是SGD还是Adam,此类优化算法在都是计算损失函数的一阶导数--梯度,然后按照某种规定的 ...

  3. ​比9种SOTA GNN更强!谷歌大脑提出全新图神经网络GKATs

    来源:Google.新智元本文约2550字,建议阅读5分钟 本文为你介绍谷歌大脑与牛津大学.哥伦比亚大学的研究人员提出的一种全新GNN:GKATs. [ 导读 ]GNN虽牛,但也避免不了计算复杂性等问 ...

  4. 谷歌大脑提出EfficientNet平衡模型扩展三个维度,取得精度-效率的最大化!

    点击我爱计算机视觉标星,更快获取CVML新技术 今天要跟大家重磅介绍上午谷歌大脑新出的论文<EfficientNet: Rethinking Model Scaling for Convolut ...

  5. 重磅!谷歌大脑提出EfficientNet平衡模型扩展三个维度,取得精度-效率的最大化!...

    点击我爱计算机视觉标星,更快获取CVML新技术 今天要跟大家重磅介绍上午谷歌大脑新出的论文<EfficientNet: Rethinking Model Scaling for Convolut ...

  6. 谷歌大脑提出DropBlock卷积正则化方法,显著改进CNN精度

    点击我爱计算机视觉标星,更快获取CVML新技术 昨天arXiv新上一篇被NIPS2018会议接收的论文<DropBlock: A regularization method for convol ...

  7. 边做边思考,谷歌大脑提出并发RL算法,机械臂抓取速度提高一倍!

    选自arXiv 作者:Ted Xiao 等 机器之心编译 机器之心编辑部 RL 算法通常假设,在获取观测值.计算动作并执行期间环境状态不发生变化.这一假设在仿真环境中很容易实现,然而在真实机器人控制当 ...

  8. 告别深度学习炼丹术!谷歌大脑提出“权重无关”神经网络

    来源:新智元 本文约5600字,建议阅读10+分钟. 无需权重训练!谷歌再向深度学习炼丹术发起"攻击". [ 导读 ]神经网络训练中"权重"有多重要不言而喻.但 ...

  9. cut out数据增强_谷歌大脑提出自动数据增强方法AutoAugment:可迁移至不同数据集...

    近日,来自谷歌大脑的研究者在 arXiv 上发表论文,提出一种自动搜索合适数据增强策略的方法 AutoAugment,该方法创建一个数据增强策略的搜索空间,利用搜索算法选取适合特定数据集的数据增强策略 ...

  10. 89.77%准确率!谷歌大脑提出CoAtNet:结合卷积和注意力

    本文系统调研了CNN和Transformer的特性,并将两者结合提出新的家族式网络:CoAtNet,无额外数据时高达86%准确率,在JFT加持下,高达89.77%!性能优于CvT.BotNet和Swi ...

最新文章

  1. 技术图文:02 创建型设计模式(下)
  2. 【Python】一种超简单的变量交换方法
  3. 阿里云江岑:云原生在边缘形态下的升华
  4. 功能测试包含哪些测试_一小时复习,期末考试必过 重邮软件测试题总结
  5. C和指针之结构体大小和成员变量位置距离结构开始存储的位置偏移字节
  6. pythonnumpy教程_Python教程:numpy的基本介绍
  7. Java DES 加解密(DES/CBC/PKCS5Padding)
  8. 科天云会议产品升级,打造企业数字化转型办公协同新基建
  9. Springboot2.0从零开始搭建脚手架-初始化和整合MybatisPlus3.0+...
  10. 有赞vant_vue+有赞vant的商品规格sku记录-小程序
  11. 一、基础篇--1.3进程和线程-CountDownLatch、CyclicBarrier 和 Semaphore
  12. 关于照片(img)的水平居中和垂直居中
  13. JZOJ 5750 青青草原播种计划
  14. win10更改user用户名(win10更改user用户名文件夹已在另一个文件中已打开)
  15. 面阵相机该如何选型?
  16. 华硕电脑一开机就等待按F1然后自动进入BIOS界面如何解决
  17. 第32篇 网络(二)HTTP
  18. 《炬丰科技-半导体工艺》--技术资料合集三
  19. GBase8s数据库INTERSECT 运算符
  20. 从零学本体dApp开发(20): 分片合约也有Runtime dAPI

热门文章

  1. 数字电路基础知识——组合逻辑电路(数据选择器MUX、多路复用器)
  2. 如何使用 OpManager 进行磁盘空间监控?
  3. 大数据资料和开发工具
  4. 【数字图像处理】图像复原
  5. 中航信E-Build基础API使用实例
  6. solaris java 安装_solaris中安装jdk环境
  7. linux——makefile编写
  8. 前后端python简单模拟api接口返回json,以及采集数据
  9. windows安装caffe
  10. Java--汽车之家论坛反爬虫破解