原文:He, Kaiming, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Doll'ar and Ross B. Girshick. “Masked Autoencoders Are Scalable Vision Learners.” ArXiv abs/2111.06377 (2021).

1. Abstract

本文证明了掩码自编码器(MAE)是一种可扩展的计算机视觉自监督学习方法。我们的MAE方法很简单:我们对输入图像的patches进行随机掩码,然后重建缺失的像素。MAE基于两个核心设计。首先,我们开发了一个非对称的编码器-解码器架构,其中编码器仅对可见的patches子集(没有掩码的tokens)进行操作,同时还有一个轻量级的解码器,可以从潜在表示和掩码tokens重建原始图像。其次,我们发现对输入图像进行高比例的掩码,例如75%,会产生一项非凡的、有意义的自监督任务。将这两种设计结合起来,使我们能够高效地训练大型模型:加快模型训练速度(3倍甚至更多)并提高精度。我们的可扩展方法允许学习具有良好泛化性能的高容量模型:例如,在仅使用ImageNet-1K数据的方法中,vanilla ViT-Huge模型达到了最高精度(87.8%)。MAE在下游任务上的迁移性能优于有监督的预训练,并且显示出有前景的可扩展行为。

2. Method, Experiment & Result

图1. MAE的架构。在预训练期间,对输入图像的patches进行随机掩码,例如掩码率为75%。编码器应用于可见patches这个小子集上。在编码器之后引入掩码tokens,所有已编码的patches和掩码tokens由一个小型解码器处理,该解码器以像素为单位重建原始图像。在预训练之后,解码器被丢弃,编码器被应用于未损坏的图像,为识别任务生成表示。

图2. 在ImageNet验证图像上的示例结果。对于每个三元组,我们显示掩码图像(左)、MAE重建图像(中)和真实图像(右)。掩码率为80%,196个patches只剩下39个。更多示例见附录。

图3. 使用ImageNet训练的MAE(与图2中的模型权重相同),在COCO验证图像上的示例结果。观察最右边的两个例子,虽然重建图像与真实图像不同,但在语义上是合理的。

图4. 使用掩码率为75%的预训练MAE重建ImageNet验证图像,但应用于掩码率更高的输入图像。预测结果与原始图像似是而非,表明该方法可以泛化。

图5. 掩码率。高掩码率(75%)适用于微调(顶部)和线性探测(底部)。本文所有图的y轴为ImageNet-1K验证精度(%)。

表1. 使用ViT-L/16在ImageNet-1K上进行MAE消融实验。我们报告了微调(ft)和线性探测(lin)的精度(%)。如未指定,默认值为:解码器的深度为8,宽度为512,重建目标为非标准化像素,数据扩增为随机调整大小的裁剪,掩码率为75%,预训练长度为800个epochs。默认设置以灰色标记。

表2. MAE的训练时间(800个epochs),用TensorFlow在128个TPU-v3内核上进行基准测试。

图6. 掩码采样策略决定了pretext任务的难度,影响了重建质量和表示(表1f)。每个输出都来自一个使用指定掩码策略训练的MAE。左:随机采样(我们的默认设置)。中:删除大随机块的分块采样。右:网格采样,每四个补丁保留一个。图像来自验证集。

图7. 训练schedules。较长的训练schedule会带来显著改善。这里的每一点都是一个完整的训练schedule。使用的模型为ViT-L,默认设置如表1所示。

表3. 与之前在ImageNet-1K上的结果进行比较。预训练数据是ImageNet-1K训练集。所有自监督方法都通过端到端微调进行评估。ViT的型号为B/16、L/16、H/14。每列的最佳值都加了下划线。

图8. MAE预训练vs.有监督预训练,通过在ImageNet-1K上微调进行评估。我们将MAE的结果与IN1K或JFT300M训练的原始ViT结果进行比较。

图9. 在表1的默认设置下,ViT-L关于Transformer块数量的部分微调结果。MAE表示的线性可分性较差,但如果对一个或多个块进行调整,则始终优于MoCo v3。

表4. 使用ViT Mask R-CNN基线模型进行COCO目标检测和分割。所有条目都基于我们的实现。自监督条目使用无标签的IN1K数据。掩码AP与方框AP的趋势相似。

表5. 使用UperNet进行ADE20K语义分割。BEiT结果是使用官方代码复制的。其他条目基于我们的实现。自监督条目使用无标签的IN1K数据。

表6. 将pixels或tokens作为MAE重建目标的对比。△是使用dVAE tokens和标准化pixels之间的区别。这种差异在统计学上不显著。

表7. 预训练设置。

表8. 端到端微调设置。

表9. 线性探测设置。

表10. 从头开始训练ViT(有监督)。

表11. 掩码编码方法的线性探测结果。我们的微调结果如表3所示。

图10. 在ImageNet验证图像上的随机样本。对于每个三元组,我们显示掩码图像(左)、MAE重建图像(中)和真实图像(右)。掩码率为75%。

图11. 使用ImageNet训练的MAE,在COCO验证图像上的随机样本。对于每个三元组,我们显示掩码图像(左)、MAE重建图像(中)和真实图像(右)。掩码率为75%。

3. Conclusion / Discussion

扩展性好的简单算法是深度学习的核心。在自然语言处理中,简单的自监督学习方法可以从指数扩展的模型中获益。在计算机视觉中,尽管在自监督学习方面取得了一定进展,但实用的预训练范式主要是有监督的。在这项研究中,我们在ImageNet和迁移学习上观察到,自动编码器(一种简单的自监督方法,类似于NLP中的技术)能够提供可扩展的好处。视觉中的自监督学习现在可能正走上与NLP类似的轨道。

另一方面,我们注意到,图像和语言是不同性质的信号,必须认真处理这种差异。图像只是光的记录(without a semantic decomposition into the visual analogue of words)。我们不尝试删除对象,而是删除最有可能不形成语义片段的随机patches。同样地,我们的MAE重建像素,这些像素不是语义实体。然而,我们观察到(例如,图4),MAE能够推断出复杂的、整体的重建,表明它已经学会了许多视觉概念,即语义。我们假设这种行为是通过MAE内部丰富的隐藏表示产生的。我们希望这一观点将启发未来的工作。

更广泛的影响。MAE基于训练数据集的统计信息预测内容,因此将反映这些数据中的偏见,包括具有负面社会影响的偏见。我们的模型可能会生成不存在的内容。基于MAE生成图像时,这些问题需要进一步的研究和考虑。

关注“多模态人工智能”公众号,一起进步!

MAE(掩码自编码器)是可扩展的计算机视觉自监督学习方法相关推荐

  1. MAE 掩码自编码是可扩展的学习

    目录 1.前言 2.摘要 3.引言 4.相关工作Related Work 5.实施方法Approach 1.前言 MAE Masked Autoencoders Are Scalable Vision ...

  2. ECCV 2022 | 上交华为提出SdAE:自蒸馏掩码自编码器

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:鹦鹉丛中笑 |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu. ...

  3. 【论文解读】从可扩展的远程情感监督构建的附有结构和主次标记的MEGA RST 篇章树库

    前言 本文是EMNLP 2020年的论文<MEGA RST Discourse Treebanks with Structure and Nuclearity from Scalable Dis ...

  4. FAIR 何恺明、Piotr、Ross等新作,MAE才是YYDS!仅用ImageNet1K,Top-1准确率87.8%!

    关注公众号,发现CV技术之美 介绍一篇今天新出的论文. ▊ 写在前面 在本文中,作者证明了masked autoencoders(MAE) 是一种可扩展的计算机视觉自监督学习方法.本文的MAE方法很简 ...

  5. 【深度学习】preprint版本 | 何凯明大神新作MAE | CVPR2022最佳论文候选

    文章转自:微信公众号[机器学习炼丹术] 笔记作者:炼丹兄(已授权转载) 联系方式:微信cyx645016617 论文题目:"Masked Autoencoders Are Scalable ...

  6. 自监督学习论文、代码汇总

    文章目录 Image classification 2020 Exploring Simple Siamese Representation Learning Bootstrap Your Own L ...

  7. ​东京大学商汤悉尼大学等提出融合了动态规划、分治算法的MIM,实现绿色高效层次Transformer!已开源!...

    关注公众号,发现CV技术之美 本文分享论文『Green Hierarchical Vision Transformer for Masked Image Modeling』,由东京大学&商汤& ...

  8. MAE同期工作!MSRA新作SimMIM收录CVPR 2022!高达87.1%准确率!掩码图像建模新框架...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:机智勇敢萌刚刚  |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhi ...

  9. NeurIPS 2022 | 何恺明团队新作:MAE扩展到视频!学习时空表示,最优Mask比例高达90%!...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:AIWalker 2021年末,何恺明团队提出MAE在CV届引起极大轰动,自上传到arxiv之后,各 ...

  10. Pytorch:Transformer(Encoder编码器-Decoder解码器、多头注意力机制、多头自注意力机制、掩码张量、前馈全连接层、规范化层、子层连接结构、pyitcast) part1

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) Encoder编码器-Decoder解码器框架 + Atten ...

最新文章

  1. iOS的相对路径和绝对路径
  2. css权威指南pdf
  3. lua 使用 spine 的一些问题
  4. 6.7级地震!北海道数据中心陷最长停电危机!
  5. 高校学院计算机实验室管理系统概述,高校实验室管理系统
  6. linux文件本编辑,Linux就该这么学 -- 命令 -- 文本文件编辑命令
  7. java foreach并行_使用foreach在Java中迭代并行数组的漂亮方法
  8. spring boot 初始化表
  9. Oracle中drop_column的几种方式和风险
  10. public protected default private权限修饰符理解
  11. python 爬取taptap热门榜
  12. php 微信 other,PHP——仿造微信OpenId
  13. mapper扫描问题(Invalid bound statement (not found))
  14. 人人商城h5无法登录
  15. 网页无插件播放RTSP流媒体
  16. 对待员工的4个阶段:我如何让员工过好自己的一生?
  17. 获取svg元素的高度和宽度(或其他属性)
  18. 【数据分析进阶】DCIC竞赛-task2 数据可视化
  19. 脆弱性和安全风险分析
  20. windows设置开机延时自启动程序

热门文章

  1. 项目开发成本高周期长 数维图低代码平台解决行业痛点
  2. Hive3.1.2 on spark
  3. 基于网易云信WebRTC的Web音视频实现
  4. 学习Java软件开发的就业前景怎么样
  5. 行政组织理论-阶段测评4
  6. MQTT Retained消息和 LWT
  7. 张驰课堂:六西格玛黑带认证的含金量由谁决定?
  8. 史上最全的 SQL 注入资料
  9. 参数估计的均方误差(MSE),偏置(Bias)与方差(Variance)分解,无偏估计
  10. android 远程代码,Android 远程连接数据库。。。。。(示例代码)