何凯明最新一作:Masked Autoencoders Are Scalable Vision Learners

Masked Autoencoders Are Scalable Vision Learners

何凯明大神最新一作，mask输入图像的随机patch，并重建移除的像素。
主要提出两点：
1.提出一种非对称的编码器-解码器
2.mask高比例的输入图像patch将变成一个不错且有意义的自监督任务

摘要

本文表明，掩码自编码器 (MAE) 是用于计算机视觉的可扩展自监督学习器。我们的 MAE 方法很简单：我们屏蔽输入图像的随机块并重建丢失的像素。它基于两个核心设计。首先，我们开发了不对称编码器 - 解码器架构，其中编码器仅对可见的补丁子集（没有掩码标记）进行操作，以及一个轻量级解码器，从潜在表示和掩码标记重建原始图像。其次，我们发现屏蔽大部分输入图像（例如 75%）会产生重要且有意义的自我监督任务。将这两种设计结合起来使我们能够高效地训练大型模型：我们加速训练（3 倍或更多）并提高准确性。我们的可扩展方法允许学习泛化良好的高容量模型：例如，在仅使用 ImageNet-1K 数据的方法中，vanilla ViT-Huge 模型实现了最佳准确率 (87.8%)。下游任务中的传输性能优于有监督的预训练，并显示出有希望的扩展行为。

介绍

深度学习见证了能力和容量不断增长的架构的爆炸式增长。在硬件快速增长的帮助下，今天的模型很容易过拟合一百万张图像并开始需要数亿张通常无法公开访问的标记图像。这种对数据的需求已经通过自监督预训练在自然语言处理 (NLP) 中成功解决。基于 GPT 中的自回归语言建模和 BERT中的掩码自动编码的解决方案在概念上很简单：它们删除了一部分数据并学习预测删除的内容。这些方法现在可以训练包含超过一千亿个参数的可泛化 NLP 模型。掩码自动编码器的思想，一种更一般的去噪自动编码器[48]的形式，是自然和适用于计算机视觉。事实上，在BERT之前就有与视觉密切相关的研究[49,39]。然而，尽管BERT的成功引起了人们对这一想法的极大兴趣，但视觉自编码方法的进展仍落后于NLP。我们问:是什么使视觉和语言之间的隐藏自动编码不同?我们试图从以下角度回答这个问题:

1：架构不同：直到最近，架构还是不同的。在视觉方面，卷积网络在过去十年中占主导地位。卷积通常在规则网格上运行，将诸如掩码标记或位置嵌入之类的“指标”集成到卷积网络中并不容易。然而，这种架构差距已通过引入 Vision Transformers (ViT)得到解决，不应再成为障碍
2：语言和视觉之间的信息密度不同。语言是人类生成的具有高度语义和信息密集度的信号。当训练一个模型来预测每个句子的几个遗漏单词时，这个任务似乎会导致复杂的语言理解。相反，图像是具有大量空间冗余的自然信号——例如，可以从相邻的块中恢复丢失的块，而对部分、对象和场景的高级理解很少。为了克服这种差异并鼓励学习有用的特征，我们展示了一个简单的策略在计算机视觉中效果很好：屏蔽随机补丁的每一部分。这种策略在很大程度上减少了冗余并创建了一项具有挑战性的自我监督任务，需要超越低级图像统计的整体理解。要对我们的重建任务有一个定性的认识，请参见图 2-4。
ImageNet验证图像的示例结果。对于每一个三元组，我们显示蒙面图像(左)，我们的MAE重建†(中)，和地面真相(右)。掩蔽率为80%，196个补丁中只剩下39个
使用掩蔽比为75%的MAE预训练重建ImageNet验证图像，但应用于具有更高掩蔽比的输入。预测结果与原始图像有明显不同，表明该方法可以推广。
3: 自动编码器的解码器将潜在表示映射回输入，在重建文本和图像之间扮演不同的角色。在视觉中，解码器重建像素，因此其输出的语义级别低于普通识别任务。这与语言相反，在语言中，解码器预测包含丰富语义信息的缺失词。虽然在 BERT 中，解码器可能很简单(MLP),但我们发现对于图像，解码器设计在确定学习到的潜在表示的语义级别方面起着关键作用。

在此分析的驱动下，我们提出了一种简单、有效、可扩展的用于视觉表示学习的掩码自动编码器(MAE)。该算法从输入图像中屏蔽随机斑块，并在像素空间中重建缺失的斑块。它有一个非对称编解码器设计。我们的编码器只对补丁的可见子集(没有掩码标记)进行操作，我们的解码器是轻量级的，并从潜在表示和掩码标记中重新构建输入(图1)。将掩码标记移到我们的非对称编码器-解码器中的小型解码器中，可以大大减少计算量。在这种设计下，一个非常高的掩蔽比(如75%)可以达到双赢的情况:它优化精度，同时允许编码器只处理一小部分(如25%)的补丁。这可以将训练前的总时间减少3倍或更多，同样也可以减少内存消耗，使我们能够轻松地将MAE扩展到大型模型中。
我们的 MAE 学习了非常高容量的模型，可以很好地泛化。通过 MAE 预训练，我们可以在 ImageNet-1K 上训练 ViT-Large/-Huge [16] 等数据饥渴模型，并提高泛化性能。使用普通的 ViT-Huge 模型，我们在 ImageNet-1K 上微调时达到了 87.8% 的准确率。这优于之前仅使用 ImageNet-1K 数据的所有结果。我们还评估了迁移学习在目标检测、实例分割和语义分割方面的作用。在这些任务中，我们的预训练比有监督的预训练取得更好的结果，更重要的是，我们观察到显著的改进模型。这些观察结果与NLP自我监督前训练的结果一致[14,40,41,4]，我们希望它们将使我们的领域能够探索类似的轨迹。

方法

我们的掩码自编码器 (MAE) 是一种简单的自编码方法，可以在给定部分观察的情况下重建原始信号。与所有自动编码器一样，我们的方法有一个编码器，将观察到的信号映射到潜在表示，以及一个解码器，从潜在表示重建原始信号。与经典的自动编码器不同，我们采用不对称设计，允许编码器仅对部分观察信号（没有掩码标记）进行操作，并采用轻量级解码器从潜在表示和掩码标记重建完整信号。图1说明了这个想法，接下来介绍

掩码

根据ViT，我们将图像划分为规则的非重叠补丁。然后我们对补丁的子集进行采样并屏蔽（即删除）剩余的补丁。我们的采样策略很简单：我们按照均匀分布对随机补丁进行采样，无需替换。我们简单地将其称为“随机抽样”。具有高掩蔽率（即移除补丁的比率）的随机采样在很大程度上消除了冗余，从而创建了一项无法通过从可见相邻补丁外推来轻松解决的任务（见图 2-4）。均匀分布可防止潜在的中心偏差（即，图像中心附近有更多的掩蔽补丁）。最后，高度稀疏的输入为设计高效编码器创造了机会，接下来介绍。

MAE编码器

MAE 编码器。我们的编码器是 ViT [16]，但只应用在可见的、未屏蔽的补丁上。就像在标准 ViT 中一样，我们的编码器通过添加位置嵌入的线性投影嵌入补丁，然后通过一系列 Transformer 块处理结果集。然而，我们的编码器只对整个集合的一小部分（例如 25%）进行操作。被屏蔽的补丁被移除；不使用掩码令牌。这使我们能够仅使用一小部分计算和内存来训练非常大的编码器。全套由轻量级解码器处理，如下所述。

MAE解码器

MAE 解码器的输入是完整的令牌集，包括 (i) 编码的可见补丁和 (ii) 掩码令牌。如上图所示，每个掩码标记是一个共享的学习向量，指示要预测的缺失补丁的存在。我们为这个完整集合中的所有标记添加了位置嵌入；如果没有这个，掩码令牌将没有关于它们在图像中的位置的信息。解码器有另一系列的 Transformer 模块。MAE解码器仅在预训练期间用于执行图像重建任务（仅编码器用于生成用于识别的图像表示）。因此，解码器架构可以以独立于编码器设计的方式灵活设计。我们用非常小的解码器进行实验，比编码器更窄、更浅。例如，我们的默认解码器每个令牌的计算量小于10%。编码器。通过这种非对称设计，全套令牌仅由轻量级解码器处理，这大大减少了预训练时间。

重建目标

我们的 MAE 通过预测每个掩码块的像素值来重建输入。解码器输出中的每个元素都是一个表示补丁的像素值向量。解码器的最后一层是线性投影，其输出通道的数量等于补丁中像素值的数量。解码器的输出被重新整形以形成重建的图像。我们的损失函数计算像素空间中重建图像和原始图像之间的均方误差 (MSE)。我们只在掩码补丁上计算损失，类似于 BERT。我们还研究了一个变体，其重建目标是每个掩码补丁的归一化像素值。具体来说，我们计算一个补丁中所有像素的均值和标准差，并使用它们来规范化这个补丁。在我们的实验中，使用归一化像素作为重建目标可以提高表示质量。

简易实现

我们的 MAE 预训练可以高效实施，重要的是，不需要任何专门的稀疏操作。首先，我们为每个输入补丁生成一个标记（通过线性投影和添加的位置嵌入）。接下来，我们根据掩蔽率随机打乱令牌列表并删除列表的最后一部分。此过程为编码器生成一小部分标记，相当于采样补丁而无需替换。编码后，我们将掩码标记列表附加到编码补丁列表中，并解散这个完整列表（反转随机洗牌操作）以将所有标记与其目标对齐。解码器应用于此完整列表（添加了位置嵌入）。如前所述，不需要稀疏操作。这个简单的实现引入的开销可以忽略不计，因为 shuffle 和 unshuffling 操作很快

ImageNet实验

我们在 ImageNet-1K (IN1K) 训练集上进行自我监督的预训练。然后我们进行有监督的训练，以通过 (i) 端到端微调或 (ii) 线性探测来评估表示。我们报告了单个 224×224 裁剪的 top-1 验证准确度。
Baseline：ViT-Large：在我们的消融研究中，我们使用ViT-Large（ViT-L/16)作为主干。ViT-L非常大（比ResNet-50[24]大一个数量级），并且倾向于过度拟合。以下是从scratchvs培训的ViT-L之间的比较。从我们的基线MAE微调

我们注意到，从头开始训练受监督的VIT-L是不寻常的，需要一个具有强正则性的好配方（82.5%，见附录a.2）。即使如此，我们的MAE预训练也有很大的改进。在这里，微调仅适用于50个时代（与从头开始的200个相比），这意味着微调精度在很大程度上取决于预训练。

主要性能

我们使用表1中的默认设置消融MAE（见标题）。观察到一些有趣的性质。掩蔽比。图5显示了掩蔽率的影响。最佳比率出人意料地高。75%的比率适用于线性探测和微调。这种行为与BERT相反,BERT的典型掩蔽率为15%。我们的掩蔽率也远高于计算机视觉相关工作中的掩蔽率（20%至50%）。
使用ViT-L/16在ImageNet-1K上进行MAE消融实验。我们报告了微调（ft）和线性探测（lin）精度（%）。如果未指定，默认值为：解码器的深度为8，宽度为512，重建目标为非标准化像素，数据增强为随机调整大小的裁剪，掩蔽率为75%，预训练长度为800个历元。默认设置以灰色标记.
模型推断出补丁产生不同的，但似乎合理的输出（下图）。它可以理解物体和场景的格式塔，而这不能简单地通过延伸线条或纹理来完成。我们假设这种类似推理的行为与学习有用的表征有关。

下图还显示了线性探测和微调结果遵循不同的趋势。对于线性探测，精度随着掩蔽率的增加而稳定增加，直到达到最低点：精度差距达到∼20%（54.6%对73.5%）。对于微调，结果对比率的敏感度较低，并且大范围的掩蔽比率（40–80%）工作良好。图5中的所有微调结果都优于从头开始的训练(82.5%).
高掩蔽率75%适用于微调顶部和线性探测底部.本文中所有图的y轴均为ImageNet-1K验证精度（%）。

解码器的设计

我们的MAE解码器可以灵活设计，如表1a和表1b所示。

表 1 改变了解码器深度（Transformer 块的数量) 。足够深的解码器对于线性探测很重要。这可以通过像素重建任务和识别任务之间的差距来解释：自动编码器中的最后几层更专门用于重建，但与识别的相关性较低。一个合理深度的解码器可以解释重建专业化，将潜在表示留在更抽象的层次上。这种设计可以在线性探测方面产生高达 8% 的改进（表 1a，“lin”）。但是，如果使用微调，则可以调整编码器的最后几层以适应识别任务。解码器深度对改进微调的影响较小（表 1a，‘ft’）。有趣的是，我们的MAE和一个单块解码器可以执行良好的微调（84.8%）。请注意，单个转换器块是将信息从可见令牌传播到掩码令牌的最低要求。这种小型解码器可以进一步加快训练速度。在表 1b 中我们研究了解码器宽度（通道数）。我们默认使用 512-d，它在微调和线性探测下表现良好。更窄的解码器也适用于微调。总的来说，我们默认的 MAE 解码器是轻量级的。它有 8 个块，宽度为 512-d（灰色表 1）。每个令牌只有 9% 的 FLOP。 ViT-L（24 块，1024-d).因此，虽然解码器处理所有令牌，但它仍然是整体计算的一小部分。

掩码token

我们MAE的一个重要设计是跳过编码器中的掩码令牌[M]，然后将其应用到轻量级解码器中。表1研究了这种设计。

如果编码器使用掩码标记，则性能更差：在线性探测中，其精度下降14%。在这种情况下，预训练和部署之间存在差距：此编码器在预训练的输入中有很大一部分掩码令牌，而未损坏的图像中不存在这些令牌。此间隙可能会降低部署的准确性。通过从编码器中移除掩码标记，我们将编码器约束为始终可见真实面片，从而提高精度。
此外，通过跳过编码器中的掩码标记，我们大大减少了训练计算。在表 1c 中，我们将整体训练 FLOP 减少了 3.3 倍。这导致我们的实现中 2.8 倍的wall-clock加速（见表 2）。

对于较小的解码器（1 块）、较大的编码器 (ViT-H) 或两者都有的情况下，wall-clock加速甚至更大（3.5-4.1 倍）。请注意，对于 75% 的掩蔽率，加速可以 >4 倍，部分原因是自注意力复杂度是二次的。此外，内存大大减少，可以训练更大的模型或通过大批量训练加快速度。时间和内存效率使我们的 MAE 有利于训练非常大的模型。（上图的数据是通过以下条件得出的结论：我们的 MAE 训练的时间（800 个epochs），使用 TensorFlow 在 128 个 TPU-v3 内核中进行基准测试。加速与编码器具有掩码标记（灰色）的条目有关。解码器宽度为 512，掩码率为 75%。†：此条目是通过训练十个 epoch 估计的。）

重建目标

我们在表 1d 中比较了不同的重建目标。到目前为止，我们的结果基于没有（每个补丁）归一化的像素。使用归一化像素可提高准确性。这种逐块归一化在局部增强了对比度。在另一个变体中，我们在补丁空间中执行 PCA 并使用最大的 PCA 系数（此处为 96）作为目标。这样做会降低准确性。两个实验都表明高频分量在我们的方法中很有用

我们还比较了预测Stokens的MAE变体，BEiT[2]中使用的目标。特别是对于这种变体，我们使用DALLE预先训练的dVAE[43]作为标记器，遵循BEIT: BERT Pre-Training of Image Transformers这篇文章的要求。这里，MAE解码器使用交叉熵损失预测tokens索引。这种标记化与非标准化像素相比将微调精度提高了0。4%，但没有优势。标准化像素。它还降低了线性探测精度。在§5中，我们进一步表明，标记化在迁移学习中是不必要的。我们基于像素的 MAE 比标记化简单得多。 dVAE 分词器需要一个额外的预训练阶段，这可能取决于额外的数据（250M 图像 [43]）。dVAE 编码器是一个大型卷积网络（ViT-L 的 40% FLOPs）并增加了非平凡的开销。使用像素不会遇到这些问题。

数据扩充

表1e研究了数据扩充对MAE预培训的影响。

我们的MAE在仅使用裁剪的增强效果很好，无论是固定大小还是随机大小（都具有随机水平翻转）。添加颜色抖动会降低结果，因此我们不会在其他实验中使用它。令人惊讶的是，即使没有使用数据增强（只有中心裁剪，没有翻转），我们的 MAE 也表现得很好。这一特性与对比学习和相关方法截然不同，后者严重依赖于数据增强。据观察，对于 BYOL 和 SimCLR，使用仅裁剪增强分别将准确度降低了 13% 和 28%。此外，没有证据表明对比学习可以在没有增强的情况下工作：图像的两个视图是相同的，可以很容易地满足一个简单的解决方案在 MAE 中，数据增强的作用主要是通过随机掩码来实现的（下一个消融）。每次迭代的掩码都不同，因此无论数据增强如何，它们都会生成新的训练样本。掩蔽使pretext任务变得困难，并且需要较少的增强来规范训练。

掩码采样策略

在表一中我们比较了不同掩码采样策略，如图所示：
掩码采样策略决定了pretext任务的难度，影响了重建质量和表示（表 1f）。这里的每个输出都来自使用指定掩蔽策略训练的 MAE。左：随机抽样（我们的默认设置）。中间：逐块采样 [2]，删除大的随机块。右：网格采样，保留每四个补丁之一。图片来自验证集
BEIT: BERT Pre-Training of Image Transformers 中提出的分块屏蔽策略倾向于删除大块（图6 中）。我们的带块屏蔽的 MAE 在 50% 的比率下工作得相当好，但在 75% 的比率下性能下降。这项任务比随机抽样更难，因为观察到更高的训练损失。重建也更模糊。我们还研究了grid-wisesampling，它定期保留每四个补丁中的一个（图6右）。这是一项更简单的任务，并且具有更低的训练损失。重建更加清晰。但是，表示质量较低。简单随机抽样最适合我们的 MAE。它允许更高的掩蔽率，这提供了更大的加速优势，同时还享有良好的准确性。

训练时间表

到目前为止，我们的消融是基于 800 epoch 的预训练。图 7 显示了训练计划长度的影响。随着训练时间的延长，准确率稳步提高。事实上，即使在 1600 个时期，我们也没有观察到线性探测精度的饱和。
这种行为与对比学习方法不同，例如，MoCo v3 [9] 在 ViT-L 的 300 个 epoch 时饱和。请注意，MAE 编码器每个 epoch 只能看到 25% 的补丁，而在对比学习中，编码器每个 epoch 看到 200%（twocrop）甚至更多（multi-crop）补丁。
更长的训练计划会带来显着的改善。这里的每一点都是一个完整的训练计划。模型为 ViT-L，默认设置见表 1。

结果比较

与自监督方法的比较

在表 3 中，我们比较了自监督 ViT 模型的微调结果。对于 ViT-B，所有方法的表现都很接近。对于 ViT-L，方法之间的差距更大，这表明更大模型的挑战是减少过度拟合。
与之前在 ImageNet1K 上的结果的比较。预训练数据是 ImageNet-1K 训练集（除了 BEiT 中的分词器是在 250M DALE 数据上预训练的）。所有自监督方法都通过端到端的微调进行评估。 ViT 型号为 B/16、L/16、H/14。每列的最佳值带有下划线。所有结果都在 224 的图像大小上，除了 ViT-H 的额外结果是 448。这里我们的 MAE 重建归一化像素并预训练了 1600 个epochs。我们的MAE可以很容易地扩展，并且与更大的型号相比已经显示出稳定的改进。我们使用ViT-H（224号）获得86.9%的准确率。通过对448大小进行微调，我们仅使用1K数据就可以实现87.8%的精度。基于高级网络，在所有仅使用1K数据的方法中，先前的最佳精度为87.1%（512大小)。我们在极具竞争力的基准IN1K（无外部数据）中以不平凡的优势超越了最先进的技术。我们的结果是基于Vanillavit的，我们期望高级网络将表现得更好。与 BEiT [2] 相比，我们的 MAE 更准确，同时更简单和更快。与预测标记的 BEiT 相比，我们的方法重建像素：BEiT 报告在使用 ViT-B.2 重建像素时降低了 1.8% [2] 我们不需要 dV AE 预训练。此外，由于表 1c 中研究的原因，我们的 MAE 比 BEiT 快得多（每 epoch 3.5 倍）。
表 3 中的 MAE 模型预先训练了 1600 个 epoch，以获得更好的准确性（图 7）。即便如此，如果它们在相同的硬件中进行训练，我们的总预训练时间比所有其他方法都少。例如，对于 ViT-L，使用相同的 128 个 TPU-v3 内核，我们的 MAE 的训练时间为 31 小时，1600 个epoch，而 MoCo v3 的训练时间为 36 小时，300 个epoch。

和有监督的预训练比较

在最初的 ViT 论文中，ViT-L 在 IN1K 中训练时性能下降。见图8。我们改进的监督配方更适合从头开始训练（图 8，“我们的实现”；参见 A.2），但准确度已经饱和。我们的 MAE 预训练，仅使用 IN1K，可以更好地泛化：对于更高容量的模型，从头开始训练的收益更大。它遵循类似于中的 JFT-300M 监督预训练的趋势。这个比较表明我们的 MAE 可以帮助扩大模型大小。

部分微调

表 1 显示线性探测和微调结果在很大程度上不相关。线性探测在过去几年中一直是一种流行的协议；然而，它错过了追求强但非线性特征的机会——这确实是深度学习的优势。作为中间立场，我们研究了部分微调协议：微调最后几层，同时冻结其他层。该协议也用于早期工作，例如：
（1） Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles
（2）How transferable are features in deep neural networks?
（3）olorful Image Colorization
图 9 显示了结果。

值得注意的是，仅对一个 Transformer 模块进行微调即可将准确度从 73.5% 显着提高到 81.0%。此外，如果我们只微调最后一个块（即它的 MLP 子块）的“一半”，我们可以获得 79.1%，比线性探测要好得多。这种变体本质上是微调 MLP 头。微调几个块（例如 4 或 6 个）可以获得不错的精度，与冻结的主干相比，这仍然是一个很小的微调头。在图 9 中，我们还与 MoCo v3 [9] 进行了比较，这是一种具有 ViT-L 结果的对比方法。它比我们的 MAE 具有更高的线性探测精度。然而，它所有的局部微调结果都比我们的差。调整 4 个块时差距为 2.6%。这些结果表明，MAE 表示的线性可分性较差，但它们具有更强的非线性特征，并且在调整非线性头时表现良好。
这些观察结果表明，线性可分性不是评估表征质量的唯一指标。还观察到（例如，[8]）线性探测与迁移学习性能（例如，用于对象检测）的相关性不是很好。据我们所知，在 NLP 中不经常使用线性评估来对预训练进行基准测试。

迁移学习实验

我们评估了转移学习在COCO上的目标检测和分割以及在ADE20K上的语义分割。我们使用表3中预先训练的模型。

目标检测和分割

我们在 COCO 上端到端地微调 Mask R-CNN [23]。 ViT 主干适用于 FPN（见附录 A.3）。我们将此对象检测系统应用于表 4 中的所有条目。

我们报告用于对象检测的框 AP 和用于实例分割的掩码 AP。与监督预训练相比，我们的 MAE 在所有配置下表现更好（表 4）。使用较小的 ViT-B，我们的 MAE 比监督预训练高 2.4 分（50.3vs. 47.9，APbox）。更重要的是，使用更大的 ViT-L，我们的 MAE 预训练比监督预训练高 4.0 分（53.3vs. 49.3）。
基于像素的 MAE 优于或与基于令牌的 BEiT 相当，而 MAE 更简单、更快。 MAE 和 BEiT 都优于 MoCo v3，并且 MoCo v3 与监督预训练相当。

语义分割

我们在ADE20K上的实验按照[2]中的代码使用SuperNet[52]。详情见A.4。表5显示，我们的MAE显著改善了ViT-L的转移结果，即3。比监督培训对手高7分（53.6比49.9）。基于像素的MAE优于基于令牌的BEiT。这些观察结果与COCO中的一致。

像素与标签

表 6 给出了像素和像素的全面比较。Tokens作为 MAE 重建目标。虽然使用 dVAE 令牌比使用非标准化像素更好，但它在统计上类似于在我们研究的所有任务和模型中使用标准化像素。它再次表明我们的 MAE 不需要标记化。

结论与讨论

可扩展的简单算法是深度学习的核心。在 NLP 中，简单的自监督学习方法可以从指数缩放模型中获益。在计算机视觉中，尽管自监督学习取得了进展，但实际的预训练范式主要受到监督。在这项研究中，我们在 ImageNet 和迁移学习中观察到自动编码器，一种类似于 NLP 技术的简单自我监督方法——提供了可扩展的好处。视觉中的自监督学习现在可能走上与 NLP 类似的轨迹。另一方面，我们注意到图像和语言是不同性质的信号，必须谨慎处理这种差异。图像只是记录的光，没有语义分解成单词的视觉类比。我们没有尝试删除对象，而是删除最有可能不形成语义段的随机补丁。同样，我们的 MAE 重建像素，它们不是语义实体。尽管如此，我们观察到（例如，图 4）我们的 MAE 推断出复杂的整体重建，表明它已经学习了许多视觉概念，即语义。我们假设这种行为是通过 MAE 内部丰富的隐藏表示发生的。我们希望这个观点能激发未来的工作。

更广泛的影响

本文所提出的方法根据训练数据集的学习统计数据预测内容，因此将反映这些数据中的偏差，包括具有负面社会影响的偏差。该模型可能会生成不存在的内容。在基于这项工作生成图像时，这些问题值得进一步研究和考虑。

部分实验效果图

建议有机会一定要去读一波原文。

论文地址：Masked Autoencoders Are Scalable Vision Learners

欢乐的时光总是短暂的，让我们下一次再见！！！

good good study,day day up! (study hard, improve every day)

预知后事，请听下回分解！！！！