Masked Autoencoders Are Scalable Vision Learners（MAE）

VIT论文解读：Vision Transformer（ViT）_NLP_wendi的博客-CSDN博客

论文链接：Masked Autoencoders Are Scalable Vision Learners

摘要

MAE是CV中易扩展的自监督学习器。方法比较简单：随机遮盖住一部分patches，然后重构这些部分。基于两个设计：1、我们开发了一个非对称的编码-解码结构，编码器只编码那些可见的patch（未被遮盖），用一个解码器从隐表征和被遮住的patch中重构原始图片。2、用一个较高比例的mask rate，如75%，可以创建一个不那么明显且有有意义的自监督任务。合并这两个设计，我们可以训练一个高效的大模型，3倍以上的加速和更高的精度。这个易扩展的方法可以学习更高潜力的模型，且泛化性还不错，仅使用ImageNet-1k的数据集，基于ViT-Huge的模型可以取得最好的精度87.8%。在下游任务上的迁移学习也超过了有监督的预训练模型，且有不错的扩展性。

引言

masked autoencoders，更一般的如去噪autoencoder，在CV中已经有应用，且在联系紧密程度上高于bert，然后，在CV中的发展却落后于bert，NLP和CV之间的masked autoencoding的区别在哪里？

结构不同。CV中，主要应用CNN结构，CNN在一个固定大小的格子中做运算，没有将masked token或位置embeddings嵌入到网络中，这种结构的差异，在ViT中已经被解决，不再是一个应用瓶颈。
信息密度不同。语言是人为的数据，包含高密度的语义信息；图片是自然的数据，包含冗余的信息。为了克服这类问题，我们使用了一个简单而有效的策略：随机遮住大部分patches。这种策略可以极大降低冗余，且能创建一个基于低层次图片特征的、需要整体理解的自监督任务。
解码器不同。在CV中，解码器需要重构像素，对比一般的识别任务，它的输出只是一个低层次的信息，这和NLP中明显的不同，NLP中的解码器需要预测被遮住的单词，它包含丰富的语义信息。在NLP中，解码器不是太重要【一个MLP】，然后我们发现，在CV中，解码器的结构在对隐表示的语义层次上起到重要的作用。

方法

Masking。我们将图片分割成不重复的片。然后随机采样一些片，无放回地采样，服从均匀分布。称之为随机采样。

MAE encoder。按照标准的ViT结构，编码器仅对看得见的patches做一个线性变换，然后加上位置embeddings。然后通过一系列的Transformer block块处理。编码器只对25%的区域做运算，大大节省了计算和内存。

MAE decoder。输入有两部分构成：i)可见patches的编码 ii)遮住的tokens。所有的被遮住的tokens共享一个可学习的向量，表示这个待预测的patches。我们又在输入中添加了位置embeddings，decoder由另外的一组Transformer block块组成。

MAE decoder只在预训练阶段使用，用来图片重构任务。在识别任务中，encoder用来生成图片表征。因此，可以灵活设计decoder结构，它是独立于encoder的。

Reconstruction target。decoder的输出是关于patch像素值的一个向量。decoder的最后一层是一个线性映射，输出通道的个数等于像素的通道数。损失函数是计算重构image和原始image之间的均方误差（MSE）。只在被masked的patches上计算损失，类似于bert。

另外我们还尝试了对patch做的重构做正则化处理。计算每一个patch的均值和标准差，然后用其进行归一化。在我们的实验里，这个可以提升表征性能。

Simple implementation。实现上也很简单，不需要额外的处理。先对所有的patch做一个线性变换，加上位置embedding，然后将这个列表打散，根据mask 比例，移除掉最后的部分。剩下的部分就是需要编码的，这等价于无放回地随机采样。编码后，我们将被masked的token追加到已编码的列表后面，然后对列表进行还原，将其和目标对齐。解码器作用在这个列表上。

ImageNet实验

在ImageNet-1k训练集上预训练，然后采用了两种监督学习的方式，来评估表征性能。i)end-to-end fine-tuning ii)linear probing.

下表是baseline MEA方法的实验结果，可以看到经过MEA预训练后finetune的效果要超过直接从头训练（84.9 vs 82.5）：

Main Properties

我们实验下来，发现最好的mask ratio是75%，这和bert非常不同，bert通常的mask ratio是15%。其他的类似的研究的mask ratio在20%-50%之间。

Decoder design.

Mask token.

Reconstruction target.

Data augmentation.

Mask sampling strategy.

Training schedule.

Comparisons with Previous Results

Partial Fine-tuning

Transfer Learning Experiments

结论和讨论

图片和语言是不同属性的信号，这种不同需要区分处理。图片只是被轻量记录的数据，缺乏和语言类似的语义信息。和移除具体目标不同的是，如果只是遮住随机的图像块，那很有可能不构成语义块。我们的MAE重构像素，也不是语义实体。尽管如此，MAE仍然能推断复杂的、全面的重构任务，说明 MAE已经学习到丰富的视觉特征。