NLP	CV
Transformer	ViT
BERT	MAE

文章目录

1. 标题
2. 摘要
3. 模型架构
4. 结论

1. 标题

Masked Autoencoders Are Scalable Vision Learners指的是带掩码的自编码器是可扩展的视觉学习器。其中这里的Autoencoders指的是模型的输入和输出都是相同的，简单来说Autoencoder=encoder+decoder。

作者其中包括了ResNet的第一作者何恺明大神。

2. 摘要

MAE的方法比较简单：对输入图片进行随机块的mask，然后对mask块中的像素进行重构。核心设计主要是源于两点。

第一，设计了非对称的编码器和解码器架构，其中编码器仅对没有进行mask的区域进行编码，解码器是轻量级的，能够重构原始的图片。

第二，如果对图片中绝大多数的区域进行mask，比如75%，就会得到一个很有意义的自监督任务。

通过上述两个设计，就能够更加有效地训练大模型，如训练速度提升3倍，并且提高训练的精度。

在ViT-Huge的模型中仅仅使用100W的数据就能得到(87.8%)的准确率。在下游任务进行迁移学习的效果优于有监督的预训练。

3. 模型架构

其中masked的块被涂成灰色（绝大部分）。将没有masked的区域作为encoder(ViT)的输入，将其输出填入到新构建的长向量中。灰色部分只包含了位置向量填入到新构建的长向量中。然后将长向量输入到decoder中，最终还原出整个原来的图片。encoder的模型复杂度大于decoder。

4. 结论

简单的算法具有一定的扩展性，是深度学习的核心。在NLP中，简单的自监督学习方法得到了成功的应用。但在计算机视觉中，预训练范式绝大多数还是有监督的方法。在本研究中，使用了autoencoder进行类似于NLP的自监督学习。

在另一方面，由于图像和语言数据的本质并不相同，所以必须谨慎进行处理。在NLP中，一个词是一个语义的单元，包含的语义信息是比较多的。在图像中，虽然每个patch包含一定的语义信息。但它并不是一个语义的segment。MAE能够学习到比较好的语义表达。

Masked Autoencoders Are Scalable Vision Learners 论文研读相关推荐

Masked Autoencoders Are Scalable Vision Learners 论文导读
Facebook 人工智能研究 (FAIR) 团队发表的论文 Masked Autoencoders Are Scalable Vision Learners 已成为计算机视觉社区的热门话题.这也是K ...
李沐精读论文：MAE 《Masked Autoencoders Are Scalable Vision Learners》
论文:Masked Autoencoders Are Scalable Vision Learners 别再无聊地吹捧了,一起来动手实现 MAE(Masked Autoencoders Are Sca ...
【读点论文】Masked Autoencoders Are Scalable Vision Learners 完型填空应用到视觉处理上
Masked Autoencoders Are Scalable Vision Learners 本文表明,掩蔽自动编码器(MAE)是计算机视觉的可扩展自监督学习器. 本文的MAE方法很简单:通过屏蔽 ...
MAE 论文《Masked Autoencoders Are Scalable Vision Learners》
<Masked Autoencoders Are Scalable Vision Learners>带掩码的自编码器是一个可拓展的视觉学习器,听名字就明白一二,应该是在编码器部分加上了 m ...
（七十六）：Masked Autoencoders Are Scalable Vision Learners
(七十六):Masked Autoencoders Are Scalable Vision Learners Abstract 1. Introduction 2. Related Work 3. M ...
Masked Autoencoders Are Scalable Vision Learners（MAE）
VIT论文解读:Vision Transformer(ViT)_NLP_wendi的博客-CSDN博客论文链接:Masked Autoencoders Are Scalable Vision Lea ...
【论文和代码阅读】Masked Autoencoders Are Scalable Learners (MAE)
写在最前面先贴一下MAE的论文链接 https://arxiv.org/pdf/2111.06377.pdfhttps://arxiv.org/pdf/2111.06377.pdf紧随其后的是代码复 ...
论文阅读VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training 文章目 ...
Kaiming He 论文阅读笔记一——Masked Autoencoders
2022年Kaiming大神又发表了三篇新paper,今天我们阅读其中的Masked Autoencoders Are Scalable Vision Learners以及Masked Autoenc ...

Masked Autoencoders Are Scalable Vision Learners 论文研读