Kaiming He 论文阅读笔记一—

2022年Kaiming大神又发表了三篇新paper，今天我们阅读其中的Masked Autoencoders Are Scalable Vision Learners以及Masked Autoencoders As Spatiotemporal Learners两篇，其原理相通，分别将所提出的Masked Autoencoder应用于图像和视频领域，本文着重介绍前者。

如图所示为Masked Autoencoder的结构，建立在BEIT的基础上，BEIT通过将输入图像分割为Patch，mask其中部分子图像之后，线性链接并将得到的token输入给encoder（vision transformer）。相比于BEIT，Masked Autoencoder的第一个亮点是使用了更高的mask比，从BEIT的15%提升到高达75%（在Masked Autoencoders As Spatiotemporal Learners的空间领域高达90%）。实验表明更大的mask比可以取得更好的效果。

第二个亮点是使用了非对称的encoder-decoder结构，encoder仅输入可见的图像子集（不输入masked token），配备一个轻量级的decoder，decoder的输入仍然保持全部图像。高mask和轻量级的decoder可以大大加速训练速度（3倍或更多），并且提高了准确性。作者分析因为输入的masked token与目标不符，因此去掉之后可以得到准确率的提升。作者给出了ImageNet验证集上的图像重建结果，如下图所示，可以看出模型通过推断缺失的补丁可以产生不同但看起来合理的输出，作者认为这种行为可以学习到有用的表征。

实验结果表明，Masked Autoencoder可以在大大提升速度的同时提升准确率，并且在所有ViT架构上均表现良好。

Masked Autoencoders As Spatiotemporal Learners中将同样的思路应用在三维空间：

Kaiming He 论文阅读笔记一——Masked Autoencoders相关推荐

Kaiming He论文阅读笔记三——Simple Siamese Representation Learning
Kaiming He大神在2021年发表的Exploring Simple Siamese Representation Learning,截至目前已经有963的引用,今天我们就一起来阅读一下这篇自监 ...
Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection
Kaiming在2022年发表了一篇Exploring Plain Vision Transformer Backbones for Object Detection. 文章的主要目的是追求一种包含较 ...
DCP（Deep Closest Point）论文阅读笔记以及详析
DCP论文阅读笔记前言本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...
ResNet 论文阅读笔记
ResNet 论文阅读笔记 #机器学习/深度学习文章介绍论文地址:https://arxiv.org/pdf/1512.03385.pdf 原文题目:Deep Residual Learning ...
YOLOv4论文阅读笔记（一）
YOLOv4论文阅读笔记 Introduction Related work Bag of freebies Bag of Specials 近日发表的YOLOv4无疑是2020年目前最轰动的重磅炸弹 ...
《Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting》论文阅读笔记
论文阅读笔记去年在ECCV上发表的<Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spott ...
全卷积（FCN）论文阅读笔记：Fully Convolutional Networks for Semantic Segmentation
论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...
DnCNN论文阅读笔记【MATLAB】
DnCNN论文阅读笔记论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...
Learning Multiview 3D point Cloud Registration论文阅读笔记
Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

Kaiming He 论文阅读笔记一——Masked Autoencoders

Kaiming He 论文阅读笔记一——Masked Autoencoders相关推荐

最新文章

热门文章