2022年Kaiming大神又发表了三篇新paper,今天我们阅读其中的Masked Autoencoders Are Scalable Vision Learners以及Masked Autoencoders As Spatiotemporal Learners两篇,其原理相通,分别将所提出的Masked Autoencoder应用于图像和视频领域,本文着重介绍前者。


如图所示为Masked Autoencoder的结构,建立在BEIT的基础上,BEIT通过将输入图像分割为Patch,mask其中部分子图像之后,线性链接并将得到的token输入给encoder(vision transformer)。相比于BEIT,Masked Autoencoder的第一个亮点是使用了更高的mask比,从BEIT的15%提升到高达75%(在Masked Autoencoders As Spatiotemporal Learners的空间领域高达90%)。实验表明更大的mask比可以取得更好的效果。

第二个亮点是使用了非对称的encoder-decoder结构,encoder仅输入可见的图像子集(不输入masked token),配备一个轻量级的decoder,decoder的输入仍然保持全部图像。高mask和轻量级的decoder可以大大加速训练速度(3倍或更多),并且提高了准确性。作者分析因为输入的masked token与目标不符,因此去掉之后可以得到准确率的提升。作者给出了ImageNet验证集上的图像重建结果,如下图所示,可以看出模型通过推断缺失的补丁可以产生不同但看起来合理的输出,作者认为这种行为可以学习到有用的表征。

实验结果表明,Masked Autoencoder可以在大大提升速度的同时提升准确率,并且在所有ViT架构上均表现良好。

Masked Autoencoders As Spatiotemporal Learners中将同样的思路应用在三维空间:

Kaiming He 论文阅读笔记一——Masked Autoencoders相关推荐

  1. Kaiming He论文阅读笔记三——Simple Siamese Representation Learning

    Kaiming He大神在2021年发表的Exploring Simple Siamese Representation Learning,截至目前已经有963的引用,今天我们就一起来阅读一下这篇自监 ...

  2. Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection

    Kaiming在2022年发表了一篇Exploring Plain Vision Transformer Backbones for Object Detection. 文章的主要目的是追求一种包含较 ...

  3. DCP(Deep Closest Point)论文阅读笔记以及详析

    DCP论文阅读笔记 前言 本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...

  4. ResNet 论文阅读笔记

    ResNet 论文阅读笔记 #机器学习/深度学习 文章介绍 论文地址:https://arxiv.org/pdf/1512.03385.pdf 原文题目:Deep Residual Learning ...

  5. YOLOv4论文阅读笔记(一)

    YOLOv4论文阅读笔记 Introduction Related work Bag of freebies Bag of Specials 近日发表的YOLOv4无疑是2020年目前最轰动的重磅炸弹 ...

  6. 《Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting》论文阅读笔记

    论文阅读笔记 去年在ECCV上发表的<Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spott ...

  7. 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

    论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...

  8. DnCNN论文阅读笔记【MATLAB】

    DnCNN论文阅读笔记 论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...

  9. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

最新文章

  1. PyCharm_10个加速省时间技巧
  2. 链式链表的C风格实现
  3. Debian 9 strech 安装 ROS lunar
  4. php 字符串 大括号,PHP中的字符串大括号
  5. 操作系统(二): 进程与线程
  6. xlwt写操作基本代码
  7. 如何解锁excel表格保护_Excel表格技巧—如何计算矩阵相乘
  8. TurboMail邮件系统为防垃圾邮件盗号提供专业方案
  9. vue mianjs 引用css_7个有用的Vue开发技巧
  10. Dijkstra 算法初探
  11. mplayer命令行模式下的使用方法
  12. Android基础入门教程——9.1 使用SoundPool播放音效(Duang~)
  13. 将vscode打造成无敌的IDE(5)打造shell IDE--三大神器
  14. sass 运算符的使用 和常见的基本函数
  15. 服务器驱动器输入信号,基于GaN器件的驱动设计方案
  16. 如果你喜欢平板又是QWERTY键盘控 联想推“握柄键盘”满足你
  17. 玩转直播:如何从 0 到 1 构建简单直播系统
  18. Centos 7 内核文件丢失的快速修复
  19. 带你刷笔试关的小怪|详解指针习题和面试题【C语言/指针/进阶】
  20. 如何用Tableau可视化?

热门文章

  1. bam格式转换为Fastq/Fasta格式
  2. sql清空表数据命令
  3. python jupyter_如何优雅地使用 Jupyter?
  4. Raspberry pi,一个好玩的派 第四季 NOOBS
  5. 尹语堂供应链20220212
  6. 公众号写作——经验分享
  7. [luogu3258] [JLOI2014]松鼠的新家
  8. 《图解TCP/IP》读书笔记九:网络安全
  9. iphone12售价曝光 iphone12什么时候上市
  10. linux系统cpu内存等资源查看top命令详解