NLP CV
Transformer ViT
BERT MAE

文章目录

  • 1. 标题
  • 2. 摘要
  • 3. 模型架构
  • 4. 结论

1. 标题

  Masked Autoencoders Are Scalable Vision Learners指的是带掩码的自编码器是可扩展的视觉学习器。其中这里的Autoencoders指的是模型的输入和输出都是相同的,简单来说Autoencoder=encoder+decoder。

  作者其中包括了ResNet的第一作者何恺明大神。

2. 摘要

  MAE的方法比较简单:对输入图片进行随机块的mask,然后对mask块中的像素进行重构。核心设计主要是源于两点。

  第一,设计了非对称的编码器和解码器架构,其中编码器仅对没有进行mask的区域进行编码,解码器是轻量级的,能够重构原始的图片。

  第二,如果对图片中绝大多数的区域进行mask,比如75%,就会得到一个很有意义的自监督任务。

  通过上述两个设计,就能够更加有效地训练大模型,如训练速度提升3倍,并且提高训练的精度。

  在ViT-Huge的模型中仅仅使用100W的数据就能得到(87.8%)的准确率。在下游任务进行迁移学习的效果优于有监督的预训练。

3. 模型架构


  其中masked的块被涂成灰色(绝大部分)。将没有masked的区域作为encoder(ViT)的输入,将其输出填入到新构建的长向量中。灰色部分只包含了位置向量填入到新构建的长向量中。然后将长向量输入到decoder中,最终还原出整个原来的图片。encoder的模型复杂度大于decoder。

4. 结论

  简单的算法具有一定的扩展性,是深度学习的核心。在NLP中,简单的自监督学习方法得到了成功的应用。但在计算机视觉中,预训练范式绝大多数还是有监督的方法。在本研究中,使用了autoencoder进行类似于NLP的自监督学习。

  在另一方面,由于图像和语言数据的本质并不相同,所以必须谨慎进行处理。在NLP中,一个词是一个语义的单元,包含的语义信息是比较多的。在图像中,虽然每个patch包含一定的语义信息。但它并不是一个语义的segment。MAE能够学习到比较好的语义表达。

Masked Autoencoders Are Scalable Vision Learners 论文研读相关推荐

  1. Masked Autoencoders Are Scalable Vision Learners 论文导读

    Facebook 人工智能研究 (FAIR) 团队发表的论文 Masked Autoencoders Are Scalable Vision Learners 已成为计算机视觉社区的热门话题.这也是K ...

  2. 李沐精读论文:MAE 《Masked Autoencoders Are Scalable Vision Learners》

    论文:Masked Autoencoders Are Scalable Vision Learners 别再无聊地吹捧了,一起来动手实现 MAE(Masked Autoencoders Are Sca ...

  3. 【读点论文】Masked Autoencoders Are Scalable Vision Learners 完型填空应用到视觉处理上

    Masked Autoencoders Are Scalable Vision Learners 本文表明,掩蔽自动编码器(MAE)是计算机视觉的可扩展自监督学习器. 本文的MAE方法很简单:通过屏蔽 ...

  4. MAE 论文《Masked Autoencoders Are Scalable Vision Learners》

    <Masked Autoencoders Are Scalable Vision Learners>带掩码的自编码器是一个可拓展的视觉学习器,听名字就明白一二,应该是在编码器部分加上了 m ...

  5. (七十六):Masked Autoencoders Are Scalable Vision Learners

    (七十六):Masked Autoencoders Are Scalable Vision Learners Abstract 1. Introduction 2. Related Work 3. M ...

  6. Masked Autoencoders Are Scalable Vision Learners(MAE)

    VIT论文解读:Vision Transformer(ViT)_NLP_wendi的博客-CSDN博客 论文链接:Masked Autoencoders Are Scalable Vision Lea ...

  7. 【论文和代码阅读】Masked Autoencoders Are Scalable Learners (MAE)

    写在最前面 先贴一下MAE的论文链接 https://arxiv.org/pdf/2111.06377.pdfhttps://arxiv.org/pdf/2111.06377.pdf紧随其后的是代码复 ...

  8. 论文阅读VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

    VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training 文章目 ...

  9. Kaiming He 论文阅读笔记一——Masked Autoencoders

    2022年Kaiming大神又发表了三篇新paper,今天我们阅读其中的Masked Autoencoders Are Scalable Vision Learners以及Masked Autoenc ...

最新文章

  1. MySql 日志查看与设置
  2. GPU 2014年4月 性能排名
  3. 云安全趋势下脚踏实地力拼网络危胁
  4. CentOS 7下用firewall-cmd
  5. 翻牌游戏如何打乱牌面java_剑仙登上虎牙封面C位,成为新的牌面,虎牙造星能力真的强...
  6. LeetCode——Same Tree(判断两棵树是否相同)
  7. 麦咭早教机器人_【今日吐槽】这句台词有毒!完全忘不了!(机器人免费送)...
  8. python运行原理_Python线程池及其原理和使用(超级详细)
  9. 机器学习SVD【二】
  10. 第一款Micropython图形化编辑器—Python Editor
  11. 一维数组求平均值c语言编程软件,请问一道c++编程:求一维数组中全部元素的平均值?...
  12. 操作系统进程间通信简述
  13. 一文弄懂二叉树三种遍历
  14. 番禺区天气预报软件测试,天气预报模块测试用例(P707)
  15. IOUtils使用介绍
  16. KETTLE、spoon使用
  17. Oracle 10g安装图解教程
  18. DPCM差分预测编码
  19. python中集合的符号_python集合中的操作符有哪些?怎么用?
  20. 六级,我一定要考好!

热门文章

  1. 安装 Ubuntu 操作系统步骤教程
  2. 饥荒海难创建显示专用服务器,饥荒海难控制台使用教程及小技巧_快吧单机游戏...
  3. Java实现扑克牌程序(数据结构)
  4. java用下拉框实现出生日期_纯JS实现出生日期[年月日]下拉菜单效果
  5. 心知天气Android开发,H5 实现天气效果(心知天气插件)
  6. r语言中which的使用_R语言绘图 | 使用pheatmap快速绘制热图
  7. [PS业务知识]BCWS、BCWP、ACWP的理解
  8. Opencv或python中图像与三维数组原理
  9. 将mybatis打印的Preparing与Parameters转化为可执行sql
  10. c,c++代码格式规范