Facebook 人工智能研究 (FAIR) 团队发表的论文 Masked Autoencoders Are Scalable Vision Learners 已成为计算机视觉社区的热门话题。这也是KaiMing大神在2年后的第一篇一作论文。

采用带有掩码的语言建模系统,如谷歌的 BERT 及其自回归对应物,如 OpenAI 的 GPT,已经在自然语言处理 (NLP) 任务中取得了惊人的性能,并能够训练包含超过 1000 亿个参数的泛化 NLP 模型。

但是在计算机视觉中自编码方法的进展和性能远远落后于它们在 NLP 能力。 一个问题自然会出现:掩码自动编码在视觉和语言领域有何不同? FAIR 论文解决了这个问题,并证明了 Masked Autoencoders (MAE) 可以是用于计算机视觉的可扩展自监督学习器。

研究人员首先讨论了视觉和语言领域中带有掩码的自编码器的差异,总结为以下三点:1) 到现在为止两者架构还是不同的; 2)语言和图像的信息密度不同; 3)自动编码器的解码器将潜在表示映射回输入,在重建文本或图像时扮演不同的角色。

然后,该论文提出了一种简单、有效且可扩展的 用于视觉表示学习的MAE方法。所提出的 MAE 方法背后的想法很简单——将来自输入图像的随机块被屏蔽,然后在像素空间中重建丢失的块。该团队将其 MAE 的双核心设计和方法总结为:

我们开发了一个非对称编码器-解码器架构,其中一个编码器只对可见的patches子集进行操作(没有掩码标记),以及一个轻量级解码器,可以从潜在表示和掩码标记重建原始图像。

我们发现屏蔽大部分输入图像,例如 75%,会产生重要且有意义的自监督任务。将这两种设计结合起来使我们能够高效地训练大型模型,将训练速度提高 3 倍或更多,并提高准确性。

论文在 ImageNet-1K (IN1K) 训练集上进行了自监督的预训练,然后进行了监督训练,以通过端到端的微调或线性探测来评估表示。他们使用 ViT-Large (ViT-L/16) 作为他们的模型并验证Top1准确性。

结果表明,MAE 学习了非常高容量的模型,这些模型也能很好地泛化。 使用普通的 ViT-Huge 模型,MAE 在 ImageNet-1K 上进行微调时达到了 87.8% 的准确率。

论文认为,扩展性好的简单算法是深度学习的核心。在NLP中,简单的自监督学习方法可以指数级别的增益模型。在计算机视觉中,尽管在自监督学习方面取得了进展,但实际的预训练模式仍主要受到监督。在ImageNet和迁移学习中观察到,自动编码器(autoencoder)提供了非常强的优势。视觉中的自监督学习现在可能正走上与NLP类似的轨道。

论文地址:https://arxiv.org/abs/2111.06377

本文来自 syncedreview,作者:Hecate He

Masked Autoencoders Are Scalable Vision Learners 论文导读相关推荐

  1. Masked Autoencoders Are Scalable Vision Learners 论文研读

    NLP CV Transformer ViT BERT MAE 文章目录 1. 标题 2. 摘要 3. 模型架构 4. 结论 1. 标题   Masked Autoencoders Are Scala ...

  2. 李沐精读论文:MAE 《Masked Autoencoders Are Scalable Vision Learners》

    论文:Masked Autoencoders Are Scalable Vision Learners 别再无聊地吹捧了,一起来动手实现 MAE(Masked Autoencoders Are Sca ...

  3. 【读点论文】Masked Autoencoders Are Scalable Vision Learners 完型填空应用到视觉处理上

    Masked Autoencoders Are Scalable Vision Learners 本文表明,掩蔽自动编码器(MAE)是计算机视觉的可扩展自监督学习器. 本文的MAE方法很简单:通过屏蔽 ...

  4. MAE 论文《Masked Autoencoders Are Scalable Vision Learners》

    <Masked Autoencoders Are Scalable Vision Learners>带掩码的自编码器是一个可拓展的视觉学习器,听名字就明白一二,应该是在编码器部分加上了 m ...

  5. (七十六):Masked Autoencoders Are Scalable Vision Learners

    (七十六):Masked Autoencoders Are Scalable Vision Learners Abstract 1. Introduction 2. Related Work 3. M ...

  6. Masked Autoencoders Are Scalable Vision Learners(MAE)

    VIT论文解读:Vision Transformer(ViT)_NLP_wendi的博客-CSDN博客 论文链接:Masked Autoencoders Are Scalable Vision Lea ...

  7. 【论文和代码阅读】Masked Autoencoders Are Scalable Learners (MAE)

    写在最前面 先贴一下MAE的论文链接 https://arxiv.org/pdf/2111.06377.pdfhttps://arxiv.org/pdf/2111.06377.pdf紧随其后的是代码复 ...

  8. 论文阅读VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

    VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training 文章目 ...

  9. Kaiming He 论文阅读笔记一——Masked Autoencoders

    2022年Kaiming大神又发表了三篇新paper,今天我们阅读其中的Masked Autoencoders Are Scalable Vision Learners以及Masked Autoenc ...

最新文章

  1. 深度学习核心技术精讲100篇(五十六)- 自动驾驶感知技术的实践与探索
  2. IDC:中国IT安全硬件、软件和服务全景图2014–2018 预测与分析
  3. Java,Scala,Guava和Trove集合-它们可以容纳多少数据?
  4. 使用百度媒体云视频解决方案实现html5视频播放功能
  5. JWTToken超时刷新策略
  6. 【统计分析】3 空间点模型
  7. Mysql 5.7 for windows 免安装版(解压版)安装和配置
  8. 入门OJ:photo
  9. C# dataGridView限制某一行的单元格只输入数字的方法之一
  10. 数据分析报告怎么写(一)
  11. (读论文)启体书法字的矢量化-曹芳
  12. 说企业自研应用是误区的,非蠢即坏
  13. 【Visual C++】游戏开发笔记二十五 最简化的DirectX开发环境的配置
  14. 练习9-15:彩票中奖率分析(Python变成从入门到实践学习)
  15. 计算机网络-数据链路层1
  16. 无单位收入证明怎么开?
  17. ubuntu下安装极品五笔
  18. jssc4.2.2语法高亮插件
  19. 大学英语计算机四级考试内容,大学英语四级机考备考方法
  20. 中国氢能汽车商业化之路,还要开多远?

热门文章

  1. 改变Keil5所有窗口的背景颜色
  2. canvas制作简易写字板
  3. 入门科普:一文看懂机器学习3种类型的概念、根本差别及应用 | 洞见
  4. 清明,小侄子,鸡蛋,妈妈
  5. 程序员薪资一万,程序员鼓励师月薪两万,网友:我还想安心工作
  6. 券商如何借助企业微信、小程序、视频号提高营收转化?
  7. 三星VR新专利曝光,支持悬空手势识别
  8. 去掉文本框的自动提示
  9. 基于FPGA的ICG-20330陀螺仪设计
  10. 使用Rythm插件轻松实现JFinal应用的国际化