摘要

论文地址:https://arxiv.org/pdf/2205.03892
视觉转换器 (ViT) 已成为各种视觉任务广泛采用的架构。用于特征预训练的掩码自动编码 [2、1、28、55] 和多尺度混合卷积变换器架构 [12、21、49、34、57] 可以进一步释放 ViT 的潜力,从而实现最先进的图像分类、检测和语义分割的艺术表演。在本文中,我们的 ConvMAE 框架证明了多尺度混合卷积变换器可以通过掩码自动编码方案学习更多的判别表示。然而,直接使用原始掩码策略会导致计算成本和预训练-微调差异。为了解决这个问题,我们采用掩码卷积来防止卷积块中的信息泄漏。提出了一种简单的分块屏蔽策略来确保计算效率。我们还建议更直接地监督编码器的多尺度特征以提升多尺度特征。与 MAE-Base 相比,ConvMAE-Base 将 ImageNet-1K 微调精度提高了 1.4%。在目标检测方面,仅微调 25 个 epoch 的 ConvMAEBase 比微调 100 个 epoch 的 MAE-Base 分别高出 2.9% APbox 和 2.2% APmask。代码和预训练模型可在 https://github.com/Alpha-VL/ConvMAE 获得。

1 简介

自监督学习框架,如 DINO [6]、MOCO-V3 [10]、MAE [28],释放了视觉转换器 (ViT) 的潜力,并在各种下游视觉任务中实现了高性能 [33、30、58] . 其中,Mask Autoencoders (MAE) [28] 表现出卓越的学习能力和可扩展性。 受自然语言处理中的 BERT [15, 46, 4] 的启发,MAE 利用非对称编码器和解码器架构,其中编码器的掩码令牌由解码器重建。 实验表明,MAE 可以从 ImageNet-1K [14] 中学习判别性和可扩展的表示,而无需依赖于大规模数据集,例如 ImageNet-22K

【第41篇】ConvMAE:Masked Convolution 遇到 Masked Autoencoders相关推荐

  1. ConvMAE: Masked Convolution Meets Masked Autoencoders

    Self-Supervised Learning,又称为自监督学习,机器学习分为有监督学习,无监督学习和半监督学习.而 Self-Supervised Learning 是无监督学习里面的一种,主要是 ...

  2. 【Flutter 问题系列第 41 篇】Cannot provide both a color and a decoration,To provide both, use “decoration“

    这是[Flutter 问题系列第 41 篇],如果觉得有用的话,欢迎关注专栏. 这个错误相信每一个刚接触 Flutter 的都会碰到,不是什么大问题,只是一个注意事项而已. 一:报错信息 示例代码如下 ...

  3. 深度学习被高频引用的41篇论文下载(附下载)

    来源:Python与算法社区 本文多干货,建议收藏 本文为你汇总深度学习相关高引论文. 1 ImageNet Classification with Deep Convolutional Neural ...

  4. 【Python入门教程】第41篇 字典

    本篇我们将会学习 Python 中的字典(Dictionary)数据类型,它可以用于组织多个相关的信息. 字典类型 Python 字典是由多个键值对(key-value)组成的集合,每一个 key 和 ...

  5. 【自监督论文阅读笔记】Integrally Pre-Trained Transformer Pyramid Networks (2022)

    Abstract 在本文中,我们提出了一个基于掩码图像建模 (MIM) 的整体预训练框架.我们提倡 联合预训练 backbone 和 neck,使 MIM 和下游识别任务之间的迁移差距最小.我们做出了 ...

  6. 【最新重磅整理】82篇AAAI2021强化学习领域论文接收列表

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:深度强化学习实验室&AMiner 编 ...

  7. 华人包揽CVPR 2019两篇最佳论文,李飞飞ImageNet十年后获奖

    乾明 边策 发自 凹非寺  量子位 报道 | 公众号 QbitAI 现在,是时候称CVPR为CCVPR了. 这已经不再是"戏言",而是实力见证. 大洋彼岸,计算机视觉领域顶级学术会 ...

  8. 简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化

    一.前言 最近写得两篇关于简书的数据可视化文章:<简书推荐作者风云榜(爬取简书app数据)>.<我的简书一月记:数据可视化>反响都还不错,因而将继续针对简书进行数据分析和可视化 ...

  9. delphi报列表索引越界怎么处理_Python入门第3课:列表元组,看这一篇够了 | 原创...

    这是学习笔记的第41篇原创文章 Hello,亲们好呀!最近小安Sir比较忙,但只要有时间,我一定会努力做好每一次分享! 怎么管理数据上一篇文章主要分享如何使用分支循环,案例大多数是以单个数据为主.链接 ...

  10. Kotlin高仿微信-项目实践58篇

    Kotlin高仿微信项目实践主要包含5大模块: 1.Web服务器 2.Kotlin客户端 3.Xmpp即时通讯服务器 4.视频通话服务器 5.腾讯云服务器 另外也有Flutter版本高仿微信功能,Fl ...

最新文章

  1. 3.11 随机初始化-深度学习-Stanford吴恩达教授
  2. 树莓派搭建TensorFlow
  3. 关于会计科目表,科目组,字段状态组
  4. poj 2948 Martian Mining (dp)
  5. Python安装教程分享
  6. 页面缓存js问题解决
  7. 如何使 FlashGet 正常合法 下载 Session 中的自定义文件链接呢? JSP/Servlet 实现!
  8. Asp.net ajax、Anthem.net、Ajax pro三大ajax框架那一种使用比较方便?易于配置?
  9. qemu a fast and portable dynamic translator——大致翻译
  10. [BZOJ4810][Ynoi2017]由乃的玉米田 莫队+bitset
  11. java淘淘商城_淘淘商城-张志君分布式电商视频教程 下载
  12. Ardunio开发实例-WS2812B独立寻址LED调色调光
  13. PSV微豆瓣FM v0.1.0
  14. 如何在Mac上清理磁盘空间?
  15. 【渝粤教育】 国家开放大学2020年春季 1332中文学科论文写作 参考试题
  16. 删除UltraISO(软碟通)卸载后的遗留文件“isoshl64.dll”
  17. “不减持”过时了 这些票的股东都在增持
  18. 最重要的财富——信用:守信重于生命
  19. 日语助词-接续助词总结
  20. php excel 公式,Excel函数所有公式汇总

热门文章

  1. win10 磁盘管理 压缩卷 无法启动问题
  2. VMware中安装Ubuntu出现多个vmdk文件原因
  3. 从音频提取音高以及音符
  4. 资治通鉴-6 听的智慧
  5. 移动安全-APP安全加固
  6. Reactjs源码分析
  7. 队列fifo和lifo C语言数组实现
  8. 2021-2027全球与中国智能访客管理系统市场现状及未来发展趋势
  9. error obtaining controller instance: failed to create NAT chain
  10. Excel中如何将一个Excel工作表的数据按一列的关键字拆分成多个工作表