点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

杨净 明敏 雷刚 发自 凹非寺
量子位 报道 | 公众号 QbitAI

大神话不多,但每一次一作论文,必定引发江湖震动。

这不,距离上一篇一作论文2年之后,何恺明再次以一作身份,带来最新研究。

依然是视觉领域的研究,依然是何恺明式的大道至简

甚至在业内纷纷追求“大力出奇迹”、“暴力美学”的当下,何恺明还带着一种坚持独立思考的反共识气概。

简洁:通篇论文没有一个公式。

有效:大巧不工,用最简单的方法展现精妙之美。

江湖震动:“CVPR 2022最佳论文候选预定”

所以,何恺明新作:

Masked Autoencoders Are Scalable Vision Learners

究竟有怎样的思想和研究成果?

用于CV的自监督学习方案

本文提出了一种用于计算机视觉的Masked AutoEncoders 掩蔽自编码器,简称MAE。

——一种类似于NLP技术的自我监督方法。

操作很简单:对输入图像的随机区块进行掩蔽,然后重建缺失的像素

主要有两个核心设计。

一个是非对称的编码-解码架构,一个高比例遮蔽输入图像。

先来看编码-解码架构。

如图所示,编码器是ViT,它仅对可见区块进行操作,然后用一个轻量级编码器——仅在预训练期间负责图像重建任务。

具体而言,作者先将图像均匀划分为非重叠区块,然后随机对区块进行采样。

以遮蔽比例75%为例,它先在输入图像中掩蔽75%的随机区块,编码器只在可见的25%区块子集上运行,这样就可以只用非常少的计算和显存,来训练非常大的编码器。

然后解码器将可见的token和掩码token组合,并向所有token中添加位置嵌入,通过预测每个掩蔽区块的像素值来重建图像信号。

这样一来,在预训练时解码器可以独立于编码器,从而可以用非常轻量级解码器实验,大量减少预训练时间。

另一个特点则是对输入图像的高比例进行遮蔽时,自监督任务效果非常好。

比如,掩蔽掉80%随机patch的效果如下:

其中最左列为输入图像,中间列为MAE方法重建效果,最右侧为原图效果。

不同掩蔽比例在重建图像中的表现对比如下:

将这两种设计结合,结果用来训练大模型:

训练速度提升3倍以上,还提高准确率的那种。

除此之外,基于该方案所得出的大模型具备很好的泛化能力:

比如,在仅使用ImageNet-1K数据时,ViT-Huge模型准确性达87.8%。

在COCO数据集中的表现如下,虽然重建效果不清晰,但是基本语义是正确的。

研究者还对MAE迁移学习的性能进行了评估。

结果在下游任务,比如目标检测、实例分割、语义分割等任务都优于监督预训练。

在对比中可以看到,随机遮蔽75%、整块遮蔽50%和网格遮蔽50%的三种采样方法中,随机遮蔽75%重建图像的质量最好

基于这些研究成果,何恺明团队在最后也表达了他们的看法。

一方面,扩展性好的简单算法是深度学习的核心。

在计算机视觉中,尽管自监督学习方面取得了进展,但实际预训练仍需受到监督。

这项研究中,作者看到ImageNet和迁移学习任务中,自编码器表现出了非常强的可扩展优势。

为此作者认为,CV中自监督学习现在可能正走上与NLP类似的轨道

另一方面,作者注意,图像和语言是不同性质的信号,这种差异需要小心处理。

图像仅仅是记录下来的光,并没有语义分解为文字的视觉类似物。

他们不是去试图去除物体,而是去除可能不构成语义段的随机区块。重建的像素,也并不是语义实体。

研究团队

论文的研究团队,来自Facebook AI研究院(FAIR),每个人都屡屡获誉,堪称梦之队。

除了几位老将,我们这次再多说说里面的华人面孔。

Xinlei Chen,本科毕业于浙江大学计算机专业,随后在卡内基梅隆大学攻读博士学位,曾在UCLA、谷歌云、MSR实习。

谢赛宁,本科毕业于上海交通大学ACM班,随后在UC圣迭戈分校攻读计算机博士学位,曾在谷歌、DeepMind实习。

Yanghao Li,本科毕业于北京大学计算机专业,随后留在本校继续攻读硕士学位。

最后,再次隆重介绍下何恺明。

一作何恺明,想必大家都不陌生。作为Mask R-CNN的主要提出者,他已4次斩获顶会最佳论文。

何恺明是2003年广东高考状元,并保送了清华,进入杨振宁发起设立的物理系基础科学班。

硕博阶段,何恺明前往香港中文大学多媒体实验室,导师正是后来的商汤科技创始人汤晓鸥。

此间,何恺明还进入微软亚洲研究院实习,在孙剑指导下,以一作身份发表ResNet研究,一举成名天下知,荣获2016年CVPR最佳论文。

同年何恺明进入由Yann Lecun(获2019年图灵奖)掌舵的Facebook人工智能实验室,与Ross Girshick、Piotr Dollar——本次研究中的其他几位老面孔,组成了FAIR在AI研究领域的梦之队。

更加令人钦佩的是,何恺明年少成名,但这几年来依然不断潜心研究,一直带来新惊喜。

甚至他的新研究,很多都是那种可以开枝散叶的成果。

这一次,MAE同样被视为这样的延续。

你怎么看MAE?

论文链接
https://arxiv.org/abs/2111.06377

点个在看 paper不断!

何恺明时隔2年再发一作论文:为视觉大模型开路,“CVPR 2022最佳论文候选预定”...相关推荐

  1. CVPR 2021 最佳论文奖项出炉,何恺明等获最佳论文提名 !

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:AI科技评论,专知 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下 ...

  2. CVPR 2021最佳论文奖的候选名单,华人占据半壁江山,何恺明、陶大程、沈春华等人上榜义目录标题)

    作者: 清华AMiner团队 CVPR 2021最佳论文奖的候选名单,华人占据半壁江山,何恺明.陶大程.沈春华等人上榜,共32篇论文,可直接下载! CVPR 今年共有7015篇有效投稿,有1663篇被 ...

  3. 北大美女学霸力压何恺明新作MAE 怒摘12个SOTA,灵感竟来自16年前CVPR论文

    对白的算法屋分享 来源 | 新智元 编辑 | 小咸鱼 好困 **[导读]**近日,北大校友.约翰·霍普金斯大学博士生提出了一种新的方法:MaskFeat,力压大神何恺明的新作MAE,摘下12个SOTA ...

  4. 本周AI热点回顾:何恺明RegNet超越EfficientNet、数学难题“abc猜想”封印终被开启、微软麻将 AI 论文发布

    01 何恺明团队最新力作RegNet: 超越EfficientNet,GPU上提速5倍 还是熟悉的团队,还是熟悉的署名,Facebook AI实验室,推陈出新挑战新的网络设计范式.熟悉的Ross,熟悉 ...

  5. 韩春雨,时隔六年再发高分论文

    金磊 博雯 发自 凹非寺 量子位 | 公众号 QbitAI 时隔6年,"韩春雨"这个名字,再次跃入大众视线. 六年前(2016年),他凭借一把基因"新剪刀"Ng ...

  6. 时隔多年我又再一次体验了一把跟大神聊天的感觉

    跟大神聊天是很开心的.这不是因为我激动,而是因为大神说出来的每一个字都是有价值的,一针见血,毫无废话.至于为什么说又,当然是这种事情以前发生过. 第一次是在高中认识了龚敏敏.那个时候我刚做完那个傻逼的 ...

  7. 【深度学习】preprint版本 | 何凯明大神新作MAE | CVPR2022最佳论文候选

    文章转自:微信公众号[机器学习炼丹术] 笔记作者:炼丹兄(已授权转载) 联系方式:微信cyx645016617 论文题目:"Masked Autoencoders Are Scalable ...

  8. 清华芯片研究再获顶会MICRO加持:软件定义芯片团队出品,最佳论文提名后又一突破...

    杨净 发自 凹非寺  量子位 报道 | 公众号 QbitAI 最近,第53届国际微架构大会(MICRO)在线上顺利召开. 作为计算机体系结构四大顶级会议,清华大学魏少军.刘雷波团队有两篇入选该会议论文 ...

  9. 何恺明!再斩ICCV 2017最佳论文

    夏乙 若朴 发自 凹非寺 量子位 出品 | 公众号 QbitAI 何恺明第三次斩获顶会最佳论文! 昨天下午,ICCV 2017最佳论文公布. 何恺明为一作的Mask R-CNN论文,不负众望获得最佳论 ...

最新文章

  1. TCP、UDP和HTTP详解
  2. 在 Gitee 上使用 GPG公钥(Beta版)
  3. 结束查找到的所有飞鸽当前步骤(飞鸽传书2007绿色版)
  4. Keras 中的循环神经网络 (RNN)
  5. Qt应用程序主窗口框架
  6. 常见函数式接口及其lambda实现样例
  7. plsql导出数据字典
  8. nginx 的基本概念
  9. 本科挣 30 万,秋招大厂提前批offer,大学四年,帅地做对了什么?(附所有知识清单)
  10. 安卓兼容7.0图库选择图片生成二维码
  11. Android 真机连接本地PC服务器
  12. Win10下HyperV Centos如何剪贴
  13. Python微信操控itchat定时发送消息
  14. Rk3326 Android8.0HAL服务添加
  15. python编程基础人邮版答案_《Python Web 编程》(人邮出版社)作业答案下载
  16. 川大计算机差额复试比例,四川大学研究生复试比例
  17. H3CTE讲师分享H3C认证培训实验实验6 HDLC
  18. 【vscode高级玩家】设置酷炫字体Fira Code
  19. php建模(php_uml) 和 Enterprise Architect 自动生成模型
  20. 如何实现一台电脑同时登录多个电脑版微信? Windows10

热门文章

  1. Unix Linux大学教程(三):过滤器、正则表达式、vi
  2. SQL性能优化没有那么神秘
  3. SQL分页语句(转)
  4. Matlab数据的可视化 -- 柱形立体图
  5. 鼠标按键获取感兴趣区域 2
  6. GPT-3 再更新,新增编辑和插入文本功能,简直不要太好用!
  7. 售前比售后机器人控制逻辑更复杂,仅凭大规模数据后发优势难赶超!
  8. 对人脑而言,阅读计算机代码和阅读语言有何不同?
  9. 看到抖音上Python工程师晒得工资条,我沉默了......
  10. MediaPipe:Google Research 开源的跨平台多媒体机器学习模型应用框架