何恺明时隔2年再发一作论文:为视觉大模型开路,“CVPR 2022最佳论文候选预定”...
点击上方“视学算法”,选择加"星标"或“置顶”
重磅干货,第一时间送达
杨净 明敏 雷刚 发自 凹非寺
量子位 报道 | 公众号 QbitAI
大神话不多,但每一次一作论文,必定引发江湖震动。
这不,距离上一篇一作论文2年之后,何恺明再次以一作身份,带来最新研究。
依然是视觉领域的研究,依然是何恺明式的大道至简。
甚至在业内纷纷追求“大力出奇迹”、“暴力美学”的当下,何恺明还带着一种坚持独立思考的反共识气概。
简洁:通篇论文没有一个公式。
有效:大巧不工,用最简单的方法展现精妙之美。
江湖震动:“CVPR 2022最佳论文候选预定”。
所以,何恺明新作:
Masked Autoencoders Are Scalable Vision Learners
究竟有怎样的思想和研究成果?
用于CV的自监督学习方案
本文提出了一种用于计算机视觉的Masked AutoEncoders 掩蔽自编码器,简称MAE。
——一种类似于NLP技术的自我监督方法。
操作很简单:对输入图像的随机区块进行掩蔽,然后重建缺失的像素。
主要有两个核心设计。
一个是非对称的编码-解码架构,一个高比例遮蔽输入图像。
先来看编码-解码架构。
如图所示,编码器是ViT,它仅对可见区块进行操作,然后用一个轻量级编码器——仅在预训练期间负责图像重建任务。
具体而言,作者先将图像均匀划分为非重叠区块,然后随机对区块进行采样。
以遮蔽比例75%为例,它先在输入图像中掩蔽75%的随机区块,编码器只在可见的25%区块子集上运行,这样就可以只用非常少的计算和显存,来训练非常大的编码器。
然后解码器将可见的token和掩码token组合,并向所有token中添加位置嵌入,通过预测每个掩蔽区块的像素值来重建图像信号。
这样一来,在预训练时解码器可以独立于编码器,从而可以用非常轻量级解码器实验,大量减少预训练时间。
另一个特点则是对输入图像的高比例进行遮蔽时,自监督任务效果非常好。
比如,掩蔽掉80%随机patch的效果如下:
其中最左列为输入图像,中间列为MAE方法重建效果,最右侧为原图效果。
不同掩蔽比例在重建图像中的表现对比如下:
将这两种设计结合,结果用来训练大模型:
训练速度提升3倍以上,还提高准确率的那种。
除此之外,基于该方案所得出的大模型具备很好的泛化能力:
比如,在仅使用ImageNet-1K数据时,ViT-Huge模型准确性达87.8%。
在COCO数据集中的表现如下,虽然重建效果不清晰,但是基本语义是正确的。
研究者还对MAE迁移学习的性能进行了评估。
结果在下游任务,比如目标检测、实例分割、语义分割等任务都优于监督预训练。
在对比中可以看到,随机遮蔽75%、整块遮蔽50%和网格遮蔽50%的三种采样方法中,随机遮蔽75%重建图像的质量最好。
基于这些研究成果,何恺明团队在最后也表达了他们的看法。
一方面,扩展性好的简单算法是深度学习的核心。
在计算机视觉中,尽管自监督学习方面取得了进展,但实际预训练仍需受到监督。
这项研究中,作者看到ImageNet和迁移学习任务中,自编码器表现出了非常强的可扩展优势。
为此作者认为,CV中自监督学习现在可能正走上与NLP类似的轨道。
另一方面,作者注意,图像和语言是不同性质的信号,这种差异需要小心处理。
图像仅仅是记录下来的光,并没有语义分解为文字的视觉类似物。
他们不是去试图去除物体,而是去除可能不构成语义段的随机区块。重建的像素,也并不是语义实体。
研究团队
论文的研究团队,来自Facebook AI研究院(FAIR),每个人都屡屡获誉,堪称梦之队。
除了几位老将,我们这次再多说说里面的华人面孔。
Xinlei Chen,本科毕业于浙江大学计算机专业,随后在卡内基梅隆大学攻读博士学位,曾在UCLA、谷歌云、MSR实习。
谢赛宁,本科毕业于上海交通大学ACM班,随后在UC圣迭戈分校攻读计算机博士学位,曾在谷歌、DeepMind实习。
Yanghao Li,本科毕业于北京大学计算机专业,随后留在本校继续攻读硕士学位。
最后,再次隆重介绍下何恺明。
一作何恺明,想必大家都不陌生。作为Mask R-CNN的主要提出者,他已4次斩获顶会最佳论文。
何恺明是2003年广东高考状元,并保送了清华,进入杨振宁发起设立的物理系基础科学班。
硕博阶段,何恺明前往香港中文大学多媒体实验室,导师正是后来的商汤科技创始人汤晓鸥。
此间,何恺明还进入微软亚洲研究院实习,在孙剑指导下,以一作身份发表ResNet研究,一举成名天下知,荣获2016年CVPR最佳论文。
同年何恺明进入由Yann Lecun(获2019年图灵奖)掌舵的Facebook人工智能实验室,与Ross Girshick、Piotr Dollar——本次研究中的其他几位老面孔,组成了FAIR在AI研究领域的梦之队。
更加令人钦佩的是,何恺明年少成名,但这几年来依然不断潜心研究,一直带来新惊喜。
甚至他的新研究,很多都是那种可以开枝散叶的成果。
这一次,MAE同样被视为这样的延续。
你怎么看MAE?
论文链接
https://arxiv.org/abs/2111.06377
点个在看 paper不断!
何恺明时隔2年再发一作论文:为视觉大模型开路,“CVPR 2022最佳论文候选预定”...相关推荐
- CVPR 2021 最佳论文奖项出炉,何恺明等获最佳论文提名 !
点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:AI科技评论,专知 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下 ...
- CVPR 2021最佳论文奖的候选名单,华人占据半壁江山,何恺明、陶大程、沈春华等人上榜义目录标题)
作者: 清华AMiner团队 CVPR 2021最佳论文奖的候选名单,华人占据半壁江山,何恺明.陶大程.沈春华等人上榜,共32篇论文,可直接下载! CVPR 今年共有7015篇有效投稿,有1663篇被 ...
- 北大美女学霸力压何恺明新作MAE 怒摘12个SOTA,灵感竟来自16年前CVPR论文
对白的算法屋分享 来源 | 新智元 编辑 | 小咸鱼 好困 **[导读]**近日,北大校友.约翰·霍普金斯大学博士生提出了一种新的方法:MaskFeat,力压大神何恺明的新作MAE,摘下12个SOTA ...
- 本周AI热点回顾:何恺明RegNet超越EfficientNet、数学难题“abc猜想”封印终被开启、微软麻将 AI 论文发布
01 何恺明团队最新力作RegNet: 超越EfficientNet,GPU上提速5倍 还是熟悉的团队,还是熟悉的署名,Facebook AI实验室,推陈出新挑战新的网络设计范式.熟悉的Ross,熟悉 ...
- 韩春雨,时隔六年再发高分论文
金磊 博雯 发自 凹非寺 量子位 | 公众号 QbitAI 时隔6年,"韩春雨"这个名字,再次跃入大众视线. 六年前(2016年),他凭借一把基因"新剪刀"Ng ...
- 时隔多年我又再一次体验了一把跟大神聊天的感觉
跟大神聊天是很开心的.这不是因为我激动,而是因为大神说出来的每一个字都是有价值的,一针见血,毫无废话.至于为什么说又,当然是这种事情以前发生过. 第一次是在高中认识了龚敏敏.那个时候我刚做完那个傻逼的 ...
- 【深度学习】preprint版本 | 何凯明大神新作MAE | CVPR2022最佳论文候选
文章转自:微信公众号[机器学习炼丹术] 笔记作者:炼丹兄(已授权转载) 联系方式:微信cyx645016617 论文题目:"Masked Autoencoders Are Scalable ...
- 清华芯片研究再获顶会MICRO加持:软件定义芯片团队出品,最佳论文提名后又一突破...
杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最近,第53届国际微架构大会(MICRO)在线上顺利召开. 作为计算机体系结构四大顶级会议,清华大学魏少军.刘雷波团队有两篇入选该会议论文 ...
- 何恺明!再斩ICCV 2017最佳论文
夏乙 若朴 发自 凹非寺 量子位 出品 | 公众号 QbitAI 何恺明第三次斩获顶会最佳论文! 昨天下午,ICCV 2017最佳论文公布. 何恺明为一作的Mask R-CNN论文,不负众望获得最佳论 ...
最新文章
- TCP、UDP和HTTP详解
- 在 Gitee 上使用 GPG公钥(Beta版)
- 结束查找到的所有飞鸽当前步骤(飞鸽传书2007绿色版)
- Keras 中的循环神经网络 (RNN)
- Qt应用程序主窗口框架
- 常见函数式接口及其lambda实现样例
- plsql导出数据字典
- nginx 的基本概念
- 本科挣 30 万,秋招大厂提前批offer,大学四年,帅地做对了什么?(附所有知识清单)
- 安卓兼容7.0图库选择图片生成二维码
- Android 真机连接本地PC服务器
- Win10下HyperV Centos如何剪贴
- Python微信操控itchat定时发送消息
- Rk3326 Android8.0HAL服务添加
- python编程基础人邮版答案_《Python Web 编程》(人邮出版社)作业答案下载
- 川大计算机差额复试比例,四川大学研究生复试比例
- H3CTE讲师分享H3C认证培训实验实验6 HDLC
- 【vscode高级玩家】设置酷炫字体Fira Code
- php建模(php_uml) 和 Enterprise Architect 自动生成模型
- 如何实现一台电脑同时登录多个电脑版微信? Windows10
热门文章
- Unix Linux大学教程(三):过滤器、正则表达式、vi
- SQL性能优化没有那么神秘
- SQL分页语句(转)
- Matlab数据的可视化 -- 柱形立体图
- 鼠标按键获取感兴趣区域 2
- GPT-3 再更新,新增编辑和插入文本功能,简直不要太好用!
- 售前比售后机器人控制逻辑更复杂,仅凭大规模数据后发优势难赶超!
- 对人脑而言,阅读计算机代码和阅读语言有何不同?
- 看到抖音上Python工程师晒得工资条,我沉默了......
- MediaPipe:Google Research 开源的跨平台多媒体机器学习模型应用框架