点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

转载自:AIWalker

2021年末,何恺明团队提出MAE在CV届引起极大轰动,自上传到arxiv之后,各种"YYDS", "Best Paper预定"等,关于MAE的介绍可参考以下两个介绍:

何恺明一作最新工作!MAE:简单实用的自监督学习方案,高达87.8%准确率!仅用ImageNet-1K

一起来动手实现 MAE吧 : https://zhuanlan.zhihu.com/p/439554945

2022年5月,恺明团队对MAE进行了扩展,将其用于视频表达学习,再一次表达MAE的优异性:最优Mask比例高达90%,在可以学习到强表达能力的同时在空时方面具有almost no inductive bias特性。总而言之,Masked AtuoEncoding(如BERT、MAE等)是一种统一的具有最小领域知识表达学习方法

Masked Autoencoders As Spatiotemporal Learners

恺明的paper最精彩的有两点:(1) idea足够简单;(2) 实验足够充分。所以本文仅为抛转引玉之述,更精彩的实验部分请移步原文: https://arxiv.org/abs/2205.09113

代码(已开源):https://github.com/facebookresearch/SlowFast/tree/main/projects/mae

本文方案为MAE的一个简单的扩展,即将图像领域的MAE向视频领域扩展。其目的在于:在尽可能少的领域知识下,研发一种广义且统一的框架

上图给出了本文所提出方案的整体架构示意图,它主要包含以下几点技术点:

  • Patch Embedding : 类似ViT,给定视频片段,我们将其沿空时维度拆分为无重叠的规则的网格块(grid),然后将这些网格块进行flatten并经由线性投影层进行处理。此外,对每个网格快还添加了位置嵌入信息。注:这里的块与位置嵌入过程只仅有的空时感知处理

  • Masking : 我们对前述所得块嵌入信息进行随机采样,这里的随机采样类似于BERT和MAE。注1:这里的随机采样具有空时不可感知性

MAE一文的研究表明:最优Mask比例与数据的信息冗余相关。加持上非结构化随机Mask,BERT的15%与MAE的75%表明:相比语言,图像具有更强的信息冗余。本文的研究(高达90%的Mask比例)进一步支撑了该假设,上图给出了90%与95%Mask比例的MAE在未知验证集上重建结果。

相比结构感知采样策略(如上图b-d),本文的空时不可知采样策略(见上图a)更加高效。由于近邻块在空时维度上的相关性,结构感知采样策略的最优Mask比例往往比较低。相反,空时不可知采样策略可以更好的利用有限数量的可见块(visible patches),进而达成更高的Mask比例

  • AutoEncoding : 延续MAE方案,本文的编码器ViT仅作用于可见块嵌入。这种设计有助于减少内存占用与推理耗时,达成更实用的方案。高达90%的Mask比例可以将编码器的计算复杂减少到 10%以下。类似MAE,解码器同样采用了ViT架构,且比编码小还要小。尽管解码器作用于全部的token,但其复杂度比编码器小。在默认配置下,自编码器的整体复杂度比标准自编码器方案(即输入端不进行Mask)小7.7x

Experiments

上表给出了Kinetics-400(K400)数据集上的性能对比,可以看到:相比SOTA方案,本文方案极具竞争力。本文方案是仅有的vanilla ViT方案,其他方案均为分层架构或转为视频而设计的架构。

上表给出了AVA数据集上的性能对比,可以看到:仅需,所提方案取得了与MaskFeat(其输入分辨率更高)相当的性能。更重要的是,该方案采用了PlainViT架构,无需在检测任务上表现更好的分层特征。

上表给出了SSv2数据集上的性能对比,可以看到:仅需输入的VanillaViT方案具有与输入的MaskFeat方案相当的性能

上面论文和代码下载

后台回复:何恺明视频MAE,即可下载论文和代码

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

NeurIPS 2022 | 何恺明团队新作:MAE扩展到视频!学习时空表示,最优Mask比例高达90%!...相关推荐

  1. 何恺明团队新作:只用普通ViT,不做分层设计也能搞定目标检测

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 微软的Swin ...

  2. 何恺明团队新作!Transformer遇见Mask R-CNN哪家强?

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自丨极市平台   作者丨happy 导读 本文是FAIR的何恺明团队关于ViT在COCO检测任务上的迁移 ...

  3. 解决训练不稳定性,何恺明团队新作来了!自监督学习+Transformer=MoCoV3

    本文是FAIR的恺明团队针对自监督学习+Transformer的一篇实证研究.针对Transformer在自监督学习框架中存在的训练不稳定问题,提出了一种简单而有效的技巧:Random Patch P ...

  4. 何恺明团队新作:图像分割精细度空前,边缘自带抗锯齿,算力仅需Mask R-CNN的2.6%...

    鱼羊 乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 又是何恺明超越何恺明. 其团队最新论文一出,图像分割又往前一大步: 消耗的资源变得更少,算力仅需Mask R-CNN的2.6%. 不 ...

  5. MoCoV3:何恺明团队新作!解决Transformer自监督训练不稳定问题!

    文 | happy 源 | 极市平台 论文链接: https://arxiv.org/abs/2104.02057 本文是FAIR的恺明团队针对自监督学习+Transformer的一篇实证研究.针对T ...

  6. Facebook何恺明团队提出SlowFast网络,视频识别无需预训练

    Facebook FAIR 何恺明团队提出了用于视频识别的SlowFast网络.该网络通过两条路径以不同的时间率(快和慢)进行视频识别.在没有预训练的情况下,在Kinetics数据集上的准确率达到了7 ...

  7. 何恺明团队新作!深度学习网络架构新视角:通过相关图表达理解神经网络

    标题&作者团队 导语:恺明大神出品,必属精品.Facebook的研究员从一个新奇的角度对神经网络的表示与设计进行探索,提出了一种新颖的相关图表示方式.它有助于对现有网络架构进行更深层次的分析与 ...

  8. 【论文解读】深度学习网络架构新视角:通过相关图表达理解神经网络(何恺明团队新作)...

    文章来源于极市平台,作者Happy 标题&作者团队 导语:恺明大神出品,必属精品.Facebook的研究员从一个新奇的角度对神经网络的表示与设计进行探索,提出了一种新颖的相关图表示方式.它有助 ...

  9. 何恺明团队新作ViTDet:用于目标检测的视觉Transformer主干网络

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:机器之心 | 编辑:张倩.小舟 做目标检测就一定需要 FPN 吗?昨天,来自 Facebook AI ...

最新文章

  1. matlab数据可视化总结,机器学习----Matlab数据可视化总结(plot篇)
  2. zentao双机(数据库备份)
  3. apache mysql 添加到开机自动启动
  4. CTFshow 反序列化 web268
  5. Sql注入工具php,phpcms框架SQL注入--基于Havij工具
  6. java项目 配置文件_细数Java项目中用过的配置文件(properties篇)
  7. Linux命令----用户管理
  8. Kyligence李扬:数据智能推荐成为技术发展新方向
  9. 一天变成36小时[转]
  10. bzoj 1552: [Cerc2007]robotic sort bzoj 3506: [Cqoi2014]排序机械臂(splay区间翻转)
  11. 网页布局02 盒子模型
  12. 关于TFS的文档和报告打叉的解决
  13. Eclipse SQL Explorer
  14. Oracle函数登录验证,Oracle密码验证函数与Create Profile
  15. 1. C语言---输出格式大全
  16. 计算机英语翻译的典故,中国成语故事英文版带翻译【六篇】
  17. pytorch多进程加速及代码优化
  18. 03-能看懂代码,就是自己写不出来,怎么办?
  19. 苹果手机Java在那_iPhone8描述文件在哪?iPhone描述文件不见了如何解决?
  20. Electron 主进程和渲染进程互相通信

热门文章

  1. V2X和D2D的链路级sidelink上的区别
  2. oracle如何实现全角和半角的切换
  3. Eclipse创建javaWeb项目工程
  4. python中得到26个字母
  5. 豆瓣高分JAVA书籍,值得收藏
  6. 白化深度学习与tensorflow——强化学习
  7. Google是如何做Code Review的
  8. 代码解读一 文件名“ANO_Imu.c”
  9. 显示性能指标的计算机术语是,下列计算机术语中,属于显示器性能指标的是()...
  10. 怎么从Apache maven 官网下载旧版本