何恺明新作来了！更快更有效的训练FLIP

文 | Random
源 | AIWalker

paper：
https://arxiv.org/abs/2212.00794

本文提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。

Mask机制使得我们可以在有限周期内学习到更多的image-text数据对，同时具有更少的内存占用。

所提方案取得了更好的精度与训练时间均衡，相比无Mask基线方案，所提FLIP在精度与训练速度方面具有大幅改善(前期400M对image-text)。

受益于加速训练能力，我们对扩展模型尺寸、数据集大小、训练周期进行了探索，同时取得了喜人的结果。

本文方案

上图为所提FLIP方案示意图，它由两部分构成：

Image Masking: 该采用ViT对图像进行编码，参考MAE对图像块进行大比例Mask丢弃(如50%、75%)，这种处理方式还可以减少图像编码耗时与内存占用。关于MAE的介绍可参考《何恺明提出简单实用的自监督学习方案MAE，ImageNet-1K 87.8%》。
Text Masking：与此同时，我们还可以对text执行类似Image的Mask处理(可选想发)。当执行Mask时，我们仅对可见token进行编码处理。这不同于BERT的处理机制：采用Learned Mask Token进行替换。这种稀疏计算同样可以一定程度减少文本编码耗时。不过，由于文本编码器比较小，这里的加速不会导致更好的均衡。
Objective：Image/Text编码器采用对比损失进行训练优化。在这里，作者并未像MAE那样使用重建损失。丢弃解码器与重建损失取得了进一步的加速。
Unmasking：尽管编码器是在Masked图像上进行的预训练，但它可以像MAE那样直接作用到无干扰的图像，此可作为对标的基线。为进一步减少因Mask导致的分布差异，作者将Mask比例设为0并进行少量的连续预训练。这种处理机制可以取得有利的精度/耗时均衡。

具体实现

在实现方面，作者参考CLIP与OpenCLIP并进行了以下几点改动：

图像编码器采用的是ViT，但在Patch Embedding后并未使用额外的LayerNorm，此外在图像编码尾部添加了GAP。图像输入尺寸为224.
本文编码器为Non-AutoRegressive Transformer，作者采用了WordPiece序列化方案。序列长度通过pad或cut固定为32。
图像编码器与文本编码器的输出投影到相同的嵌入空间，然后经LTP(Learnable Temperature Parameter)缩放后计算两者的Cosine相似性。
采用JAX实现，在TPUv3集成进行训练。

本文实验

消融实验结果对比如下：

ImageNet1K数据集上结果对比如下：

更多分类数据集上的结果对比如下：

更多消融实验与实验结果请查看原文，为避免误导各位大佬，这里直接略过。

后台回复关键词【入群】

加入卖萌屋NLP、CV、搜广推与求职讨论群

何恺明新作来了！更快更有效的训练FLIP相关推荐

2020CVPR解读之何恺明新作PointRend：将图像分割视作渲染问题，显著提升语义/实例分割性能
2020CVPR解读之何恺明新作PointRend:将图像分割视作渲染问题,显著提升语义/实例分割性能论文原文源码 [导读]Facebook人工智能实验室何恺明团队提出一种高效.高质量的目标和场景 ...
与阿里云整个生态体系共同成长，更快更好的为房地产行业客户提供高价值的服务。...
免费开通大数据服务:https://www.aliyun.com/product/odps "最早是新业务要做,但是买服务器来不及,管理员没到位,而且新业务的成本很高,是否能成功也是未知,因 ...
与阿里云整个生态体系共同成长，更快更好的为房地产行业客户提供高价值的服务。
免费开通大数据服务:https://www.aliyun.com/product/odpsyu "最早是新业务要做,但是买服务器来不及,管理员没到位,而且新业务的成本很高,是否能成功也是未知 ...
清华大学丁霄汉：深度网络重参数化——让你的模型更快更强
不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...
使用现场总线更快更远
使用现场总线更快更远 Going faster and further with Fieldbus PROCENTEC等行业专家表示,基于RS-485的现场总线技术(PROFIBUS®)和工业以太网( ...
实用的it知识学习_怎样能更快更好的学习好书法？分享一些比较实用的理论知识...
如何能更快更高效的学习书法?首先了解一些书法理论知识是很有必要的!它能让你在学习书法的过程中不至于迷茫 !能助你更快学好书法! 一.书论在实践中产生我们大部分人都觉得学习书法可以没有理论,但不可无技 ...
msdn安装后怎么用_Win10不好用？安装官方版精简Win10后，运行比win7更快更流畅
尽管不想承认,确实是大白菜的电脑配置有点旧了,导致从win7升级最新版win10系统后,电脑是100个不好用!!! 虽然,非常怀念使用win7系统时,那种操作的流畅度,那种运行的速度~ 但是,大白菜和 ...
IEEE ICIP 2019 | 更快更好的联邦学习：一种特征融合方法
目录前言 Abstract 1.Introduction 2.Related Work 3.Methods 3.1 Feature Fusion Modules 3.1.1 Conv operato ...
YOLOv5全面解析教程③：更快更好的边界框回归损失
作者|Fengwen.BBuf 边界框回归是目标检测的关键步骤,在现有方法中,虽然被广泛用于边界框回归,但它不是针对评估指标量身定制的,即 Intersection over Union (IoU). ...
更快更安全，HTTPS 优化总结
在网站升级到 HTTPS 之后,我们还可以有很多玩意可以折腾,优化 HTTPS,让它更快更安全.这里是一篇 HTTPS 优化的总结,也包含问题的解决方法,不过不仅仅包括 HTTPS 的优化,也包含 H ...

何恺明新作来了！更快更有效的训练FLIP

本文方案

具体实现

本文实验

何恺明新作来了！更快更有效的训练FLIP相关推荐

最新文章

热门文章