文 | Random
源 | AIWalker

paper:
https://arxiv.org/abs/2212.00794

本文提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除

Mask机制使得我们可以在有限周期内学习到更多的image-text数据对,同时具有更少的内存占用。

所提方案取得了更好的精度与训练时间均衡,相比无Mask基线方案,所提FLIP在精度与训练速度方面具有大幅改善(前期400M对image-text)。

受益于加速训练能力,我们对扩展模型尺寸、数据集大小、训练周期进行了探索,同时取得了喜人的结果。

本文方案

上图为所提FLIP方案示意图,它由两部分构成:

  • Image Masking: 该采用ViT对图像进行编码,参考MAE对图像块进行大比例Mask丢弃(如50%、75%),这种处理方式还可以减少图像编码耗时与内存占用。关于MAE的介绍可参考《何恺明提出简单实用的自监督学习方案MAE,ImageNet-1K 87.8%》。

  • Text Masking:与此同时,我们还可以对text执行类似Image的Mask处理(可选想发)。当执行Mask时,我们仅对可见token进行编码处理。这不同于BERT的处理机制:采用Learned Mask Token进行替换。这种稀疏计算同样可以一定程度减少文本编码耗时。不过,由于文本编码器比较小,这里的加速不会导致更好的均衡。

  • Objective:Image/Text编码器采用对比损失进行训练优化。在这里,作者并未像MAE那样使用重建损失。丢弃解码器与重建损失取得了进一步的加速。

  • Unmasking:尽管编码器是在Masked图像上进行的预训练,但它可以像MAE那样直接作用到无干扰的图像,此可作为对标的基线。为进一步减少因Mask导致的分布差异,作者将Mask比例设为0并进行少量的连续预训练。这种处理机制可以取得有利的精度/耗时均衡。

具体实现

在实现方面,作者参考CLIP与OpenCLIP并进行了以下几点改动:

  • 图像编码器采用的是ViT,但在Patch Embedding后并未使用额外的LayerNorm,此外在图像编码尾部添加了GAP。图像输入尺寸为224.

  • 本文编码器为Non-AutoRegressive Transformer,作者采用了WordPiece序列化方案。序列长度通过pad或cut固定为32。

  • 图像编码器与文本编码器的输出投影到相同的嵌入空间,然后经LTP(Learnable Temperature Parameter)缩放后计算两者的Cosine相似性。

  • 采用JAX实现,在TPUv3集成进行训练。

本文实验

消融实验结果对比如下:

ImageNet1K数据集上结果对比如下:

更多分类数据集上的结果对比如下:

更多消融实验与实验结果请查看原文,为避免误导各位大佬,这里直接略过。

后台回复关键词【入群

加入卖萌屋NLP、CV、搜广推与求职讨论群

何恺明新作来了!更快更有效的训练FLIP相关推荐

  1. 2020CVPR解读之何恺明新作PointRend:将图像分割视作渲染问题,显著提升语义/实例分割性能

    2020CVPR解读之何恺明新作PointRend:将图像分割视作渲染问题,显著提升语义/实例分割性能 论文原文 源码 [导读]Facebook人工智能实验室何恺明团队提出一种高效.高质量的目标和场景 ...

  2. 与阿里云整个生态体系共同成长,更快更好的为房地产行业客户提供高价值的服务。...

    免费开通大数据服务:https://www.aliyun.com/product/odps "最早是新业务要做,但是买服务器来不及,管理员没到位,而且新业务的成本很高,是否能成功也是未知,因 ...

  3. 与阿里云整个生态体系共同成长,更快更好的为房地产行业客户提供高价值的服务。

    免费开通大数据服务:https://www.aliyun.com/product/odpsyu "最早是新业务要做,但是买服务器来不及,管理员没到位,而且新业务的成本很高,是否能成功也是未知 ...

  4. 清华大学丁霄汉:深度网络重参数化——让你的模型更快更强

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

  5. 使用现场总线更快更远

    使用现场总线更快更远 Going faster and further with Fieldbus PROCENTEC等行业专家表示,基于RS-485的现场总线技术(PROFIBUS®)和工业以太网( ...

  6. 实用的it知识学习_怎样能更快更好的学习好书法?分享一些比较实用的理论知识...

    如何能更快更高效的学习书法?首先了解一些书法理论知识是很有必要的!它能让你在学习书法的过程中不至于迷茫 !能助你更快学好书法! 一.书论在实践中产生 我们大部分人都觉得学习书法可以没有理论,但不可无技 ...

  7. msdn安装后怎么用_Win10不好用?安装官方版精简Win10后,运行比win7更快更流畅

    尽管不想承认,确实是大白菜的电脑配置有点旧了,导致从win7升级最新版win10系统后,电脑是100个不好用!!! 虽然,非常怀念使用win7系统时,那种操作的流畅度,那种运行的速度~ 但是,大白菜和 ...

  8. IEEE ICIP 2019 | 更快更好的联邦学习:一种特征融合方法

    目录 前言 Abstract 1.Introduction 2.Related Work 3.Methods 3.1 Feature Fusion Modules 3.1.1 Conv operato ...

  9. YOLOv5全面解析教程③:更快更好的边界框回归损失

    作者|Fengwen.BBuf 边界框回归是目标检测的关键步骤,在现有方法中,虽然被广泛用于边界框回归,但它不是针对评估指标量身定制的,即 Intersection over Union (IoU). ...

  10. 更快更安全,HTTPS 优化总结

    在网站升级到 HTTPS 之后,我们还可以有很多玩意可以折腾,优化 HTTPS,让它更快更安全.这里是一篇 HTTPS 优化的总结,也包含问题的解决方法,不过不仅仅包括 HTTPS 的优化,也包含 H ...

最新文章

  1. Cocos2dx小技巧 单例
  2. 【事故反演】事故反演问题排查
  3. cocos2d-x坐标系
  4. IDEA 的 debug 怎么实现?出于这个好奇心,我越挖越深!
  5. 一个客户端刷新的例子
  6. 酷睿i7cpu适合的linux,CPU性能篇 - Core i7-4770K Linux之旅:有喜有忧_Linux新闻_Linux公社-Linux系统门户网站...
  7. 线性表:顺序队列算法实现
  8. ARMv8体系结构基础04:算术和移位指令
  9. 钢琴调律经验(菜鸟版)
  10. 【云计算学习教程】探讨私有云计算平台的搭建(附带3套解决方案)
  11. Linux显示2015年日历表
  12. OpenGL三维图形编程技术(转)
  13. vue项目架构搭建-3
  14. 用SQL查询创建水平、垂直直方图
  15. 鸡的开口药如何选择 什么药防治鸡开口病最快
  16. sicily 1007. To and Fro(破译密码)
  17. 蜂窝网通信平台建模说明
  18. 经典网络架构学习-Transformer
  19. NS2 队列管理机制
  20. SpringBoot 优雅的读取yml(yml规范篇)

热门文章

  1. WPF真入门教程02--新建WPF工程
  2. ABAP ALV单元格最大显示长度
  3. android 9.0 10.0 上报鼠标左键右键给app调用
  4. 删除只读属性的文件夹及其子文件
  5. 推进企业使用正版软件工作部际联席会议第四次全体会议(2010)
  6. 国税局计算机硬件,国家税务总局辽宁省税务局 工作动态 【盘税稽查】积极开展计算机兼容改造专项工作...
  7. CentOS 7安装ElasticSearch 7.8 (rpm包安装)
  8. 几款好用播放器ijkplayer、vlc、SmartPlayer、ExoPlayer
  9. 视频+公众号是未来微信生态的一种新的运营方式!
  10. httprunner(9)运行测试用例的方式总结