关注公众号,发现CV技术之美

本文分享ICML 2021 收录论文『Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision』。由谷歌学者提出《ALIGN》能够进行跨模态检索,性能优于 SOTA。

详细信息如下:

  • 论文链接:https://arxiv.org/abs/2102.05918

  • 项目链接:尚未开源

导言:

学习良好的视觉和视觉语言表征对于解决计算机视觉问题(图像检索、图像分类、视频理解)是至关重要的,目前,预训练的特征在许多NLP任务中已经展现了非常大的潜力。虽然NLP中的表示学习已经可以用没有人工注释的原始文本训练,但视觉和视觉语言表示仍然严重依赖于昂贵或需要专家知识的训练数据集。

对于视觉任务,特征表示的学习主要依赖具有显式的class标签的数据集,如ImageNet或OpenImages。对于视觉语言任务,一些使用广泛的数据集像Conceptual Captions、MS COCO以及CLIP都涉及到了数据收集和清洗的过程。这类数据预处理的工作严重阻碍了获得更大规模的数据集。在本文中,作者利用了超过10亿的图像文本对的噪声数据集,没有进行数据过滤或后处理步骤 。

基于对比学习损失,使用一个简单的双编码器结构来学习对齐图像和文本对的视觉和语言表示 。作者证明了,语料库规模的巨大提升可以弥补数据内部存在的噪声,因此即使使用简单的学习方式,模型也能达到SOTA的特征表示。当本文模型的视觉表示转移到ImageNet和VTAB等分类任务时,也能取得很强的性能。对齐的视觉和语言表示支持zero-shot的图像分类,并在Flickr30K和MSCOCO图像-文本检索基准数据集上达到了SOTA的结果。

      01      

Motivation

在现有工作中,视觉和视觉语言表示学习大多是分别使用不同的训练数据源进行研究的。在视觉领域,对大规模监督数据(如ImageNet、OpenImages和JFT-300M)进行预训练对提高下游任务的性能是至关重要的。获得这种预训练的数据集需要在数据收集、采样和人工标注方面进行大量的工作,数据获取成本非常大,因此难以扩展。

预训练也是视觉语言建模的方法。然而,视觉语言的预训练数据集,如Conceptual Captions、Visual Genome Dense Captions和 ImageBERT,需要在人类标注、语义解析、清理和平衡方面进行更重的工作。因此,这些数据集的规模仅在10M个样本左右。这至少比视觉领域的数据集小一个数量级,而且比预训练的NLP数据集也小得多。

在这项工作中,作者利用了超过10亿个有噪声的图像文本对的数据集来扩展视觉和视觉语言表示学习。作者采用了Conceptual Captions的方式来获取一个大的噪声数据集。与其不同的是,作者没有用复杂的数据滤波和后处理步骤来清理数据集,而是只应用简单的基于数据频率的过滤。虽然得到的数据集有噪声,但比Conceptual Captions数据集大两个数量级。作者发现,在这样的大规模噪声数据集上预训练的视觉和视觉语言表示在广泛的任务上取得了非常强的性能。

作者基于在一个共享的embedding空间中对齐视觉和语言表示的训练目标,使用一个简单的双编码器体系结构来训练模型。作者将这个模型命名为ALIGN(A  L arge-scale I maG e and N oisy-text embedding),图像和文本编码器是通过对比损失函数学习的,将匹配的图像文本对的embedding推在一起,同时将不匹配的图像文本对的embedding分开。这也是自监督和监督表示学习的最有效的损失函数之一。

考虑到ALIGN用文本作为图像的细粒度标签,因此图像对文本的对比损失类似于传统的基于标签的分类目标;关键的区别在于这里的label是由文本编码器生成“标签”权重,而不是像ImageNet那样离散的标签。(ALIGN的模型结构如上图所示)

对齐的图像和文本表示自然适用于跨模态匹配/检索任务,并在相应的基准数据集测试中实现了SOTA结果。此外,这种跨模态匹配也适用于zero-shot图像分类,在不使用任何训练样本的情况下,在ImageNet中获得了76.4%的Top-1准确率 。此外,图像表示在各种下游视觉任务中也取得了不错的性能。例如,ALIGN在ImageNet中达到了88.64%的Top-1准确率 。(上图展示了跨模态检索的示例)

      02      

方法

2.1. A Large-Scale Noisy Image-Text Dataset

本文的重点是扩大视觉和语言表示学习的规模。为此,作者创建了一个比现有数据集大得多的数据集。具体来说,作者遵循构建Conceptual Captions数据集的方法,以获得更大规模的图像-文本数据集。

但是,Conceptual Captions数据集还进行了大量的数据过滤和后处理工作,为了获取更大规模的数据,作者通过减轻Conceptual Captions工作中的大部分数据清洗工作来减少数据处理的工作量(作者仅根据数据的频率做了非常简单的数据过滤)。因此,作者获得了一个更大规模的数据集(18亿的图像文本对)。上图展示了数据集中的一些随机采样的例子。

2.2. 预训练与任务迁移

ALIGN的大致框架如上图所示。

2.2.1. 预训练

作者使用双编码器结构用于训练对齐特征,该模型由一对图像编码器和文本编码器组成。作者使用具有全局池化的EfficientNet作为图像编码器,使用带有[CLS] token embedding的BERT作为文本编码器。在BERT编码器的顶部,作者添加了一个带激活函数的全连接层,以匹配图像的维度。

图像和文本编码器都是通过normalized softmax损失函数进行优化。在训练中,将匹配的图像-文本对视为正样本,并将当前训练batch中的其他随机图像-文本对视为负样本。在训练过程中,优化以下两个损失函数:

image-to-text的对比损失:

text-to-image的对比损失:

其中,















的分别是第i个图像和第j个文本的 normalized embedding。N是batch size,σ是temperature系数。在这里,temperature系数是非常重要的,因为图像和文本的embedding都经过了L2-normalized。在本文中,公式中的temperature系数是通过训练来获得,而不是一个超参数。

2.2.2. 任务迁移之Image-Text Matching & Retrieval

作者评估了ALIGN在图像对文本和文本对图像的检索任务上的性能(有finetuning和无finetuning)。测试的数据集包括Flickr30K和MSCOCO。此外,作者也在Crisscrossed Captions (CxC)数据集上测试ALIGN的性能(Crisscrossed Captions是MSCOCO的一个扩展数据集,它对caption-caption、 image-image和image-caption对进行了额外的语义相似性判断)。

通过这些扩展的标注,CxC可以实现四个模态内和模式内的检索任务,包括图像到文本检索、文本到图像检索、文本到文本检索和图像到图像的检索任务,以及三个语义文本相似性任务,包括语义文本相似性(STS)、语义图像相似性(SIS)和语义图像-文本相似度(SITS)。

2.2.3. 任务迁移之 Visual Classification

作者首先将ALIGN基于zero-shot方式应用到视觉分类任务上,数据集包括ImageNet ILSVRC-2012 benchmark、ImageNet-R、ImageNet-A、ImageNet-V2。这些ImageNet数据集变种都是ImageNet的一个子集,ImageNet-R和 ImageNet-A是根据不同的分布对ImageNet采样得到的。

作者还将图像编码器迁移到了下游的视觉分类任务中,为此,作者使用了ImageNet以及一些较小的细粒度分类数据集Oxford Flowers-102、 Oxford-IIIT Pets、Stanford Cars、 Food101。对于ImageNet,作者展示了来自两个设置的结果:只训练顶级分类层(使用冻结的对齐图像编码器)和完全微调(不冻结的对齐图像编码器)。对于细粒度的分类基准数据集测试,作者只展示了后一种设置的结果。此外,作者还在Visual Task Adaptation Benchmark数据集(由19个不同的视觉分类任务组成,每个任务有1000个训练样本)上测试了模型的鲁棒性。

      03      

实验

3.1. Image-Text Matching & Retrieval

上表展示了ALIGN在Flickr30K和MSCOCO数据集上基于Zero-shot和fine-tued设置下和其他SOTA方法的对比。可以看出在Zero-shot的设置下,ALIGN在图像检索任务上比CLIP获得了7%以上的性能改进。通过微调,ALIGN的性能大大优于所有现有方法。

3.2. Zero-shot Visual Classification

如果直接将类名的文本输入文本编码器,ALIGN就可以通过图像-文本检索任务对图像进行分类。上表展示了ALIGN和CLIP在不同分类数据集上Zero-Shot的结果,可以看出,相比于CLIP,ALIGN在大多数数据集具备性能上的明显优势。

3.3. Visual Classification w/ Image Encoder Only

上表展示了ALIGN和其他方法在ImageNet数据集上的比较结果。通过冻结参数,ALIGN的性能略优于CLIP,并达到85.5%的SOTA准确率。微调后,ALIGN比BiT和ViT模型获得更高的精度。

上表展示了在VTAB(19个任务)上,ALIGN和BiT-L之间的结果比较。结果表明,采用类似的超参数选择方法,ALIGN的性能优于BiT-L。

上表展示了不同模型在细粒度分类任务上的迁移学习结果。

3.4. Ablation Study

3.4.1. Model Architectures

上图显示了不同图像和文本Backbone组合下的MSCOCO zero-shot检索和ImageNet KNN结果。

上表展示了一些ALIGN模型变体与baseline模型(第一行)的比较。第2-4行显示,embedding维度越高,模型性能越高。第5行和第6行显示,在softmax损失中使用更少的in-batch negatives(50%和25%)会降低性能。第7-9行研究了temperature参数对softmax损失的影响。

3.4.2. Pre-training Datasets

上表的结果表明一个大规模的训练集对于扩展ALIGN模型和实现更好的性能是至关重要的。

3.5. Analysis of Learned Embeddings

作者建立了一个简单的图像检索系统,来研究通过ALIGN训练的embedding行为。上图显示了用不存在于训练集中 text queries进行text-to-image检索的top-1结果。

上图显示了用“图像±文本查询”进行图像检索的结果。

3.6. Multilingual ALIGN Model

ALIGN的一个优点是,该模型是在有噪声的网络图像文本数据上进行非常简单的过滤之后训练得到的,并且没有对特定语言进行过滤。因此该模型不受语言的约束。上表显示了不同语言下zero-shot和fine-tuning的结果。

      04      

总结

在本文中,作者提出了一种简单的方法(ALIGN),利用大规模噪声图像-文本数据来扩大视觉和视觉语言的表示学习。作者避免了对数据预处理和标注的工作量,只需要基于数据频率的简单过滤。在这个数据集上,作者基于对比学习损失函数训练一个非常简单的双编码器模型ALIGN。

ALIGN能够进行跨模态检索,并显著优于SOTA的VSE和基于cross-attention的视觉语言模型。在视觉的下游任务中,ALIGN也可以达到与用大规模标注数据训练的SOTA模型相似的性能,甚至优于SOTA模型。

作者介绍

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END

欢迎加入「视觉语言交流群????备注:VL

ICML2021 | ALIGN:大力出奇迹,谷歌用18亿的图像-文本对训练了一个这样的模型相关推荐

  1. 大力出奇迹!6144块TPU,5400亿参数,会改bug、解读笑话,谷歌刚刚用Pathways训练了一个大模型...

    机器之心报道 机器之心编辑部 谷歌的下一代架构 Pathways 已经用来训练大模型了. ‍ 随着规模的增加,模型在处理多个任务时的性能逐渐提高,而且还在不断解锁新的能力. 在探讨现有 AI 模型的局 ...

  2. 66篇论文入选CVPR 2021,商汤的秘籍竟是“大力出奇迹”

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI CVer ...

  3. 历史转折中的英伟达:百亿豪赌出奇迹 实习生项目救主

    本文来自AI新媒体量子位(QbitAI) 所到之处,英伟达CEO黄仁勋例行强调:我们是一家AI公司. 谁又能说不是? 市值两年上涨7倍,芯片供不应求,屡战英特尔,坚持怼谷歌,是当前AI大红大紫中的实力 ...

  4. AI:大力出奇迹?Bigger is better?AI下一代浪潮?—人工智能的大语言模型(LLMs)的简介、发展以及未来趋势

    AI:大力出奇迹?Bigger is better?AI下一代浪潮?-人工智能的大语言模型(LLMs)的简介.发展以及未来趋势 目录 人工智能的大语言模型(LLMs)-AI下一代浪潮?Bigger i ...

  5. pytorch微调bert_小版BERT也能出奇迹:最火的预训练语言库探索小巧之路

    选自Medium 作者:Victor Sanh 机器之心编译 参与:魔王 过去一段时间,大模型层出不穷.在大家纷纷感叹「大力出奇迹」的时候,作为调用预训练语言模型最流行的库,HuggingFace 尝 ...

  6. 百鸡问题用计算机思维,大力出奇迹:当古代数学难题遇到计算机

    近年来,人工智能的春风不知吹动了多少资本的浪潮,从决胜棋坛的阿尔法狗,到遍地开花的无人车,AI成为经济寒冬里熊熊燃烧的火种,不知多少投资客捧着钞票前赴后继.科幻电影中,像人类一样思考.决策.学习的强人 ...

  7. 百鸡问题用计算机思维,大力出奇迹:当古代数学难题遇到现代计算机

    近年来,人工智能的春风不知吹动了多少资本的浪潮,从决胜棋坛的阿尔法狗,到遍地开花的无人车,AI成为经济寒冬里熊熊燃烧的火种,不知多少投资客捧着钞票前赴后继.科幻电影中,像人类一样思考.决策.学习的强人 ...

  8. sony z1 android 6.0,大力出奇迹 — 索尼 Z1 更换电池记录

    大力出奇迹 - 索尼 Z1 更换电池记录 2016-08-25 11:45:38 10点赞 17收藏 42评论 话说这台Z1自从去年电池老化以后就开始换机了,期间买了原装电池回来想自己动手更换,折腾了 ...

  9. 小版BERT也能出奇迹:最火的预训练语言库探索小巧之路

    转载:https://tech.ifeng.com/c/7pqoBttuWS0 选自Medium 作者:Victor Sanh 机器之心编译 参与:魔王 过去一段时间,大模型层出不穷.在大家纷纷感叹「 ...

最新文章

  1. 如何快速搜索脑机接口社区的历史文章?
  2. Canvas做股票数据走势图实践分享(一)
  3. python运行非常慢的解决-python执行太慢
  4. 在同一台服务器上启动多个 FreeSWITCH 实例
  5. 【机器视觉】 export_def算子
  6. 保存模型后无法训练_如何解决推荐系统工程难题——深度学习推荐模型线上serving?...
  7. chrome插件中调用ajax,Chrome扩展程序中的Ajax调用无效
  8. PHP:车牌照合法性
  9. 【poj1284-Primitive Roots】欧拉函数-奇素数的原根个数
  10. ColorPic 一套簡單好用的顏色選擇器!
  11. 适合WhatsApp网页版的4个最好的免费WhatsApp 群发工具
  12. 图片太大怎么缩小kb?图片压缩技巧
  13. 经典825篇英文IT文章及其网址推荐 (公号回复“英文IT文章”可下载PDF典藏版资料)
  14. linux解压缩包命令
  15. Git将分支代码合并到主干/将主干代码合并到分支
  16. 微服务商城系统(十五)秒杀基础
  17. seaborn直方图、散点图与回归分析图的绘制
  18. 研究生最全文献查询、下载网站汇总,汇集各个专业权威国外网站!
  19. 魔方渗透系统安装教程
  20. [报错]RuntimeError: expected scalar type Double but found Float(torch)

热门文章

  1. Multi-thread--C++11多线程中std::call_once的使用
  2. OSTU大律法二值化原理
  3. poj 1190 生日蛋糕
  4. 广西二级c语言试题,广西区计算机等级考二级C语言笔试试题及答案.doc
  5. mt4 python神经网络_迈达克软件公司承认Python运算对量化交易的重要性----将Python与Metatrader 5集成一体...
  6. php中的rand,php rand() 随机数生成的方法介绍
  7. mysql中使用正则表达式,mysql中使用正则表达式查询
  8. python s=1*2-2*3+ 3*4-4*5+..+(-1)m1XnX
  9. yii2表单数据检查怎么自定义输出错误_人人都熟知的AIDA模型,怎么结合GA进行用户分析?...
  10. html和css动画效果,css过渡和css动画的区别是什么?