CoCa：多模态图像-文本基础模型

原文：Yu J, Wang Z, Vasudevan V, et al. CoCa: Contrastive Captioners are Image-Text Foundation Models[J]. arXiv preprint arXiv:2205.01917, 2022.

探索大规模预训练基础模型在计算机视觉中具有重要意义，因为这些模型可以快速迁移到许多下游任务中。本文提出了对比Captioner模型(Contrastive Captioner，简称CoCa)，结合对比损失和captioning损失来预训练图像-文本编码器-解码器基础模型，从而兼具了对比方法(如CLIP)和生成方法(如SimVLM)的优点。与标准的编码器-解码器Transformer(所有解码器层都参与编码器输出的处理)不同，CoCa省略了解码器前半部分的交叉注意力来编码纯文本表示，并在后半部分用交叉注意力将图像编码器的输出和多模态解码器级联起来，以学习多模态图像-文本表示。我们在单模态图像和文本嵌入之间应用对比损失，在多模态解码器的输出上应用captioning损失，以自回归的方式预测文本tokens。通过将所有标签简单地视为文本，我们利用有标签图像数据和带噪声图像-文本数据对CoCa进行了预训练。从经验上看，CoCa在广泛的下游任务上实现了SOTA性能，包括视觉识别(ImageNet、Kinetics-400/600/700、Moments-in-Time)、跨模态检索(MSCOCO、Flickr30K、MSR-VTT)、多模态理解(VQA、SNLI-VE、NLVR2)和图像描述(MSCOCO、NoCaps)。值得注意的是，CoCa在ImageNet图像分类任务上，采用零样本的方式获得了86.3%的精度，使用冻结编码器获得了90.6%的精度，使用微调编码器获得了91.0%的SOTA精度。

★ 相关工作

CLIP：从自然语言监督中学习可迁移的视觉模型
ALIGN：基于噪声文本监督的视觉和视觉语言表示学习
ViT：一图胜千言，用于大规模图像识别的Transformer
VinVL：视觉语言模型中的视觉表示

★ 论文故事

深度学习最近见证了基础语言模型的兴起，如BERT、 T5、 GPT-3，这些模型在大规模数据上进行预训练，并通过零样本、小样本或迁移学习的方式展示了通用的多任务能力。与专业模型相比，针对大规模下游任务的预训练基础模型可以分摊训练成本，为模型达到并超过人类智能提供了契机。

针对视觉和视觉-语言问题，研究者们已经探索了几种基础模型：(1)开拓性工作表明，在图像分类数据集(如ImageNet)上，使用交叉熵损失预训练的单编码器模型是有效的。图像编码器提供了通用的视觉表示，可用于各种下游任务，包括图像和视频理解。然而，这些模型在很大程度上依赖于图像注释作为标记向量，并且没有吸收人类自然语言的知识，这阻碍了它们在涉及视觉和语言模态的下游任务中的应用。(2)最近，研究者们在大规模含有噪声的图像-文本对上，利用对比损失对两个并行的编码器进行预训练，证明了图像-文本基础模型的可行性。除了仅用于视觉任务的视觉嵌入外，形成的双编码器模型还可以将文本嵌入编码到相同的潜在空间，从而实现新的跨模态对齐功能，如零样本图像分类和图像-文本检索。然而，由于缺少学习图像-文本融合表示的联合组件，这些模型不能直接适用于视觉-语言理解任务，如视觉问答(VQA)。(3)另一项研究探索了使用编码器-解码器模型进行生成式预训练，以学习通用的视觉和多模态表示。在预训练期间，模型从编码器一侧获取图像，并在解码器输出上应用语言建模损失(或PrefixLM)。对于下游任务，解码器的输出可以用作多模态理解任务的联合表示。虽然通过预训练的编码器-解码器模型获得了优异的视觉-语言结果，但它们不会生成与图像嵌入对齐的纯文本表示，因此对于跨模态对齐任务来说，可行性和效率较低。

在这项工作中，我们统一了单编码器、双编码器和编码器-解码器范式，并训练了一个包含三种方法优点的图像-文本基础模型。我们提出了对比Captioner模型(CoCa)，该模型采用经过对比损失和captioning损失训练的编码器-解码器架构。如图1所示，我们将Transformer解码器解耦为两部分，分别是单模态解码器和多模态解码器。我们省略了单模态解码器中的交叉注意力来编码纯文本表示，并用交叉注意力将图像编码器的输出和多模态解码器级联起来，以学习多模态图像-文本表示。我们在图像编码器和单模态文本解码器的输出之间应用对比损失，并在多模态解码器的输出处应用captioning损失。此外，通过将所有标签简单地视为文本，我们利用有标签图像数据和带噪声图像-文本数据对CoCa进行了训练。图像注释文本上的生成损失提供了类似于单编码器交叉熵损失的细粒度训练信号，有效地将上述三种预训练范式纳入到统一的方法中。

图1：经过预训练的CoCa模型能够以零样本、冻结特征或端到端微调的方式应用于下游任务，包括视觉识别、视觉-语言对齐、图像描述和多模态理解。

CoCa利用对比学习来学习全局表示，并为细粒度的区域级特征添加文本描述，从而有利于图1所示的三类任务。CoCa表明，单一的预训练模型可以在零样本和小样本迁移任务上优于许多专业模型。例如，CoCa在ImageNet上获得了86.3%的零样本图像分类精度，在MSCOCO和Flickr30k上获得了更好的零样本跨模态检索结果。通过冻结编码器，CoCa在ImageNet上的分类精度为90.6%，在Kinetics-400/600/700上的得分分别为88.0%/88.5%/81.1%，在Moments-in-Time上的得分为47.4%。经过微调后，CoCa在ImageNet上的分类精度进一步达到了91.0%，在VQA上的得分达到了82.3%，在NoCaps上的得分达到了120.6。

★ 模型方法

图2：CoCa的架构和训练目标。

表1：CoCa的变体。图像编码器和文本解码器都是Transformer。

图3：用于视频识别的CoCa。

★ 实验结果

图4：CoCa与其他图像-文本基础模型(不针对特定任务定制)和任务专用模型的比较。

表2：使用冻结编码器或微调编码器进行图像分类和视频动作识别的结果。

图5：模型大小对图像分类精度的影响。

表3：在Flickr30K和MSCOCO数据集上的零样本图像-文本检索结果。

表4：在ImageNet、ImageNet-A、ImageNet-R、ImageNet-V2、ImageNet Sketch和ObjectNet上的零样本图像分类结果。

表5：在MSR-VTT测试集上的零样本视频-文本检索结果。

表6：CoCa与其他视觉-语言预训练模型在多模态理解任务上的比较。

表7：在MSCOCO和NoCaps数据集上的图像描述结果。

图6：CoCa以NoCaps图像作为输入生成的文本标题示例。

表8：CoCa的消融实验。默认设置用粗体显示。

表9：视觉识别实验中使用的超参数。

表10：多模态实验中使用的超参数。

★ 总结讨论

在这项工作中，我们提出了图像-文本基础模型CoCa，将现有的视觉预训练范式和自然语言监督统一起来。CoCa在不同来源的图像-文本数据上进行了预训练，在编码器-解码器模型中有效地结合了对比损失和captioning损失。CoCa在广泛的视觉和视觉-语言问题上获得了一系列最先进的表现。我们的工作弥合了各种预训练方法之间的差距。我们希望CoCa能为图像-文本基础模型的研究提供新的方向。

多模态人工智能

为人类文明进步而努力奋斗^_^↑

欢迎关注“多模态人工智能”公众号，一起进步^_^↑

CoCa：多模态图像-文本基础模型相关推荐

Coca：对比字幕是图像-文本基础模型
摘要我们在单模态图像和文本嵌入之间应用了一个对比损失,此外还在多模态解码器输出上应用了一个字幕损失,它预测了自回归的文本标记.通过共享相同的计算图,可以以最小的开销高效地计算两个训练目标.通过将所有 ...
AI：2023年6月9日北京智源大会演讲分享之基础模型前沿技术论坛—《工程化打造AI中的CPU》、《构建一个AI系统:在LLM上应用带有RLHF来推进定制》、《多模态预训练的进展回顾与展望》、《扩展大
AI:2023年6月9日北京智源大会演讲分享之基础模型前沿技术论坛-<工程化打造AI中的CPU>.<构建一个AI系统:在LLM上应用带有RLHF来推进定制>.<多模态预训 ...
多模态信息抽取（一）——融合知识图谱和多模态的文本分类研究（论文研读）
融合知识图谱和多模态的文本分类研究引言: 1 相关工作 1.1文本分类 1.2知识融合 1.3多模态融合 2 融合知识图谱和多模态的文本分类模型 2.1文本特征表示 2.2实体特征表示 2.3图像特 ...
LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA...
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送达来自:机器之心人类似乎对不同的学习模式有着相似的认知,机器也应该如此! 自监督学习能 ...
中科大快手提出多模态交叉注意力模型：MMCA，促进图像-文本多模态匹配！
关注公众号,发现CV技术之美本文分享论文『Multi-Modality Cross Attention Network for Image and Sentence Matching』,由中科大&a ...
Donut模型-图像文本阅读以及下游任务的多模态大模型
目录一.简单介绍二.Donut的结构三.预训练的任务 3.1 任务描述 3.2 预训练任务数据集四.下游任务 4.1 分类任务 4.1.1 任务描述 4.1.2 任务数据集 4.1.2.1 R ...
1个模型横扫40+个SOTA！22位华人共同打造佛罗伦萨模型，一统图像视频文本，含9亿图像-文本对...
关注公众号,发现CV技术之美本文转载自新智元编辑:小咸鱼好困 LRS [导读]近日,微软正式发布了一个新的计算机视觉基础模型Florence(佛罗伦萨),要用一个模型一统多模态天下!Floren ...
多模态＋Recorder︱多模态循环网络的图像文本互匹配
来源于公众号:大数据与多模态计算 . 1.问题背景图像文本匹配,顾名思义,就是度量一幅图像和一段文本的相似性,该技术是多个模式识别任务的核心算法.例如,在图像文本跨模态检索任务中,当给定查询文本,需 ...
屠榜40+个SOTA！22位华人打造Florence：CV基础模型新范式！一统多模态天下
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达本文转载自:新智元编辑:小咸鱼好困 LRS [导读]近日,微软正式发布了一个新的计算机视觉基础模型Flo ...

CoCa：多模态图像-文本基础模型

CoCa：多模态图像-文本基础模型相关推荐

最新文章

热门文章