笔记：WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training

笔记：文澜：桥接视觉和语言的大规模的多模态预训练

本文是一部分总结和翻译，主要关注点是方法的介绍，本人能力有限，如有错误请大佬们多包容和指教。
求赞求关注求评论
具体请参考原文内容【Arxiv地址】

文章目录

笔记：WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training
- 原文摘要翻译
- 介绍
- 实验部分

原文摘要翻译

提出了BriVL模型
近年来，人们对多模态的语前训练模式进行了深入的探索，以建立视觉和语言的桥梁。然而，他们大多通过假设文本和图像模态之间存在强烈的语义关联，明确地模拟了图像-文本对之间的跨模态交互作用。由于这种强假设在现实场景中往往是无效的，我们选择隐式建模跨模态相关的大规模多模态预训练，这是我们团队领导的中国项目“文澜”的重点。与OpenAI CLIP采用简单的对比学习方法不同，我们设计了一种更先进的算法，将最新的MoCo方法应用到跨模态场景中。通过建立一个大型的基于队列的字典，我们的BriVL可以在有限的GPU资源中加入更多的负面样本。我们进一步构建了一个大型的中文多源图文数据集，称为ruc-cas-wenlan，用于对我们的BriVL模型进行预训练。大量的实验表明，预先训练好的BriVL模型在各种下游任务上都优于UNITER和OpenAI CLIP。

介绍

近年来，预训练模型已成为自然语言处理(NLP)的研究热点。一些预训练语言模型如BERT和GPT，在许多下游任务中都取得了瞩目的成果。随着GPT- 3(即OpenAI最新的大规模语言模型)的发布，pre-training语言模型已经成为NLP界最关注的问题。
文章认为，在大规模多模态预训练中仍然存在三个挑战:(1)无效的强假设:现有的大多数模型都是通过假设输入图像-文本对之间存在很强的语义相关性来设计的(见图1)，但这种强相关性假设在实践中往往是无效的。(2) Pre-training的低效:Pre-training过程往往非常昂贵，需要大量的gpu来进行并行lel的Pre-training。(3)模型部署困难:培训前的模型通常太大，无法部署到实际应用中。在这个项目中，为了克服上述三个挑战，文章提出了一种新的双塔预训练模型，称为BriVL，在跨模态对比学习框架(如OpenAI CLIP)中，而不是大多数多模态预训练模型所采用的单塔架构。重要的是，与OpenAI的CLIP不同，我们设计了一个更先进的基于最新MoCo的跨模态对比学习算法，这样我们的BriVL可以在有限的GPU资源中包含更多的负面样本

如图2所示,给定一个特定的图像文字,图像形态或文本形态可以用来构造缺席样本图像-文字对。基于最新的Moco框架负样本的数量扩展有助于增强神经网络的表达能力。通过构建一个大型的基于队列的字典，模型可以在有限的GPU资源中整合更多的负样本，从而在图像-文本检索中获得更好的结果。

BriVL主要有三个优势:(i)在两塔架构下，文本编码器和图像编码器可以很容易地被最新的较大的单模态预训练模型所取代，进一步增强了BriVL模型的表示能力。(ii)一旦的BriVL模型被预先训练，它可以为图像和文本特征嵌入提供云可访问的api以及图像-文本对的匹配分数，可以被非常方便地部署在各种下游任务中。特别是，当使用向量引擎来加速推理阶段时，可以显著提高图像-文本检索的效率。(iii)在BriVL模型中添加其他训练前任务(例如，图像到文本生成)是很方便的。文章的主要目标是学习两个编码器，可以嵌入图像和文本样本到相同的空间，以有效的图像-文本检索。为了加强这种跨模态嵌入学习，作者将InfoNCE loss的对比学习引入到BriVL模型中，如图3所示。具体来说，对于一个给定的文本嵌入，学习目标是从一批图像嵌入中找到最佳的图像嵌入。同样，对于一个给定的图像嵌入，学习目标是从一批文本嵌入中找到最好的文本嵌入。总的来说,训练的模型通过共同训练图像和文本编码器，最大化每个batch中正样本对的文本嵌入和图像嵌入的余弦相似度，最小化负样本对中的余弦相似度。这导致在每批图像-文本对上的InfoNCE损失，以预训练BriVL模型。注意，与OPENAI CLIP相比，模型可以在有限的GPU资源中整合更多的负面样本，从而在图像-文本检索方面取得更好的结果。
正式地，对于图像-文本检索任务，表示训练集为D={(xiI,xiT)∣i=1,⋯,N}D=\{(x_i^I,x_i^T)|i=1,\cdots,N\}D={(xiI,xiT)∣i=1,⋯,N}其中(xiI,xiT)(x_i^I,x_i^T)(xiI,xiT)是来自ruc-cas-wenlan的匹配的图像-文本对。N是D的大小。图文检索模型利用对比学习，扩展了最新的MoCo作为预训练框架，如图3所示。每个图像xiIx_i^IxiI(或每个文本KaTeX parse error: Double subscript at position 4: x_i_̲T)由图像编码器fIf^IfI(或文本编码器fTf^TfT)编码，以获得其1维嵌入ziIz_i^IziI(或ziTz_i^TziT)。图像编码器(见图3(b))包含一个CNN骨干和一个连续的自注意块。使用目标检测器对CNN的特征图进行下采样，得到一系列的目标嵌入，然后由自注意块进行编码。文本编码器由几个自我注意块堆叠，如RoBERTa。一个使用RELU激活函数的两层的MLP被用于将每个编码器的表示映射到联合交叉模态嵌入空间。fIf^IfI和fTf^TfT的参数分别记为θIθ^IθI和θTθ^TθT。

需要注意的是，MoCo为对比学习提供了一种建立动态词典的机制。在这项工作中，采用了一个简单的实例识别任务:如果图像与文本相对应，则图像的查询与扩展文本的键相匹配，反之亦然。此外，队列的引入将字典大小与小批大小解耦。因此，字典大小可能比典型的小批处理大小大得多，将其设置为超参数。给定动量参数m，两个动量更新编码器fmIf_m^IfmI(参数θ_m^I)和fmTf_m^TfmT(参数θmTθ_m^TθmT)。它们的更新规则是:

与MoCo类似，BriVL维持两个队列QIQ^IQI和QTQ^TQT，分别包含K个图像负样本和K个文本负样本。在预训练阶段，给定批大小bs，在每次迭代后，所有bs图像负样本和b文本负样本分别push入这两个队列。这样，队列中的样本会在每次迭代中更新。具体地说，在迭代轮次t中，当前Batch{BtI,BtT}\{B_t^I,B_t^T\}{BtI,BtT}中的图像和文本负样本输入fmI,fmTf_m^I,f_m^TfmI,fmT，得到的结果被输入两个队列QIQ^IQI和QTQ^TQT。而且，每个图像查询xjIx_j^IxjI(或文本查询xjTx_j^TxjT)的正样本都是唯一的，它也是通过动量更新的编码器获得的：pjT=fmT(xjT)p_j^T=f_m^T(x_j^T)pjT=fmT(xjT)或者（pjI=fmI(xjI)p_j^I=f_m^I(x_j^I)pjI=fmI(xjI)）。每个batch的损失函数的构建：对于每个图像查询xjIx_j^IxjI，定义其嵌入zjIz_j^IzjI的图像与队列QTQ^TQT中所有正/负文本样本的对比损失，得到InfoNCE损失:

同样的对于每个文本查询xjTx_j^TxjT:

总损失是二者之和：

在测试/评估阶段，查询图像(或文本)也可以通过预先训练编码器的输出(即嵌入)上定义的点积来检索。
由于其高度的灵活性，BriVL模型可以在广泛的应用场景下进行可读部署。首先，其他训练前的任务(例如图像到文本生成)可以通过共享相同的文本或图像编码器添加到的BriVL模型中。其次，预先训练的文本和图像编码器可以直接应用于许多下游的多模态任务，如图像到文本检索、文本到图像检索、文本-图像检索等。

实验部分

leileileilei了~
见原文吧！放几张图

笔记：文澜：桥接视觉和语言的大规模多模态预训练 WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training相关推荐

一文速览！多模态预训练中的 Prompt 范式
作者 | 上杉翔二悠闲会 · 信息检索整理 | NewBeeNLP 上一篇博文整理了预训练新范式,见预训练新范式!为什么Prompt会更有效? 主要是围绕NLP上的成果,具体的概念本文也不做过多 ...
视觉-语言：推理还是预训练？【VALSE Webinar】Panel实录
编者按:多模态学习是深度学习中一个重要的问题.从感知到语义理解仍存在较大鸿沟.针对这几年深度学习技术在多模态学习中的发展,University of Technology Sydney 朱霖潮.All ...
浅谈视觉与语言中的多模态研究，究竟都研究什么
前言随着人工智能的整体进步,计算机视觉和自然语言处理已经有了巨大的.有了如此强大的算法和自主系统的综合能力,就需要合并知识领域,实现跨模态兼容,视觉语言(VisLang)研究具有更复杂的任务和交互式 ...
悟道·文澜详解：目前最大的中文多模态通用预训练模型
近年来,BERT等预训练语言模型在多类自然语言处理任务上取得了显著的性能提升,从而极大地改写了研究范式.随着OpenAI超大规模语言模型GPT-3的发布,预训练语言模型在自然语言理解能力上再次被推至新 ...
悟道·文澜：北京智源研究院、人大、中科院联手打造的超大规模多模态预训练模型！
导读近年来,BERT等预训练语言模型在多类自然语言处理任务上取得了显著的性能提升,从而极大地改写了研究范式.随着OpenAI超大规模语言模型GPT-3的发布,预训练语言模型在自然语言理解能力上再次被 ...
首个视觉-语言预训练综述来了！
文 | Feilong Chen等编 | 陈萍源 | 机器之心一文了解视觉 - 语言预训练最新进展和新领域. 让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标.为了让机器具有感知和思考 ...
中科院自动化所：最新视觉-语言预训练综述
论文标题: VLP: A Survey on Vision-Language Pre-training 论文链接: https://arxiv.org/abs/2202.09061 摘要在过去几年中 ...
学习视觉和语言的多粒度对齐？字节提出新多模态预训练方法 X-VLM：代码已开源！...
写在前面视觉语言预训练提高了许多视觉语言任务的性能.但是,现有的多数预训练方法依赖目标检测器(object detectors)提取基于物体的视觉特征,以此学习细粒度的视觉和语言对齐,例如物体(ob ...
CLIP-ViL：CLIP对视觉和语言任务有多大的好处？UC BerkeleyUCLA团队给出了答案！
关注公众号,发现CV技术之美 1 写在前面大多数现有的视觉和语言(V&L)模型依赖预训练的视觉编码器,使用相对较小的人工标注数据集来感知视觉世界.然而,大规模的预训练通常可以产生更好的泛化性 ...

笔记：文澜：桥接视觉和语言的大规模多模态预训练 WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training

笔记：WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training

文章目录

原文摘要翻译

介绍

实验部分

笔记：文澜：桥接视觉和语言的大规模多模态预训练 WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training相关推荐

最新文章

热门文章