EMNLP 2021-多模态Transformer真的多模态了吗？论多模态Transformer对跨模态的影响

关注公众号，发现CV技术之美

▊ 写在前面

预训练的视觉语言BERT的目标是学习结合两种模态的表征。在本文中，作者提出了一种基于跨模态输入消融诊断方法（cross-modal input ablation） 来评估这些模型实际上整合跨模态信息的程度。

这个方法完全或选择性地消融了来自一种模态的输入，并评估另一种模态上的模型预测性能 。模型的性能是通过反映特定于模态的预训练任务来衡量的（比如，对于文本任务是masked language modelling，MLM)。

理论上，当其中一个模态的输入缺失时，在两种模态上已经学习好的跨模态表示模型的表现会变差。在实验中，作者发现，相比于消融文本信息来预测视觉信息，消融视觉信息来预测文本信息相对来说要困难得多，这表明这些模型的跨模态不是对称的 。

▊ 1. 论文和代码地址

Vision-and-Language or Vision-for-Language? On Cross-Modal Inflfluence in Multimodal Transformers

论文：https://arxiv.org/abs/2109.04448

代码：https://github.com/e-bug/cross-modal-ablation（未开源）

▊ 2. Motivation

视觉语言BERT模型扩展了BERT架构，以生成多模态输入的跨模态上下文表示。当对一系列下游任务进行微调时，这些模型已被证明是非常有效的。然而，尽管它们具有多功能性，但对于这些模型如何使用跨模态信息，我们知之甚少

它们对语言任务的学习表征是否包括视觉信息（vision-for-language)，反之亦然(language-for-vision）？ 目前，我们很难准确地分析这些模型如何使用跨模式信息。

在本文中，作者引入了一种跨模态输入消融（cross-modal input ablation） 方法来量化预训练的模型学习使用跨模态信息的程度。本文的方法不需要额外的训练，通过消融一个模态的信息来预测另一个模态的输出，比较不同消融程度对结果的变化，来探究模态之间的相互作用。

如上图所示。Vision-for-Language诊断（上半部分）测量对齐对象或完整图像的消融对mask token预测的影响，而Language-for-Vision诊断（下半部分）测量在预测mask图像区域时消融对齐的短语或整个句子的影响。

性能是使用预训练过程中使用的相同的mask目标预测任务来测量的。因此，跨模态输入消融捕获了模型在生成预测时依赖于跨模态输入和激活的程度。相比于以前的一些研究方法，本文的交叉模态输入消融方法具有以下优点：

1）它执行起来很简单，也很容易解释，不需要对模型进行干预，只需要对数据进行最小的干预。

2）作为一种内在的诊断，它直接检查模型，而不需要添加学习参数。

3）它不需要解释激活或attention。

在本文中，作者对现有模型上的交叉模态输入消融进行了研究，以证明其在理解模型行为方面的实用性。作者测试了具有不同架构但具有相同初始化和训练流程的模型。

实验结果表明，这些模型确实学习了使用跨模态信息，从而导致多模态表示，但这两种模态对最终结果的影响程度并不相同。文本片段的表示受到视觉输入的强烈影响，而视觉区域的表示受到伴随的文本输入的较小影响 。这表明跨模态信息交换的水平不是对称的：模型已经学会了使用vision-for-language而不是 language-for-vision 。

在随后的分析中，作者试图理解缺乏language-for-vision的原因，以确定可能的改进途径。本文的实验研究了不同的损失函数，初始化和预训练策略，以及视觉mask方法的影响。然而，这些因素都没有显著地改变模型的行为。作者发现，在预训练中使用的视觉目标标注是由目标检测器自动生成的，这可能导致检测结果存在很多噪声。

▊ 3. 方法

作者使用消融来确定预训练的视觉语言模型在进行预测的时候是否结合了来自两个模态的信息。如果测试过程中，去除某个模态的信息，对最终结果影响很大，那这个模态在最终预测的时候就是有用的；否则这个模态就是没用的。

多模态模型在预测时使用由多模态输入触发的跨模态激活。如果一个多模态模型依赖于来自某些输入数据的激活做出预测，那么这个输入的消融将导致性能的变化，而如果模型没有学会使用的输入，删除它将没有影响。

输入数据以图像-句子对表示；在句子中，短语可以指代图像中的特定目标。作者期望这种对齐的短语-目标对能在预测时引起特别强的跨模态激活。通过消融对齐连接，作者测试了模型创建和使用这种对齐的能力。此外，作者还通过消融整个模态输入，来确定预测时是否使用了该模态的信息。

3.1 Vision-for-Language Diagnostic

语言任务包括预测mask token，可能有视觉输入的辅助。对于视觉输入的消融，作者比较了以下设置：

None： 没有一个视觉特征被消融。该模型可以访问完整的图像 。这是原始的多模态设置，因此，有效使用多模态信息的模型应该表现最好。

Object： 在这里，作者只删除与对齐的文本短语相对应的图像区域，该模型仍然可以使用周围的视觉上下文特征 。

All： 所有的视觉特征都被消融了，模型只能从其文本 的 上下文中预测mask的文本token 。依赖于多模态输入的模型应该会受到影响。

上图显示了Vision-for-Language Diagnostic的情况。

3.2 Language-for-Vision Diagnostic

视觉任务是预测图像特定区域内的目标对象类别，可能有文本标题的帮助。在这种情况下，选择一个与句子中的短语对齐的对象区域是模型的目标。文本输入的消融方式类似于视觉输入：

None： 所有的文本都没有被消融。这个模型可以看到整个句子 。

Phrase： 只消融与目标对象对齐的短语中的token 。

All： 所有的token都被消融，该模型只能从其视觉上下文中预测mask的视觉区域 。

上图显示了 Language-for-Vision Diagnostic的情况。

▊ 4.实验

4.1. Cross-Modal Input Ablation Results

Vision-for-Language diagnostic

上图（左）显示了五种模型在不同类型的视觉输入消融中的性能。可以看出Object消融的效果相对较小，这与模型应该使用对齐的对象信息而不是一般的视觉上下文的预期是相反的。

在上图中，作者检查这些结果是否是由于对象的视觉信息泄漏到一般的视觉上下文中。可以看出，mask会导致物体消融性能更差。在较低的mask阈值下，对象信息在所有消融中的相对贡献高于一般视觉上下文。

Language-for-Vision diagnostic

上图右是预测视觉对象类别时，消融语言的结果。该分析表明，这些视觉语言模型使用的language-for-vision，远少于它们使用的vision-for-language。

4.2. Diving into Language-for-Vision

上一节显示，视觉语言BERT对消融的视觉输入比语言输入更敏感。这种行为可能是由于几个因素：包括模型设计和初始化的差异，以及由FasterR-CNN提供的标签的质量问题。在这里，作者分析这些因素如何影响视觉语言交互。

Initialisation and Pretraining Order

所有被测试的模型共享相同的预训练序列：它们首先使用BERT权重初始化，然后在CC上进行预训练，以建模视觉和语言。在这里，需要探究的是，BERT初始化是否导致了语言对视觉行为的不对称 ，即embedding在BERT权值中的强大的语言建模能力是否限制了模型对视觉预测任务的适应？

此外，作者还研究了不同的预训练机制是否也会导致视觉语言BERT的不同行为。作者进行了以下设置：

：模型不是用BERT初始化，而是随机初始化并在CC上进行训练。

：在这里，随机初始化的模型首先只使用视觉MRC-KL损失在CC上进行预训练，然后像往常一样在CC上进行预训练。

：与上面相同，但从BERT初始化开始。

结果如上图所示。与使用BERT初始化的模型相比，在ViLBERT和UNITER中，从头开始的预训练都增加了MLM损失。视觉优先的预训练可以降低UNITER的MRC-KL损失。

Leaking Visual Features

视觉上下文特征可能会为正确的预测提供足够的信息。特别是，考虑到图像中许多自动提出的区域重叠，它们可能会泄露有关对象的信息。

作者进行了一个实验，使用不同的重叠阈值τ以及没有任何mask进行预训练，测试IoU和IoT的masking function。上图显示，改变co-masking的数量，或masking function，并不影响视觉语言的结果。

Silver Object Annotations

最后，作者检查了用于表示视觉模态的数据。这些模型是根据来自 Faster R-CNN的对象预测进行训练和评估的，这其中包含噪声，因为它们是自动预测的类别。

在评估过程中，如果评估集包含许多目标对象类预测与对齐文本特征相冲突的样本，那么目标分布中的噪声可能会导致语言功能的降低。

上图显示了错误的分布，它们被分组为在Flickr30k数据集中定义的更高层次的类别。Faster R-CNN主要是在类别内犯错误，特别是在“people”类别中。

如上图所示，使用LabelMatch作为gold labels进行评估并不会导致消融MRC性能的任何明显差异。

即使在gold label上进行评估，我们仍然可以看到大多数模型几乎没有使用文本信息来进行视觉预测。这种行为与对有噪声的数据进行了预训练的模型相一致。在这些模型中，语言输入对预测并没有用。

▊ 5. 总结

本文介绍的跨模态输入消融诊断证明了预训练的视觉和语言模型中的不对称性：mask文本的预测受到消融视觉输入的强烈影响；而在预测mask图像区域时，消融文本输入几乎没有影响 。这些结果提供了对实际模型行为的一个有用的check，并与平衡的跨模态激活的假设背道而驰。

测试的模型显示了vision-for-language，而不是language-for-vision的结果，这一事实可能是多模态任务的积累，因为一些下游多模态任务需要强烈的 vision-for-language，如grounded reasoning或visual question answering。

▊ 作者简介

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END

欢迎加入「计算机视觉」交流群