关注公众号,发现CV技术之美

 写在前面

预训练的视觉语言BERT的目标是学习结合两种模态的表征。在本文中,作者提出了一种基于跨模态输入消融诊断方法(cross-modal input ablation) 来评估这些模型实际上整合跨模态信息的程度。

这个方法完全或选择性地消融了来自一种模态的输入,并评估另一种模态上的模型预测性能 。模型的性能是通过反映特定于模态的预训练任务来衡量的(比如,对于文本任务是masked language modelling,MLM)。

理论上,当其中一个模态的输入缺失时,在两种模态上已经学习好的跨模态表示模型的表现会变差。在实验中,作者发现,相比于消融文本信息来预测视觉信息,消融视觉信息来预测文本信息相对来说要困难得多,这表明这些模型的跨模态不是对称的

 1. 论文和代码地址

Vision-and-Language or Vision-for-Language? On Cross-Modal Inflfluence in Multimodal Transformers

论文:https://arxiv.org/abs/2109.04448

代码:https://github.com/e-bug/cross-modal-ablation(未开源)

 2. Motivation

视觉语言BERT模型扩展了BERT架构,以生成多模态输入的跨模态上下文表示。当对一系列下游任务进行微调时,这些模型已被证明是非常有效的。然而,尽管它们具有多功能性,但对于这些模型如何使用跨模态信息,我们知之甚少

它们对语言任务的学习表征是否包括视觉信息(vision-for-language),反之亦然(language-for-vision)? 目前,我们很难准确地分析这些模型如何使用跨模式信息。

在本文中,作者引入了一种跨模态输入消融(cross-modal input ablation) 方法来量化预训练的模型学习使用跨模态信息的程度。本文的方法不需要额外的训练,通过消融一个模态的信息来预测另一个模态的输出,比较不同消融程度对结果的变化,来探究模态之间的相互作用。

如上图所示。Vision-for-Language诊断(上半部分)测量对齐对象或完整图像的消融对mask token预测的影响,而Language-for-Vision诊断(下半部分)测量在预测mask图像区域时消融对齐的短语或整个句子的影响。

性能是使用预训练过程中使用的相同的mask目标预测任务来测量的。因此,跨模态输入消融捕获了模型在生成预测时依赖于跨模态输入和激活的程度。相比于以前的一些研究方法,本文的交叉模态输入消融方法具有以下优点:

1)它执行起来很简单,也很容易解释,不需要对模型进行干预,只需要对数据进行最小的干预。

2)作为一种内在的诊断,它直接检查模型,而不需要添加学习参数。

3)它不需要解释激活或attention。

在本文中,作者对现有模型上的交叉模态输入消融进行了研究,以证明其在理解模型行为方面的实用性。作者测试了具有不同架构但具有相同初始化和训练流程的模型。

实验结果表明,这些模型确实学习了使用跨模态信息,从而导致多模态表示,但这两种模态对最终结果的影响程度并不相同。文本片段的表示受到视觉输入的强烈影响,而视觉区域的表示受到伴随的文本输入的较小影响 。这表明跨模态信息交换的水平不是对称的:模型已经学会了使用vision-for-language而不是 language-for-vision

在随后的分析中,作者试图理解缺乏language-for-vision的原因,以确定可能的改进途径。本文的实验研究了不同的损失函数,初始化和预训练策略,以及视觉mask方法的影响。然而,这些因素都没有显著地改变模型的行为。作者发现,在预训练中使用的视觉目标标注是由目标检测器自动生成的,这可能导致检测结果存在很多噪声。

 3. 方法

作者使用消融来确定预训练的视觉语言模型在进行预测的时候是否结合了来自两个模态的信息。如果测试过程中,去除某个模态的信息,对最终结果影响很大,那这个模态在最终预测的时候就是有用的;否则这个模态就是没用的。

多模态模型在预测时使用由多模态输入触发的跨模态激活。如果一个多模态模型依赖于来自某些输入数据的激活做出预测,那么这个输入的消融将导致性能的变化,而如果模型没有学会使用的输入,删除它将没有影响。

输入数据以图像-句子对表示;在句子中,短语可以指代图像中的特定目标。作者期望这种对齐的短语-目标对能在预测时引起特别强的跨模态激活。通过消融对齐连接,作者测试了模型创建和使用这种对齐的能力。此外,作者还通过消融整个模态输入,来确定预测时是否使用了该模态的信息。

3.1 Vision-for-Language Diagnostic

语言任务包括预测mask token,可能有视觉输入的辅助。对于视觉输入的消融,作者比较了以下设置:

None: 没有一个视觉特征被消融。该模型可以访问完整的图像 。这是原始的多模态设置,因此,有效使用多模态信息的模型应该表现最好。

Object: 在这里,作者只删除与对齐的文本短语相对应的图像区域,该模型仍然可以使用周围的视觉上下文特征

All: 所有的视觉特征都被消融了,模型只能从其文本 上下文中预测mask的文本token 。依赖于多模态输入的模型应该会受到影响。

上图显示了Vision-for-Language Diagnostic的情况。

3.2 Language-for-Vision Diagnostic

视觉任务是预测图像特定区域内的目标对象类别,可能有文本标题的帮助。在这种情况下,选择一个与句子中的短语对齐的对象区域是模型的目标。文本输入的消融方式类似于视觉输入:

None: 所有的文本都没有被消融。这个模型可以看到整个句子

Phrase:消融与目标对象对齐的短语中的token

All: 所有的token都被消融,该模型只能从其视觉上下文中预测mask的视觉区域

上图显示了 Language-for-Vision Diagnostic的情况。

 4.实验

4.1.  Cross-Modal Input Ablation Results

Vision-for-Language diagnostic

上图(左)显示了五种模型在不同类型的视觉输入消融中的性能。可以看出Object消融的效果相对较小,这与模型应该使用对齐的对象信息而不是一般的视觉上下文的预期是相反的。

在上图中,作者检查这些结果是否是由于对象的视觉信息泄漏到一般的视觉上下文中。可以看出,mask会导致物体消融性能更差。在较低的mask阈值下,对象信息在所有消融中的相对贡献高于一般视觉上下文。

Language-for-Vision diagnostic

上图右是预测视觉对象类别时,消融语言的结果。该分析表明,这些视觉语言模型使用的language-for-vision,远少于它们使用的vision-for-language。

4.2. Diving into Language-for-Vision

上一节显示,视觉语言BERT对消融的视觉输入比语言输入更敏感。这种行为可能是由于几个因素:包括模型设计和初始化的差异,以及由FasterR-CNN提供的标签的质量问题。在这里,作者分析这些因素如何影响视觉语言交互。

Initialisation and Pretraining Order

所有被测试的模型共享相同的预训练序列:它们首先使用BERT权重初始化,然后在CC上进行预训练,以建模视觉和语言。在这里,需要探究的是,BERT初始化是否导致了语言对视觉行为的不对称 ,即embedding在BERT权值中的强大的语言建模能力是否限制了模型对视觉预测任务的适应?

此外,作者还研究了不同的预训练机制是否也会导致视觉语言BERT的不同行为。作者进行了以下设置:

:模型不是用BERT初始化,而是随机初始化并在CC上进行训练。

:在这里,随机初始化的模型首先只使用视觉MRC-KL损失在CC上进行预训练,然后像往常一样在CC上进行预训练。

:与上面相同,但从BERT初始化开始。

结果如上图所示。与使用BERT初始化的模型相比,在ViLBERT和UNITER中,从头开始的预训练都增加了MLM损失。视觉优先的预训练可以降低UNITER的MRC-KL损失。

Leaking Visual Features

视觉上下文特征可能会为正确的预测提供足够的信息。特别是,考虑到图像中许多自动提出的区域重叠,它们可能会泄露有关对象的信息。

作者进行了一个实验,使用不同的重叠阈值τ以及没有任何mask进行预训练,测试IoU和IoT的masking function。上图显示,改变co-masking的数量,或masking function,并不影响视觉语言的结果。

Silver Object Annotations

最后,作者检查了用于表示视觉模态的数据。这些模型是根据来自 Faster R-CNN的对象预测进行训练和评估的,这其中包含噪声,因为它们是自动预测的类别。

在评估过程中,如果评估集包含许多目标对象类预测与对齐文本特征相冲突的样本,那么目标分布中的噪声可能会导致语言功能的降低。

上图显示了错误的分布,它们被分组为在Flickr30k数据集中定义的更高层次的类别。Faster R-CNN主要是在类别内犯错误,特别是在“people”类别中。

如上图所示,使用LabelMatch作为gold labels进行评估并不会导致消融MRC性能的任何明显差异。

即使在gold label上进行评估,我们仍然可以看到大多数模型几乎没有使用文本信息来进行视觉预测。这种行为与对有噪声的数据进行了预训练的模型相一致。在这些模型中,语言输入对预测并没有用。

 5. 总结

本文介绍的跨模态输入消融诊断证明了预训练的视觉和语言模型中的不对称性:mask文本的预测受到消融视觉输入的强烈影响;而在预测mask图像区域时,消融文本输入几乎没有影响 。这些结果提供了对实际模型行为的一个有用的check,并与平衡的跨模态激活的假设背道而驰。

测试的模型显示了vision-for-language,而不是language-for-vision的结果,这一事实可能是多模态任务的积累,因为一些下游多模态任务需要强烈的 vision-for-language,如grounded reasoning或visual question answering。

▊ 作者简介

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END

欢迎加入「计算机视觉交流群

EMNLP 2021-多模态Transformer真的多模态了吗?论多模态Transformer对跨模态的影响相关推荐

  1. Article:AI领域2021年度总结与2022年度展望:多模态人工智能起飞、万亿参数模型的爆发、生成模型在音乐电影制作上的进展、Transformer架构正在以一己之力统一AI江湖、AI法律监管

    Article:AI领域2021年度总结与2022年度展望:多模态人工智能起飞.万亿参数模型的爆发.生成模型在音乐电影制作上的进展.Transformer架构正在以一己之力统一AI江湖.AI法律监管 ...

  2. 2021深度学习的研究方向推荐!Transformer、Self-Supervised、Zero-Shot和多模态

    先写两个最近火热我比较看好的方向Transformer和Self-Supervised,我这里举的例子倾向于计算机视觉方向.最后再补充Zero-Shot和多模态两个方向. 1.Transformer ...

  3. WAIC 2021 | 好未来副总裁吴中勤:多模态机器学习与自动生成技术

    机器之心报道 机器之心编辑部 在 WAIC 2021 AI 开发者论坛上,好未来集团技术副总裁吴中勤发表主题演讲<多模态机器学习及大规模自动生成技术:算法框架.行业实践>,他主要介绍了多模 ...

  4. 利用跨模态 Transformer 进行多模态信息融合

    目录 1. 简介 2. 创新点 3. 模型描述 3.1 Low Rank Fusion 3.2 Multimodal Transformer 具体模块介绍 Temporal Convolutions ...

  5. EMNLP 2021中预训练模型最新研究进展

    © 作者|周昆 机构|中国人民大学信息学院 研究方向|序列表示学习与应用 导读 EMNLP 2021是人工智能领域自然语言处理( Natural Language Processing,NLP)三大顶 ...

  6. EMNLP 2021事件相关(事件抽取、事件关系抽取、事件预测等)论文汇总

    EMNLP 2021事件相关(事件抽取.事件关系抽取.事件预测等)论文汇总,已更新全部. Event Extraction Crosslingual Transfer Learning for Rel ...

  7. 医学自然语言处理(NLP)相关论文汇总之 EMNLP 2021

    医学自然语言处理(NLP)相关论文汇总之 EMNLP 2021 [写在前面]EMNLP2021前段时间已经放榜,一直没时间整理,最近抽时间整理了一下该会议在医疗自然语言处理方向上的相关论文,放在这里, ...

  8. 今日arXiv精选 | 21篇EMNLP 2021最新论文

     关于 #今日arXiv精选  这是「AI 学术前沿」旗下的一档栏目,编辑将每日从arXiv中精选高质量论文,推送给读者. Efficient Domain Adaptation of Languag ...

  9. 今日arXiv精选 | 46篇EMNLP 2021最新论文

     关于 #今日arXiv精选  这是「AI 学术前沿」旗下的一档栏目,编辑将每日从arXiv中精选高质量论文,推送给读者. Neural Machine Translation Quality and ...

最新文章

  1. 不用3D建模软件,如何用数学公式创造一个女孩?会眨眼,有光影的那种
  2. ballgown包进行基因差异表达分析
  3. c语言判断字符串镜像,leetcode392(判断子序列)--C语言实现
  4. 【Android Developers Training】 58. 缓存位图
  5. js实现删除确认提示框
  6. 多次为 selecttemp 指定了列 bstkd_36列城市铁路列车、轨道诊断、货车大修、调车机车备品备件招标...
  7. 201571030139/201571030134 小学生四则运算软件结对编程
  8. Java工具集-农历日期工具类
  9. 佛系程序员之歌 - 和我一起减减压
  10. Python搭建BT资源搜索站
  11. 用C++编程求两个数字的最大公因数和最小公倍数
  12. CSS学习(一)——制作新年贺卡
  13. MongoDB查询命令详解
  14. 没有权限访问网络资源/Windows7虚拟机共享文件
  15. variant 类型
  16. 最优布线问题(三种方法)
  17. 人工智能发展历史与趋势
  18. (四)Java游戏部署在BlackBerry仿真器上(RIM)
  19. Qt-C++基础界面开发(2- 简单Display Widget控件和Item Widget控件的使用)
  20. 普中V2 51单片机 节拍器 仿真

热门文章

  1. 实数范围内(包含负数)的求模与求余运算异同
  2. TensorFlow学习笔记:使用Inception v3进行图像分类
  3. 工作线程AfxBeginThread的使用
  4. 如何制作一个基于Tile的游戏 Cocos2d-x 2 0 4
  5. CV之Harris特征点检测器-兴趣点检测(详解)
  6. Linux学习笔记12——配置ftp、squid、Tomcat、Samba、MySQL主从
  7. Java实战-坦克大战
  8. mysql数据库空密码修改_修改mysql 数据库密码
  9. 复化梯形公式matlab程序_【HPC】高性能数值计算-梯形面积法
  10. 中兴上网卡 linux,电信3G无线上网卡中兴AC2726在Ubuntu 10.10安装使用成功