CVPR 2020 Modality Shifting Attention Network for Multi-modal Video Question Answering

动机

VQA具有挑战性，因为它需要同时使用图像和文本执行细粒度推理的能力。视频问答（VideoQA）和多模态视频问答（MVQA）都是这种需要推理的任务。
与VQA或VideoQA相比，MVQA是一项更具挑战性的任务，因为它（1）需要确定与QA相关的时间时刻，（2）还需要对视频和字幕模态进行推理。
MVQA的第一个挑战是在所有有助于回答问题的异构模态中定位关键时刻。然而，以往的时间attention往往过于模糊或不准确地关注视频和字幕的重要区域，从而在推理过程中引入噪声。除了定性地评估预测到的attention之外，到目前为止，还没有量化的指标来衡量其准确性，这使得很难验证检索适当信息以回答问题的能力。
MVQA的第二个挑战是能够对回答问题的异构模态进行推理，因为它要求检索穿插在多模态中的被查询信息。早期融合框架只有在样本空间很好地填充，使得联合嵌入空间很好地定义的情况下，才会对时刻定位和答案预测进行推理非常有用；否则，可能会发生极端过拟合，一个模态将在另一个模态上充当噪声。后期融合框架通常不足以回答需要一种用于时间定位的模态和另一种用于回答预测的模态的问题，如图1所示。作者认为这种模态转换能力是MVQA的一个重要组成部分，这是现有方法所不能做到的。
本文的主要动机来自于时刻定位所需的模态可能不同于答案预测所需的模态。

方法

简介

为了解决上述问题，作者首先提出将MVQA问题分解为两个子任务：时刻定位和答案预测。本文的主要动机来自于时刻定位所需的模态可能不同于答案预测所需的模态。为此，提出了模态转移注意网络(MSAN)的概念，该网络由以下两部分组成：（1）时刻候选网络(MPN)和（2）模态推理网络(HRN)。MPN定位了回答问题所需的感兴趣时刻(MoI)。在这里，MoI候选是在视频和字幕上被定义，MPN学习每个MoI候选的时刻分数。基于局部化MoI，HRN通过一种称为异构注意力机制(HAM)的多模态注意力机制来推断正确答案。HAM由三个attention单元组成：self-attention（SA）和context-to-query（C2Q）attention，前者用于建模模态内的交互作用（如单词和单词、目标和目标间的关系），后者用于建模问题与上下文（即视频和字幕）之间的模态间交互，以及context-to-context(C2C)的attention，以建模视频和字幕之间的模态间交互。MPN和HRN的结果通过模态重要性调制（Modality importity Modulation，MIM）进一步调整，这是一种在模态之外的额外注意力机制。

框架

图2显示了模态转移注意网络(MSAN)的总体流水线，包括两个子网络：模态候选网络(MPN)和异构推理网络(HRN)。MSAN的主要研究重点在于MVQA中的推理可以由两个连续的子任务来完成：（1）时刻定位和（2）答案预测，并且每个子任务可能需要不同的模态。

MSAN由以下4个部分组成：(a)利用BERT进行嵌入的视频和文本表示；(b)用于定位所需的感兴趣时刻以回答问题的时刻候选网络；©基于定位时刻推断正确答案的异构推理网络；以及(d)模态重要性调制，根据其重要性对(b)和©的输出进行不同的加权。

模型

具体包括：

视频和文本表示。

视频表示。就像最近在MVQA上的其他方法一样，输入视频被表示为一组检测到的目标标签。具体地说，以3fps的速度对视频进行采样形成一个帧集合，然后使用在Visual Genome上预训练好的Faster R-CNN用于检测由目标标签及其属性（例如灰色裤子、蓝色毛衣、棕色头发等）组成的视觉概念。作者将输入的视频分成一组视频镜头（截图）来去除冗余。当一个场景变化不快时，附近帧中的视觉概念可能是多余的。作者将视频镜头定义为视觉概念的IoU大于0.3的连续帧的集合。将输入视频按时间顺序划分为视频镜头，以去除重复的概念。与视频相反，由于字幕对话中没有多少冗余，因此作者没有为字幕定义镜头。

受VideoQA的启发，作者还在作者的框架中加入了运动线索。据作者所知，虽然现有的MVQA方法都没有利用运动线索（作者是第一个使用），但作者观察到运动线索可能有助于理解视频片段以回答问题。对于上面生成的每一个视频镜头，使用在Kinetics上预训练好的I3D来生成top-5动作标签，作者将其称为动作概念。视觉和动作概念被拼接以表示相应的视频镜头。由于视觉和动作概念是在文本领域中的，它们以字幕的方式被嵌入。

文本表示：作者从BERT-Base模型的倒数第二层提取了视频中的镜头、字幕中的句子和QA对的768维单词级文本表示。提取的表征在训练过程中被固定。将问题和每一个候选答案拼接起来形成五个假设，对于每个假设，MSAN学习预测它的正确得分，并且最大化正确答案的得分。
时刻候选网络(MPN)。MPN定位所需的感兴趣时刻(MoI)来回答问题。为时间对齐的视频和字幕生成MoI候选。对于每个MoI候选，MPN产生两个时刻得分，每个模态一个。模态重要性调制(MIM)调整每个模态的模态得分，使其加权于重要模态上，用于时刻定位。利用排序损失，MPN被训练去最大化正MOI的得分。

1）MoI候选生成。作者使用预定义的滑动窗口为时间对齐的视频和字幕生成N个感兴趣时刻(MoI)候选。每个MoI候选包含一组视频镜头和字幕句子，字幕句子是被flatten。作者为每个模态定义了不同长度的滑动窗口，使得MoI候选沿着时间轴均匀分布，并且覆盖整个视频。如果和所提供的GT（ground-truth）时刻的IoU≥0.5，那么将MoI候选标记为正，而其他MoI候选则被标记为负。作者通过一层双向LSTM网络将BERT嵌入v、s、h传递给网络，得到最终的特征V、S、H。

2）MoI候选时刻分数。在N个MoI候选中，MPN定位相关的MoI用于回答问题。MPN首先为每个MoI候选生成视频/字幕时刻得分。首先利用C2Q的注意力对每个上下文（即视频、字幕）和假设进行联合建模，得到V^H和S^H。有关C2Q注意的详细信息。然后，作者将级联的特征[V;V^H]和[S;S^H]馈入到单层双向LSTM中，然后沿时间轴进行最大池化。最终的视频和字幕特征f^v、f^s∈ R^d通过共享分数回归器（FC(d)-ReLU-FC(1)-σ）传递，并分别输出视频和字幕的视频/字幕时刻分数m^v、m^s。

3）模态重要性调制。为了在速度时刻定位中赋予重要模态更多的权重，通过模态重要度调制(MIM)来调整时刻得分。重要模态的时刻分数被提高，而对应模态的时刻分数被抑制。通过将平均池化的问题传递到具有sigmoid激活的MLP（FC(d)-ReLU-FC(1)）中，以约束系数α的范围，得到用于调制的系数α。MIM的公式如下：

其中F_M为调制函数。作者考虑三种调制函数：1、加法 2、乘法 3、加法乘法混合。

在推理过程中，MPN选择时刻得分最大的MoI候选进行答案预测。

提出了跨模态排序损失方法来训练MPN，该方法鼓励正的MoI候选的时刻得分在一定程度上大于负的MoI候选的时刻得分。而不是对每个模态应用排序损失，作者候选将来自两个模态的时刻得分聚合起来，并应用排序损失。作者把这个叫做跨模态排序损失L_cmr表示如下：

其中p+，p-分别表示正的和负的候选时刻的得分，L^R(x, y)=max(0, x-y+b)是具有边际b的排序损失。在训练过程中，作者抽取了相同数量的正样本和的样本，以进行稳定的学习。

4）MPN与其他方法的关系。MPN的主要原理与广泛应用于目标检测的区域候选网络(RPN)相似。RPN沿空间维度定义了一组anchors，而MPN沿时间维度定义了一组MoI候选。在这两种情况下，训练末端分类器，它将检测到的特征作为输入，并输出一个目标类或正确答案的索引。然而，MPN是一种有条件的方法，其行为的改变是以输入问题为条件的。由于MPN定位于特定的时间区域，因此可以看作是一种硬注意力机制。与前人研究中的软时间注意力机制相比，作者认为MPN具有更直观、更公平的度量和更低的噪声。
异构推理网络(HRN)。HRN利用MPN对MoI的优化，通过学习推断出正确答案。HRN采用参数有效的异构注意力机制(HAM)来考虑异构模态之间和模态内的相互作用。HAM通过在所有三个异构模态特征空间中表示视频或字幕中的每个元素来转换视频和字幕特征，从而实现丰富的特征交互。模态重要性调制(MIM)再次调制HRN的输出以在用于答案预测的重要模态上加权。

1）引入异构注意机制(HAM)，通过将一个模态的特征线性组合在一个模态中代表另一个模态的特征，来考虑模态间和模态内的交互作用。HAM由三个attention单元的组成：self-attention（SA）和context-to-query（C2Q）attention，它们都是以点乘注意力为基础的。对于两组输入特征X∈ R^m×d和Y∈ R^n×d，点乘注意力首先计算X和Y中每个元素的点积，得到相似度矩阵。然后对相似度矩阵的每一行应用softmax函数，得到大小为m×n的attention矩阵。通过将attention矩阵与Y做乘法获得的关注特征X^Y如下：

作者可以将点乘注意力解释为通过一个关于跨模态相似性的Y中元素的线性组合表示x_i，以描述在Y的特征空间中X的每个元素x_i。

self-attention（SA）单元是特征与自身的点乘注意力，用来定义模态内关系。SA单元被表示为A(X, X)，其中X是输入特征。C2Q和C2C注意力单元考虑了模态间的关系，分别定义为：A(C, Q)和A(C, C)。在定义异构注意力机制时，三个注意力单元以模块化的方式组合在一起，如图3所示。在HRN中，HAM以局部化后的视频V、字幕S、假设H为输入，输出两个变换后的上下文特征^~V，^~S。首先，每个特征由SA单元更新。然后，通过C2Q单元将上下文变换到假设空间中，如下所示：

最后，作者将三个单元的输出沿特征维度拼接起来，构造出丰富的上下文描述符，如下所述：

因此，^~V被表示为其自身在视频特征空间、假设特征空间和字幕特征空间中的拼接，而^~S是字幕在三个特征空间：字幕、假设和视频中作为其自身的拼接的表示。

HAM与其他方法的关系。最近对VQA的研究表明，同时学习视觉和上下文模态的self-attention和co-attention可导致更准确的预测。受前人关于self-attention和co-attention的研究启发，HAM将三个注意力单元结合起来，通过视频、字幕和假设之间丰富的特征交互来实现时间多模态推理。另外，虽然前人的co-attention更多的是强调重要的特征，但HAM的注意力单元执行从一个空间到另一个空间的特征转换。虽然多头注意力是广泛采用于VQA，但MVQA的参数数量大得吓人，视频和字幕中的目标和单词多达几百个。

2）模态重要性调制与答案推理。通过异构注意力学习，输出视频特征^~V∈R^nv×3d和字幕特征^~S∈R^ns×3d包含关于各种模态的丰富信息。视频^~V和字幕^~S的异构表示被馈送到沿时间轴的一层双向LSTM和最大池化中以形成最终的特征向量。作者利用两层MLP（FC(d)-ReLU-FC(5)）来获得每个视频和字幕的预测分数l^v，l^s∈R⁵。同样，通过模态重要性调制(MIM)来调整预测分数l^v和l^s：

其中l表示最终预测得分。作者使用标准交叉熵(CE)作为损失函数，在最终预测分数l的基础上训练5-way分类器。

实验

数据集

TVQA数据集是最大的MVQA基准数据集。TVQA数据集包含6个长时间电视节目的短视频片段的人类标注多选问答对：《生活大爆炸》、《我如何遇见你的母亲》、《老友记》、《实习医生格蕾》、《房子》、《城堡》。电视问答中的问题格式如下：“[what/how/where/why/…] __ [when/before/after] __？“。问题的第二部分定位视频片段中的相关时刻，第一部分提出关于定位时刻的问题。每个问题包含5个答案候选人，其中只有一个是正确的。TVQA共有152.5K个QA对和21793个视频片段，其中训练集当中有122,039个问题-答案对，17,435个视频片段；验证集当中有15,252个问题-答案对和2179个视频片段；测试集当中有7623个问题-答案对和1089视频片段。

实验细节

整个框架是用Pytorch编写的，设置batch size为16。使用Adam优化，初始学习率设置为0.0003。所有的实验都使用NVIDIA TITAN Xp（12GB内存）GPU使用cuda加速。训练网络使用10个epoch，在验证集正确率在2个epoch没有提高的情况下使用early stopping。在所有的实验中，都使用严格的train/validation/test。

实验结果

表3总结了在TVQA数据集上的实验结果。比较了目前最先进的Two-Stream、PAMN和MTL方法以及上报到在线评估服务器（即ZGF和STAGE）的性能。TVQA测试集的GT答案是无效的，测试集评估只能通过在线评估服务器进行。MSAN实现了71.13%的测试准确率，超出了以前最好的方法4.08%的测试准确率，建立了新的最先进水平。

为了与以往的特征表示方法进行比较，作者还给出了利用ImageNet特征和GloVe文本表示的MSAN的结果。所提供的结果一致地表明，作者的MSAN的性能超过了现有的技术方法，达到了68.18%的性能。目前的MVQA方法都没有利用运动线索，作者从视频片段中提取动作概念表示，并给出了运动线索表示的结果。与采用vcpt的MSAN(70.92%)相比，加入运动线索的MSAN性能提高了0.21%。

消融研究

1）时刻候选网络(MPN)的消融研究。对于时刻候选网络(MPN)的定量消融研究。给定两个时刻(s₁, e₁)，(s₂, e₂)，IoU定义如下：

MPN的要旨是对不相关的时间区域进行修剪。因此，优选局部化的MoI与GT重叠。为了反映这种偏好，提出了覆盖度指标，表示为：

表1总结了MPN的定量消融研究。在没有模态重要性度调制的情况下，由于跨模态排序损失，MPN仍能在一定程度上对MoI候选进行排序。三种调制功能增强MPN的质量约占IOU的6.0%。即使是最好的候选时刻，也未必能与GT完美地重合。因此，在推理过程中，作者通过扩展推断期间时刻的时间边界，引入了一些安全边际。这降低了IoU，但增加了覆盖范围，这有助于包括GT时刻。MPN的质量约占IOU的6.0%。即使是最好的候选时刻，也未必能与GT完美地重合。因此，在推理过程中，作者通过扩展推断期间时刻的时间边界，引入了一些安全边际。这降低了IoU，但增加了覆盖范围，这有助于包括GT时刻。

2）模型变体的消融研究。表2总结了在TVQA验证集上对MSAN模型变体的消融分析，以确定所候选的关键部件的有效性。表2的第一块提供了MPN对整体性能的消融结果。在没有MPN（即使用完整视频和字幕）的情况下，准确率为69.89%。在给定GT MoI的情况下，精度为71.62%。采用MPN的方法，总精度为70.79%，比采用MPN的MSAN提高0.90%。表2的第二块显示了HRN的消融结果。没有SA，性能下降了0.58%。没有C2C注意力，性能下降了0.32%。

表2的第三块提供了MIM上的消融结果。没有MPN上的MIM（即MPN的时刻得分未被调制），性能下降了0.23%。没有HRN的MIM（即来自HRN的视频/字幕对数被求和而不是加权），性能下降了0.44%。因此，MIM提高了整体性能。MIM还有助于解释模型的推论，它建议什么模态对检索时刻更重要。

定性分析

1）Performance by question type。作者进一步研究了MSAN的性能，通过比较问题类型的正确率。图4显示了TVQA验证集上按问题类型进行的性能比较。作者基于5W1H（即Who, What, Where, When, Why, How）来划分题型。为了与现有方法进行比较，作者首先尝试在Two-Stream、PAMN、MTL上再现结果，并分别获得以下验证性能；66.39%、66.38%，66.22%。在大多数问题类型上，MSAN表现出明显优于其他方法的性能。特别是在“when”问题上，MSAN达到了89%。

2）Analysis by question type and required modality。按问题类型和每个问题所需的模态描述了MSAN的分析。为此，作者对TVQA验证集中的5000个样本进行了标记，根据哪一个模态需要进行时刻定位，哪一个模态需要进行答案预测。这样，就有了（S, S），（S, V），（V, S），（V, V）四种类型的标签。从图5中观察到的一个问题是，对于需要字幕进行答案预测的问题，即（S, V）和（S, S）组合的准确率较高，为86%，而基于视频的准确率，即（V, V）和（V, S）组合的准确率较低，为60%。这一结果表明作者的模型，当答案在字幕，它表现良好；当答案在视频剪辑，它可以做得更好。

3）推理机制可视化。图6用来自TVQA验证集的选定样本可视化了MSAN的推断机制。每个实例都提供了MIM权值、局部MoI、GT时刻和最终的答案选择。每个示例都需要不同的模态组合（例如，在第一个示例中：视频定位和字幕回答，在第三个示例中：字幕定位和视频回答，……)才能正确定位和回答。作者使用橙色和黄色将视频和字幕模态可视化，并将其表现在局部化的时刻和关键句子或视频镜头上。在第一个例子中，该模型利用视频模态定位时刻(α>0.5)，然后利用字幕模态预测答案(β<0.5)。因此，MSAN成功地利用两组调制权重来调制时刻定位器和答案预测器的输出。最后一个示例显示了一个失败案例。MSAN成功地实现了关键时刻的定位（α< 0.5）。然而，由于视觉概念和动作概念特征在捕捉视频中的文本线索方面存在不足，该模型未能预测出正确答案（即60）。

小结

研究了一种用于多模态视频问答(MVQA)任务的模态转移注意网络(MSAN)。MSAN将任务分解为两个子任务：（1）与问题相关的时刻的定位，以及（2）基于定位的时刻对答案进行精确预测。时间定位所需的模态可能不同于答案预测所需的模态，这种转换模态的能力是执行任务所必需的。为此，MSAN基于（1）时刻候选网络(MPN)和（2）异构推理网络(HRN)，该网络试图从每个模态中定位最合适的时间时刻，该网络利用对两个模态的attention机制预测答案。MSAN通过一个称为模态重要性调制(MIM)的组件，能够对每个子任务的两个模态赋予重要的权重。实验结果表明，MSAN在TVQA基准数据集上的测试准确率达到71.13%，优于现有技术。