Divide and Conquer:Question-Guided Spatio-Temporal Contextual Attention for Video Question Answering

动机

理解问题和寻找答案的线索是视频问答的关键。

VQA任务主要分为图像问答（Image QA）和视频问答（Video QA）两种，针对不同视觉材料的自然语言问题进行回答。通常，理解问题并在给定的视觉材料中找到问题答案的线索是VQA的关键。对于图像问答，在过去十年中，已经集中了大量的努力，专注于寻找融合视觉特征和语言特征的更好方法，帮助网络准确理解问题和视觉特征。注意力机制被用于告知神经网络“答案的线索在哪里”。
视频问答需要同时在空间和时间两个维度上准确地判断问题的线索，因此与图像问答相比具有更强的挑战性。

与图像问答相比，视频问答更具挑战性。在图像问答中，大部分的答案都可以从图像的空间特征中找到，而问题的提出主要是基于图像的外观特征。然而，在视频问答中，一个正确的答案不仅需要在空间维度上，而且需要在时间维度上准确定位线索。此外，视频素材中的场景变化更为复杂，从空间维度和时间维度对推理能力都提出了很高的要求。
在现有的大多数视频问答方法中，时空信息与问题之间的关系仍然没有得到很好的利用。

尽管视频问答方法得到了新的研究，但它仍然具有挑战性。问题推理和在视觉特征中定位答案线索是VQA的关键。对于答案线索的定位，视频在视觉层面上具有空间和时间两个维度，这与图像不同，导致线索在空间和时间两个维度上的关键点不一致。如下图1所示，给定“人开门后做什么”的问题，空间维度的关键点是“人”和“门”，时间维度的关键点是“开门后”。因此，在视频问答中，适当地利用空间和空间两个维度的信息，以便从视频中挖掘线索是非常重要的。现有的一组方法侧重于利用视频中的时间上下文信息，而没有充分利用空间维度的特征。另一些方法试图将时空注意力应用于视频，但有可能是由于缺乏空间和时间两个维度的问题的指导，这些方法与仅时间注意力相比表现更差。在这种情况下，如何有效地利用视频中的时空信息是视频质量保证的重要内容。

方法

简介

针对上述问题，本文提出了一种基于问题导向的时空上下文关注网络（QueST），该网络将视频和问题的信息分为空间部分和时间部分。然后，在每一部分中学习视频与问题之间的关系。

在QueST中，视频引导的问题注意(VGQA)首先将问题编码为两种不同的问题嵌入（空间问题嵌入和时间问题嵌入）。然后，在视频的空间和空间维度上依次引入问题引导的上下文匹配块（CABs），在相应问题特征的引导下，对视频的特定维度上的上下文感知视觉特征进行建模，挖掘与场景相关的视觉线索。

QueST

对QueST的输入包含两种模态：视频和自然语言的问题。在QueST中，1）原始输入首先被送入特征提取模块，以获得视频嵌入V和问题嵌入Q。接下来，如下图2所示，2）视频引导的问题注意力块(VGQA)被用于问题嵌入，以生成空间问题嵌入和时间问题嵌入。这两种新的嵌入都是基于初始问题嵌入中相应维度的信息。在此基础上，3）引入问题引导的上下文关注块(CAB)，从空间和时间两个维度获取与问题相关的视觉特征。然后，4）作者将空间和时间问题嵌入与CABs生成的视频特征相结合，得到视频和问题的联合表示。最后，5）由分类或回归分支在应答模块中生成答案。

特征提取

该方法将输入的原始视频和原始自然语言数据转换为特征嵌入。

视频。视觉QA中的最新方法采用CNN方法，例如Faster R-CNN、ResNet、C3D、Flow CNN作为视觉特征提取器。在QueST中，对于给定的视频，这些CNN方法产生的特征表示为V=[v₁，v₂，…，v_N]，其中N是视频中采样的帧数。v∈R^H×W×Cv为每帧的特征，其中H、W和C_v分别为v的特征映射的高度、宽度和通道维数。

问题。一个问题可以表示为一系列的词。作者用分割符分割问题以获得单词。然后，使用一个预训练好的GloVe将每个单词转换为300维特征向量。为了利用单词之间的关系，将单词嵌入输入LSTM，并将每个时间步的隐藏状态作为新词嵌入，收集得到问题嵌入Q=[q₁，q₂，…，q_T]，其中T为词数和q_i∈R^Cq是每个词的特征。

VGQA

通过考虑视频结构引入视频引导的问题注意力块(VGQA)来理解问题。首先融合视频特征和问题嵌入来产生单词注意力，以突出问题中与视频相关的信息。然后，引入自注意力机制和多样性损失来生成空间问题嵌入和时间问题嵌入。

视频特征与问题嵌入的融合。VGQA的输入是视频特征V和初始问题嵌入Q。VGQA的过程如下图3所示。作者首先对视频特征进行空间和时间维度的平均，以获得全局视频特征v^g。然后，将视频特征与初始问题嵌入进行融合，以获得一个用于注意力生成的联合特征。一个线性层是被用于投影C_v 通道视频特征v^g到C_inter^q通道向量，并且在Q中的各个词嵌入通过线性层也被投影到一个C_inter^q通道向量。接下来，点乘是被用于生成一个由全局视频特征和各个词嵌入组成的联合特征。第i个单词对应的联合特征是被计算如下：

问题上的词注意力(WA)。基于得到的联合嵌入J^q，采用一个卷积层为每个词生成一个权重分数s^qw。权重分数应用于每个单词嵌入中，通过单词在问题和视频之间关系中的重要性来重新赋权重。为了避免注意力操作过程中重要特征的丢失，作者在WA的输出中加入一个残差连接来获得嵌入Q^W的增强问题。

空间和时间问题嵌入。经过上述注意力块后，问题嵌入中与视频相关的部分在Q^W中得到了增强。然后利用自注意力机制在Q^w上生成两个不同的问题注意力masks，分别命名为Mask^s和Mask^t。设计了Mask^s和Mask^t来突出问题特征的不同部分，并分别用于生成空间问题嵌入和时间问题嵌入。例如，空间问题嵌入q^s通过以下方式生成：

为了避免空间问题嵌入和时间问题嵌入关注于问题特征的相同部分，在这里引入多样性损失。多样性损失最大化了Mask^s和Mask^t的余弦相似度距离，并帮助它们集中于问题特征的不同部分。

CAB

CAB的输入由三部分组成：视觉特征v^c、上下文特征c^c、相关问题嵌入q^c。首先，重做上下文特征，并将其与视觉特征v^c的每个位置的特征连接起来，得到上下文感知视觉特征。然后，将相应的问题嵌入（空间问题嵌入或时间问题嵌入）与上下文感知视觉特征融合以生成注意力。然后，利用注意力挖掘与回答相关的视觉特征v^a。该过程可以被计算如下：

其中i为视觉特征中位置的索引。

CAB的空间注意力(SCAB)。对于SCAB，作者使用从CNN中提取的视频特征V作为输入视觉特征。接下来，将V沿空间方向平均，得到每帧的全局特征作为输入上下文特征，并将空间问题嵌入作为输入问题嵌入。然后将SCAB应用于空间维度，在空间问题嵌入的指导下，在每一帧中选择问题相关的空间区域。

CAB的时间注意力(TCAB)。SCAB与TCAB有一定的区别。如上图5所示，作者将SCAB的输出特征输入到一个一维时间卷积层中，并使用卷积层的输出作为输入视觉特征。TCAB中的上下文特征采用LSTM模型进行建模。然后，以时间问题嵌入为输入问题特征，在时间问题嵌入的指导下，选择输入视觉特征中与问题相关的时间区域。

作者发现回答不同的问题需要不同时间段的时间视觉信息。因此，在CAB的基础上，作者设计了一个多尺度TCAB（MS-TCAB）并将其应用于作者的QueST模型中。MS-TCAB由K个平行的TCAB头组成，并将它们的所有输出拼接为MS-TCAB的输出。针对不同TCAB头部的一维时间卷积层采用不同的扩张率，可以清晰地对不同时间点的视觉信息进行建模，有助于更准确地识别答案线索。

联合表征

通过在问题上的注意力机制，作者得到了空间问题嵌入和时间问题嵌入。现在作者将它们通过拼接的方式组合起来，得到全局问题嵌入，表示为q^f。在初始视频特征V上的序列SCAB和MS-TCAB的输出视觉特征表示为v^f。然后将全局问题嵌入q^f和视频嵌入v^f进行融合，生成一个联合特征J^f用于问题回答。

回答模块

对于视频QA中的大多数任务来说，题型可以分为多选、开放式单词和开放式数字三种。

对于开放式单词任务，它们被表述为一个分类任务，在联合嵌入J^f上采用全连接层（FC）和softmax函数来生成每个答案的得分。然后，利用交叉熵损失对网络进行训练。

对于多选任务，问题附有一些候选答案。首先将每个候选答案建模为与问题嵌入Q初始化方式相同的答案，并生成候选答案嵌入，即与QueST的输出联合嵌入J^f维数相同的向量。然后，通过将联合嵌入J^f和每个候选答案的嵌入做点乘运算，为每个候选答案生成新的联合嵌入。然后，使用一个共享权重的FC将新的联合嵌入投影到一个实数。最后采用一个softmax函数对候选答案的得分进行归一化，以预测每个答案的概率。这里采用交叉熵损失。

对于开放式数字任务，例如计数，它被表述为一个回归任务。使用一个FC预测一个用于回答的实数，并使用均方误差损失来训练网络。

在训练阶段，将上述损失与多样性损失按照一个系数λ结合起来，以训练作者的任务模型。在实验中，λ设定为0.25。

实验

在TGIF-QA数据集、MSRVTT-QA数据集和MSVD-QA数据集这3个数据集上进行了实验分析。

TGIF-QA

TGIF-QA是一个用于视频QA的大规模数据集，由从71,741个GIF中收集的165,165个问答对组成。在TGIF-QA中，有4种类型的任务：重复动作、状态转换、帧QA和重复计数。重复动作和状态转换是多选任务。问题附有五个选项。帧QA与图像QA类似，是一个开放式的单词任务。重复计数要求模型计数某个动作的重复次数。

实验设置。在实验中，作者使用中提供的标准训练/测试拆分，每个任务的细节如上表1所示。在TGIF-QA中给定一个gif，作者均匀采样10帧来表示视频。然后选择ResNet-152中res4c层的输出(R^{14×14×1,024})作为每帧的视觉特征，它比ResNet中较深的层包含更多的外观信息。给定一个问题，一个预训练好的300维GloVe嵌入被用来将每个单词转换成词嵌入。然后，用Adam优化器为每个任务训练作者的任务模型。通常情况下，作者将最小批量的大小设置为64，初始学习率设置为0.001。

与最先进方法的比较。作者提出的QueST方法已经与最近的最先进的方法进行了比较，结果如上表2所示。结果表明，在动作、过渡和帧QA任务上，QueST比当前最先进的方法（即HME)的准确率高2.0%、3.2%和4.0%。对于计数任务，作者的模型仅利用ResNet特征，也获得了与其他方法相比更好的性能。研究表明，在大多数任务上QueST仅使用RGB-ResNet特征作为视觉输入，仍然比其他一些多模态方法（ST-SP-TP（ST-S-T）、ST-TP、Co-Mem和HME）具有更好的性能。

视频引导的问题注意力消融研究。作者进一步考察了视频引导的问题注意力(VGQA)的有效性。在VGQA中，作者利用全局视觉特征，通过对单词维度的注意力来重新定义初始问题嵌入。在此基础上，引入多样性损失和自注意力，生成空间问题嵌入和时间问题嵌入。本文分别去掉VGQA中的单词注意力(WA)和多样性损失，以考察这两个模块的有效性。并且作者还设计了一个名为ST-VQA的模型设置，其中VGQA只生成一个问题嵌入。实验结果如上表3所示。作者可以观察到，从完整的模型中去除单词注意力会导致性能退化。其原因在于单词注意力引入了视觉信息来对问题共同建模，并突出了与视频相关的信息。从结果可以看出，在大多数任务上，没有多样性损失的QueST的性能低于完整模型，并且与采用单一问题嵌入的QueST（即ST-VQA的模型设置）相似，这表明多样性损失有助于将问题信息一分为二，有利于分别从空间和时间两个方面对问题进行建模。与ST-S-T比较。在表2中，同样对视频应用了时空注意力，但获得了比纯时间注意力模型更差的性能，作者的VGQA可以构造更好的时空注意力，获得了更好的性能。

视频上下文注意力消融研究。本文对问题引导的上下文注意力(CAB)进行了消融实验，包括SCAB和TCAB。实验结果列于上表4。

ST-VQA表示被用于QueST的中的注意力方法而不是作者提出的CAB。ST-CAB表示问题引导的上下文时空模态(SCAB+TCAB)，MS-ST-CAB表示用于QueST中的SCAB和多尺度TCAB（MS-TCAB）。

与ST-VQA相比，带有CABs的模型在所有任务上都获得了更好的性能。MS-ST-CAB使动作、过渡和帧QA任务的准确率分别提高了2.0%、2.4%和3.1%，并降低了MSE损失。研究结果表明，上下文信息在视频问答任务中具有重要意义，但在现有的时空注意力方法中还没有得到充分的利用。与ST-CAB相比，MS-ST-CAB用CABs对不同时段的时间信息进行了显式建模，对动作、过渡和帧QA任务的准确率分别提高了1.8%、1.9%和0.7%。

可视化。作者在图6中可视化了CAB的注意力权重，以演示作者的任务的有效性。作者可以注意到，空间和时间的注意都可以被精确地检测到，从而导致更好的视频问答性能。在给出的拍手例子中，尽管计算拍手次数即使对人类来说也有一定的差异，但该模型可以确定女性最常做的动作是拍手。

MSRVTT-QA和MSVD-QA的实验研究

为了进一步评估所提模型的有效性，作者还在其他视频QA数据集上测试了作者的探索：MSRVTT-QA和MSVD-QA。

MSRVTT-QA和MSVD-QA中的任务都是开放式单词任务，问题可以按照问题的第一个单词分为5种类型，包括what、who、how、when和where。作者在上表5和表6中列出了MSRVTT-QA和MSVD-QA中每个任务的训练/验证/测试splitting的细节。作者将提出的QueST与最近的方法进行了比较，即ST-VQA、Co-Mem、GRA、HME。

对于MSRVTT-QA，实验结果和与现有方法的比较列于上表7。在这些结果中，作者的QueST在测试集上以1.6%的总体精确度增益优于最先进的方法，即HME。在what, who, how三个题型上，作者的探究分别获得了1.4%、2.0%和0.6%的增益。在其他题型中，作者的QueST也获得了比较好的表现。在整个数据集和规模相对较大的问题类型（如what, who, how）上的表现可以证明作者的QueST方法是有效的。对于MSVD-QA，从上表8所示的结果来看，QueST比最先进的方法（即HME）的总体准确率高2.4%，并且在三种问题类型(what、who和when）上获得了最好的准确率。

贡献

1）作者提出了视频引导的问题注意块(VGQA)，它引入视觉信息从空间和时间两个维度对问题信息进行协同建模。

2）作者引入上下文注意块(CAB)，它挖掘上下文感知视觉特征中与答案相关的关键信息。在CAB的基础上，设计了空间 CAB（SCAB）和多尺度时间CAB（MS-TCAB），分别利用视觉特征和相关信息之间的交互作用和在空间和时间两个维度上对应的嵌入问题，更好地学习视频问答。

3）在VGQA和CAB的基础上，作者提出了问题引导的时空上下文注意网络（QueST）。作者在TGIF-QA数据集、MSRVTT-QA数据集和MSVD-QA数据集三个视频QA数据集上进行了实验。实验结果证明了本文提出的方法在视频问答任务中的优越性能。

小结

提出了一种适用于视频问答的问题导向的时空上下文注意力网络(QueST)，包括两个模块：视频导向的问题的注意力块(VGQA)和问题引导的上下文注意力块（CABs）。通过应用VGQA和CABs，QueST将问题信息分为空间部分和时间部分，在对应维度的问题信息指导下，有助于更好地解释了视觉特征。在三个基准视频问答数据集上的实验结果表明，与现有的视频问答方法相比，QueST能够在视频问答方面实现显著的性能改进。