ICCV2021 | 如何高效视频定位？QMUL北大Adobe强强联手提出弱监督CRM，性能SOTA

关注公众号，发现CV技术之美

▊ 写在前面

视频活动定位（Video activity localisation）因其在自动定位未修剪和非结构化视频中，根据语言描述定位最显著视觉片段方面的实际价值，获得了越来越多的关注。对于监督模训练，必须对一个句子对应视频段的开始和结束时间进行时间标注。这种标注不仅代价非常大，而且对模糊性和主观注释偏差也很敏感。

在这项工作中，作者开发了一个更精确的弱监督解决方案，在视频片段proposal的生成和匹配中，引入跨句子关系挖掘(Cross-Sentence Relations Mining，CRM)。具体来说，作者探索了两个跨句关系约束：也就是在视频活动的段落描述中，句子之间的时间排序和语义一致性 。

现有的弱监督方法在训练中只考虑句子内视频段的相关性，而没有考虑跨句子段的上下文。这可能会导致一些错误，因为个别句子的表达模糊，在视频中可能有多个proposal与之对应。作者在两个视频定位的数据集上，在弱监督方法上达到了SOTA的性能。

▊ 0. 背景知识

0.1 什么是多实例学习（Multi-Instance Learning，MIL）？

0.1.1 定义

MIL的数据集的数据的单位是bag，以二分类为例，一个bag中包含多个instance，如果所有的instance都被标记为negative，那么这个包就是negative，反之这个包为positive。设Y为包X的label，

，每个实例

对应一个标签

，则包的标签可以表示为：

0.1.2 Example

Example 1：

设想有若干个人，每个人手上有一个钥匙串(bag)，串有若干个钥匙(instance)。已知某个钥匙串能否打开特定的一扇门(training set)。我们的任务是要学习到哪一串钥匙串能打开这扇门，以及哪个钥匙能打开这扇门。

Example 2：

如一段视频由很多张图组成，假如10000张，那么我们要判断视频里是否包含某一物体，比如气球。单张标注每一帧是否有气球太耗时，通常人们看一遍说这个视频里是否有气球，就得到了多示例学习的数据。

10000帧的数据不是每一个都有气球出现，只要有一帧有气球，那么我们就认为这个数据包是有气球的。只有当所有的视频帧都没有气球，才是没有气球的。从这里面学习哪一段视频（10000张）是否有气球出现就是多实例学习的问题。

Example 3：

针对分类问题中需要大量数据的原因，人们提出了Date Augmentation的方法。但是，并不是所有的方法对分类数据集都行之有效，例如random crop。如上图所示，crop之后，存在一些将target domain 去掉的例子，导致标签不准确。

存在一些noisy training pairs，此时就可以利用MIL的方法，将图像的random crop的图像作为多个示例组成一个包。crop的图像没有label，但是所有的示例组成的包共享之前的label。这里的多实例学习就是学习到包里的哪些图片包含哪些label。

参考：

https://zhuanlan.zhihu.com/p/299819082
https://zhuanlan.zhihu.com/p/40812750

▊ 1. 论文和代码地址

Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation

论文地址：https://arxiv.org/abs/2107.11443

代码地址：尚未开源

▊ 2. Motivation

通过自然语言进行的视频活动定位是一项重要但具有挑战性的任务，它的目标是定位最符合查询文本的一个视频片段。大多数现有的方法都以监督学习的方式来处理这个任务，大致流程为：视频数据由一个段落描述进行标注，其中每个句子描述一个视频moment-of-interest (MoI)，以及每个MoI的精确开始和结束时间。

给定这种细粒度的标注，模型可以从原始视频中生成MoIs，以学习MoIs与其描述的最佳对齐，如上图所示。为了避免高标注成本和主观标注偏差（主观标注偏差指的是不同人对于视频中一个活动开始和结束时间的标注是不同的 ），最近的方法也开始了探索在训练中没有句子的时间边界标注的弱监督学习方法。

现有的弱监督解决方案首先分别定位不同的MoIs（如上图所示），但这不是最优的方案，因为它忽略了段落中的跨句子关系在时间定位中发挥了重要作用。

一个句子有时在段落上下文中是含糊的，比如上图的例子，如果不考虑与第二句的时间关系，第一个查询句子（紫色）很容易与不正确的视频片段不匹配，这在视觉上与ground-truth片段是难以区分的。

作者对最新模型在ActivityNet数据集上进行分析，发现最新模型的预测结果中，有超过65%的时间关系与它们描述的顺序是相矛盾的。因此，在本文中，作者根据段落内句子的前后关系去对视频的MoI进行时间连续性进行分析 。

此外，段落描述的MoI通常在相应的句子中是语义相关的，如上图所示，如果蓝色的查询句子与以前的句子的语义关系被忽略，那么“The man”就会出现歧义，不能清楚的表达是哪一个人。作者还观察到，在 ActivityNet-Captions数据集中，超过38%的描述包含了模糊的表达方式。因此使用单个句子进行定位，忽略句子间的语义关系，就会导致定义不准确的问题。

在这项工作中，作者提出了一种弱监督的视频活动定位的方法，称为跨句子关系挖掘(Cross-sentence Relations Mining，CRM)。其关键思想是探索段落中的跨句子关系作为约束条件，以更好地解释和匹配视频中复杂的视频片段时间和语义关系。给定一对一的视频片段-句子映射，在视频中建模跨片段的关系是不直接的，但可以在段落描述中进行跨句子的建模。

因此，作者将跨句子的关系施加在这些句子匹配的视频片段上，以获得更可靠的proposal。以前的弱监督方法中，缺乏了利用跨句子关系建模的能力。尽管这些关系信息不如每个句子细粒度的时间标注那么完整，但跨句子关系建模不需要注释，也避免了人工标注的主观偏差。

具体来说，通过假设视频中的不同活动被按顺序描述，作者采用了一个时间一致性 约束，以鼓励所选择的视频片段根据其在段落中的描述进行时间排序。除了时序信息之外，作者希望视频片段proposal在选择时，能够满足上下文中跨句子语义关系，以最小化视频-文本匹配的歧义。

基于这个目的，作者提出了语义一致性（semantic consistency） 的约束，以确保为段落中任何两个句子选择的视频片段与每个句子所选片段的合并是一致。

▊ 3. 方法

设数据集中有N个未修剪的视频

，每个视频有

个固定长度的clip

。对于每一个视频

，都会有一段对应的段落描述，每一段描述中有

个句子

，这些句子与视频

的MoI一一对应。

给定一个视频查询对

，

，通过使用滑动窗口方法提取proposal，也就是将未修剪的视频

分割为

个候选片段

，模型的目标是从所有proposal中选择与

语义上最对齐的

。

为了表述简单，下面就只讨论一个视频

和一个段落

的关系（即不考虑下标i）。虽然视频查询关系在训练中可用，但无法访问每一个句子的时间边界。因此，这是一个弱监督的问题，其中视频proposal

与文本查询

交互，以发现视频片段和文本句子之间最合理的匹配。

为了解决这个问题，作者提出了Cross-sentence Relations Mining（CRM），结构如上图所示。首先在视频级别以MIL的方式学习视觉文本对齐，通过将视频查询对输入一个模态匹配网络(MMN)，用来预测查询和每个视频proposal的匹配分数，并通过max-pooling后的 binary cross-entropy进行监督学习 。

然后，作者探索段落中两个描述的顺序，优化它们的联合匹配分数来捕获时间一致性 。此外，作者通过在段落中，通过concat的方式合成句子对来合成一个更长的查询，并鼓励其更长的句子定位结果在语义上与为每个句子单独选择的联合定位结果相一致 。这是为了尽量减少句子中的歧义，从而提高模型在更复杂的背景下对多个视频片段的解释。

3.1. Video-Sentence Alignment

作者首先进行两种模态的对齐：即由

个clip组成的未修剪视频V和由

个单词组成的查询句子

的对齐。为了探索V和

的关系并进行视觉-文本的交互，这两个模态的特征首先用FC映射到D维的特征。

然后，视频V和查询Qj都将被输入一个模态匹配网络(MMN)，该网络将通过滑动窗口生成一组候选proposal

、

，并通过输入查询

预测和所有proposal的匹配分数

(如上图所示)。其中MMN就是由一些Transformer中的Attention模块组成，来探索模态内和模态间的关系。

Attention Unit

作为MMN的构建块，Attention Unit在学习目标序列与参考序列中每个元素的相关性方面起着重要的作用。给定目标序列

和参考序列

，Attention Unit的计算方式如下：

Attention的结果作为目标序列的更新表示。

为了研究视觉-文本匹配关系，不仅要探索模态内上下文，还要探索跨模态交互作用。因此，MMN是由自注意块和交叉注意块构建的。视频V和查询

首先分别输入两个独立的自注意块，其中目标和参考输入来自相同的模态：

通过这样做，通过考虑视频或句子的上下文，可以突出显示输入视频和查询中显著的clip和单词。然后通过滑动窗口机制，在视频中提取出

个proposal，每个proposal都是由视频中的一些连续的clip组成，然后视频特征V就由这些proposal来表示

。然后，再进行文本模态和视频模模态的交叉Attention：

它通过模态间的交互，从而抑制冗余的文本和不相关的视觉信息。

Matching Score

给定视觉特征V和文本表示

，proposal-query的匹配分数

是根据这两个模态的输入信息进行预测的。句子表示首先通过聚合所有的单词来计算：

然后将聚合后的本文特征与proposal的特征进行融合，获得联合表示：

然后，将联合表示

，

输入到一个线性分类器：

得到的概率作为proposal与query之间的匹配分数，缩写为

，

。

Multi-Instance Learning

多实例学习在本文的开头做了一些简单的介绍，在本文中同样用到了多实例学习。在没有时间边界的情况下，ground-truth的视频片段是不可知的。因此，作者优化了视频级别的匹配分数，以促进视觉-文本对齐。

为此，通过max-pool所有proposal的分数

←max({

，

，得到视频

和查询

之间的匹配分数。

对于每个正样本对

，作者用Mini-Batch中随机采样的视频

或句子

替换

或

，构建两个负样本对，并以与

相同的方式计算它们的匹配分数。并用BCE损失函数才作为视频查询对齐的监督信号：

其中，系数2用于正项，考虑了正负对的平衡。对样做的原理是，视频中的每个MoI只能和一样query匹配，如果某个MoI已经和一个查询匹配了，那其他的查询对这个MoI来说就是不匹配的。

通过最小化

和

，V中具有不同语义的不正确proposal的预测也将隐式地最小化，以便学习到的匹配分数可以揭示固有的视觉-文本关系。这也就是多实例学习（MIL）的原理，将proposal视为包中的实例，并使用包级别的标注信息进行学习。

3.2. Cross-Sentence Relations Mining

上一节中的

将查询与所有候选视频中匹配分数最大的proposal进行对齐。然而，预测的分数可能是不可靠的，因为视频中存在视觉上不加区分的视频片段proposal（即画面相近的视频片段 ），而单个句子中存在文本歧义（即描述不够细节的句子 ），这将导致训练中的视觉-文本不一致。因此，作者又继续探索了跨句子关系，选择更可靠的proposal。

Temporal Consistency

由于视频帧是按时间顺序展示的，因此不同MoI的时间关系本质上应该按照段落中描述的顺序进行编码。基于这样的假设，就可以识别出那些虽然与相应查询产生高预测匹配分数，但时间关系不一致的proposal，这些预测结果可能是不正确的。

给定视频V描述段中的任意查询句子对

、

，它们各自对应的片段

、

应该满足相似的时间结构：如果

在段落中的

前面，则

应该出现在视频中的

之前，反之亦然。

如果

在

之前记为

、

，反之记为

、

，对于查询文本也是一样，那么正确的时间关系就应该满足下面的式子：

假设不同查询与任何proposal的匹配分数是独立的，

和

与

和

匹配的联合概率为：

如上图所示，在本文中，作者以查询的顺序作为proposal对的时间关系的参考。给定

和

，然后将联合概率集分为两个子集：对于所有的proposal对

、

，如果

，则联合概率

，反之属于

。根据时间约束，MIL损失函数为：

通过使用

进行训练，只有在时间一致的情况下，模型才能将proposal与查询对齐。在没有时间标注的情况下，这就避免了视觉文本不对齐的问题。

Semantic Consistency

为了减少每句话中的模糊表达的负面影响，并探索段落的上下文，通过在上下文中关联其他表达来考虑超越单个句子的语义是有益的。在本文中，作者提出将相同视频中MoI进行concat，

，

，然后训练模型来定位连接的较长的查询。

给定

，

分数最高的proposal

和

，优化

和视频片段

的匹配分数可以促进

和

的一致性（如上图所示）。和时间一致性相似，这一部分的预测分数

，

也可以分成两部分：

对于视频V中的所有proposal

，如果

，

τ

，那么

，

，反之则为

，语义一致性损失函数如下：

通过在模型训练中引入由成对句子合成的更长的查询，可以增强了模型解释和匹配更复杂的描述到视频片段的能力，这在实践中至关重要，因为未修剪的原始视频通常是非结构化的。

3.3. Model Training

在每次训练迭代中，作者随机抽取了n个视频，每个视频的段落描述中有一对查询，总体损失计算为：

在训练过程中，只需要基于上述损失函数，采用传统的随机梯度下降算法进行端到端模型训练，总体算法如下：

▊ 4.实验

4.1. Comparisons to the State-Of-The-Art

上表比较了CRM的性能与SOTA的视频活动定位模型，包括完全监督和弱监督的方法。

4.2. Components Analysis

Effects of Cross-sentence Relations

作者在三个损失函数的不同组合上做了消融实验，验证跨句子建模的影响。上图表明这两种约束单独都是有益的，当它们被联合采用时，好处变得更加明显。

Temporal Consistency

为了验证在时间顺序上的假设，作者比较了有

和没有

的正确预测。从上表可以看出，有时间预测的结果比没有时间预测的结果要好不少。

Semantic Consistency

为了验证语义一致性的影响，作者也做了消融实验，结果如上表所示，可以看出，语义预测对于最终结果的影响也是非常重要的。

Qualitative Examples

上图展示了CRM的一些定性结果。

Effects of Attention Units

此外，作者还探究了不同数量的Attention Unit对实验结果的影响，结果如上图所示。堆叠注意层并不能进一步有利于CRM，可能由于过拟合导致模型性能下降。

▊ 5. 总结

在这项工作中，作者提出了一种新的跨句子关系挖掘(CRM)方法，用于在没有句子时间标注的情况下学习视频活动定位。CRM在长视频的每一段描述中探索跨句子关系，以优化训练中视频片段proposal的选择，从而提高测试时每个句子的定位能力。

CRM通过在训练过程中根据时间顺序和视频段落描述中的扩展查询，尽可能减少了单个句子与视频片段proposal不匹配的问题。在两个活动定位基准数据集上进行的实验结果表明，CRM方法相对于各种SOTA的弱监督模型都有一定的性能优势。广泛的消融实验进一步提供了对CRM中单个模块有效性的深入分析。

作者介绍

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END,入群????备注：视频