ACMMM 2021《LSG》性能SOTA！用GNN和GAN的方式来强化Video Captioning的学习！

关注公众号，发现CV技术之美

本文分享一篇 ACMMM 2021论文『Discriminative Latent Semantic Graph for Video Captioning』，性能SOTA！用GNN和GAN的方式来强化Video Captioning的学习！

详细信息如下：

论文链接：https://arxiv.org/abs/2108.03662
项目链接：https://github.com/baiyang4/D-LSG-Video-Caption（尚未开源）

导言：

视频字幕（Video captioning）旨在自动生成句子，来描述给定视频的视觉内容。现有的生成模型，如编码器-解码器框架，不能明确地从复杂的时空数据中探索对象级的交互和帧级的信息，以生成语义丰富的caption。本文的方法将视频字幕任务分解成了三个子任务：

1）Enhanced Object Proposal（增强对象建议）：作者提出了一种新的 Conditional Graph（条件图），可以将时空信息融合到潜在的目标proposal中。

2）Visual Knowledge（视觉知识）：作者提出了 Latent Proposal Aggregation（潜在建议聚合）模块来动态提取具有较高语义层次的视觉词。

3）Sentence Validation（句子验证）：作者提出了一种 Discriminative Language Validator（判别语言验证器）来验证生成的标题，从而有效地保留关键的语义概念。

作者在两个公共数据集(MVSD和MSR-VTT)上进行的实验表明，在所有指标上，本文提出的方法都比以前的SOTA方法有显著的提升。

Motivation

随着各种在线视频平台的视频资源量的与日俱增，近年来，视频字幕的研究受到了越来越多的关注。完整的视频字幕会对其他多模态任务产生实质性的影响，例如：基于内容的视频检索和推荐。尽管计算机视觉和自然语言处理在视频分析和语言理解方面取得了显著的进展，但视频字幕仍然是一项非常具有挑战性的任务。该任务不仅需要在帧级别上探索复杂的对象交互和关系，还需要从视频序列中探索故事线。这样的任务可以看作是从识别到理解水平的一个飞跃。

视频字幕的主要挑战之一是，视频帧和caption中的文字之间没有明确的对应关系 。视频字幕模型需要在更高的语义水平上提取总结出来的视觉单词。上图展示了视频字幕的数据流。从人类理解的角度来看，可以将整个过程解释为几个子任务：

检测和识别视频中的主要对象，即“woman”和“stroller”；
推断给这些对象之间的交互和动作，即“showing”和“operates”；
将内容组织成一个具有语法结构的句子，即“A woman is showing how stroller operates”。

早期的视频字幕研究通常采用编码器-解码器框架，将视频字幕作为机器翻译任务。为了克服基于embedding的框架的缺点，图神经网络(GNNs)被用于建模对象之间的关系。然而，以往的GNN方法主要建立在对象特征上，而没有考虑整个视频序列中基于帧的时空上下文。

另一个挑战是，输出标题需要保持与内容相关的语法结构，而不是生成一个离散概念的列表 。为了检验一个句子的表达是否自然，先前也有一些工作采用了基于GAN的方法。然而，视频字幕需要更精细的监督水平来区分基于语义内容的real/fake句子，并确保语法的正确性。

基于上面的挑战，作者将视频字幕框架分为了三个子任务，分别为：Enhanced Object Proposal（增强对象建议）, Visual Knowledge（视觉知识）, Sentence Validation（句子验证） 。

首先，在增强对象建议任务中，从视频帧中提取时空上下文，并将这些信息合并到视觉对象中。
第二，因为，视频中的帧和对象建议的数量远远多于生成句子中的单词。因此，视觉知识任务的目的是将这种重复和冗余的建议转换为更紧凑的视觉单词（visual word）。相比于增强对象建议任务中提出的建议，这一步产生是视觉单词更有益于生成句子。
最后，句子验证任务旨在检查生成的标题的真实性和可读性。

基于上面的Motivation，作者提出了Discriminative Latent Semantic Graph (D-LSG)框架：

基于多种特征融合的图模型（Graph model）。这些特征在数据分布、维度和结构上通常是异构的。2D CNN表示帧内容，3D CNN提取时间帧变化，region-level object proposals考虑了每一帧里面的视觉对象信息。
潜在语义（Latent Semantic）是指可以从增强的对象建议中提取的高级语义知识。通过动态图将大量的增强对象建议转换为少量的高级视觉知识。
鉴别模块（Discriminative module）用于生成语言的验证。

方法

视频字幕问题本质上是一个序列到序列的过程。给定视频

，

，我们的目标是建立一个端到端模型来生成标题

，

。

2.1 Architecture Design

模型结构如上图所示，LSG框架由三部分组成：1）Multiple Feature Extraction；2） Conditional Graph Operation；3） Latent Proposal Aggregation

Multiple Feature Extraction

给定输入的视频帧????，模型首先提取视觉上下文表示。作者采用2D CNNs和3D CNNs分别提取外观特征

和运动特征

。R-CNN提取对象建议(Object proposals)，从每帧捕获的区域特征为

，其中

，????表示每帧中区域特征的数量。因此，对象建议的总数表示为????=????×????。

Enhanced Object Proposal

在视频字幕中，最基本的任务之一是检测和识别实体。区域特征

中的对象建议分别通过其外观和运动特征来分别增强，得到增强外观特征

和增强的运动特征

Visual Knowledge

Latent Proposal Aggregation (LPA) 模块采用了一个动态图，可以将增强的外观和运动特征转换为????个动态视觉单词：

和

。(其中K<<T)

Language Decoder

然后使用由LPA提取的视觉知识来生成相应的caption。语言解码器由一个用于动态视觉单词加权的注意LSTM网络和一个用于标题生成的语言LSTM网络组成。在每个时间步中，注意LSTM以当前单词embedding和全局视觉向量作为输入，然后输出当前隐藏状态

。然后，

被看做是Attention操作的query，将对象和运动视觉token加权求和得到上下文特征

，

。然后语言LSTM输入当前上下文特征

，

和当前注意LSTM隐藏状态，输出当前预测单词概率分布

，其中

为单词表的长度。

2.2 Latent Semantic Graph

在生成视频字幕中，对象和复杂内容之间的依赖关系已经有了一些研究。然而，学习时空依赖性仍然是一个具有挑战性的问题。与传统的时空卷积和递归神经网络相比，图模型为建模依赖关系提供了一种新的解决方案。

在这项工作中，作者提出了LSG模型，它可以有效地将视频的对象级特征编码为具有更高语义级的视觉单词。为了逐步生成表示视觉特征的高级概念，LSG模型被分为两个组成部分：条件图操作（conditional graph operation）和潜在建议聚合（latent proposal aggregation），如上图所示。

Conditional Graph Operation

为了将对象级信息编码为潜在语义对象和运动视觉单词，作者首先通过图操作将对象级特征分别聚合为外观和运动特征。在Multiple Feature Extraction中，我们得到了对象级别区域特征，帧级别的动作和外观特征，然后作者构建了一个GNN来进行对象级别的交互（其中每个region都可以看做GNN中的一个node）。模型不只是依赖于局部区域特征，而是考虑了全图像，因此它同时考虑了帧级运动和外观特征以及对象级区域特征。

首先，将区域特征传递给帧????处的帧级特征：

代表第t帧的增强的外观特征，其中：

用于编码两个输入特征之间的关系。这一步的目的是将从不同模态的特征投影到一个共同的特征空间，并计算相似性来表示图中区域特征和帧级特征之间的连通性程度。可以表示为：

另外，region特征和动作特征也是用上面的方法计算，得到增强的动作特征

Latent Proposal Aggregation

为了进一步总结增强的对象建议，作者提出了一种潜在建议聚合方法，基于增强特征动态来生成视觉单词。首先，用一组额外的潜在节点增强原始增强的建议节点，然后以图结构的方式将增强的建议信息聚合到潜在节点。

具体来说，作者引入了一组对象视觉单词

，视觉单词代表了给定视频中潜在的候选对象。????表示视觉单词的数量，因此我们可以将增强的建议转换为为动态视觉单词，方式如下：

表示第k个对象视觉单词。LSG通过对象级交互和帧级别条件，在视频中提取高级表示，并将这些信息总结为动态视觉单词。然后这些视觉单词被送入到Decoder用于生成caption。

2.3 Discriminative Language Validation

其他视频字幕的判别模型主要集中于生成的描述的流畅性和视觉相关性，而本文的目标是从语义概念的角度生成有意义的字幕。因此，作者设计了一个判别模型作为一个语言验证过程，在LSG编码的相应真实视觉单词的条件下，通过重建基于输入句子的视觉单词，鼓励生成的标题包含信息更丰富的语义概念。

具体来说，除了基于输入视频特征编码的视觉知识

和

，作者还从生成的字幕中重建视觉知识，并以对抗性训练的方式将基于生成字幕重建的视觉单词与ground-truth的视觉单词进行区分，算法如下所示：

给定语言解码器的输出单词序列，判别模型旨在根据相应句子中关于语义概念，区分生成的caption和ground-truth。防止区分模型在不学习有用信息（直接用是否为one-hot形式来区分）的情况下容易区分真实样本和假样本，并稳定训练过程，作者采用了WGAN-GP的结构，因为WGAN-GP使用了 earth-mover distance来捕捉真实和假样本之间的差异。

实验

3.1 Quantitative Evaluation

Comparison with encoder-decoder models

可以看出，与encoder-decoder结构（ PickNet，MARN）相比，本文的D-LSG有明显的性能优势。

Comparision with object-based models

与object-based模型（OA-BTG， RMN）相比，本文的D-LSG有明显的性能优势。

Comparision with GNN-based models

与GNN-based模型（ORG-TRL， S-T Graph， C-R Reasoning）相比，本文的D-LSG还是有明显的性能优势。

3.2 Ablation Study

Effect of Graph

通过比较仅CGO和LSG的结果，可以观察到两个数据集的性能显著下降，这表明了总结帧级特征对潜在概念或视觉单词的重要性。

Effect of latent proposal number

上图展示proposal number在两个数据集上，对于模型性能的影响。

Effect of discriminative modeling based on Graph

比较LSG和D-LSG，可以观察到METEOR和ROUGE-L有比较少的改善，但是BLEU-4和CIDER有很大的改善。

3.3 Qualitative Evaluation

与ground truth相比，我们可以观察到生成的字幕包含重要的物体（如“man”、“guitar”、“stroller”)和运动(如“playing”、“showing”）信息，甚至还有一些很罕见信息（如“peeling”和“folding”）。

总结

本文提出了第一个引入图神经网络和判别建模来联合处理视频字幕任务的时空信息的工作。条件图操作有效地模拟了详细的对象级交互和关系。此外，考虑frame-level conditions还有利于对象级的交互式表示学习。Latent Proposal Aggregation组件也成功地将来自输入视频特征总结为了高级视觉知识。此外判别模型通过视觉知识重建和判别训练，丰富了生成caption的语义信息。

作者介绍

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END,入群????备注：视频字幕