用CLIP增强视频语言的理解，在VALUE榜单上SOTA！

关注公众号，发现CV技术之美

▊ 写在前面

在本文中，作者总结了针对视频和语言理解评估（VALUE）挑战的方法。作者提出了一种CLIP增强方法 ，将图像文本预训练知识融入到下游视频文本任务中。结合其他几项改进的设计，本文的方法在VALUE基准上的Meta Ave得分相比于之前的SOTA水平提高了2.4%。

▊ 1. 论文和代码地址

A CLIP-Enhanced Method for Video-Language Understanding

论文地址：https://arxiv.org/abs/2110.07137

代码地址：未开源

▊ 2. Motivation

视频语言理解越来越受到研究界的关注。最近，NeurIPS2021上提出了视频和语言理解评估（VALUE）基准，这是一个由3类任务（VideoQA, Retrieval, Captioning）和11个数据集组成的统一基准。不同的视频领域和任务类型使其成为一个非常具有挑战性的基准。

受大规模图像-文本预训练（如CLIP）快速发展的启发，作者认为从图像-文本对中学习的知识将有助于视频文本任务。一些开创性的作品利用了预训练CLIP模型，并展示了在文本视频检索任务上的SOTA性能。然而，这些现有的工作是专门为检索任务设计的，因此不能适应其他类型的任务。

作者将预训练好的图像文本知识（即CLIP模型）纳入任务无关框架（即HERO模型），并在各种下游任务（如Retrieval, Captioning）上取得显著的性能改进。结合一些trick，本文提出了一种VALUE基准的混合策略，比baseline高出2.4%的Meta Ave分数。

总的来说，本文的策略在两个方面不同于HERO Baseline：

1）修改了模型架构，以纳入CLIP模型的知识 ，如上图所示；

2）对于不同的下游任务，作者使用不同的微调设置 。

▊ 3. 方法

本文的方法建立在HERO模型的基础上，HERO模型是基于VALUE基准的baseline模型。在本节中，作者首先简要介绍HERO方法，然后介绍本文改进的设计。

3.1. Baseline Method

如上图所示，HERO由三个核心组件组成：

1）用于文本输入的嵌入层 ；

2）一种用于视频字幕多模态融合和查询表示的跨模态Transformer ；

3）用于从收集的视频特征学习上下文视频表示的时间Transformer 。

在HERO中需要处理四个预训练任务（如下所示），MFM（Masked Frame Modeling ）和MLM（Masked Language Modeling ）与BERT相似，将单词token和帧token用mask token替换之后，在预训练的过程中根据上下文来重建这些被mask的token的信息。

此外，在训练的时候只mask一个模态，降低训练的难度。VSM（Video-Subtitle Matching ）旨在学习局部对齐（在视觉帧和字幕句子之间）和全局对齐（在视频片段和字幕句子序列之间）。FOM（Frame Order Modeling ）是通过学习随机重排序帧的原始顺序来建模视频的顺序特征的。

3.2. Improved Designs

除了VATEX-EN-R和VATEX-EN-C之外，作者在所有任务中都遵循HERO的结构。对于VATEX任务，作者通过将默认的Roberta文本嵌入层替换为CLIP的文本编码器，构建了CLIP增强的模型，如上图所示。

作者在调整不同任务时使用略有不同的设置：

1）对于QA任务，作者采用全任务训练（AT）设置；对于其他任务，作者采用单任务训练（ST）设置。

2）对于yc2r、yc2c、how2r任务，作者使用resnet+slowfast特征，而对于其他任务，作者使用clipvit+slowfast特征。这些视觉特征主要由VALUE挑战提供。

3）对于yc2r、yc2c、tvc任务，作者使用训练集和验证集数据进行网络调整。

4）作者使用除CLIP增强设置（即VATEX-EN-R和VATEX-EN-C任务）之外的所有任务的HERO预训练权重初始化模型。

在预训练或网络微调期间，作者没有使用额外的数据或特征，也没有使用模型集成技术。

▊ 4.实验

4.1. Results on Test (leaderboard) Set

应用上面所述的所有改进设计，与baseline相比，本文的混合策略实现了显著改进，如上表所示。

4.2. Analysis of our CLIP-Enhanced Strategy

为了评估本文的CLIP增强策略的效果，作者在VATEX-EN-R和VATEX-EN-C验证集上，将本文的方法与SOTA的方法进行比较，结果如上表所示。

除了VATEX-EN-R任务的AT→ST baseline外，本文的CLIP增强方法实现了最佳性能。然而，在检查训练细节后，作者发现，最初的改进确实来自所有任务训练（AT）期间的数据泄漏，即VATEX-EN-R任务的验证样本意外包含在VATEX-EN-C任务的训练集中。

剔除不公平的高分后（标有*），本文的CLIP增强方法取得了最佳性能，明显优于基线（VATEXN-R为2%，VATEX-EN-C为3%）。

然而，作者观察到，本文的CLIP增强方法对于其他类型的数据集（例如how2、tv）是失败的。主要原因似乎是how2或tv数据集与CLIP模型预训练的图像-文本对大不相同。

▊ 5. 总结

今年年初提出的CLIP模型通过简单的结构、大规模的图文预训练，实现了非常好的将图片和文本映射到相同语义空间的能力。目前，也有不少的工作尝试将CLIP学习到图文知识迁移到视频-文本中。

在本文中，作者也尝试了将CLIP的知识迁移到VALUE这个视频-文本的多任务基准上，因此，作者基于HERO模型，将CLIP的预训练的结构和参数加入到HERO模型中，达到了显著的性能提升。

本文中，相对来说，作者的改进还是非常简单的，只是将文本编码器做了一下替换。相信在接下来的一段时间里，CLIP作者泛化能力超强的视觉语言模型，将会进推动多模态领域的一步发展。

▊ 作者简介

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END

欢迎加入「视觉语言」交流群