NeurIPS2021 VALUE：快来刷榜吧！微软提出视频多模态新基准，同时含检索、caption、QA等多个任务！...

关注公众号，发现CV技术之美

文中提出 NeurIPS 2021 论文『VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation』微软提出新的视频多模态 benchmark：《VALUE》，同时包含检索、caption、QA等多个任务！快来刷榜吧！

详细信息如下：

论文链接：https://arxiv.org/abs/2106.04632
项目链接：https://github.com/VALUE-Leaderboard/StarterCode

导言：

大多数现有的视频和语言（VidL）研究集中于单个数据集，或单个任务的多个数据集。实际上，一个真正有用的VidL系统应该可以很容易地推广到不同的任务、领域和数据集。为了便于对此类系统进行评估，作者引入了视频和语言理解评估（VALUE ）基准，这是一个由11个VidL数据集组成的集合，涉及3个任务：

（一）文本到视频检索（text-to-video retrieval）；（二）视频问答（video question answering）；和（三）视频字幕（video captioning）。VALUE基准涵盖了广泛的视频类型、视频长度、数据量和任务难度。VALUE并不是只关注具有视觉信息的单通道视频，而是拓展了利用视频帧及其相关字幕信息的模型，以及跨多个任务共享知识的模型。

作者评估了各种baseline方法，并系统地研究了视频输入通道、融合方法和不同视频表示的影响。作者还研究了任务之间的可迁移性，并在不同的环境下进行多任务学习。本文的最佳模型与人类结果之间的巨大差距，因此需要对SOTA VidL模型进行进一步研究。

Motivation

联合视频和语言（VidL）理解是计算机视觉和自然语言处理（NLP）的纽带，目前已经对其进行了深度的研究。目前这类任务包括基于文本的视频检索、视频moment检索、视频问答和视频字幕等。然而，该领域的现有工作通常是在不同的实验环境下对不同的数据集进行评估，使得方法之间难以进行公平比较。

同时，大多数工作都是在有限的任务集上进行评估的，因此很难作为一个通用的VidL系统来衡量。在NLP社区中，GLUE和SuperGLUE已经发展成为突出的评估框架，继续推动着自然语言理解的前沿，因为它们广泛覆盖NLP任务，具有不同的训练数据量、任务类型和统一的任务制定。

受其启发，为了更好地衡量VidL研究的进展，作者提出了视频和语言理解评估（VALUE）基准，这是一个在线平台，包含11个VidL数据集，用于模型评估和比较，主要有以下几点贡献：

多样性 ：为了评估VidL系统的多功能性和通用性，本文的基准测试包括多种任务，包括视频检索、问答（QA）和captioning。VALUE还涵盖了广泛的视频类型、视频长度和数据量。
多通道视频输入 ：视频是多通道的，通常包含帧、音频和文本信息。然而，现有的大多数工作只关注视频帧的使用。在本文的基准测试中，作者以字幕语句的形式提供视频帧及其伴随的对话作为视频输入。需要多通道信息进行推理的任务是更可取的。例如，在TVQA中，回答问题的线索通常是在视觉和对话内容中。
任务难度 ：本文的基准具有挑战性的。作者发现，即使是最好的VidL模型，其性能也大大低于人类水平，这表明有很大的改进空间。
易于评估 ：对于每个数据集，作者从一组标准度量中选择一个代表性度量进行评估。作者将数据集分为3个类别，并根据相关任务的meta平均得分进行排名。对于VALUE leaderboard，作者提供了一个通用的目标指标（即所有任务的meta平均分数）来表示。此外，作者还发布了预提取视频帧特征，提供原始代码，并保留私有测试数据，以便在服务器上进行可靠评估。

为了对VALUE基准进行深入分析，作者评估了有和没有预训练的一些baseline，并系统地评估了视频输入通道、融合方法和不同视频表示的效果。此外，作者还研究了任务之间的可迁移性以及在不同设置下多任务训练的效果。视频和语言理解具有挑战性，因为它涉及广泛的领域，如视觉和语言语义理解、时空grounding、多模态融合和知识推理等，作者希望VALUE能够激发多模态领域的进一步发展。

方法

VALUE旨在对3个常见视频和语言（VidL）任务的多通道视频理解提供评估：

基于文本的视频检索
视频问答（QA）
视频字幕

为了构建一个综合评估基准，作者收集了多个数据集：TVR,How2R , TVQA, How2QA, VIOLIN , VLEP , TVC 。由于这些数据集大多集中于理解电视/电影领域的长视频，作者进一步选择了另外两个流行的数据集，YouCook2和VATEX，它们构建在较短的单通道YouTube视频上，以涵盖不同的视频类型和长度。VALUE总共汇集了11个不同的VidL数据集。

上表展示了这些视频数据集的统计信息。

上表展示了VALUE所选的任务和数据集。

上表展示了VALUE benchmark的图示。

2.1 Text-based Video Retrieval Tasks

在VALUE中，有两种基于文本的视频检索任务：（1）视频语料库Moment检索（VCMR ）：TVR和How2R数据集；和（2）视频检索（VR ）：YouCook2检索（YC2R）和VATEX检索（VATEX-EN-R）数据集。VR需要一个模型从文本查询描述的视频语料库中检索最相关的视频片段。VCMR更具挑战性，要求模型不仅从视频语料库中检索最相关的视频片段，而且在检索到的视频片段中定位相关时刻。

TVR

TVR包括了来自6个不同类型电视节目的21.8K个视频的109K个查询，其中每个查询都与紧密的时间对齐相关联。在所有查询中，74.2%仅与视频相关，9.1%仅与文本相关，16.6%同时与视频和文本相关。数据集分为80%训练、10%验证、5%公共测试和5%私有测试。将测试公共集与测试私有集结合起来进行排行榜评估。

How2R

How2R是按照TVR的相同方式收集的，但是是基于HowTo100M中9K个视频的60秒片段，平均每个片段有2-3次查询。由于短而重复的文本查询，原始How2R数据是有噪声的。对于VALUE基准，作者删除了少于6个单词和重复的查询。然后，2K个视频片段和相关查询将用于验证和测试，其余部分用于训练。

YouCook2 Retrieval (YC2R)

YouCook2检索（YC2R）由89种类型的2K个YouTube烹饪视频组成。视频分为67%/23%/10%，分别用于训练/验证/测试。其中，每个片段都用一个文本描述进行标注。

VATEX Retrieval (VATEX-EN-R)

VATEX最初是为多语言视频字幕和视频引导的机器翻译任务而开发的。它包含了41.3K个的600种细粒度人类活动视频和825K的中英文字幕。为了确保其与其他任务的一致性，作者采用了视频和英文字幕来评估检索性能。视频分为26K/3K/6K/6K，用于训练/验证/公共测试/私有测试。

为了评估模型的性能，作者采用了平均召回率(R@K)将所有查询作为度量。对于VR（即YC2R和VATEX-E-R），如果预测的视频与Ground Truth视频相匹配，则认为预测是正确的。对于VCMR（即TVR和How2R），还要求正确预测的预测跨度与Ground Truth Moment有很高的重叠。

作者使用联合的时间 Intersection over Union（tIoU）来测量预测结果和Ground Truth之间的重叠。作者使用AveR（R{1,5,10}的平均值）作为最终指标来评估模型在检索任务上的性能。

2.2 Video Question Answering Tasks

TVQA

TVQA是在电视视频的多项选择设置下收集的。每个视频剪辑包含7个问题，每个问题有5个答案，还为每个问题提供了相关时刻的起点/终点。TVQA由3个子任务组成：（i）相关片段的QA；（ii）以问题为导向的片段定位；以及（iii）完整视频片段的QA。在本文中，作者只考虑整个视频片段的QA，因为这是三个子任务中最具挑战性的设置。作者将测试公共集与测试私有集结合起来进行排行榜评估。

How2QA

How2QA的收集方式与TVQA类似，但是是从HowTo100M视频中采集的视频片段。每个视频片段都附有平均1-2个问题的标注，每个问题有4个答案。类似地， How2QA中的问题在时间上是标注的，但是作者只考虑完整视频片段上的QA。由于How2QA中使用的视频片段与How2R中的视频剪辑有很大重叠，作者将视频片段及其相关的QA对重新拆分为80%训练、10%验证和10%测试，以避免潜在的数据泄漏。

VIOLIN

VIOLIN是一种新的视频和语言推理任务。给定一个带有对齐字幕和假设句的视频片段，任务是预测视频是否包含假设或与假设相矛盾。其原始版本包括95.3K个视频假设对和15.9K个视频片段中的Ground Truth标注，分为80%的训练、10%的验证和10%的测试。作者进一步收集来自同一视频域的1.5K个视频片段的4K个假设的私有测试集用于排行榜评估。

VLEP

VLEP是一个基于视频和语言常识的未来事件预测数据集。给定一个有对齐字幕的视频，任务是选择在该视频之后两个未来事件中哪一个更有可能发生。VLEP包含来自10.2K个电视节目和YouTube生活方式Vlog视频片段的28.7K个未来事件预测样本，这些视频片段分为70%的训练、15%的验证和15%的测试。

2.3 Video Captioning Tasks

TVC

TVC是从TVR扩展而来的多通道视频caption数据集，包含262K个描述和108K个视频片段。与传统的video captioning任务不同，描述是在视频moment而不是整个视频上收集的，并且视频字幕用作附加的模型输入。对于给定的视频和视频时刻的开始/结束点，模型必须生成视频moment的描述。作者将公共测试集与私有测试集结合起来进行排行榜评估。

YouCook2 Captioning (YC2C)

YouCook2 Captioning（YC2C）建立在与YouCook2 Retrieval任务相同的烹饪视频上。每个视频片段都带有一个字幕句子。根据是否单独考虑每个片段还是将所有文本片段组合成一个段落，每个视频的评估可以分为片段级别和段落级别。

VATEX Captioning (VATEX-EN-C)

VATEX Captioning （VATEX-EN-C）与VATEX Retrieval类似，作者将VATEX中的视频和英文字幕作为另一项任务来评估多通道视频上的Video Captioning。每个视频都有10个英文字幕标注，其中5个是普通英文字幕和还有5个是中文翻译的英文字幕。专用测试集用于排行榜评估。

实验

3.1. Impact of Input Channels and Video-Subtitle Fusion Methods

Is video or subtitle channel alone sufficient to achieve good performance?

上表展示了字幕、视频和视频字幕联合输入的实验结果。可以看出和视频字幕联合输入的实验结果能够达到最好的结果。

How to effectively fuse video and subtitle embeddings?

上表展示了视频和字幕数据不同结合方式的实验结果，可以看出，对于不同的任务，最佳的结合方式其实是不一样的。

3.2. Task Transferability Evaluation

作者在一个数据集上训练模型，并在同一类型的另一个数据集上测试它。可以看出，当数据集发生变化时，性能显著下降，可以看出，不同数据集之间域的差别还是挺大的。

3.3. Multi-Task Learning Evaluation

在任务特定训练模型的转移评估中观察到的低性能，导致了一个自然的问题：一个模型能否解决所有任务？上表展示了在HERO结构多任务的baseline结果。

总结

在本文中，作者提出了VALUE，一个评估视频和语言（VidL）理解系统的综合基准。VALUE包括11个VidL数据集，涵盖广泛的视频类型、视频长度、任务难度和数据量，设置了3个任务。

通过大量实验，作者得出结论，设计通用VidL模型仍然具有挑战性。对于未来的工作，作者计划添加更多数据集，并支持对提交的模型进行定量和定性分析，以提供更多关于推动VALUE最新技术的见解。

▊ 作者简介

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END

欢迎加入「视觉语言」交流群