关注公众号,发现CV技术之美

文中提出 NeurIPS 2021 论文『VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation』微软提出新的视频多模态 benchmark:《VALUE》,同时包含检索、caption、QA等多个任务!快来刷榜吧!

详细信息如下:

  • 论文链接:https://arxiv.org/abs/2106.04632

  • 项目链接:https://github.com/VALUE-Leaderboard/StarterCode

导言:

大多数现有的视频和语言(VidL)研究集中于单个数据集,或单个任务的多个数据集。实际上,一个真正有用的VidL系统应该可以很容易地推广到不同的任务、领域和数据集。为了便于对此类系统进行评估,作者引入了视频和语言理解评估(VALUE )基准,这是一个由11个VidL数据集组成的集合,涉及3个任务:

(一)文本到视频检索(text-to-video retrieval);(二)视频问答(video question answering);和(三)视频字幕(video captioning)。VALUE基准涵盖了广泛的视频类型、视频长度、数据量和任务难度。VALUE并不是只关注具有视觉信息的单通道视频,而是拓展了利用视频帧及其相关字幕信息的模型,以及跨多个任务共享知识的模型。

作者评估了各种baseline方法,并系统地研究了视频输入通道、融合方法和不同视频表示的影响。作者还研究了任务之间的可迁移性,并在不同的环境下进行多任务学习。本文的最佳模型与人类结果之间的巨大差距,因此需要对SOTA VidL模型进行进一步研究。

      01      

Motivation

联合视频和语言(VidL)理解是计算机视觉和自然语言处理(NLP)的纽带,目前已经对其进行了深度的研究。目前这类任务包括基于文本的视频检索、视频moment检索、视频问答和视频字幕等。然而,该领域的现有工作通常是在不同的实验环境下对不同的数据集进行评估,使得方法之间难以进行公平比较。

同时,大多数工作都是在有限的任务集上进行评估的,因此很难作为一个通用的VidL系统来衡量。在NLP社区中,GLUE和SuperGLUE已经发展成为突出的评估框架,继续推动着自然语言理解的前沿,因为它们广泛覆盖NLP任务,具有不同的训练数据量、任务类型和统一的任务制定。

受其启发,为了更好地衡量VidL研究的进展,作者提出了视频和语言理解评估(VALUE)基准,这是一个在线平台,包含11个VidL数据集,用于模型评估和比较,主要有以下几点贡献:

  1. 多样性 :为了评估VidL系统的多功能性和通用性,本文的基准测试包括多种任务,包括视频检索、问答(QA)和captioning。VALUE还涵盖了广泛的视频类型、视频长度和数据量。

  2. 多通道视频输入 :视频是多通道的,通常包含帧、音频和文本信息。然而,现有的大多数工作只关注视频帧的使用。在本文的基准测试中,作者以字幕语句的形式提供视频帧及其伴随的对话作为视频输入。需要多通道信息进行推理的任务是更可取的。例如,在TVQA中,回答问题的线索通常是在视觉和对话内容中。

  3. 任务难度 :本文的基准具有挑战性的。作者发现,即使是最好的VidL模型,其性能也大大低于人类水平,这表明有很大的改进空间。

  4. 易于评估 :对于每个数据集,作者从一组标准度量中选择一个代表性度量进行评估。作者将数据集分为3个类别,并根据相关任务的meta平均得分进行排名。对于VALUE leaderboard,作者提供了一个通用的目标指标(即所有任务的meta平均分数)来表示。此外,作者还发布了预提取视频帧特征,提供原始代码,并保留私有测试数据,以便在服务器上进行可靠评估。

为了对VALUE基准进行深入分析,作者评估了有和没有预训练的一些baseline,并系统地评估了视频输入通道、融合方法和不同视频表示的效果。此外,作者还研究了任务之间的可迁移性以及在不同设置下多任务训练的效果。视频和语言理解具有挑战性,因为它涉及广泛的领域,如视觉和语言语义理解、时空grounding、多模态融合和知识推理等,作者希望VALUE能够激发多模态领域的进一步发展。

      02      

方法

VALUE旨在对3个常见视频和语言(VidL)任务的多通道视频理解提供评估:

  • 基于文本的视频检索

  • 视频问答(QA)

  • 视频字幕

为了构建一个综合评估基准,作者收集了多个数据集:TVR,How2R , TVQA, How2QA, VIOLIN , VLEP , TVC 。由于这些数据集大多集中于理解电视/电影领域的长视频,作者进一步选择了另外两个流行的数据集,YouCook2和VATEX,它们构建在较短的单通道YouTube视频上,以涵盖不同的视频类型和长度。VALUE总共汇集了11个不同的VidL数据集。

上表展示了这些视频数据集的统计信息。

上表展示了VALUE所选的任务和数据集。

上表展示了VALUE benchmark的图示。

2.1 Text-based Video Retrieval Tasks

在VALUE中,有两种基于文本的视频检索任务:(1)视频语料库Moment检索(VCMR ):TVR和How2R数据集;和(2)视频检索(VR ):YouCook2检索(YC2R)和VATEX检索(VATEX-EN-R)数据集。VR需要一个模型从文本查询描述的视频语料库中检索最相关的视频片段。VCMR更具挑战性,要求模型不仅从视频语料库中检索最相关的视频片段,而且在检索到的视频片段中定位相关时刻。

TVR

TVR包括了来自6个不同类型电视节目的21.8K个视频的109K个查询,其中每个查询都与紧密的时间对齐相关联。在所有查询中,74.2%仅与视频相关,9.1%仅与文本相关,16.6%同时与视频和文本相关。数据集分为80%训练、10%验证、5%公共测试和5%私有测试。将测试公共集与测试私有集结合起来进行排行榜评估。

How2R

How2R是按照TVR的相同方式收集的,但是是基于HowTo100M中9K个视频的60秒片段,平均每个片段有2-3次查询。由于短而重复的文本查询,原始How2R数据是有噪声的。对于VALUE基准,作者删除了少于6个单词和重复的查询。然后,2K个视频片段和相关查询将用于验证和测试,其余部分用于训练。

YouCook2 Retrieval (YC2R)

YouCook2检索(YC2R)由89种类型的2K个YouTube烹饪视频组成。视频分为67%/23%/10%,分别用于训练/验证/测试。其中,每个片段都用一个文本描述进行标注。

VATEX Retrieval (VATEX-EN-R)

VATEX最初是为多语言视频字幕和视频引导的机器翻译任务而开发的。它包含了41.3K个的600种细粒度人类活动视频和825K的中英文字幕。为了确保其与其他任务的一致性,作者采用了视频和英文字幕来评估检索性能。视频分为26K/3K/6K/6K,用于训练/验证/公共测试/私有测试。

为了评估模型的性能,作者采用了平均召回率(R@K)将所有查询作为度量。对于VR(即YC2R和VATEX-E-R),如果预测的视频与Ground Truth视频相匹配,则认为预测是正确的。对于VCMR(即TVR和How2R),还要求正确预测的预测跨度与Ground Truth Moment有很高的重叠。

作者使用联合的时间 Intersection over Union(tIoU)来测量预测结果和Ground Truth之间的重叠。作者使用AveR(R{1,5,10}的平均值)作为最终指标来评估模型在检索任务上的性能。

2.2 Video Question Answering Tasks

TVQA

TVQA是在电视视频的多项选择设置下收集的。每个视频剪辑包含7个问题,每个问题有5个答案,还为每个问题提供了相关时刻的起点/终点。TVQA由3个子任务组成:(i)相关片段的QA;(ii)以问题为导向的片段定位;以及(iii)完整视频片段的QA。在本文中,作者只考虑整个视频片段的QA,因为这是三个子任务中最具挑战性的设置。作者将测试公共集与测试私有集结合起来进行排行榜评估。

How2QA

How2QA的收集方式与TVQA类似,但是是从HowTo100M视频中采集的视频片段。每个视频片段都附有平均1-2个问题的标注,每个问题有4个答案。类似地, How2QA中的问题在时间上是标注的,但是作者只考虑完整视频片段上的QA。由于How2QA中使用的视频片段与How2R中的视频剪辑有很大重叠,作者将视频片段及其相关的QA对重新拆分为80%训练、10%验证和10%测试,以避免潜在的数据泄漏。

VIOLIN

VIOLIN是一种新的视频和语言推理任务。给定一个带有对齐字幕和假设句的视频片段,任务是预测视频是否包含假设或与假设相矛盾。其原始版本包括95.3K个视频假设对和15.9K个视频片段中的Ground Truth标注,分为80%的训练、10%的验证和10%的测试。作者进一步收集来自同一视频域的1.5K个视频片段的4K个假设的私有测试集用于排行榜评估。

VLEP

VLEP是一个基于视频和语言常识的未来事件预测数据集。给定一个有对齐字幕的视频,任务是选择在该视频之后两个未来事件中哪一个更有可能发生。VLEP包含来自10.2K个电视节目和YouTube生活方式Vlog视频片段的28.7K个未来事件预测样本,这些视频片段分为70%的训练、15%的验证和15%的测试。

2.3 Video Captioning Tasks

TVC

TVC是从TVR扩展而来的多通道视频caption数据集,包含262K个描述和108K个视频片段。与传统的video captioning任务不同,描述是在视频moment而不是整个视频上收集的,并且视频字幕用作附加的模型输入。对于给定的视频和视频时刻的开始/结束点,模型必须生成视频moment的描述。作者将公共测试集与私有测试集结合起来进行排行榜评估。

YouCook2 Captioning (YC2C)

YouCook2 Captioning(YC2C)建立在与YouCook2 Retrieval任务相同的烹饪视频上。每个视频片段都带有一个字幕句子。根据是否单独考虑每个片段还是将所有文本片段组合成一个段落,每个视频的评估可以分为片段级别和段落级别。

VATEX Captioning (VATEX-EN-C)

VATEX Captioning (VATEX-EN-C)与VATEX Retrieval类似,作者将VATEX中的视频和英文字幕作为另一项任务来评估多通道视频上的Video Captioning。每个视频都有10个英文字幕标注,其中5个是普通英文字幕和还有5个是中文翻译的英文字幕。专用测试集用于排行榜评估。

      03      

实验

3.1. Impact of Input Channels and Video-Subtitle Fusion Methods

Is video or subtitle channel alone sufficient to achieve good performance?

上表展示了字幕、视频和视频字幕联合输入的实验结果。可以看出和视频字幕联合输入的实验结果能够达到最好的结果。

How to effectively fuse video and subtitle embeddings?

上表展示了视频和字幕数据不同结合方式的实验结果,可以看出,对于不同的任务,最佳的结合方式其实是不一样的。

3.2.  Task Transferability Evaluation

作者在一个数据集上训练模型,并在同一类型的另一个数据集上测试它。可以看出,当数据集发生变化时,性能显著下降,可以看出,不同数据集之间域的差别还是挺大的。

3.3. Multi-Task Learning Evaluation

在任务特定训练模型的转移评估中观察到的低性能,导致了一个自然的问题:一个模型能否解决所有任务?上表展示了在HERO结构多任务的baseline结果。

      04      

总结

在本文中,作者提出了VALUE,一个评估视频和语言(VidL)理解系统的综合基准。VALUE包括11个VidL数据集,涵盖广泛的视频类型、视频长度、任务难度和数据量,设置了3个任务。

通过大量实验,作者得出结论,设计通用VidL模型仍然具有挑战性。对于未来的工作,作者计划添加更多数据集,并支持对提交的模型进行定量和定性分析,以提供更多关于推动VALUE最新技术的见解。

▊ 作者简介

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END

欢迎加入「视觉语言交流群

NeurIPS2021 VALUE:快来刷榜吧!微软提出视频多模态新基准,同时含检索、caption、QA等多个任务!...相关推荐

  1. #今日论文推荐# 多边形战士模型,微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务

    #今日论文推荐# 多边形战士模型,微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务 语言.视觉和多模态预训练的大融合正在出现.在这项工作中,作者引入了一个通用的多模态基础模型 B ...

  2. #今日论文推荐# 多边形战士模型!微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务

    #今日论文推荐# 多边形战士模型!微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务 语言.视觉和多模态预训练的大融合正在出现.在这项工作中,作者引入了一个通用的多模态基础模型 B ...

  3. 微软发布代码智能新基准数据集CodeXGLUE,多角度衡量模型优劣

    来源 | 微软研究院AI头条 编者按:代码智能(code intelligence)目的是让计算机具备理解和生成代码的能力,并利用编程语言知识和上下文进行推理,支持代码检索.补全.翻译.纠错.问答等场 ...

  4. 视频预训练界的HERO!微软提出视频-语言全表示预训练模型HERO,代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 在本文中,作者提出了HERO,一个新的大规模视频+语言综合表示学习框架.HERO以层次结构编码多模态输入,其中视频帧的局部上下文 通过多模态融合被跨模态Tr ...

  5. 有排名的地方就有江湖:App刷榜江湖

    有排名的地方就有江湖. 刷榜疯狂生长, 有人视为"移动互联网里的地沟油", 有人却雄心勃勃要把这门生意做大. 在北京市海淀区北五环外一处创业园区的旧办公楼里,记者见到冉耀宇,30多 ...

  6. Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务,微软亚研原班人马打造...

    视学算法报道 编辑:杜伟.陈萍 微软亚洲研究院升级了 Swin Transformer,新版本具有 30 亿个参数,可以训练分辨率高达 1,536×1,536 的图像,并在四个具有代表性的基准上刷新纪 ...

  7. App应用刷榜乱象调查:刷榜公司谋划自律

    最近两年,许怀哲和刘雄都在经营着一个外界看起来颇为神秘的生意--App刷榜. 通过刷榜,他们能使一个原本无人问津的App应用,在两三个小时内,冲到苹果App Store排行榜的前列,从而让客户公司所开 ...

  8. AI科举制扼杀创新!你眼中的好模型只是「刷榜机器」

    关注公众号,发现CV技术之美 本文转自新智元. 编辑:LRS 好困 [导读]基准测试堪称人工智能领域的「科举制」,但这种应试教育唯分数论输赢,能训练出真正的好模型吗? 2010年,基于ImageNet ...

  9. 把大核卷积拆成三步,清华胡事民团队新视觉Backbone刷榜了,集CNN与ViT优点于一身...

    梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 在视觉任务上,CNN.ViT各有各的优势和劣势. 于是,以经典Backbone为基础.细节上相互借鉴,成了最近一个热门研究方向. 前有微软Swin ...

最新文章

  1. LSTM模型与前向反向传播算法
  2. 2017-2-19 C#基础 基本数据类型的转换,转义字符,常量
  3. android CMake开发
  4. web安全-XSS攻击(一)
  5. tracepro应用实例详解_离心铸造工艺(实例)
  6. 多媒体基础:动画和视频知识笔记
  7. 动图图解 | Go 的 timer 是如何被Runtime调度的?
  8. mariadb10.2 mysql5.7_说说在MySQL5.7迁到MariaDB10.2时栽的一部分坑
  9. Spring学习总结(32)—— 宣布 Spring Native Beta 版!
  10. linux下安装在线mysql,嵌入式 Linux下安装Mysql离线和在线安装
  11. 【extjs6学习笔记】1.9 初始: Mixins
  12. Ajax Post请求实例
  13. Gb28181之Ps流解析H264
  14. 最通俗易懂的适配器模式
  15. JAAS(Java 认证和授权服务)
  16. 使用信号量机制解决家庭吃水果问题。
  17. 利用Get-FileHash工具进行哈希验证
  18. SentiLR:Linguistic Knowledge Enhanced Language Representation for Sentiment Analysis 论文阅读笔记
  19. zMUD里的颜色触发
  20. i9 12900k参数 i9 12900k核显相当于什么水平

热门文章

  1. 卡尔曼滤波推导思路总结
  2. 数据竞赛入门-金融风控(贷款违约预测)二、EDA
  3. STM32 - CubeMX 的使用实例详细(04.1)- STM32F103的 - 定时器设定详细解释 - PWM波的产生 - 频率占空比的设定 - 软件代码分析
  4. 全国python一级考试_全国青少年软件编程(Python)等级考试试卷(一级) 1-1
  5. matlab 求控制系统积分误差ise,基于MATLAB的自适应飞行控制系统参数整定
  6. html5善于盒模型定位,2个小时上手html+css-003盒模型和定位
  7. 利用python绘制雪景图_python绘制雪景图
  8. python word模板 图_科学网—Python绘制可插入Word的高清矢量图(SVG转EMF) - 任晓东的博文...
  9. mysql 指定tcpip连接数_tcp ip连接数据库
  10. 西门子plm_西门子PLM副总裁:NX,智能的CAD平台