关注公众号,发现CV技术之美

 写在前面

视频活动定位(Video activity localisation)因其在自动定位未修剪和非结构化视频中,根据语言描述定位最显著视觉片段方面的实际价值,获得了越来越多的关注。对于监督模训练,必须对一个句子对应视频段的开始和结束时间进行时间标注。这种标注不仅代价非常大,而且对模糊性和主观注释偏差也很敏感。

在这项工作中,作者开发了一个更精确的弱监督解决方案,在视频片段proposal的生成和匹配中,引入跨句子关系挖掘(Cross-Sentence Relations Mining,CRM)。具体来说,作者探索了两个跨句关系约束:也就是在视频活动的段落描述中,句子之间的时间排序语义一致性

现有的弱监督方法在训练中只考虑句子内视频段的相关性,而没有考虑跨句子段的上下文。这可能会导致一些错误,因为个别句子的表达模糊,在视频中可能有多个proposal与之对应。作者在两个视频定位的数据集上,在弱监督方法上达到了SOTA的性能。

 0. 背景知识

0.1 什么是多实例学习(Multi-Instance Learning,MIL)

0.1.1 定义

MIL的数据集的数据的单位是bag,以二分类为例,一个bag中包含多个instance,如果所有 的instance都被标记为negative,那么这个包就是negative,反之这个包为positive。设Y为包X的label,

























,每个实例







对应一个标签







,则包的标签可以表示为:

0.1.2 Example

Example 1:

设想有若干个人,每个人手上有一个钥匙串(bag),串有若干个钥匙(instance)。已知某个钥匙串能否打开特定的一扇门(training set)。我们的任务是要学习到哪一串钥匙串能打开这扇门,以及哪个钥匙能打开这扇门。

Example 2:

如一段视频由很多张图组成,假如10000张,那么我们要判断视频里是否包含某一物体,比如气球。单张标注每一帧是否有气球太耗时,通常人们看一遍说这个视频里是否有气球,就得到了多示例学习的数据。

10000帧的数据不是每一个都有气球出现,只要有一帧有气球,那么我们就认为这个数据包是有气球的。只有当所有的视频帧都没有气球,才是没有气球的。从这里面学习哪一段视频(10000张)是否有气球出现就是多实例学习的问题。

Example 3:

针对分类问题中需要大量数据的原因,人们提出了Date Augmentation的方法。但是,并不是所有的方法对分类数据集都行之有效,例如random crop。如上图所示,crop之后,存在一些将target domain 去掉的例子,导致标签不准确。

存在一些noisy training pairs,此时就可以利用MIL的方法,将图像的random crop的图像作为多个示例组成一个包。crop的图像没有label,但是所有的示例组成的包共享之前的label。这里的多实例学习就是学习到包里的哪些图片包含哪些label

参考:

https://zhuanlan.zhihu.com/p/299819082
https://zhuanlan.zhihu.com/p/40812750

 1. 论文和代码地址

Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation

论文地址:https://arxiv.org/abs/2107.11443

代码地址:尚未开源

 2. Motivation

通过自然语言进行的视频活动定位是一项重要但具有挑战性的任务,它的目标是定位最符合查询文本的一个视频片段。大多数现有的方法都以监督学习的方式来处理这个任务,大致流程为:视频数据由一个段落描述进行标注,其中每个句子描述一个视频moment-of-interest (MoI),以及每个MoI的精确开始和结束时间。

给定这种细粒度的标注,模型可以从原始视频中生成MoIs,以学习MoIs与其描述的最佳对齐,如上图所示。为了避免高标注成本和主观标注偏差(主观标注偏差指的是不同人对于视频中一个活动开始和结束时间的标注是不同的 ),最近的方法也开始了探索在训练中没有句子的时间边界标注的弱监督学习方法。

现有的弱监督解决方案首先分别定位不同的MoIs(如上图所示),但这不是最优的方案,因为它忽略了段落中的跨句子关系在时间定位中发挥了重要作用。

一个句子有时在段落上下文中是含糊的,比如上图的例子,如果不考虑与第二句的时间关系,第一个查询句子(紫色)很容易与不正确的视频片段不匹配,这在视觉上与ground-truth片段是难以区分的。

作者对最新模型在ActivityNet数据集上进行分析,发现最新模型的预测结果中,有超过65%的时间关系与它们描述的顺序是相矛盾的。因此,在本文中,作者根据段落内句子的前后关系去对视频的MoI进行时间连续性进行分析

此外,段落描述的MoI通常在相应的句子中是语义相关的,如上图所示,如果蓝色的查询句子与以前的句子的语义关系被忽略,那么“The man”就会出现歧义,不能清楚的表达是哪一个人。作者还观察到,在 ActivityNet-Captions数据集中,超过38%的描述包含了模糊的表达方式。因此使用单个句子进行定位,忽略句子间的语义关系,就会导致定义不准确的问题。

在这项工作中,作者提出了一种弱监督的视频活动定位的方法,称为跨句子关系挖掘(Cross-sentence Relations Mining,CRM)。其关键思想是探索段落中的跨句子关系作为约束条件,以更好地解释和匹配视频中复杂的视频片段时间和语义关系。给定一对一的视频片段-句子映射,在视频中建模跨片段的关系是不直接的,但可以在段落描述中进行跨句子的建模。

因此,作者将跨句子的关系施加在这些句子匹配的视频片段上,以获得更可靠的proposal。以前的弱监督方法中,缺乏了利用跨句子关系建模的能力。尽管这些关系信息不如每个句子细粒度的时间标注那么完整,但跨句子关系建模不需要注释,也避免了人工标注的主观偏差。

具体来说,通过假设视频中的不同活动被按顺序描述,作者采用了一个时间一致性 约束,以鼓励所选择的视频片段根据其在段落中的描述进行时间排序。除了时序信息之外,作者希望视频片段proposal在选择时,能够满足上下文中跨句子语义关系,以最小化视频-文本匹配的歧义。

基于这个目的,作者提出了语义一致性(semantic consistency) 的约束,以确保为段落中任何两个句子选择的视频片段与每个句子所选片段的合并是一致。

 3. 方法

设数据集中有N个未修剪的视频



















,每个视频有







个固定长度的clip




























。对于每一个视频







,都会有一段对应的段落描述,每一段描述中有







个句子




























,这些句子与视频







的MoI一一对应。

给定一个视频查询对








,








,通过使用滑动窗口方法提取proposal,也就是将未修剪的视频







分割为







个候选片段























,模型的目标是从所有proposal中选择与








语义上最对齐的








为了表述简单,下面就只讨论一个视频




和一个段落
























的关系(即不考虑下标i)。虽然视频查询关系在训练中可用,但无法访问每一个句子的时间边界。因此,这是一个弱监督的问题,其中视频proposal







与文本查询







交互,以发现视频片段和文本句子之间最合理的匹配。

为了解决这个问题,作者提出了Cross-sentence Relations Mining(CRM),结构如上图所示。首先在视频级别以MIL的方式学习视觉文本对齐,通过将视频查询对输入一个模态匹配网络(MMN),用来预测查询和每个视频proposal的匹配分数,并通过max-pooling后的 binary cross-entropy进行监督学习

然后,作者探索段落中两个描述的顺序,优化它们的联合匹配分数来捕获时间一致性 。此外,作者通过在段落中,通过concat的方式合成句子对来合成一个更长的查询,并鼓励其更长的句子定位结果在语义上与为每个句子单独选择的联合定位结果相一致 。这是为了尽量减少句子中的歧义,从而提高模型在更复杂的背景下对多个视频片段的解释。

3.1. Video-Sentence Alignment

作者首先进行两种模态的对齐:即由







个clip组成的未修剪视频V和由







个单词组成的查询句子







的对齐。为了探索V和







的关系并进行视觉-文本的交互,这两个模态的特征首先用FC映射到D维的特征。

然后,视频V和查询Qj都将被输入一个模态匹配网络(MMN),该网络将通过滑动窗口生成一组候选proposal
































,并通过输入查询







预测和所有proposal的匹配分数






























(如上图所示)。其中MMN就是由一些Transformer中的Attention模块组成,来探索模态内和模态间的关系。

Attention Unit

作为MMN的构建块,Attention Unit在学习目标序列与参考序列中每个元素的相关性方面起着重要的作用。给定目标序列



















和参考序列



















,Attention Unit的计算方式如下:

Attention的结果作为目标序列的更新表示。

为了研究视觉-文本匹配关系,不仅要探索模态内上下文,还要探索跨模态交互作用。因此,MMN是由自注意块和交叉注意块构建的。视频V和查询







首先分别输入两个独立的自注意块,其中目标和参考输入来自相同的模态:

通过这样做,通过考虑视频或句子的上下文,可以突出显示输入视频和查询中显著的clip和单词。然后通过滑动窗口机制,在视频中提取出







个proposal,每个proposal都是由视频中的一些连续的clip组成,然后视频特征V就由这些proposal来表示
























。然后,再进行文本模态和视频模模态的交叉Attention:

它通过模态间的交互,从而抑制冗余的文本和不相关的视觉信息。

Matching Score

给定视觉特征V和文本表示







,proposal-query的匹配分数















是根据这两个模态的输入信息进行预测的。句子表示首先通过聚合所有的单词来计算:

然后将聚合后的本文特征与proposal的特征进行融合,获得联合表示:

然后,将联合表示








,



















输入到一个线性分类器:

得到的概率作为proposal与query之间的匹配分数,缩写为







,





Multi-Instance Learning

多实例学习在本文的开头做了一些简单的介绍,在本文中同样用到了多实例学习。在没有时间边界的情况下,ground-truth的视频片段是不可知的。因此,作者优化了视频级别的匹配分数,以促进视觉-文本对齐。

为此,通过max-pool所有proposal的分数












←max({







,




















,得到视频




和查询







之间的匹配分数。

对于每个正样本对











,作者用Mini-Batch中随机采样的视频







或句子







替换












,构建两个负样本对,并以与












相同的方式计算它们的匹配分数。并用BCE损失函数才作为视频查询对齐的监督信号:

其中,系数2用于正项,考虑了正负对的平衡。对样做的原理是,视频中的每个MoI只能和一样query匹配,如果某个MoI已经和一个查询匹配了,那其他的查询对这个MoI来说就是不匹配的。

通过最小化

























,V中具有不同语义的不正确proposal的预测也将隐式地最小化,以便学习到的匹配分数可以揭示固有的视觉-文本关系。这也就是多实例学习(MIL)的原理,将proposal视为包中的实例,并使用包级别的标注信息进行学习。

3.2. Cross-Sentence Relations Mining

上一节中的











将查询与所有候选视频中匹配分数最大的proposal进行对齐。然而,预测的分数可能是不可靠的,因为视频中存在视觉上不加区分的视频片段proposal(即画面相近的视频片段 ),而单个句子中存在文本歧义(即描述不够细节的句子 ),这将导致训练中的视觉-文本不一致。因此,作者又继续探索了跨句子关系,选择更可靠的proposal。

Temporal Consistency

由于视频帧是按时间顺序展示的,因此不同MoI的时间关系本质上应该按照段落中描述的顺序进行编码。基于这样的假设,就可以识别出那些虽然与相应查询产生高预测匹配分数,但时间关系不一致的proposal,这些预测结果可能是不正确的。

给定视频V描述段中的任意查询句子对





















,它们各自对应的片段





















应该满足相似的时间结构:如果







在段落中的












前面,则







应该出现在视频中的












之前,反之亦然。

如果




















之前记为
























,反之记为
























,对于查询文本也是一样,那么正确的时间关系就应该满足下面的式子:

假设不同查询与任何proposal的匹配分数是独立的,









































匹配的联合概率为:

如上图所示,在本文中,作者以查询的顺序作为proposal对的时间关系的参考。给定




















,然后将联合概率集分为两个子集:对于所有的proposal对





















,如果,则联合概率,反之属于








。根据时间约束,MIL损失函数为:

通过使用











进行训练,只有在时间一致的情况下,模型才能将proposal与查询对齐。在没有时间标注的情况下,这就避免了视觉文本不对齐的问题。

Semantic Consistency

为了减少每句话中的模糊表达的负面影响,并探索段落的上下文,通过在上下文中关联其他表达来考虑超越单个句子的语义是有益的。在本文中,作者提出将相同视频中MoI进行concat,







,
























,然后训练模型来定位连接的较长的查询。

给定









,
















,












分数最高的proposal




















,优化














和视频片段







的匹配分数可以促进

























的一致性(如上图所示)。和时间一致性相似,这一部分的预测分数














,









也可以分成两部分:

对于视频V中的所有proposal







,如果











,



















τ



,那么














,















,反之则为








,语义一致性损失函数如下:

通过在模型训练中引入由成对句子合成的更长的查询,可以增强了模型解释和匹配更复杂的描述到视频片段的能力,这在实践中至关重要,因为未修剪的原始视频通常是非结构化的。

3.3. Model Training

在每次训练迭代中,作者随机抽取了n个视频,每个视频的段落描述中有一对查询,总体损失计算为:

在训练过程中,只需要基于上述损失函数,采用传统的随机梯度下降算法进行端到端模型训练,总体算法如下:

 4.实验

4.1. Comparisons to the State-Of-The-Art

上表比较了CRM的性能与SOTA的视频活动定位模型,包括完全监督和弱监督的方法。

4.2. Components Analysis

Effects of Cross-sentence Relations

作者在三个损失函数的不同组合上做了消融实验,验证跨句子建模的影响。上图表明这两种约束单独都是有益的,当它们被联合采用时,好处变得更加明显。

Temporal Consistency

为了验证在时间顺序上的假设,作者比较了有











和没有











的正确预测。从上表可以看出,有时间预测的结果比没有时间预测的结果要好不少。

Semantic Consistency

为了验证语义一致性的影响,作者也做了消融实验,结果如上表所示,可以看出,语义预测对于最终结果的影响也是非常重要的。

Qualitative Examples

上图展示了CRM的一些定性结果。

Effects of Attention Units

此外,作者还探究了不同数量的Attention Unit对实验结果的影响,结果如上图所示。堆叠注意层并不能进一步有利于CRM,可能由于过拟合导致模型性能下降。

 5. 总结

在这项工作中,作者提出了一种新的跨句子关系挖掘(CRM)方法,用于在没有句子时间标注的情况下学习视频活动定位。CRM在长视频的每一段描述中探索跨句子关系,以优化训练中视频片段proposal的选择,从而提高测试时每个句子的定位能力。

CRM通过在训练过程中根据时间顺序和视频段落描述中的扩展查询,尽可能减少了单个句子与视频片段proposal不匹配的问题。在两个活动定位基准数据集上进行的实验结果表明,CRM方法相对于各种SOTA的弱监督模型都有一定的性能优势。广泛的消融实验进一步提供了对CRM中单个模块有效性的深入分析。

作者介绍

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END,入群????备注:视频

ICCV2021 | 如何高效视频定位?QMUL北大Adobe强强联手提出弱监督CRM,性能SOTA相关推荐

  1. 短视频+直播源码,强强联手,谁与争锋

    文/布谷安妮 来源/山东布谷鸟网络 互联网行业的不断更新迭代,短视频抖音的爆红,让短视频和直播成为人们业余生活中最常见的方式,也让这两个领域的竞争更加激烈,同时也在不断融合."短视频+直播& ...

  2. CVPR 2022 | 利用域自适应思想,北大、字节跳动提出新型弱监督物体定位框架

    ©作者 | 朱磊 来源 | 机器之心 将弱监督物体定位看作图像与像素特征域间的域自适应任务,北大.字节跳动提出新框架显著增强基于图像级标签的弱监督图像定位性能. 物体定位作为计算机视觉的基本问题,可以 ...

  3. STC-Seg:首个超越PointTrack的弱监督视频MOTS算法

    弱监督视频多目标实例分割新SOTA(代码已开源): Paper: Solve the Puzzle of Instance Segmentation in Videos: A Weakly Super ...

  4. ICCV 2021 Oral | AdaFocus:利用空间冗余性实现高效视频识别

    ©原创 · 作者 | 王语霖 单位 | 清华大学自动化系 研究方向 | 机器学习.计算机视觉 本文主要介绍我们被 ICCV 2021 会议录用为 Oral Presentation 的一篇文章:Ada ...

  5. “年薪百万”的视频剪辑师?Adobe专家让这一切都成为可能

    原标题:"年薪百万"的视频剪辑师?Adobe视频设计专家让这一切都成为可能 谈到#视频剪辑#视频剪辑,就不可避免地需要谈论到视频剪辑软件,视频剪辑软件是对视频源进行非线性编辑的软件 ...

  6. 青源 LIVE 第 20 期 | 复旦大学吴祖煊:高效视频内容识别

    近年来,随着电子设备和互联网技术的不断普及和成熟,视频正逐渐成为用户更加偏好的内容传播方式.在视频总体数量急剧上升的背景下,如何高效识别视频中的动作.事件,实现对视频内容的自动理解对视频推荐.视频检索 ...

  7. 今晚直播 | 高效视频理解模型的设计及ICCV比赛冠军方案解读

    「PW Live」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义, ...

  8. 直播预告 | 高效视频理解模型的设计及ICCV比赛冠军方案解读

    「PW Live」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义, ...

  9. 高效视频编码 (HEVC) -H.265(结构解析)

    版本 HEVC (H.265) 规范的第一个版本于 2013 年 4 月发布.该标准的版本如下: ITU-T H.265 (V1) (04/2013) http://handle.itu.int/11 ...

最新文章

  1. HALCON查找圆心C++实现
  2. 搭建好看的静态博客(使用Hexo进行搭建)
  3. 知识图谱最新论文清单,高阶炼丹师为你逐一解读
  4. 深入浅出 Javascript 事件
  5. 程序员须知:必须建立个人知识库,它的重要性你需要了解一下!
  6. MySQL笔记-Windows安装MySQL5.7
  7. 使用ZooKeeper编程 - 一个基本教程
  8. 从零搭建angular环境和初项目
  9. HTML-参考手册: 键盘快捷键
  10. 关于领域驱动设计与面向数据库设计
  11. es6语法图片切换demo
  12. 中职计算机优质课课件ppt,中职优质课 交集课件.ppt
  13. 破茧成蝶2——以产品为中心的设计革命
  14. pdf文件插入电子签名
  15. jni--‘jni_internal.cc:616] JNI FatalError called,RegisterNatives failed,导致system_server crash
  16. Sutton and Barto 教材中多臂老虎机(k-armed bandit testbed)模拟
  17. micropython api_micropython和python 微云
  18. 是否可以将一个控件的outerHTML赋值?
  19. spark master web ui 端口8080被占用解决方法
  20. 竞品分析怎么做?6步完成竞品分析报告

热门文章

  1. java日期时间各种变换及处理
  2. Python 编程问题集
  3. 由摄像机外参矩阵求解像片的外方位线元素
  4. Ubuntu下动态库与静态库混合连接
  5. Win8.1 JAVA环境配置全过程
  6. Git常用命令——分支操作
  7. 11988 - Broken Keyboard (a.k.a. Beiju Text)
  8. c# npoi 2.5版本设置字体加粗_Python帮你做Excel——格式设置与画图
  9. nuke无法理解服务器的响应,cuke4nuke服务器没有重新开始
  10. java怎么访问私有类_如何从Java类的外部访问类的私有方法?