Video Moment Retrieval With Cross-ModalNeural Architecture Search

作者：杨勋1，王姗姗2，董健3，董建锋4，汪萌5，Chua Tat-Seng6

单位：1中国科学技术大学，2安徽大学，3奇虎360，4浙江工商大学，5合肥工业大学，6新加坡国立大学

摘要：

视频时刻检索（VMR）的任务是根据文本查询，从未修剪的视频中检索特定的视频时刻。这是一项具有挑战性的任务，需要有效地建模复杂的跨模态匹配关系。最近的研究主要是通过手工制作的网络架构来建模跨模态交互。尽管它们很有效，但它们在很大程度上依赖于专家的经验来选择架构，并且有许多需要仔细调整的超参数，这大大限制了它们在现实场景中的应用。如何设计灵活的架构来建模更少的跨模态交互对VMR的任务至关重要，但迄今为止受到的关注有限。为了解决这个问题，我们提出了一种新的VMR方法，它可以自动搜索最优架构来学习跨模态匹配关系,具体来说，我们开发了一种跨模态体系结构搜索方法。它首先搜索基于有向无环图的可重复的单元网络架构，该图在定制的特定于任务的操作集上执行操作采样。然后，我们通过查询感知注意网络自适应地调制图中的边缘重要性，该网络在搜索单元中进行边缘采样。与现有的神经体系结构搜索方法不同，我们的方法可以有效地利用查询信息到达有查询条件的体系结构，以建模跨模态匹配。在三个基准数据集上进行的广泛实验表明，我们的方法不仅可以显著优于最先进的方法，而且比手工制作的网络架构运行得更有效、更可靠。

引言：

在未裁剪的视频中检测或定位特定的视频活动已经成为视频分析和理解的一个基本问题。然而，大多数活动本地化方法只能在预定义的类列表中检测简单的活动，如打排球或打开门等，这不能推广到现实世界中看不见的场景。近年来，自然语言视频时刻检索（VMR）在智能视频监控、机器人等领域的潜在应用，越来越受到计算机视觉、多媒体、多媒体、自然语言处理[等多个社区的关注。VMR任务的目标是在给定的视频中暂时定位一个特定的视频时刻，通过文本查询进行语义描述。例如，如图1所示,对于一个查询“一个秃头男人正在剃掉另一个人的后脑勺”，我们的目标是识别与查询相匹配的目标时刻的开始和结束时间戳（0,13.6秒），并将本地化的视频时刻返回给用户。它可以帮助用户在长视频中精确定位感兴趣的视频片段，并提供本地化的视觉证据，支持下游任务中的模型决策。这是一项有用但也具有挑战性的任务，需要共同理解查询和视频内容。

大多数早期的研究人员，采用了两阶段的解决方案： 1)从输入视频中采样足够的候选片段，主要是通过滑动窗口，然后2)通过跨模态交互和匹配网络将语言查询与采样的候选矩进行匹配。主要的限制是，他们通常单独处理每个候选，而不建模候选片段之间的时间依赖关系。例如，一个查询被描述为“在我们看到一个人用冲浪板跑步之前，会看到灯塔在海滩上”，这实际上包括两种活动： 1)灯塔显示在海滩上和)一个人用冲浪板跑步。然而，只有第一个片段对应于目标片段,第二个活动只是作为一个描述时间上下文的引用。如果该模型不能有效地捕获时间上下文，那么它可能会做出次优预测。因此，为了有效地模拟相邻片段之间的时间关系，在VMR中得到了更多的关注。在最近的研究中，主要利用了复杂的卷积神经网络（CNN）架构，例如，图CNN 和时间CNN ，来建模时间关系和跨模态交互。尽管结果很有希望，但所开发的网络架构大多是手工设计的，在很大程度上依赖于专家的经验和知识，它们通常有许多需要仔细调整的超参数，由于视频的复杂特性，这导致了显著的高手工努力。如何用较少的人工努力设计灵活的网络架构是值得探索的，但迄今为止很少得到关注

为了填补研究空白，在本文中，我们提出了一种跨模态神经结构搜索方法，称为CMAS，

VMR可以自动搜索查询条件卷积网络架构，灵感来自神经架构搜索(NAS)的最新进展。具体而言，为了更好地利用文本查询对跨模态交互和匹配建模的影响，我们提出了一种新的CMAS体系结构搜索和网络权重学习两阶段方法。它首先基于有向无环图(DAG)搜索最优的可重复单元结构，该结构对DAG中的每个计算边在特定于任务的操作集上执行操作采样，然后，在网络再训练过程中，通过查询感知注意网络自适应地调节图中每个计算边的效果，在搜索的单元结构中进行软边采样。在第一阶段，所有查询和视频共享所搜索的单元网络架构，而在第二阶段，我们允许用户查询调节沿着所搜索架构传递的消息，以实现基于查询的时刻检索，这与NAS中的现有工作有很大不同。通过选择具有最高验证精度的候选单元来发现最优的单元结构，整个搜索算法通过梯度下降进行端到端训练。我们将发现的cell架构的几个副本堆叠起来，形成最终的网络架构，并在训练集上重新训练它以进片段检索。在三个公共基准数据集ActivityNetCaptions、TACoS和Charades-STA上的大量实验证明了CMAS的有效性。与SOTA方法相比，它取得了显著的改进，并且运行效率高、健壮。

主要贡献：

我们开发了一种新的VMR方法，它可以自动发现灵活的网络架构来建模跨模态交互。据我们所知，这是第一次尝试将NAS引入跨模态VMR。
我们描述了一种跨模态架构搜索方法，该方法首先为所有查询发现可共享的单元架构，然后利用查询调节沿着发现的架构传递的消息，从而有效地利用语言信息进行查询条件推理。
我们在三个公共基准数据集上进行了广泛的实验，以证明我们的方法不仅可以比最先进的方法实现显著的性能改进，而且比手工制作的VMR网络架构高效和稳健。

相关方法：

1. Temporal Action Localization (TAL)

该任务的目的是识别和确定在未修剪的视频[中的动作实例的边界和类别。一种常见的做法是首先生成temporal proposals，然后将每个proposal分类为一个行动类别。对于proposal的生成，他们要么使用固定的手工制作的锚，要么通过连接潜在的起始和结束框架来自适应地形成候选提案。Shou等优化了TAL定位损失的三维（3D）卷积网络。由Ma等人设计了一个时间递归神经网络（RNN）来预测帧级得分，然后进行后处理来合并检测间隔.通过扩展了经典的双流框架，并结合了目标检测和双向RNN。Escorcia等人提出从长视频中生成时间动作建议，用于检索时间动作片段。TAL任务的主要限制是它只能检测预定义的活动。它不能用于本地化仅由文本描述描述的不可见活动。在这项工作中，我们专注于一个更具挑战性的任务，视频时刻检索，将特定于查询的视频活动本地化到给定视频中预定义的活动之外。

2.Video Moment Retrieval (VMR）

基于文本的视觉检索是多媒体信息检索中的一个基本问题，并取得了显著的进展。VMR已经成为一项新的具有挑战性的任务受到越来越多的关注。以往的大多数工作都采用了两阶段的多模态匹配策略。输入的视频通常被分割成一组候选时刻。然后，通过跨模态特征融合将句子表示与采样的候选句子进行集成，预测对齐分数和位置偏移[8]，或者将候选片段和句子投影到公共空间，以最小化它们的成对距离。大多数研究人员提出设计一个复杂的视觉-文本交互/注意模块，用于跨模态对齐。Chen等人设计了一个循环模块来临时捕捉逐字的交互。Duan等人应用共同注意机制来组成视频序列和语言序列，徐等人提出利用密集视频字幕任务生成特定查询的建议作为候选片段，优化句子与候选时刻的匹配关系。最近的工作是建立候选片段之间的时间关系模型。Yuan et al.和Zhang et al.都应用了分层时间卷积网络(tcn)来逐渐捕获相邻候选片段之间的时间相关性。Zhang等人进一步利用TCN之后的图卷积操作来编码更复杂的时间依赖性。Zhang等人将视频中的一维（1D）时间片段结构扩展到二维（2D）时间建模。Yang等人提出解决基于因果干预的VMR数据集偏差问题。尽管他们中的时态卷积架构性能良好，但它们通常是由人类专家手动设计的，并且有许多超参数，需要仔细调整以适应特定的数据集。我们的工作旨在通过探索VMR的自动NAS来节省人工成本，具体来说，我们描述了一种跨模态结构搜索方法，它首先发现所有查询和视频的可共享单元结构，然后通过有效捕获语言查询对时刻检索的影响，达到查询条件的跨模态推理。我们搜索的网络架构可以用更少的人工捕获候选时刻之间的不同时间关系。

3.Neural Architecture Search (NAS)

本着自动机器学习（AutoML）的精神，自动设计神经网络结构受到了越来越多的研究关注。在过去的一年里，NAS已经成功地发现了许多在大规模图像分类上超过人工设计架构的架构。image网络。现有的NAS方法大多是为图像分类而设计的，大致可以分为三组： 1)基于强化学习的方法，2)基于进化算法的方法，3)基于梯度的方法。近年来，NAS已被用于许多特定领域的应用，如人的再识别、目标检测和图像分割。在这项工作中，我们为VMR任务定制了一个跨模态的网络架构方法。这是第一次将NAS应用于跨模式任务中。我们主要遵循基于梯度的搜索方法，该方法探索可重复的神经细胞结构来构建最优的CNN结构。与现有的工作不同，我们为VMR设计了一个特定于任务的操作集，并利用查询对单元格结构中的计算边进行采样，并操作每个单元格的输出。因此，我们的方法在捕获由查询引导的语义感知的时间上下文方面更有效。

方法：

第一步：

给定一个持续时间为T的未修剪视频V和一个自然语言查询q，VMR旨在根据查询q确定V中特定时刻的开始和结束时间戳(τs, τe)。给定的视频V首先被采样到一组N个候选片段拥有不同的持续时间，通过滑动窗口或分层池，每个时刻m都由一对时间戳（ts、te）进行索引。通常的做法是将VMR表示为一个排序问题，它学习一个跨模态匹配函数f（·）来估计查询和候选片段之间的匹配分数s = f（q，m），然后将匹配得分最高的候选返回给用户。现有的工作，主要依赖于人工设计的网络架构来为不同的数据集实现f（·）。它需要强大的专家经验来手动设计架构，而且对于调整每个数据集的超参数也很耗时和昂贵。为了解决这个问题，我们建议自动搜索一个最优的网络架构A来实现f（·），而不是手动设计的架构。我们正式将VMR重新定义为：

Input:一个包含查询、候选片段及其相关性得分的语料库：{Q、M、Y}，其中Q、M和Y分别表示时刻、查询和相关性得分集。相关性得分被估计为候选人和目标之间的联合（IoU）得分的交集。

Output:一个跨模态匹配函数f(A,W)： Q×M→R，它基于自动搜索的网络架构A和相应的网络权重W，将每个不可见的query-moment pair映射到一个真实值。之后，推断A的问题可以表述为一个二层优化问题：

其中，Ltra（A、W）和Lval（A，W）表示Loss w.r.t.分别使用W和A进行训练数据和验证数据。请注意，我们不会从头开始搜索整个网络架构。为简单起见，查询和moments的表示是由现有的主干网络获得。在本研究中，我们主要专注于发现一个最优的卷积网络架构，用于在查询和视频嵌入空间中建模跨模态交互和时间上下文。特别是，我们希望用户查询能够很好地用来推断有查询条件的架构，这与单峰任务不同，

Cross-Modal Architecture Search (CMAS)

为VMR的任务自动搜索最佳的网络体系结构。如图2所示，给定一个查询表示q∈R^d和视频时刻张量M∈R^（d×T*T）,最后两个维度M指数的开始和结束坐标提取候选片刻从给定的视频，我们首先嵌入q和M融合时间Feature maps F∈R^(d×T×T) 作为CMAS的输入张量。

基于cell的微搜索，将一个cell定义为一个小的完全卷积模块，通常重复多次以形成整个卷积网络。

如图3(a)所示，单元格定义为DAG ，由B个计算节点、两个输入节点和一个输出节点组成

每个node代表一个三维张量R^(d×T×T)，每个有向边与一个操作集o的采样操作set O相关联，如图3(b)所示，

对于feature transformation.两个输入节点,分别通过预处理操作从前两个cell的输出中进行预处理转化。输出节点是所有计算节点的通道连接,即==Concat（Fc2，···，Fc B+1）,每个计算节点Fc i基于其所有前一个节点进行计算，如图3(c)所示

与大多数现有的NAS方法相似，我们的CMAS还包括两个训练阶段： 1)体系结构搜索和2)网络再训练。在第一阶段，我们寻找具有最高验证精度的最优单元架构。在第二阶段，我们对图2中所示的整个网络的网络权值进行了重训练。堆叠的多层卷积网络在融合的嵌入空间中建模了时间上下文，而不会改变时间融合时间特征图的分辨率T×T。堆叠卷积网络的输出与一个预测层耦合，该预测层产生一个用于定位目标矩的T×T得分图。CMAS与现有的NAS方法[24]、[25]的区别主要在于实现等式的方式(2)，它由两个关键组件组成： 1)特定于任务的操作集和2)查询自适应边缘重加权，如以下章节III-B1和III-B2中所述。

结论：本文提出了一
种跨模态神经结构搜索（CMAS）方法来改进VMR任务。我们的方法可以自动发现基于任务特定的操作集的灵活的卷积网络架构，用于建模跨模态交互和矩之间的时间依赖性。对于跨模态的VMR任务，我们为节点级的特征转换定制了三个特定于任务的操作。用户查询还被用来自适应地聚合前一个节点的表示，并调制单元格输出。我们进行了大量的实验来研究所搜索到的体系结构的优势。我们的经验证明，我们的CMAS不仅可以实现SOTA矩检索性能，而且可以在较少的参数下有效地运行。CMAS在定位短时矩方面更有效，对数据集偏差也更健壮。这是第一次尝试为VMR应用NAS,在未来，我们将把更多的跨模态操作集成到特定于任务的操作集中。特别是，我们将尝试将语言建模和视频建模统一到同一框架中，以促进架构搜索。此外，我们还将把跨模态架构搜索应用于其他跨模态任务，如视觉接地[67]和时间活动定位，以节省架构设计的人工成本。

Video Moment Retrieval With Cross-ModalNeural Architecture Search相关推荐

2021年 ICCV / NeurIPS / AAAI 中Neural Architecture Search (NAS) 神经网络结构搜索相关论文汇总
这里写自定义目录标题 ICCV (35篇) NeurIPS / NIPS (28篇) AAAI (31篇) ICCV (35篇) Learning Latent Architectural Distr ...
[RelativeNAS] Relative Neural Architecture Search via Slow-Fast Learning
Relative Neural Architecture Search via Slow-Fast Learning First author:Tan Hao [PDF] NAS: Neural Ar ...
Neural Architecture Search: A survey
文章目录 1. Introduction 2. Search Space 2.1搜索空间定义: 2.2 常见的搜索空间举例: 2.2.1 简单链式搜索空间: 2.2.2 复杂多分支搜索空间 2.2.3 ...
【读点论文】FBNet:Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search可微分
FBNet: Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search Abstrac ...
【译】An Opinionated Introduction to AutoML and Neural Architecture Search
这是系列文章的第2部分. 在这里查看第1部分和第3部分 . 来自CMU和DeepMind的研究人员最近发布了一篇有趣的新论文,称为差异化架构搜索(DARTS) ,它提供了一种神经架构搜索的替代方法,这 ...
神经架构搜索(Neural Architecture Search,NAS)介绍
神经架构搜索Neural Architecture Search,NAS介绍 Introduction Intractable Search Space Non transferable optima ...
架构搜索文献笔记（9）：《CurveLane-NAS: Unifying Lane-Sensitive Architecture Search and Adaptive Point》
论文< CurveLane-NAS: Unifying Lane-Sensitive Architecture Search and Adaptive Point>-2020-ECCV** ...
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval 论文解读
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval 论文链接https://arxiv.org/abs/ ...
【读点论文】FBNetV2:Differentiable Neural Architecture Search for Spatial and Channel D扩大搜索空间，复用featuremap
FBNetV2: Differentiable Neural Architecture Search for Spatial and Channel Dimensions Abstract 可微分神经 ...

Video Moment Retrieval With Cross-ModalNeural Architecture Search

Video Moment Retrieval With Cross-ModalNeural Architecture Search相关推荐

最新文章

热门文章