摘要

这篇文章解决的是自然语言视频定位（NLVL）问题。几乎所有现有的工作都遵循“only look once”框架，该框架利用单一模型直接捕获video-query对之间复杂的跨模态和自模态关系，并检索出相关片段。可是，作者认为这些方法忽略了理想定位方法中所不可缺少的两个特点：1）帧区别性：正负的视频帧是不平衡，在定位过程中突出正样本帧并削弱负样本帧是有效的；2）精确边界：为了预测准确的片段边界，模型应该捕获连续帧之间更细粒度的差异，因为它们的变化通常是平滑的。为此，受人类如何感知和定位一个视频片段的启发，作者提出了一个类似人类的two-step框架，称为跳跃-定位-浏览（SLP）。SLP包含一个Skimming-and-Locating (SL) 模块和一个Bi-directional Perusing (BP) 模块，SL模块首先参考query的语义，从视频中选择最佳匹配的帧，同时过滤出不相关的帧。然后，BP模块基于这一帧构建一个初始的视频片段，并通过探索其相邻的帧进行动态更新视频片段范围，直到没有帧共享相同的活动语义。

贡献如下：

提出了一种新的跳跃-定位-浏览（SLP）框架，这是NLVL任务中是第一个同时考虑帧区别性和边界精确需求的类人框架。
与“只看一次”的定位策略不同，双阶段SL和BP模块突出了对积极帧的更多影响，并捕获了相邻帧之间更细粒度的差异。

Related work

Natural language video localization(NLVL)：NLVL是一个新任务，在2017年才被提出来【4】。大部分的算法是 propose-and-rank 架构，就是首先生成候选segment，然后利用多模态匹配来检索相对于query最相关的候选segment。有一些算法采用滑动窗口来作为candidates，为了提升candidates的质量，还有一些算法按照多个预定义的时间尺度分割好视频，然后直接将细粒度的视频片段和语义信息整合在一起用来评分。Chen等人的捕捉了视频和查询之间不断演变的细粒度逐字交互，以增强对视频表示的理解，等等。尽管这些方法取得了不错的性能，但proposal matching /ranking 这些操作计算量大，严重限制了它们的性能，并且它们对预定义proposal的质量也很敏感。

最近许多工作提出了使用 boundary-regression 架构。具体来说，这类方法不提前选出候选segment，而是通过利用视频和查询之间的跨模态交互，直接预测每一帧的两个概率，即该帧是否是ground truth视频段开始或结束帧的概率。最近也有一些强化学习的方法应用于NLVL任务。

但是，以上这两种范式都是：在单个建模过程中同等的学习 frame-to-word 和 frame-to-frame 的关系，然后基于所有帧来检索出视频段，但这往往不能区分前背景帧，也不能捕捉某些连续帧之间的细粒度差异，以确定精确的线段边界。

网络结构

网络的具体结构见上图，对于多模态的输入（视频+文本），首先基于query对视频内容进行理解，经过多模态交互等操作最后挑出前K个排名的positive帧，这些操作称之为Skimming-and-Locating（SL）操作。然后对每一个正样本帧都进行Bi-directional Perusing (BP)操作，具体的是对它进行双向的计算相似度，在每个方向上都计算邻接帧的视觉特征与当前segment的视觉相似度和语义相似度（猜想的原因：由于信息在语义空间和视觉空间下的特征并不相同，所有都计算相似度考虑的更全面），用余弦相似度来计算。

为了在训练过程中在监督frame-query和frame-segment的匹配，作者使用了一种hinge-based triplet ranking loss【1】来鼓励匹配成功对的相似度得分大于未匹配成功对的相似度得分（值得借鉴）。

当邻接帧的相似度得分大于设定的阈值后，模型就会将这个邻接帧加入到视频segment中。以往的工作【2】大多是最大池化来更新segment，这篇文章认为由于目标活动主要发生在整个帧的局部区域，因此为了只保留与语义最相关的判别信息，文章引入了一种新的可学习的片段更新策略，并过滤掉每个新帧的不重要信息（其他区域提供冗余的信息）。具体而言，计算出了一个中间状态的segment语义，如下：

其中的r1和r2称为reset gates，用来遗忘（过滤）每个帧中的背景（无关）信息，构造式如下：

有了中间状态 (

Skimming, Locating, then Perusing: A Human-Like Framework for Natural Language Video Localization相关推荐

深度学习论文: PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and Localization
深度学习论文: PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and Localization PaDiM: ...
58、NeuMan: Neural Human Radiance Field from a Single Video
简介主页:https://machinelearning.apple.com/research/neural-human-radiance-field 给定一个移动摄像机捕捉的视频,给定一个由移动摄 ...
论文复现:＜Beyond Static Features for Temporally Consistent 3D Human Pose and Shape from a Video＞
一,国际惯例,写在前面个人学习之作,不做商用,能力有限,有错误或者任何问题随时联系我.欢迎指正,共同进步. 二,基础步骤+遇到的问题不做科普,需要基础的算法开发能力. 01.阅读论文,看看大概是干 ...
计算机视觉论文-2021-03-01
本专栏是计算机视觉方向论文收集积累,时间:2021年3月1日,来源:paper digest 欢迎关注原创公众号 [计算机视觉联盟],回复 [西瓜书手推笔记] 可获取我的机器学习纯手推笔记! 直达笔记 ...
NLPCC 2023 Shared Task 5：中文医疗教学视频问答任务
背景介绍近年来,人们能够轻松的访问互联网上的教学视频,这成为了一种趋势并彻底改变了以往的获取信息或传递知识的方式[1]-[2].许多人意识到在他们完成某项任务之前通过观看教学视频是一种更高效的方式, ...
ROS(1和2)机器人操作系统相关书籍、资料和学习路径
ROS机器人相关书籍与资料(更新日期2017年11月) ROS发展10年了,已经逐渐成为通用的机器人操作系统标准.ROS 2相关资料链接:http://blog.csdn.net/zhangrelay ...
聊聊机器如何“写“好广告文案?
作者 | 张超 "除非你的广告建立在伟大的创意之上,否则它就像夜航的船,不为人所注意." -- 大卫·奥格威,现代广告业奠基人 01 引子创意作为一种信息载体,将广告主的营销内容 ...
计算机视觉论文-2021-07-23
本专栏是计算机视觉方向论文收集积累,时间:2021年7月23日,来源:paper digest 欢迎关注原创公众号 [计算机视觉联盟],回复 [西瓜书手推笔记] 可获取我的机器学习纯手推笔记! 直达笔 ...
【虎虎生威迎虎年】对穿肠之PaddleBoBo
[虎虎生威迎虎年]对穿肠之PaddleBoBo 一.引入主要思路如下: 使用PaddleHub的ernie_gen_couplet模型生成虎年相关的对联使用PaddleBoBo把虚拟主播图片和对联 ...

Skimming, Locating, then Perusing: A Human-Like Framework for Natural Language Video Localization

文章目录

摘要

Related work

网络结构

Skimming, Locating, then Perusing: A Human-Like Framework for Natural Language Video Localization相关推荐

最新文章

热门文章