简介

本文也是一篇poster，作者出自浙大、阿里巴巴和电科大。
本文提出了一个新的task——STVG（Spatio-Temporal Video Grounding for Multi-Form Sentences），下面将进行详细介绍。
下载链接

动机

首先，针对Video Grounding这个task，大多是针对特定的一帧或者几帧进行grounding，再或者是在 trimmed videos上进行grounding。本文提出在untrimmed videos上进行grounding，并且使用两种形式的sentences，分别是陈述句和疑问句。由于疑问句中不会“显式地”指出目标，更考验模型的推理能力。这个task称为STVG。

其次，针对Video Grounding领域的方法，现有大多数方法，都是先提proposals，再根据sentence选择最优proposal，但是这类方法不适用于STVG任务。可以从两点进行解释：①. 这类方法的性能很大程度依赖于提取的proposals的质量，但是STVG中使用的是untrimmed videos，ground truth在其中占的比例很小，不参考textual clues，很难提取出有质量的proposals；②. 这类方法通常只考虑对单个tube建模，忽略了objects之间的关系。

贡献

提出STVG任务。
提出STGRN模型应对STVG任务。
提出针对STVG任务的数据集VidSTG。
STGRN模型在VidSTG数据集上取得了很好的效果。

方法

本文方法的整体框架如下图所示，下面进行详细介绍。

对于输入的text和image，本文分别采用双向GRU和Faster R-CNN作为encoder，得到特征图。然后，基于Faster R-CNN的检测结果，构造三个图，分别是：隐式空间图、显式空间图和时间动态图。隐式空间图是由每个object为节点，得到的完全图（无向图）。显式空间图是一个场景图，根据CVPR2018构造（有向图）。时间动态图将每帧的objects和前后的M帧相连，建边的原则是——根据特征的余弦相似度和IoU加权得到。

得到三个图后，基于它们进行多步跨模态推理，具体做法其实就两步，先进行跨模态融合，然后使用空间图卷积（或时间图卷积）。跨模态融合分为三步：首先，对于每个region，使用注意力机制聚集文本特征；然后，使用一个textual gate机制，弱化文本无关区域；最后，将得到的region feature和textual feature进行concatenate，得到跨模态特征v0v_0v0（方便表示，先忽略时间步ttt，区域索引iii等）。多步推理体现在空间图卷积（或时间图卷积）上，基于刚才得到的特征，进行T步的空间图卷积（或时间图卷积），会得到三个不同的特征v1v_1v1、v2v_2v2和v3v_3v3。最终特征通过vend=ReLU(v0+v1+v2+v3)v_{end}=ReLU(v_0+v_1+v_2+v_3)vend=ReLU(v0+v1+v2+v3)得到。

得到特征后，通过两个Localizer对生成tube。首先介绍Temporal Localizer，这部分作者参考了SIGIR2019。先是对于每一帧，多尺度地生成proposals，然后使用参考论文中的方法，对每个proposal进行评估，同时预测出边界的offset。接下来，介绍Spatial Localizer，直接使用一个线性层，预测region feature和query representation（这部分是在text encoder学到的）的match score。但是这样选，在时间维度上，bbox的变化不够平滑，故作者定义了一个link score，选择bbox的时候，不光考虑match score，还要考虑它与后一帧bbox的IoU。

实验

在VidSTG数据集上的实验结果如下：

CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记相关推荐

CVPR 2020 《Local-Global Video-Text Interactions for Temporal Grounding》论文笔记
目录简介动机贡献方法实验简介本文的作者来自浦项科技大学和首尔大学下载链接动机在Grounding领域,早些的方法都可以归结为scan-and-localize framework, ...
CVPR 2020 | 《Learning to Transfer Texture from Clothing Images to 3D Humans》论文解读
作者和机构德国马普所,SMPL的论文也出自该单位,三作Gerard也是SMPL论文的作者解决的问题通过服装的正面和背面图实时生成3D模型动机该研究有助于3D人体渲染,生成数据以供网络学习,虚 ...
CVPR 2020 Modality Shifting Attention Network for Multi-modal Video Question Answering
动机 VQA具有挑战性,因为它需要同时使用图像和文本执行细粒度推理的能力.视频问答(VideoQA)和多模态视频问答(MVQA)都是这种需要推理的任务. 与VQA或VideoQA相比,MVQA是一项更 ...
CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记
理解出错之处望不吝指正. 本文模型叫做ADNet.该模型通过强化学习产生动作序列(对bbox进行移动or尺度变换)来进行tracking.原理如下图(第一列代表初始帧,第二列和第三列代表通过RL产生的 ...
CVPR 2018 Siam-RPN:《High Performance Visual Tracking with Siamese Region Proposal Network》论文笔记
理解出错之处望不吝指正. 本文模型叫做Siam-RPN.本文将Siamese Network和RPN结合,提出了一种端到端的离线训练方法,并把tracking过程视为one-shot detectio ...
CVPR 2018 SINT++:《SINT++: Robust Visual Tracking via Adversarial Hard Positive Generation》论文笔记
理解出错之处望不吝指正. 本文用到了变分自编码VAE和强化学习DQN,我觉得很新颖.整体架构如下图: 首先,使用VAE来生成positive sample,如上图中右下角. 然后,使用HTPN网络将得 ...
28 篇论文、6 大主题带你一览 CVPR 2020 研究趋势
关注"迈微AI研习社",内容首发于公众号转自 | AI科技评论首度于线上召开的CVPR 2020 会议已经落下帷幕.今年,大会共有1467篇论文被接收,共举办了29个Tutor ...
CVPR 2020 论文大盘点-医学影像处理识别篇
医学影像处理识别是计算机视觉的重要方向,尽管CVPR 不是专门的医学领域学术会议,但仍有不少相关工作,CVPR 2020 中尤以医学影像分割为最. 本文盘点相关论文,总计 19 篇,其中: 医学图像分 ...
【论文阅读】CVPR 2020：GaitPart: Temporal Part-based Model for Gait Recognition
GaitPart: Temporal Part-based Model for Gait Recognition 目录 GaitPart: Temporal Part-based Model for ...

CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记

目录

简介

动机

贡献

方法

实验

CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记相关推荐

最新文章

热门文章