目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

本文也是一篇poster,作者出自浙大、阿里巴巴和电科大。
本文提出了一个新的task——STVG(Spatio-Temporal Video Grounding for Multi-Form Sentences),下面将进行详细介绍。
下载链接

动机

首先,针对Video Grounding这个task,大多是针对特定的一帧或者几帧进行grounding,再或者是在 trimmed videos上进行grounding。本文提出在untrimmed videos上进行grounding,并且使用两种形式的sentences,分别是陈述句和疑问句。由于疑问句中不会“显式地”指出目标,更考验模型的推理能力。这个task称为STVG。

其次,针对Video Grounding领域的方法,现有大多数方法,都是先提proposals,再根据sentence选择最优proposal,但是这类方法不适用于STVG任务。可以从两点进行解释:①. 这类方法的性能很大程度依赖于提取的proposals的质量,但是STVG中使用的是untrimmed videos,ground truth在其中占的比例很小,不参考textual clues,很难提取出有质量的proposals;②. 这类方法通常只考虑对单个tube建模,忽略了objects之间的关系。

贡献

  1. 提出STVG任务。
  2. 提出STGRN模型应对STVG任务。
  3. 提出针对STVG任务的数据集VidSTG。
  4. STGRN模型在VidSTG数据集上取得了很好的效果。

方法

本文方法的整体框架如下图所示,下面进行详细介绍。

对于输入的text和image,本文分别采用双向GRU和Faster R-CNN作为encoder,得到特征图。然后,基于Faster R-CNN的检测结果,构造三个图,分别是:隐式空间图、显式空间图和时间动态图。隐式空间图是由每个object为节点,得到的完全图(无向图)。显式空间图是一个场景图,根据CVPR2018构造(有向图)。时间动态图将每帧的objects和前后的M帧相连,建边的原则是——根据特征的余弦相似度和IoU加权得到。

得到三个图后,基于它们进行多步跨模态推理,具体做法其实就两步,先进行跨模态融合,然后使用空间图卷积(或时间图卷积)。跨模态融合分为三步:首先,对于每个region,使用注意力机制聚集文本特征;然后,使用一个textual gate机制,弱化文本无关区域;最后,将得到 的region feature和textual feature进行concatenate,得到跨模态特征v0v_0v0​(方便表示,先忽略时间步ttt,区域索引iii等)。多步推理体现在空间图卷积(或时间图卷积)上,基于刚才得到的特征,进行T步的空间图卷积(或时间图卷积),会得到三个不同的特征v1v_1v1​、v2v_2v2​和v3v_3v3​。最终特征通过vend=ReLU(v0+v1+v2+v3)v_{end}=ReLU(v_0+v_1+v_2+v_3)vend​=ReLU(v0​+v1​+v2​+v3​)得到。

得到特征后,通过两个Localizer对生成tube。首先介绍Temporal Localizer,这部分作者参考了SIGIR2019。先是对于每一帧,多尺度地生成proposals,然后使用参考论文中的方法,对每个proposal进行评估,同时预测出边界的offset。接下来,介绍Spatial Localizer,直接使用一个线性层,预测region feature和query representation(这部分是在text encoder学到的)的match score。但是这样选,在时间维度上,bbox的变化不够平滑,故作者定义了一个link score,选择bbox的时候,不光考虑match score,还要考虑它与后一帧bbox的IoU。

实验

在VidSTG数据集上的实验结果如下:

CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记相关推荐

  1. CVPR 2020 《Local-Global Video-Text Interactions for Temporal Grounding》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文的作者来自浦项科技大学和首尔大学 下载链接 动机 在Grounding领域,早些的方法都可以归结为scan-and-localize framework, ...

  2. CVPR 2020 | 《Learning to Transfer Texture from Clothing Images to 3D Humans》 论文解读

    作者和机构 德国马普所,SMPL的论文也出自该单位,三作Gerard也是SMPL论文的作者 解决的问题 通过服装的正面和背面图实时生成3D模型 动机 该研究有助于3D人体渲染,生成数据以供网络学习,虚 ...

  3. CVPR 2020 Modality Shifting Attention Network for Multi-modal Video Question Answering

    动机 VQA具有挑战性,因为它需要同时使用图像和文本执行细粒度推理的能力.视频问答(VideoQA)和多模态视频问答(MVQA)都是这种需要推理的任务. 与VQA或VideoQA相比,MVQA是一项更 ...

  4. CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记

    理解出错之处望不吝指正. 本文模型叫做ADNet.该模型通过强化学习产生动作序列(对bbox进行移动or尺度变换)来进行tracking.原理如下图(第一列代表初始帧,第二列和第三列代表通过RL产生的 ...

  5. CVPR 2018 Siam-RPN:《High Performance Visual Tracking with Siamese Region Proposal Network》论文笔记

    理解出错之处望不吝指正. 本文模型叫做Siam-RPN.本文将Siamese Network和RPN结合,提出了一种端到端的离线训练方法,并把tracking过程视为one-shot detectio ...

  6. CVPR 2018 SINT++:《SINT++: Robust Visual Tracking via Adversarial Hard Positive Generation》论文笔记

    理解出错之处望不吝指正. 本文用到了变分自编码VAE和强化学习DQN,我觉得很新颖.整体架构如下图: 首先,使用VAE来生成positive sample,如上图中右下角. 然后,使用HTPN网络将得 ...

  7. 28 篇论文、6 大主题带你一览 CVPR 2020 研究趋势

    关注"迈微AI研习社",内容首发于公众号 转自 | AI科技评论 首度于线上召开的CVPR 2020 会议已经落下帷幕.今年,大会共有1467篇论文被接收,共举办了29个Tutor ...

  8. CVPR 2020 论文大盘点-医学影像处理识别篇

    医学影像处理识别是计算机视觉的重要方向,尽管CVPR 不是专门的医学领域学术会议,但仍有不少相关工作,CVPR 2020 中尤以医学影像分割为最. 本文盘点相关论文,总计 19 篇,其中: 医学图像分 ...

  9. 【论文阅读】CVPR 2020:GaitPart: Temporal Part-based Model for Gait Recognition

    GaitPart: Temporal Part-based Model for Gait Recognition 目录 GaitPart: Temporal Part-based Model for ...

最新文章

  1. python画散点图类型-Pandas / Pyplot中的散点图:如何按类别绘制
  2. ASP.NET4.0新的%: %语法用于HTML Encoding
  3. abstract类中可以有private的成员_C++|static成员与单例模式
  4. (二)GKE上MLOps的Jenkins作业和部署
  5. QString 的使用技巧
  6. 线元法输入曲线要素_Origin入门教程(三):Origin中曲线怎么平移?
  7. gazebo 模型导入
  8. 618号外:MS08067安全实验室也做安全培训了
  9. Linux下报ora-12162,登录RMAN 报ORA-12162:TNS:net service name is incorrectly specified错误
  10. 在html5水平边距属性hspace,响应式网页设计(html5+css3+cms)教学课件作者李文奎第2章html基础.pptx...
  11. 小度wifi还原为无线网卡
  12. 10个可以让你达到谷歌首页的谷歌SEO技巧
  13. 志愿者招募| WasmEdge 邀你参加第七届中国开源年会 COSCon 2022
  14. 我的编程经历与我所热爱的游戏服务端开发
  15. 最新版sketch插件怎么安装,3步搞定
  16. Mapbox3D特效(立体闪光墙)
  17. U盘用哪种格式化比较好?教你一步,详细区分U盘格式
  18. Java 形参和实参
  19. 时间序列分析中的自相关
  20. Arduino ESP32利用PWM实现板载LED呼吸灯效果

热门文章

  1. [云炬创业基础笔记]第十一章创业计划书测试2
  2. 科大星云诗社动态20210409
  3. 派生类中构造函数与虚构函数的研究
  4. powerdesigner自动生成代码的修改
  5. delphi中处理数据类型错误的方法
  6. 快速融入新团队的一点个人体会
  7. SQL注入之布尔盲注——sql-lab第八关
  8. 谷歌浏览器没法安装插件,提示程序包无效
  9. Tomcat设置虚拟目录的方法, 不修改server.xm
  10. STM32开发 -- 自动连接一个未保存过的WIFI