目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

本文的作者来自浦项科技大学和首尔大学
下载链接

动机

在Grounding领域,早些的方法都可以归结为scan-and-localize framework,主要包括两个步骤:1. 生成proposals;2. 根据matching score进行选择。但是这一类方法存在很大的弊端:获得matching score的过程中,使用text query的全局特征,丢失了用于定位的细节信息。后续,有人对方法进行了改进,将此task视为注意力定位问题,通过回归解决。弊端:局限于最具有判别力的短语,没有对context进行全面的理解。

贡献

  1. 将text query分为多个短语,每个短语作为context,与video进行交互。
  2. 从局部->全局,建模视频片段和短语的关系。
  3. 实验结果,large margin。

方法

本文方法的整体框架如图所示。

实验

在Charades-STA数据集上的实验结果:

在ActivityNet Captions数据集上的实验结果:

在Charades-STA数据集上的消融实验:

CVPR 2020 《Local-Global Video-Text Interactions for Temporal Grounding》论文笔记相关推荐

  1. CVPR 2020 | 《Learning to Transfer Texture from Clothing Images to 3D Humans》 论文解读

    作者和机构 德国马普所,SMPL的论文也出自该单位,三作Gerard也是SMPL论文的作者 解决的问题 通过服装的正面和背面图实时生成3D模型 动机 该研究有助于3D人体渲染,生成数据以供网络学习,虚 ...

  2. CVPR 2020 Modality Shifting Attention Network for Multi-modal Video Question Answering

    动机 VQA具有挑战性,因为它需要同时使用图像和文本执行细粒度推理的能力.视频问答(VideoQA)和多模态视频问答(MVQA)都是这种需要推理的任务. 与VQA或VideoQA相比,MVQA是一项更 ...

  3. CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记

    理解出错之处望不吝指正. 本文模型叫做ADNet.该模型通过强化学习产生动作序列(对bbox进行移动or尺度变换)来进行tracking.原理如下图(第一列代表初始帧,第二列和第三列代表通过RL产生的 ...

  4. CVPR 2018 Siam-RPN:《High Performance Visual Tracking with Siamese Region Proposal Network》论文笔记

    理解出错之处望不吝指正. 本文模型叫做Siam-RPN.本文将Siamese Network和RPN结合,提出了一种端到端的离线训练方法,并把tracking过程视为one-shot detectio ...

  5. CVPR 2018 SINT++:《SINT++: Robust Visual Tracking via Adversarial Hard Positive Generation》论文笔记

    理解出错之处望不吝指正. 本文用到了变分自编码VAE和强化学习DQN,我觉得很新颖.整体架构如下图: 首先,使用VAE来生成positive sample,如上图中右下角. 然后,使用HTPN网络将得 ...

  6. 28 篇论文、6 大主题带你一览 CVPR 2020 研究趋势

    关注"迈微AI研习社",内容首发于公众号 转自 | AI科技评论 首度于线上召开的CVPR 2020 会议已经落下帷幕.今年,大会共有1467篇论文被接收,共举办了29个Tutor ...

  7. CVPR 2020 论文大盘点-医学影像处理识别篇

    医学影像处理识别是计算机视觉的重要方向,尽管CVPR 不是专门的医学领域学术会议,但仍有不少相关工作,CVPR 2020 中尤以医学影像分割为最. 本文盘点相关论文,总计 19 篇,其中: 医学图像分 ...

  8. 【论文阅读】CVPR 2020:GaitPart: Temporal Part-based Model for Gait Recognition

    GaitPart: Temporal Part-based Model for Gait Recognition 目录 GaitPart: Temporal Part-based Model for ...

  9. CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文也是一篇poster,作者出自浙大.阿里巴巴和电科大. 本文提出了一个新的task--STVG(Spatio-Temporal Video Groundi ...

最新文章

  1. 影像组学视频学习笔记(9)-T检验(T-test)理论及示例、Li‘s have a solution and plan.
  2. Oracle 12c coming soon?
  3. halcon入门_visionpro和halcon这两款机器视觉软件区别
  4. Delphi格式化函数Format FormatDateTime和FormatFloat
  5. c++里解决“控制传输跳过的实例化”的方法
  6. 我的面试准备过程--队列与栈(更新中)
  7. Ubuntu 16.04显示分辨率的更改
  8. 商业模式画布模板——From 《商业模式新生代》
  9. IO流文件指针(移动和获取文件读指针)
  10. 嘴里又苦又干,还有异味
  11. 关于Adams仿真过程中问题的解决记录
  12. 数字孪生开启传统行业数字化转型升级之路
  13. python画气泡图_用Python把图做的好看点:用Matplotlib做个比较气泡图
  14. 医疗行业容灾备份解决方案
  15. 简单介绍pytorch中分布式训练DDP使用 (结合实例,快速入门)
  16. 从 xp_cmdshell 中使用 dtexec 运行SSIS包
  17. python实现去除图片纯色边框和给图片补边
  18. 苹果签名市场变天,频繁封杀到底是什么原因?
  19. oracle时间相减
  20. 红米手机5A获取root超级权限的教程

热门文章

  1. 亡羊补课2019-12-19
  2. 关于Delphi中TRttiContext.FindType失效的问题
  3. 关于iis中的网站,在ie下点击服务器控件无反应的问题
  4. BCB 编写 DLL 终极手册
  5. EasyExcel读取文件异常,报 java.lang.NoClassDefFoundError,/x2006/main/CTTableStyles
  6. mysql联合索引的数据结构
  7. springboot学习笔记(六)
  8. Gstreamer中一些gst-launch常用命令
  9. 字节(byte)简介
  10. 当 Android 开发者遇见 TensorFlow