现有方法
- 2017 arXiv
- - 题目
  - 动机
  - 简介
- 2017 CVPR
- - 题目
  - 动机
  - 简介
- 2017 CVPR
- - 题目
  - 动机
  - 简介
- 2017 IJCAI
- - 题目
  - 动机
  - 简介
- 2018 arXiv
- - 题目
  - 动机
  - 简介
- 2018 CVPR
- - 题目
  - 动机
  - 简介
- 2019 ICCV
- - 题目
  - 动机
  - 简介
- 2019 ICCV
- - 题目
- 2019 WACV
- - 题目
  - 动机
  - 简介
- 2020 CVPR
- - 题目
  - 动机
  - 简介
- 2020 ECCV
- - 题目
  - 动机
  - 简介
- 2020 ECCV
- - 题目
- 2020 ECCV
- - 题目
- xxx
- - 题目
  - 动机
  - 简介
总结
- one-stage解决的问题
- one-stage方法的好处

现有方法

2017 arXiv

题目

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Learning
下载链接

动机

本文面向natural language object retrieval任务，已有方法分为两阶段，先提取proposals，再生成每个proposal的score并排序。这样生成的proposals是冗余的，且和referred object不相关。具体来说，已有方法（proposal based）有以下缺点：

两个阶段相互独立，训练过程没有对齐，导致结果为次优解。
这类方法需要提取很多的proposals来保证recall，这造成了冗余，并降低了ranking function的判别能力。

简介

将文本特征和图像特征融合，再使用强化学习进行定位。

2017 CVPR

题目

A Joint Speaker-Listener-Reinforcer Model for Referring Expressions
下载链接

动机

Generation和Comprehension是两个独立逆任务，现有的方法都是单独针对某个任务进行。本文将两个逆任务联合，并添加强化学习策略，达到了更优的实验结果。

简介

Speaker负责生成文本描述，Listener负责理解文本描述，Reinforcer负责控制采样，使Speaker生成的expressions具有多样性。在训练完成后，Speaker和Listener都可以单独用于grounding任务。对于Speaker，使用每个region生成expression，取与query相似度最高的expression对应的region作为结果。对于Listener，直接计算每个region和query的相似度，选score最大的即可。

2017 CVPR

题目

Weakly-supervised Visual Grounding of Phrases with Linguistic Structures
下载链接

动机

传统的监督框架，依赖于带有边框或像素级别标注的数据集，而随着领域朝着解决更大规模问题的方向发展，获取大量的这类标注数据成为了瓶颈。本文应对以上问题，提出了弱监督的视觉定位方法，可以基于图像等级的标注（没有region-phrase标注）进行训练，生成像素级别的grounding结果。

简介

本文是第一个用语言层级结构进行弱监督视觉定位的方法。文中使用了两个loss，分别是structural loss和discriminative loss。前者用于使文本短语编码的结构和视觉注意力掩码相匹配，后者用于匹配image-phrase pairs。

2017 IJCAI

题目

An Attention-based Regression Model for Grounding Textual Phrases in Images
下载链接

动机

现有方法基于proposals，模型的最终性能取决于生成proposals的方法，这类方法也带来了额外的计算成本。本文将grounding视为一个回归问题，提出了可以直接识别短语对应区域的方法，省去了生成proposals带来的计算量。作者总结了proposal based方法的缺点：

正确的region不一定包含在proposals中。
对不包含正确region的proposals进行ranking是很困难的。

简介

方法如图，没什么好说的。

2018 arXiv

题目

Real-Time Referring Expression Comprehension by Single-Stage Grounding Network
下载链接

动机

现有方法为三阶段，①生成proposals；②对两种模态进行encode；③基于matching score进行ranking。经过作者统计，这类方法第一步会耗费较多时间，因此并不适用于有实时需求的场景。

简介

方法看图即懂。

2018 CVPR

题目

Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding
下载链接

动机

现有方法没有完全挖掘多模态表示和映射空间，本文提出multi-level多模态注意力机制，可以在不同的语义等级下，生成word-level或sentence-level的注意力图。

简介

下图是本文方法的大致流程，具体的模块设计参见论文。

2019 ICCV

题目

A Fast and Accurate One-Stage Approach to Visual Grounding
下载链接

动机

两阶段方法依赖于proposals的质量，如果在第一阶段生成的proposals没有很好的cover ground truth，那么二阶段是没有意义的。且所有的proposals只有1-2个是正确的，浪费了很多计算资源处理错误的proposals。

简介

针对上述问题，本文提出在YOLOv3中嵌入文本查询信息，在准确性和速度上都取得了不错的结果。

2019 ICCV

题目

Zero-Shot Grounding of Objects from Natural Language Queries
参考链接

2019 WACV

题目

Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining
下载链接

动机

在VQA问题中，对生成answer的同时，得到relevant regions是很有必要的，这在一定程度上可以验证模型的可解释性。已有的方法通过注意力机制，高亮和answer相关的区域，注意力机制的使用方法可以分为了两类：①在模型的中间部分使用注意力，不需要监督信息，依靠模型的最终输出进行训练；②在模型的输出部分使用注意力，需要使用额外监督信息。针对第①类方法，模型学到的注意力往往提供不了可解释信息；针对第②类方法，标注信息较为昂贵，且标注人员和我们的关注点可能不同，会带来歧义。

简介

本文利用Visual Genome数据集中的region descriptions和object annotations自动构建可用于注意力监督的attention map。

本文主要的创新点在Attention Supervision Module，即联合visual grounding作为辅助。

2020 CVPR

题目

A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension
下载链接

动机

现有方法由于采用两阶段框架（proposal generation、proposal ranking），在不降低精度的同时，无法达到实时推理。本文从以上问题出发，提出RCCF方法，可以在单GPU上达到40FPS，约为two-stage方法的两倍。

简介

作者将相关滤波融入多模态任务中，让我有一种这是tracking方法的感觉。

2020 ECCV

题目

Improving One-stage Visual Grounding by Recursive Sub-query Construction
下载链接

动机

现有的visual grounding方法可以分为两类：一阶段、两阶段。本文面向一阶段方法，提升现有方法处理长（long）、复杂（complex）query的能力。本质是：本文提出了一个可以用在一阶段visual grounding模型中的query modeling方法（两阶段模型中有很多query modeling方法，但是由于一些限制，不能直接用于一阶段模型）。

简介

下图中，子查询学习器负责学习Query中每个word的注意力，子查询调制器负责基于子查询学习器得到的注意力，对text-conditional visual feature进行refine，增强referred object的特征，并压制其他object的特征。本文方法的详细介绍参见这篇博客

2020 ECCV

题目

Linguistic Structure Guided Context Modeling for Referring Image Segmentation
参考链接

2020 ECCV

题目

Propagating Over Phrase Relations for One-Stage Visual Grounding
参考链接

xxx

题目

下载链接

动机

简介

总结

one-stage解决的问题

两阶段方法存在较多冗余的proposals，浪费计算资源，无法达到实时 →\rightarrow→ 更快的方法
两阶段方法依赖于proposals质量 →\rightarrow→ 更准的方法

one-stage方法的好处

速度快
更符合人类的认知过程

One-Stage Visual Grounding论文汇总相关推荐

Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记一.Abstract 二.引言 ...
ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记
目录简介动机贡献方法实验简介本文出自香港大学的sibei,二作是中山大学李冠斌老师下载链接动机 Phrase level visual grounding具有两个challenge: ...
ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记
目录简介动机贡献方法实验简介本文出自罗彻斯特大学+腾讯AI Lab 下载链接动机现有的visual grounding方法可以分为两类:一阶段.两阶段.本文面向一阶段方法,提升现有方 ...
论文：TransVG: End-to-End Visual Grounding with Transformers
作者 Abstract 在本文中,我们提出了一个简洁而有效的基于转换的视觉基础框架,即TransVG,以解决将语言查询与图像上相应区域的基础任务.最先进的方法,包括两阶段或一阶段的方法,依赖于一个复杂 ...
oracle11g知乎,【AAAI】AAAI2020录用论文汇总（二）
因为AAAI的接受论文官方还没有放出,并且放的也是出奇的慢,本文汇总了23日在arxiv上挂出来的AAAI2020文章,供大家挑选感兴趣的文章下载.第一部分可以看忆臻:[AAAI]AAAI2020录 ...
AAAI2020录用论文汇总（二）
本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家. AAAI2020论文汇总(part 2) [201] Colosseu ...
AAAI2020录用论文汇总（三）
本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家. AAAI2020论文汇总(part 3) [401] Justific ...
【CVPR2019_论文汇总】（按方向划分，0401 更新中）
转载链接:http://bbs.cvmart.net/topics/302/cvpr2019paper 作为计算机视觉领域三大顶会之一,CVPR2019(2019.6.16-6.19在美国洛杉矶举办) ...
CVPR 2019 论文汇总（按方向划分，0409 更新中）[转载]
转载链接:http://bbs.cvmart.net/topics/302/cvpr2019paper 作为计算机视觉领域三大顶会之一,CVPR2019(2019.6.16-6.19在美国洛杉矶举办) ...

One-Stage Visual Grounding论文汇总

目录

现有方法

2017 arXiv

题目

动机

简介

2017 CVPR

题目

动机

简介

2017 CVPR

题目

动机

简介

2017 IJCAI

题目

动机

简介

2018 arXiv

题目

动机

简介

2018 CVPR

题目

动机

简介

2019 ICCV

题目

动机

简介

2019 ICCV

题目

2019 WACV

题目

动机

简介

2020 CVPR

题目

动机

简介

2020 ECCV

题目

动机

简介

2020 ECCV

题目

2020 ECCV

题目

xxx

题目

动机

简介

总结

one-stage解决的问题

one-stage方法的好处

One-Stage Visual Grounding论文汇总相关推荐

最新文章

热门文章