目录

  • 现有方法
    • 2017 arXiv
      • 题目
      • 动机
      • 简介
    • 2017 CVPR
      • 题目
      • 动机
      • 简介
    • 2017 CVPR
      • 题目
      • 动机
      • 简介
    • 2017 IJCAI
      • 题目
      • 动机
      • 简介
    • 2018 arXiv
      • 题目
      • 动机
      • 简介
    • 2018 CVPR
      • 题目
      • 动机
      • 简介
    • 2019 ICCV
      • 题目
      • 动机
      • 简介
    • 2019 ICCV
      • 题目
    • 2019 WACV
      • 题目
      • 动机
      • 简介
    • 2020 CVPR
      • 题目
      • 动机
      • 简介
    • 2020 ECCV
      • 题目
      • 动机
      • 简介
    • 2020 ECCV
      • 题目
    • 2020 ECCV
      • 题目
    • xxx
      • 题目
      • 动机
      • 简介
  • 总结
    • one-stage解决的问题
    • one-stage方法的好处

现有方法

2017 arXiv

题目

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Learning
下载链接

动机

本文面向natural language object retrieval任务,已有方法分为两阶段,先提取proposals,再生成每个proposal的score并排序。这样生成的proposals是冗余的,且和referred object不相关。具体来说,已有方法(proposal based)有以下缺点:

  • 两个阶段相互独立,训练过程没有对齐,导致结果为次优解。
  • 这类方法需要提取很多的proposals来保证recall,这造成了冗余,并降低了ranking function的判别能力。

简介

将文本特征和图像特征融合,再使用强化学习进行定位。

2017 CVPR

题目

A Joint Speaker-Listener-Reinforcer Model for Referring Expressions
下载链接

动机

Generation和Comprehension是两个独立逆任务,现有的方法都是单独针对某个任务进行。本文将两个逆任务联合,并添加强化学习策略,达到了更优的实验结果。

简介

Speaker负责生成文本描述,Listener负责理解文本描述,Reinforcer负责控制采样,使Speaker生成的expressions具有多样性。在训练完成后,Speaker和Listener都可以单独用于grounding任务。对于Speaker,使用每个region生成expression,取与query相似度最高的expression对应的region作为结果。对于Listener,直接计算每个region和query的相似度,选score最大的即可。

2017 CVPR

题目

Weakly-supervised Visual Grounding of Phrases with Linguistic Structures
下载链接

动机

传统的监督框架,依赖于带有边框或像素级别标注的数据集,而随着领域朝着解决更大规模问题的方向发展,获取大量的这类标注数据成为了瓶颈。本文应对以上问题,提出了弱监督的视觉定位方法,可以基于图像等级的标注(没有region-phrase标注)进行训练,生成像素级别的grounding结果。

简介

本文是第一个用语言层级结构进行弱监督视觉定位的方法。文中使用了两个loss,分别是structural loss和discriminative loss。前者用于使文本短语编码的结构和视觉注意力掩码相匹配,后者用于匹配image-phrase pairs。

2017 IJCAI

题目

An Attention-based Regression Model for Grounding Textual Phrases in Images
下载链接

动机

现有方法基于proposals,模型的最终性能取决于生成proposals的方法,这类方法也带来了额外的计算成本。本文将grounding视为一个回归问题,提出了可以直接识别短语对应区域的方法,省去了生成proposals带来的计算量。作者总结了proposal based方法的缺点:

  • 正确的region不一定包含在proposals中。
  • 对不包含正确region的proposals进行ranking是很困难的。

简介

方法如图,没什么好说的。

2018 arXiv

题目

Real-Time Referring Expression Comprehension by Single-Stage Grounding Network
下载链接

动机

现有方法为三阶段,①生成proposals;②对两种模态进行encode;③基于matching score进行ranking。经过作者统计,这类方法第一步会耗费较多时间,因此并不适用于有实时需求的场景。

简介

方法看图即懂。

2018 CVPR

题目

Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding
下载链接

动机

现有方法没有完全挖掘多模态表示和映射空间,本文提出multi-level多模态注意力机制,可以在不同的语义等级下,生成word-level或sentence-level的注意力图。

简介

下图是本文方法的大致流程,具体的模块设计参见论文。

2019 ICCV

题目

A Fast and Accurate One-Stage Approach to Visual Grounding
下载链接

动机

两阶段方法依赖于proposals的质量,如果在第一阶段生成的proposals没有很好的cover ground truth,那么二阶段是没有意义的。且所有的proposals只有1-2个是正确的,浪费了很多计算资源处理错误的proposals。

简介

针对上述问题,本文提出在YOLOv3中嵌入文本查询信息,在准确性和速度上都取得了不错的结果。

2019 ICCV

题目

Zero-Shot Grounding of Objects from Natural Language Queries
参考链接

2019 WACV

题目

Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining
下载链接

动机

在VQA问题中,对生成answer的同时,得到relevant regions是很有必要的,这在一定程度上可以验证模型的可解释性。已有的方法通过注意力机制,高亮和answer相关的区域,注意力机制的使用方法可以分为了两类:①在模型的中间部分使用注意力,不需要监督信息,依靠模型的最终输出进行训练;②在模型的输出部分使用注意力,需要使用额外监督信息。针对第①类方法,模型学到的注意力往往提供不了可解释信息;针对第②类方法,标注信息较为昂贵,且标注人员和我们的关注点可能不同,会带来歧义。

简介

本文利用Visual Genome数据集中的region descriptions和object annotations自动构建可用于注意力监督的attention map。

本文主要的创新点在Attention Supervision Module,即联合visual grounding作为辅助。

2020 CVPR

题目

A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension
下载链接

动机

现有方法由于采用两阶段框架(proposal generation、proposal ranking),在不降低精度的同时,无法达到实时推理。本文从以上问题出发,提出RCCF方法,可以在单GPU上达到40FPS,约为two-stage方法的两倍。

简介

作者将相关滤波融入多模态任务中,让我有一种这是tracking方法的感觉。

2020 ECCV

题目

Improving One-stage Visual Grounding by Recursive Sub-query Construction
下载链接

动机

现有的visual grounding方法可以分为两类:一阶段、两阶段。本文面向一阶段方法,提升现有方法处理长(long)、复杂(complex)query的能力。本质是:本文提出了一个可以用在一阶段visual grounding模型中的query modeling方法(两阶段模型中有很多query modeling方法,但是由于一些限制,不能直接用于一阶段模型)。

简介

下图中,子查询学习器负责学习Query中每个word的注意力,子查询调制器负责基于子查询学习器得到的注意力,对text-conditional visual feature进行refine,增强referred object的特征,并压制其他object的特征。本文方法的详细介绍参见这篇博客

2020 ECCV

题目

Linguistic Structure Guided Context Modeling for Referring Image Segmentation
参考链接

2020 ECCV

题目

Propagating Over Phrase Relations for One-Stage Visual Grounding
参考链接

xxx

题目

下载链接

动机

简介

总结

one-stage解决的问题

  • 两阶段方法存在较多冗余的proposals,浪费计算资源,无法达到实时 →\rightarrow→ 更快的方法
  • 两阶段方法依赖于proposals质量 →\rightarrow→ 更准的方法

one-stage方法的好处

  • 速度快
  • 更符合人类的认知过程

One-Stage Visual Grounding论文汇总相关推荐

  1. Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记

    Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...

  2. ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文出自香港大学的sibei,二作是中山大学李冠斌老师 下载链接 动机 Phrase level visual grounding具有两个challenge: ...

  3. ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文出自罗彻斯特大学+腾讯AI Lab 下载链接 动机 现有的visual grounding方法可以分为两类:一阶段.两阶段.本文面向一阶段方法,提升现有方 ...

  4. 论文:TransVG: End-to-End Visual Grounding with Transformers

    作者 Abstract 在本文中,我们提出了一个简洁而有效的基于转换的视觉基础框架,即TransVG,以解决将语言查询与图像上相应区域的基础任务.最先进的方法,包括两阶段或一阶段的方法,依赖于一个复杂 ...

  5. oracle11g知乎,【AAAI】AAAI2020录用论文汇总(二)

    因为AAAI的接受论文官方还没有放出,并且放的也是出奇的慢,本文汇总了23日在arxiv上挂出来的AAAI2020文章,供大家挑选感兴趣的文章下载.第一部分可以看 忆臻:[AAAI]AAAI2020录 ...

  6. AAAI2020录用论文汇总(二)

    本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家.    AAAI2020论文汇总(part 2) [201] Colosseu ...

  7. AAAI2020录用论文汇总(三)

    本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家.    AAAI2020论文汇总(part 3) [401] Justific ...

  8. 【CVPR2019_论文汇总】(按方向划分,0401 更新中)

    转载链接:http://bbs.cvmart.net/topics/302/cvpr2019paper 作为计算机视觉领域三大顶会之一,CVPR2019(2019.6.16-6.19在美国洛杉矶举办) ...

  9. CVPR 2019 论文汇总(按方向划分,0409 更新中)[转载]

    转载链接:http://bbs.cvmart.net/topics/302/cvpr2019paper 作为计算机视觉领域三大顶会之一,CVPR2019(2019.6.16-6.19在美国洛杉矶举办) ...

最新文章

  1. 国内 Java 开发者必备的两个神器:Maven国内镜像和Spring国内脚手架
  2. 数据结构与算法:选择排序
  3. 《中国人工智能学会通讯》——12.58 大数据不确定性学习的研究
  4. 安装python环境与运行_专栏G|轻松学Python01:Python环境搭建与运行
  5. Geomesa-Hbase单机部署及ingest、export shp文件数据
  6. 在Windows平台如何选择C语言编译器?
  7. SQL:给查询添加一个合计行
  8. 大数据最核心的关键技术——32个算法,记得收藏!
  9. Flagger on ASM·基于Mixerless Telemetry实现渐进式灰度发布系列 1 遥测数据
  10. 华为交换机屏蔽远程计算机,华为交换机远程telnet配置的小问题
  11. sql语句延时执行或者是指定时间执行
  12. Protobuf学习 - 入门(转)
  13. 设计模式之建造者(builder)模式
  14. [渝粤教育] 天水师范学院 地理信息系统原理与方法 参考 资料
  15. 【已解决】您的PHP似乎没有安装运行WordPress所必需的MySQL扩展
  16. Hrbust 1788 Chocolate【Dp】
  17. kindle中html笔记,Kindle教程:如何导出笔记
  18. linux indent添加,linux indent格式化代码
  19. Unity 径向模糊 简易解决方案
  20. 分享几张与互联网相关的搞笑图片

热门文章

  1. 十三、“词短情长书不尽,桃花潭水是我心。”(2021.2.12)
  2. MindSpore!这款刚刚开源的深度学习框架我爱了!
  3. 一个网站拿下机器学习优质资源!搜索效率提高 50%
  4. 业务场景是什么意思_深度思考:麦乐积分兑换商城系统业务逻辑
  5. QString to const char*
  6. 常用Sqlserver中的查询语句
  7. 五十种巧妙优化SQL Server数据库
  8. Prn.txt Con.txt(文件命名的问题)
  9. C++之struct构造函数(2010-10-19 15:04:47)
  10. Spring TX源码分析