One-Stage Visual Grounding论文汇总
目录
- 现有方法
- 2017 arXiv
- 题目
- 动机
- 简介
- 2017 CVPR
- 题目
- 动机
- 简介
- 2017 CVPR
- 题目
- 动机
- 简介
- 2017 IJCAI
- 题目
- 动机
- 简介
- 2018 arXiv
- 题目
- 动机
- 简介
- 2018 CVPR
- 题目
- 动机
- 简介
- 2019 ICCV
- 题目
- 动机
- 简介
- 2019 ICCV
- 题目
- 2019 WACV
- 题目
- 动机
- 简介
- 2020 CVPR
- 题目
- 动机
- 简介
- 2020 ECCV
- 题目
- 动机
- 简介
- 2020 ECCV
- 题目
- 2020 ECCV
- 题目
- xxx
- 题目
- 动机
- 简介
- 总结
- one-stage解决的问题
- one-stage方法的好处
现有方法
2017 arXiv
题目
An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Learning
下载链接
动机
本文面向natural language object retrieval任务,已有方法分为两阶段,先提取proposals,再生成每个proposal的score并排序。这样生成的proposals是冗余的,且和referred object不相关。具体来说,已有方法(proposal based)有以下缺点:
- 两个阶段相互独立,训练过程没有对齐,导致结果为次优解。
- 这类方法需要提取很多的proposals来保证recall,这造成了冗余,并降低了ranking function的判别能力。
简介
将文本特征和图像特征融合,再使用强化学习进行定位。
2017 CVPR
题目
A Joint Speaker-Listener-Reinforcer Model for Referring Expressions
下载链接
动机
Generation和Comprehension是两个独立逆任务,现有的方法都是单独针对某个任务进行。本文将两个逆任务联合,并添加强化学习策略,达到了更优的实验结果。
简介
Speaker负责生成文本描述,Listener负责理解文本描述,Reinforcer负责控制采样,使Speaker生成的expressions具有多样性。在训练完成后,Speaker和Listener都可以单独用于grounding任务。对于Speaker,使用每个region生成expression,取与query相似度最高的expression对应的region作为结果。对于Listener,直接计算每个region和query的相似度,选score最大的即可。
2017 CVPR
题目
Weakly-supervised Visual Grounding of Phrases with Linguistic Structures
下载链接
动机
传统的监督框架,依赖于带有边框或像素级别标注的数据集,而随着领域朝着解决更大规模问题的方向发展,获取大量的这类标注数据成为了瓶颈。本文应对以上问题,提出了弱监督的视觉定位方法,可以基于图像等级的标注(没有region-phrase标注)进行训练,生成像素级别的grounding结果。
简介
本文是第一个用语言层级结构进行弱监督视觉定位的方法。文中使用了两个loss,分别是structural loss和discriminative loss。前者用于使文本短语编码的结构和视觉注意力掩码相匹配,后者用于匹配image-phrase pairs。
2017 IJCAI
题目
An Attention-based Regression Model for Grounding Textual Phrases in Images
下载链接
动机
现有方法基于proposals,模型的最终性能取决于生成proposals的方法,这类方法也带来了额外的计算成本。本文将grounding视为一个回归问题,提出了可以直接识别短语对应区域的方法,省去了生成proposals带来的计算量。作者总结了proposal based方法的缺点:
- 正确的region不一定包含在proposals中。
- 对不包含正确region的proposals进行ranking是很困难的。
简介
方法如图,没什么好说的。
2018 arXiv
题目
Real-Time Referring Expression Comprehension by Single-Stage Grounding Network
下载链接
动机
现有方法为三阶段,①生成proposals;②对两种模态进行encode;③基于matching score进行ranking。经过作者统计,这类方法第一步会耗费较多时间,因此并不适用于有实时需求的场景。
简介
方法看图即懂。
2018 CVPR
题目
Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding
下载链接
动机
现有方法没有完全挖掘多模态表示和映射空间,本文提出multi-level多模态注意力机制,可以在不同的语义等级下,生成word-level或sentence-level的注意力图。
简介
下图是本文方法的大致流程,具体的模块设计参见论文。
2019 ICCV
题目
A Fast and Accurate One-Stage Approach to Visual Grounding
下载链接
动机
两阶段方法依赖于proposals的质量,如果在第一阶段生成的proposals没有很好的cover ground truth,那么二阶段是没有意义的。且所有的proposals只有1-2个是正确的,浪费了很多计算资源处理错误的proposals。
简介
针对上述问题,本文提出在YOLOv3中嵌入文本查询信息,在准确性和速度上都取得了不错的结果。
2019 ICCV
题目
Zero-Shot Grounding of Objects from Natural Language Queries
参考链接
2019 WACV
题目
Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining
下载链接
动机
在VQA问题中,对生成answer的同时,得到relevant regions是很有必要的,这在一定程度上可以验证模型的可解释性。已有的方法通过注意力机制,高亮和answer相关的区域,注意力机制的使用方法可以分为了两类:①在模型的中间部分使用注意力,不需要监督信息,依靠模型的最终输出进行训练;②在模型的输出部分使用注意力,需要使用额外监督信息。针对第①类方法,模型学到的注意力往往提供不了可解释信息;针对第②类方法,标注信息较为昂贵,且标注人员和我们的关注点可能不同,会带来歧义。
简介
本文利用Visual Genome数据集中的region descriptions和object annotations自动构建可用于注意力监督的attention map。
本文主要的创新点在Attention Supervision Module,即联合visual grounding作为辅助。
2020 CVPR
题目
A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension
下载链接
动机
现有方法由于采用两阶段框架(proposal generation、proposal ranking),在不降低精度的同时,无法达到实时推理。本文从以上问题出发,提出RCCF方法,可以在单GPU上达到40FPS,约为two-stage方法的两倍。
简介
作者将相关滤波融入多模态任务中,让我有一种这是tracking方法的感觉。
2020 ECCV
题目
Improving One-stage Visual Grounding by Recursive Sub-query Construction
下载链接
动机
现有的visual grounding方法可以分为两类:一阶段、两阶段。本文面向一阶段方法,提升现有方法处理长(long)、复杂(complex)query的能力。本质是:本文提出了一个可以用在一阶段visual grounding模型中的query modeling方法(两阶段模型中有很多query modeling方法,但是由于一些限制,不能直接用于一阶段模型)。
简介
下图中,子查询学习器负责学习Query中每个word的注意力,子查询调制器负责基于子查询学习器得到的注意力,对text-conditional visual feature进行refine,增强referred object的特征,并压制其他object的特征。本文方法的详细介绍参见这篇博客
2020 ECCV
题目
Linguistic Structure Guided Context Modeling for Referring Image Segmentation
参考链接
2020 ECCV
题目
Propagating Over Phrase Relations for One-Stage Visual Grounding
参考链接
xxx
题目
下载链接
动机
简介
总结
one-stage解决的问题
- 两阶段方法存在较多冗余的proposals,浪费计算资源,无法达到实时 →\rightarrow→ 更快的方法
- 两阶段方法依赖于proposals质量 →\rightarrow→ 更准的方法
one-stage方法的好处
- 速度快
- 更符合人类的认知过程
One-Stage Visual Grounding论文汇总相关推荐
- Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...
- ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记
目录 简介 动机 贡献 方法 实验 简介 本文出自香港大学的sibei,二作是中山大学李冠斌老师 下载链接 动机 Phrase level visual grounding具有两个challenge: ...
- ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记
目录 简介 动机 贡献 方法 实验 简介 本文出自罗彻斯特大学+腾讯AI Lab 下载链接 动机 现有的visual grounding方法可以分为两类:一阶段.两阶段.本文面向一阶段方法,提升现有方 ...
- 论文:TransVG: End-to-End Visual Grounding with Transformers
作者 Abstract 在本文中,我们提出了一个简洁而有效的基于转换的视觉基础框架,即TransVG,以解决将语言查询与图像上相应区域的基础任务.最先进的方法,包括两阶段或一阶段的方法,依赖于一个复杂 ...
- oracle11g知乎,【AAAI】AAAI2020录用论文汇总(二)
因为AAAI的接受论文官方还没有放出,并且放的也是出奇的慢,本文汇总了23日在arxiv上挂出来的AAAI2020文章,供大家挑选感兴趣的文章下载.第一部分可以看 忆臻:[AAAI]AAAI2020录 ...
- AAAI2020录用论文汇总(二)
本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家. AAAI2020论文汇总(part 2) [201] Colosseu ...
- AAAI2020录用论文汇总(三)
本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家. AAAI2020论文汇总(part 3) [401] Justific ...
- 【CVPR2019_论文汇总】(按方向划分,0401 更新中)
转载链接:http://bbs.cvmart.net/topics/302/cvpr2019paper 作为计算机视觉领域三大顶会之一,CVPR2019(2019.6.16-6.19在美国洛杉矶举办) ...
- CVPR 2019 论文汇总(按方向划分,0409 更新中)[转载]
转载链接:http://bbs.cvmart.net/topics/302/cvpr2019paper 作为计算机视觉领域三大顶会之一,CVPR2019(2019.6.16-6.19在美国洛杉矶举办) ...
最新文章
- 国内 Java 开发者必备的两个神器:Maven国内镜像和Spring国内脚手架
- 数据结构与算法:选择排序
- 《中国人工智能学会通讯》——12.58 大数据不确定性学习的研究
- 安装python环境与运行_专栏G|轻松学Python01:Python环境搭建与运行
- Geomesa-Hbase单机部署及ingest、export shp文件数据
- 在Windows平台如何选择C语言编译器?
- SQL:给查询添加一个合计行
- 大数据最核心的关键技术——32个算法,记得收藏!
- Flagger on ASM·基于Mixerless Telemetry实现渐进式灰度发布系列 1 遥测数据
- 华为交换机屏蔽远程计算机,华为交换机远程telnet配置的小问题
- sql语句延时执行或者是指定时间执行
- Protobuf学习 - 入门(转)
- 设计模式之建造者(builder)模式
- [渝粤教育] 天水师范学院 地理信息系统原理与方法 参考 资料
- 【已解决】您的PHP似乎没有安装运行WordPress所必需的MySQL扩展
- Hrbust 1788 Chocolate【Dp】
- kindle中html笔记,Kindle教程:如何导出笔记
- linux indent添加,linux indent格式化代码
- Unity 径向模糊 简易解决方案
- 分享几张与互联网相关的搞笑图片
热门文章
- 十三、“词短情长书不尽,桃花潭水是我心。”(2021.2.12)
- MindSpore!这款刚刚开源的深度学习框架我爱了!
- 一个网站拿下机器学习优质资源!搜索效率提高 50%
- 业务场景是什么意思_深度思考:麦乐积分兑换商城系统业务逻辑
- QString to const char*
- 常用Sqlserver中的查询语句
- 五十种巧妙优化SQL Server数据库
- Prn.txt Con.txt(文件命名的问题)
- C++之struct构造函数(2010-10-19 15:04:47)
- Spring TX源码分析