**本文内容仅代表个人理解,如有错误,欢迎指正**

隐约感觉到最近看的几篇论文都指出之前One-stage visual grounding methods大多利用pre-trained BERT将query编码为一个holistic vector,比较方便简单。但这样做的话,弱化了query中存在的语义信息,即对query的信息挖掘不足。所以,最近的文章都立足于如何能够更好地挖掘并利用query中存在的语义信息,从而辅助模型更准确地进行目标物体的框选。

1. Problem

本篇论文主要解决的问题:之前的一些方法直接将提取出的textual feature和visual feature map简单concatenate(拼接)起来,忽略了textual semantics(query中存在的语义信息),即没有很好地利用起query中包含的信息,从而降低了模型的表现。(其实说得有点笼统,只能说这个问题是存在的,但是这个解释有点弱)

2. Point

本篇论文的亮点在于:

1. 利用Standford Scene Graph Parser将query转化为Scene graph作为除Visual feature maps和query representations之外的一个额外输入,帮助模型更好地理解query中存在的语义信息(论文作者认为,"different aspects of the query have different effects on visual grounding and should be dealt with separately",个人理解是,要对query进行分析、分解,并根据query中词的不同有针对性地进行处理)。

2. 提出Entity-Attribute-Location Module(Filters),充分利用query representation和scene graph信息逐步过滤visual feature map中不相关的部分,从而准确框选出目标物体。

3. Main Components

- 本篇论文的模型主要可以分为三个部分 1. Image and text representation 2. Entity-Attribute-Location filtering module 3. grounding module 具体模型图如Figure 2所示,简单来说就是当我们得到visual feature map之后,我们通过Entity Filter、Attribute Filter以及Location Filter逐步过滤掉该feature map中不相关的部分,得到最终的一个相关性被增强了的feature map输入到grounding module中进行目标物体的预测。接下来我们将依次介绍以上三个部分。

3.1. Image and text representation

- 首先要清楚的是,我们的输入有两部分,1. Input image 2. Input query。

针对Input image,该模型通过Darknet-53+Path Aggregation Network得到visual feature map,并加入一个spatial feature map(因为Darknet53更注重于object的appearance,对位置信息不是非常敏感)与visual feature map进行拼接,得到最终的feature map。

针对Input query,主要做了两个操作。

1. 利用pre-trained BERT提取textual feature。

2. 利用Scene Graph Parser,依据query构建一个scene graph来捕捉query中的语义结构(论文作者在文中提到,虽然有些works表示Pre-trained BERT具有从句子中提取出语义结构的能力,但还是很难在vector representation中体现出来)。

* 针对scene graph,举个例子辅助理解。给定一个句子s,利用scene graph parser将句子s构建为一个scene graph,

One-Stage Visual Grounding via Semantic-Aware Feature Filter相关推荐

  1. One-Stage Visual Grounding论文汇总

    目录 现有方法 2017 arXiv 题目 动机 简介 2017 CVPR 题目 动机 简介 2017 CVPR 题目 动机 简介 2017 IJCAI 题目 动机 简介 2018 arXiv 题目 ...

  2. ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文出自罗彻斯特大学+腾讯AI Lab 下载链接 动机 现有的visual grounding方法可以分为两类:一阶段.两阶段.本文面向一阶段方法,提升现有方 ...

  3. 论文阅读:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018)

    协同分割论文:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018) 论文原文     code 目录 1.简介 2. ...

  4. ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文出自香港大学的sibei,二作是中山大学李冠斌老师 下载链接 动机 Phrase level visual grounding具有两个challenge: ...

  5. One-Stage Visual Grounding之一种快速准确的单阶段视觉定位

    One-Stage Visual Grounding之一种快速.准确的单阶段视觉定位方法 前言 两阶段框架存在的缺陷 单阶段视觉定位的优点 单阶段视觉定位的方法 视觉和文本特征编码 空间特征编码 融合 ...

  6. 国科大港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)...

    关注公众号,发现CV技术之美 本文分享 CVPR 2022 的一篇论文『Improving features Visual Grounding with Visual-Linguistic Verifi ...

  7. 论文:TransVG: End-to-End Visual Grounding with Transformers

    作者 Abstract 在本文中,我们提出了一个简洁而有效的基于转换的视觉基础框架,即TransVG,以解决将语言查询与图像上相应区域的基础任务.最先进的方法,包括两阶段或一阶段的方法,依赖于一个复杂 ...

  8. Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记

    Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...

  9. 视觉里程计 | OF-VO:Robust and Efficient Stereo Visual Odometry Using Points and Feature Optical Flow

    博主github:https://github.com/MichaelBeechan 博主CSDN:https://blog.csdn.net/u011344545 代码执行环境:Windows 8 ...

最新文章

  1. 十一、explain属性介绍
  2. [android] 切换按钮-自定义控件-拖动效果
  3. 项目Alpha冲刺——代码规范、本次冲刺任务与计划
  4. python数组求和函数_python数据分析之Numpy数据库第三期数组的运算
  5. ElementUI中Transfer穿梭框的使用、赋值取值进而实现新增和编辑功能
  6. redis队列缓存 + mysql 批量入库 + php离线整合
  7. Program terminated with signal 11, Segmentation fault.
  8. Android极光推送
  9. 什么是jQuery?
  10. python modbus类封装_Python | 面向对象程序设计来了!
  11. linux验证db2安装成功_DB2(Linux 64位)安装教程
  12. 表妹即将去读研,我送了她11个建议
  13. CMU 15-213 Introduction to Computer Systems学习笔记(21) Synchronization: Basic
  14. vue 项目使用通过经纬度显示地图
  15. Windows网络编程之(二)Socket通信非阻塞模式Select(TCP和UDP)
  16. KindEditor上传图片word
  17. html js 邮箱格式,email 格式_JavaScript验证Email邮箱格式的三种方法
  18. 【javascript】详解javaScript的深拷贝
  19. 黑CNN网站:解恨但不明智
  20. 案例分享 | 蜂窝,是“蜂窝”,虹科HK-DAT数字衰减器助力蜂窝设备测试

热门文章

  1. 互联网协议 — Ethernet — 网络数据报文的传输方式
  2. MySQL视图——创建视图、修改视图、删除视图、查看视图和更新视图
  3. 虚函数,虚函数表,虚函数实现原理,虚函数实现机制,虚函数解决的问题
  4. Windows驱动_WDDM之二
  5. python甜橙歌曲音乐网站平台源码
  6. Debian虚拟机安装常用软件
  7. 根据汉字获取它的字符串拼音首字母(大写),含多音字
  8. Unicode编码和Base64编码
  9. The service cannot be activated because it does not support ASP.NET compatibility
  10. 认证管理(锐捷业软篇)