One-Stage Visual Grounding via Semantic-Aware Feature Filter
**本文内容仅代表个人理解,如有错误,欢迎指正**
隐约感觉到最近看的几篇论文都指出之前One-stage visual grounding methods大多利用pre-trained BERT将query编码为一个holistic vector,比较方便简单。但这样做的话,弱化了query中存在的语义信息,即对query的信息挖掘不足。所以,最近的文章都立足于如何能够更好地挖掘并利用query中存在的语义信息,从而辅助模型更准确地进行目标物体的框选。
1. Problem
本篇论文主要解决的问题:之前的一些方法直接将提取出的textual feature和visual feature map简单concatenate(拼接)起来,忽略了textual semantics(query中存在的语义信息),即没有很好地利用起query中包含的信息,从而降低了模型的表现。(其实说得有点笼统,只能说这个问题是存在的,但是这个解释有点弱)
2. Point
本篇论文的亮点在于:
1. 利用Standford Scene Graph Parser将query转化为Scene graph作为除Visual feature maps和query representations之外的一个额外输入,帮助模型更好地理解query中存在的语义信息(论文作者认为,"different aspects of the query have different effects on visual grounding and should be dealt with separately",个人理解是,要对query进行分析、分解,并根据query中词的不同有针对性地进行处理)。
2. 提出Entity-Attribute-Location Module(Filters),充分利用query representation和scene graph信息逐步过滤visual feature map中不相关的部分,从而准确框选出目标物体。
3. Main Components
- 本篇论文的模型主要可以分为三个部分 1. Image and text representation 2. Entity-Attribute-Location filtering module 3. grounding module 具体模型图如Figure 2所示,简单来说就是当我们得到visual feature map之后,我们通过Entity Filter、Attribute Filter以及Location Filter逐步过滤掉该feature map中不相关的部分,得到最终的一个相关性被增强了的feature map输入到grounding module中进行目标物体的预测。接下来我们将依次介绍以上三个部分。
3.1. Image and text representation
- 首先要清楚的是,我们的输入有两部分,1. Input image 2. Input query。
针对Input image,该模型通过Darknet-53+Path Aggregation Network得到visual feature map,并加入一个spatial feature map(因为Darknet53更注重于object的appearance,对位置信息不是非常敏感)与visual feature map进行拼接,得到最终的feature map。
针对Input query,主要做了两个操作。
1. 利用pre-trained BERT提取textual feature。
2. 利用Scene Graph Parser,依据query构建一个scene graph来捕捉query中的语义结构(论文作者在文中提到,虽然有些works表示Pre-trained BERT具有从句子中提取出语义结构的能力,但还是很难在vector representation中体现出来)。
* 针对scene graph,举个例子辅助理解。给定一个句子s,利用scene graph parser将句子s构建为一个scene graph,
One-Stage Visual Grounding via Semantic-Aware Feature Filter相关推荐
- One-Stage Visual Grounding论文汇总
目录 现有方法 2017 arXiv 题目 动机 简介 2017 CVPR 题目 动机 简介 2017 CVPR 题目 动机 简介 2017 IJCAI 题目 动机 简介 2018 arXiv 题目 ...
- ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记
目录 简介 动机 贡献 方法 实验 简介 本文出自罗彻斯特大学+腾讯AI Lab 下载链接 动机 现有的visual grounding方法可以分为两类:一阶段.两阶段.本文面向一阶段方法,提升现有方 ...
- 论文阅读:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018)
协同分割论文:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018) 论文原文 code 目录 1.简介 2. ...
- ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记
目录 简介 动机 贡献 方法 实验 简介 本文出自香港大学的sibei,二作是中山大学李冠斌老师 下载链接 动机 Phrase level visual grounding具有两个challenge: ...
- One-Stage Visual Grounding之一种快速准确的单阶段视觉定位
One-Stage Visual Grounding之一种快速.准确的单阶段视觉定位方法 前言 两阶段框架存在的缺陷 单阶段视觉定位的优点 单阶段视觉定位的方法 视觉和文本特征编码 空间特征编码 融合 ...
- 国科大港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)...
关注公众号,发现CV技术之美 本文分享 CVPR 2022 的一篇论文『Improving features Visual Grounding with Visual-Linguistic Verifi ...
- 论文:TransVG: End-to-End Visual Grounding with Transformers
作者 Abstract 在本文中,我们提出了一个简洁而有效的基于转换的视觉基础框架,即TransVG,以解决将语言查询与图像上相应区域的基础任务.最先进的方法,包括两阶段或一阶段的方法,依赖于一个复杂 ...
- Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...
- 视觉里程计 | OF-VO:Robust and Efficient Stereo Visual Odometry Using Points and Feature Optical Flow
博主github:https://github.com/MichaelBeechan 博主CSDN:https://blog.csdn.net/u011344545 代码执行环境:Windows 8 ...
最新文章
- 十一、explain属性介绍
- [android] 切换按钮-自定义控件-拖动效果
- 项目Alpha冲刺——代码规范、本次冲刺任务与计划
- python数组求和函数_python数据分析之Numpy数据库第三期数组的运算
- ElementUI中Transfer穿梭框的使用、赋值取值进而实现新增和编辑功能
- redis队列缓存 + mysql 批量入库 + php离线整合
- Program terminated with signal 11, Segmentation fault.
- Android极光推送
- 什么是jQuery?
- python modbus类封装_Python | 面向对象程序设计来了!
- linux验证db2安装成功_DB2(Linux 64位)安装教程
- 表妹即将去读研,我送了她11个建议
- CMU 15-213 Introduction to Computer Systems学习笔记(21) Synchronization: Basic
- vue 项目使用通过经纬度显示地图
- Windows网络编程之(二)Socket通信非阻塞模式Select(TCP和UDP)
- KindEditor上传图片word
- html js 邮箱格式,email 格式_JavaScript验证Email邮箱格式的三种方法
- 【javascript】详解javaScript的深拷贝
- 黑CNN网站:解恨但不明智
- 案例分享 | 蜂窝,是“蜂窝”,虹科HK-DAT数字衰减器助力蜂窝设备测试
热门文章
- 互联网协议 — Ethernet — 网络数据报文的传输方式
- MySQL视图——创建视图、修改视图、删除视图、查看视图和更新视图
- 虚函数,虚函数表,虚函数实现原理,虚函数实现机制,虚函数解决的问题
- Windows驱动_WDDM之二
- python甜橙歌曲音乐网站平台源码
- Debian虚拟机安装常用软件
- 根据汉字获取它的字符串拼音首字母(大写),含多音字
- Unicode编码和Base64编码
- The service cannot be activated because it does not support ASP.NET compatibility
- 认证管理(锐捷业软篇)