ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记
目录
- 简介
- 动机
- 贡献
- 方法
- 实验
简介
本文出自罗彻斯特大学+腾讯AI Lab
下载链接
动机
现有的visual grounding方法可以分为两类:一阶段、两阶段。本文面向一阶段方法,提升现有方法处理长(long)、复杂(complex)query的能力。本质是:本文提出了一个可以用在一阶段visual grounding模型中的query modeling方法(两阶段模型中有很多query modeling方法,但是由于一些限制,不能直接用于一阶段模型)。
贡献
- 对一阶段的visual grounding方法进行了改善,提升了其处理长且复杂的query的能力;
- 提出了一个递归的子查询构建网络,通过递归来降低referring ambiguity;
- 实验结果好,在不同数据集上提升5-12个百分点。
方法
本文方法的整体架构如下图所示,共包含两个核心模块:子查询学习器(Sub-query Learner)和子查询调制器(Sub-query Modulation)。
子查询学习器负责学习Query中每个word的注意力αn(k)\alpha_n^{(k)}αn(k),通过下式得到:
αn(k)=softmax[Wa1(k)tanh(Wa0(k)hn(k)(v‾(k−1)⊙sn)+ba0(k))+ba1(k))]\alpha_n^{(k)}=\text{softmax}[W_{a1}^{(k)} \text{tanh}(W_{a0}^{(k)} h_{n}^{(k)} (\overline{v}^{(k-1)} \odot s_n ) + b_{a0}^{(k)} ) + b_{a1}^{(k)} )]αn(k)=softmax[Wa1(k)tanh(Wa0(k)hn(k)(v(k−1)⊙sn)+ba0(k))+ba1(k))]
可以看出,学习注意力的过程中,同时考虑了{sn}n=1N\{s_n\}_{n=1}^{N}{sn}n=1N(query word feature,N代表word个数)、v‾(k−1)\overline{v}^{(k-1)}v(k−1)(text-conditional visual feature)和{hn(k)}n=1N\{h_{n}^{(k)}\}_{n=1}^{N}{hn(k)}n=1N(history vector)。其中:
- {sn}n=1N\{s_n\}_{n=1}^{N}{sn}n=1N没什么好说的,就是query中每个单词的特征;
- v‾(k−1)\overline{v}^{(k-1)}v(k−1)是上一轮得到的text-conditional visual feature的均值池化(H×W×C→1×1×CH \times W \times C \rightarrow 1 \times 1 \times CH×W×C→1×1×C);
- {hn(k)}n=1N\{h_{n}^{(k)}\}_{n=1}^{N}{hn(k)}n=1N表示每个word在以前的迭代过程中没被“访问”的概率,通过h(k)=1−min(∑i=1k−1α(i),1)\bf{h}^{(k)} = \textbf{1} - \text{min}(\sum_{i=1}^{k-1}\bf{\alpha}^{(i)}, \bf{1})h(k)=1−min(∑i=1k−1α(i),1)计算。
对于这部分,作者添加了两个loss,如下所示:
- Ldiv=∣∣ATA⊙(1−I)∣∣F2L_{div}=|| A^TA \odot ({\bf 1}-I) ||^2_FLdiv=∣∣ATA⊙(1−I)∣∣F2,AAA是K×NK \times NK×N的矩阵,由每轮迭代得到的attention拼接而成,KKK是迭代轮数,NNN是word个数。此loss用于控制每一轮中,不应该focus在相同的单词上,也就是强制提升每轮迭代关注的单词的差异性。
- Lcover=∣∣1−min(∑i=1Kα(i),1)∣∣1L_{cover} = || \bf1-\text{min}(\sum_{i=1}^K {\bf \alpha}^{(i)}, \bf 1) ||_1Lcover=∣∣1−min(∑i=1Kα(i),1)∣∣1,此loss用于提升word的查全性。
子查询调制器就是基于子查询学习器得到的注意力,对text-conditional visual feature进行refine,增强referred object的特征,并压制其他object的特征。共分为三步:
- 基于子查询学习器得到的αn(k)\alpha_n^{(k)}αn(k)对sns_nsn添加attention,得到q(k)=∑n=1Nαn(k)snq^{(k)}=\sum_{n=1}^N\alpha_n^{(k)}s_nq(k)=∑n=1Nαn(k)sn;
- 基于q(k)q^{(k)}q(k),分别使用两个MLPs得到尺度向量γ(k)=tanh(Wγ(k)q(k)+bγ(k))\gamma^{(k)}=\text{tanh}(W_\gamma^{(k)}q^{(k)} + b_\gamma^{(k)})γ(k)=tanh(Wγ(k)q(k)+bγ(k))和平移向量β(k)=tanh(Wβ(k)q(k)+bβ(k))\beta^{(k)}=\text{tanh}(W_\beta^{(k)}q^{(k)} + b_\beta^{(k)})β(k)=tanh(Wβ(k)q(k)+bβ(k))。
- 基于上一轮迭代得到的text-conditional visual feature v(k−1)v^{(k-1)}v(k−1)、尺度向量γ(k)\gamma^{(k)}γ(k)和平移向量β(k)\beta^{(k)}β(k),计算得到此轮的text-conditional visual feature v(k)v^{(k)}v(k),具体公式为:
v(k)(i,j)=f2{ReLU[f1(v(k−1)(i,j))⊙γ(k)+β(k)]+v(k−1)(i,j)}v^{(k)}(i,j)=f_2\{ ReLU[f_1(v^{(k-1)}(i,j)) \odot \gamma^{(k)} + \beta^{(k)}] +v^{(k-1)}(i,j) \}v(k)(i,j)=f2{ReLU[f1(v(k−1)(i,j))⊙γ(k)+β(k)]+v(k−1)(i,j)}
上式中,f1,f2f_1, f_2f1,f2是两个可学习的mapping层,具体结构在上面的整体框架图中有展示,f1=1×1conv+instance normalization layerf_1=1 \times 1 \space \text{conv} + \text{instance normalization layer}f1=1×1 conv+instance normalization layer,f2=3×3conv+BN+ReLUf_2=3 \times 3 \space \text{conv} + \text{BN} + \text{ReLU}f2=3×3 conv+BN+ReLU。
实验
在RefCOCO、RefCOCO+和RefCOCOg上的实验结果:
在ReferItGame和Flickr30K Entities上的实验结果:
关于query modeling的消融实验:
一些可视化的结果:
ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记相关推荐
- ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记
目录 简介 动机 贡献 方法 实验 简介 本文设计了一个Cross-Modality Relevance Module(跨模态相关模块),对不同模态的信息进行关联,且在不同的task上都是端到端训练. ...
- Learning Visual Commonsense for Robust Scene Graph Generation论文笔记
原论文地址:https://link.springer.com/content/pdf/10.1007/978-3-030-58592-1_38.pdf 目录 总体结构: 感知模型GLAT: 融合感知 ...
- CVPR 2020 《Context-Aware Group Captioning via Self-Attention and Contrastive Features》论文笔记(数据集)
目录 简介 动机 贡献 方法 实验 简介 本文提出了一个新任务--Group Captioning,就是在一堆图片中,对特定的几个图片生成caption,生成的caption要具备选定的图片的特性,且 ...
- ECCV 2018 《Triplet Loss in Siamese Network for Object Tracking》论文笔记
目录 模型概况 实验结果 理解出错之处望不吝指正. 文章链接 模型概况 模型结构如下图所示: 本模型与SiamFC的区别在于:提出了一种不同于SiamFC的损失函数. ...
- ECCV 2018 MemTrack:《Learning Dynamic Memory Networks for Object Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做MemTrack.本文的模型是基于相似学习的,主要有两个创新点:①.设计一个动态记忆网络:②.使用门控剩余模板和初始模板,生成最终的匹配模板.模型的整体架构如下: ...
- CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记
理解出错之处望不吝指正. 本文模型叫做ADNet.该模型通过强化学习产生动作序列(对bbox进行移动or尺度变换)来进行tracking.原理如下图(第一列代表初始帧,第二列和第三列代表通过RL产生的 ...
- ECCV 2012 KCF/DCF:《High-speed tracking with kernelized correlation filters》论文笔记
理解出错之处望不吝指正. 本文模型就是大名鼎鼎的KCF/DCF. 本文在CSK的基础上进行了一些改进,大致如下: (1)不像CSK中使用的是灰度特征,本文使用HOG特征: (2)使用HOG特征+高斯核 ...
- ECCV 2012 CSK:《Exploiting the circulantstructure of tracking-by-detection with kernels》论文笔记
理解出错之处望不吝指正. 本文模型就是大名鼎鼎的CSK. 本文的贡献: (1)稠密采样.循环移位: (2)循环矩阵带来的快速计算: (3)计算了不同的核函数的封闭解. . 稠密采样.循环移位 如上图所 ...
- One-Stage Visual Grounding论文汇总
目录 现有方法 2017 arXiv 题目 动机 简介 2017 CVPR 题目 动机 简介 2017 CVPR 题目 动机 简介 2017 IJCAI 题目 动机 简介 2018 arXiv 题目 ...
最新文章
- mysql 资源占用过高分析和解决方法
- YCbCr与YUV的区别
- 大型web系统数据缓存设计-l转载
- java面试题在线做_java考试题目及答案也可以当面试题
- php+node+redis,redis,nodejs,php,pub/sub 实战: 微信语音识别
- 【算法竞赛学习】数据分析达人赛2:产品关联分析
- 让apache解析html里的php代码,让Apache解析html文件中的php语句
- ajax jsonp img
- java printwriter 没有关闭_Java PrintWriter close()方法
- VB.NET工作笔记005---用visual studio2017 编写WCF vb.net webservice
- FL Studio新手教程:FL Studio五大常用按钮介绍
- “熊猫烧香”有新变种 可自动下载病毒
- SLAM技术与市场杂谈
- Linux C语言编程学习材料
- java前后端分离怎么测试,前后端分离如何提高开发测试效率
- html2canvas苹果不显示图片,html2canvas页面截图图片不显示
- 服装行业ERP选型咨询提纲
- IT 行业平均薪资第一
- 基于Android Tiny4412平台---敦泰I2C接口FT5X06电容屏驱动原理及软件架构分析
- 六 系统可靠性分析与设计
热门文章
- 科大星云诗社动态20210406
- 二、“究恒常之宇宙,成一家之学说”
- 开源!《模式识别与机器学习(PRML)》笔记、代码、NoteBooks 发布
- php 表单录入,PHP 表单和用户输入
- python获得用户输入的一个字符串(长度3)_python3 字符串属性(一)
- 推荐系统常用术语 [ACM暑校]
- 信号分解:标架、对偶标架、紧标架
- Delphi十进制和十六进制互转 Delphi 自带函数 IntToHex
- 一招让你彻底掌握C语言中运用宏以及#与##的妙用
- volatile类型的数据