简介

本文出自罗彻斯特大学+腾讯AI Lab
下载链接

动机

现有的visual grounding方法可以分为两类：一阶段、两阶段。本文面向一阶段方法，提升现有方法处理长（long）、复杂（complex）query的能力。本质是：本文提出了一个可以用在一阶段visual grounding模型中的query modeling方法（两阶段模型中有很多query modeling方法，但是由于一些限制，不能直接用于一阶段模型）。

贡献

对一阶段的visual grounding方法进行了改善，提升了其处理长且复杂的query的能力；
提出了一个递归的子查询构建网络，通过递归来降低referring ambiguity；
实验结果好，在不同数据集上提升5-12个百分点。

方法

本文方法的整体架构如下图所示，共包含两个核心模块：子查询学习器（Sub-query Learner）和子查询调制器（Sub-query Modulation）。

子查询学习器负责学习Query中每个word的注意力αn(k)\alpha_n^{(k)}αn(k)，通过下式得到：
αn(k)=softmax[Wa1(k)tanh(Wa0(k)hn(k)(v‾(k−1)⊙sn)+ba0(k))+ba1(k))]\alpha_n^{(k)}=\text{softmax}[W_{a1}^{(k)} \text{tanh}(W_{a0}^{(k)} h_{n}^{(k)} (\overline{v}^{(k-1)} \odot s_n ) + b_{a0}^{(k)} ) + b_{a1}^{(k)} )]αn(k)=softmax[Wa1(k)tanh(Wa0(k)hn(k)(v(k−1)⊙sn)+ba0(k))+ba1(k))]
可以看出，学习注意力的过程中，同时考虑了{sn}n=1N\{s_n\}_{n=1}^{N}{sn}n=1N（query word feature，N代表word个数）、v‾(k−1)\overline{v}^{(k-1)}v(k−1)（text-conditional visual feature）和{hn(k)}n=1N\{h_{n}^{(k)}\}_{n=1}^{N}{hn(k)}n=1N（history vector）。其中：

{sn}n=1N\{s_n\}_{n=1}^{N}{sn}n=1N没什么好说的，就是query中每个单词的特征；
v‾(k−1)\overline{v}^{(k-1)}v(k−1)是上一轮得到的text-conditional visual feature的均值池化（H×W×C→1×1×CH \times W \times C \rightarrow 1 \times 1 \times CH×W×C→1×1×C）；
{hn(k)}n=1N\{h_{n}^{(k)}\}_{n=1}^{N}{hn(k)}n=1N表示每个word在以前的迭代过程中没被“访问”的概率，通过h(k)=1−min(∑i=1k−1α(i),1)\bf{h}^{(k)} = \textbf{1} - \text{min}(\sum_{i=1}^{k-1}\bf{\alpha}^{(i)}, \bf{1})h(k)=1−min(∑i=1k−1α(i),1)计算。

对于这部分，作者添加了两个loss，如下所示：

Ldiv=∣∣ATA⊙(1−I)∣∣F2L_{div}=|| A^TA \odot ({\bf 1}-I) ||^2_FLdiv=∣∣ATA⊙(1−I)∣∣F2，AAA是K×NK \times NK×N的矩阵，由每轮迭代得到的attention拼接而成，KKK是迭代轮数，NNN是word个数。此loss用于控制每一轮中，不应该focus在相同的单词上，也就是强制提升每轮迭代关注的单词的差异性。
Lcover=∣∣1−min(∑i=1Kα(i),1)∣∣1L_{cover} = || \bf1-\text{min}(\sum_{i=1}^K {\bf \alpha}^{(i)}, \bf 1) ||_1Lcover=∣∣1−min(∑i=1Kα(i),1)∣∣1，此loss用于提升word的查全性。

子查询调制器就是基于子查询学习器得到的注意力，对text-conditional visual feature进行refine，增强referred object的特征，并压制其他object的特征。共分为三步：

基于子查询学习器得到的αn(k)\alpha_n^{(k)}αn(k)对sns_nsn添加attention，得到q(k)=∑n=1Nαn(k)snq^{(k)}=\sum_{n=1}^N\alpha_n^{(k)}s_nq(k)=∑n=1Nαn(k)sn；
基于q(k)q^{(k)}q(k)，分别使用两个MLPs得到尺度向量γ(k)=tanh(Wγ(k)q(k)+bγ(k))\gamma^{(k)}=\text{tanh}(W_\gamma^{(k)}q^{(k)} + b_\gamma^{(k)})γ(k)=tanh(Wγ(k)q(k)+bγ(k))和平移向量β(k)=tanh(Wβ(k)q(k)+bβ(k))\beta^{(k)}=\text{tanh}(W_\beta^{(k)}q^{(k)} + b_\beta^{(k)})β(k)=tanh(Wβ(k)q(k)+bβ(k))。
基于上一轮迭代得到的text-conditional visual feature v(k−1)v^{(k-1)}v(k−1)、尺度向量γ(k)\gamma^{(k)}γ(k)和平移向量β(k)\beta^{(k)}β(k)，计算得到此轮的text-conditional visual feature v(k)v^{(k)}v(k)，具体公式为：
v(k)(i,j)=f2{ReLU[f1(v(k−1)(i,j))⊙γ(k)+β(k)]+v(k−1)(i,j)}v^{(k)}(i,j)=f_2\{ ReLU[f_1(v^{(k-1)}(i,j)) \odot \gamma^{(k)} + \beta^{(k)}] +v^{(k-1)}(i,j) \}v(k)(i,j)=f2{ReLU[f1(v(k−1)(i,j))⊙γ(k)+β(k)]+v(k−1)(i,j)}
上式中，f1,f2f_1, f_2f1,f2是两个可学习的mapping层，具体结构在上面的整体框架图中有展示，f1=1×1conv+instance normalization layerf_1=1 \times 1 \space \text{conv} + \text{instance normalization layer}f1=1×1 conv+instance normalization layer，f2=3×3conv+BN+ReLUf_2=3 \times 3 \space \text{conv} + \text{BN} + \text{ReLU}f2=3×3 conv+BN+ReLU。

实验

在RefCOCO、RefCOCO+和RefCOCOg上的实验结果：

在ReferItGame和Flickr30K Entities上的实验结果：

关于query modeling的消融实验：

一些可视化的结果：

ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记相关推荐

ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记
目录简介动机贡献方法实验简介本文设计了一个Cross-Modality Relevance Module(跨模态相关模块),对不同模态的信息进行关联,且在不同的task上都是端到端训练. ...
Learning Visual Commonsense for Robust Scene Graph Generation论文笔记
原论文地址:https://link.springer.com/content/pdf/10.1007/978-3-030-58592-1_38.pdf 目录总体结构: 感知模型GLAT: 融合感知 ...
CVPR 2020 《Context-Aware Group Captioning via Self-Attention and Contrastive Features》论文笔记（数据集）
目录简介动机贡献方法实验简介本文提出了一个新任务--Group Captioning,就是在一堆图片中,对特定的几个图片生成caption,生成的caption要具备选定的图片的特性,且 ...
ECCV 2018 《Triplet Loss in Siamese Network for Object Tracking》论文笔记
目录模型概况实验结果理解出错之处望不吝指正. 文章链接模型概况模型结构如下图所示: 本模型与SiamFC的区别在于:提出了一种不同于SiamFC的损失函数. ...
ECCV 2018 MemTrack:《Learning Dynamic Memory Networks for Object Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做MemTrack.本文的模型是基于相似学习的,主要有两个创新点:①.设计一个动态记忆网络:②.使用门控剩余模板和初始模板,生成最终的匹配模板.模型的整体架构如下: ...
CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记
理解出错之处望不吝指正. 本文模型叫做ADNet.该模型通过强化学习产生动作序列(对bbox进行移动or尺度变换)来进行tracking.原理如下图(第一列代表初始帧,第二列和第三列代表通过RL产生的 ...
ECCV 2012 KCF/DCF:《High-speed tracking with kernelized correlation filters》论文笔记
理解出错之处望不吝指正. 本文模型就是大名鼎鼎的KCF/DCF. 本文在CSK的基础上进行了一些改进,大致如下: (1)不像CSK中使用的是灰度特征,本文使用HOG特征: (2)使用HOG特征+高斯核 ...
ECCV 2012 CSK:《Exploiting the circulantstructure of tracking-by-detection with kernels》论文笔记
理解出错之处望不吝指正. 本文模型就是大名鼎鼎的CSK. 本文的贡献: (1)稠密采样.循环移位: (2)循环矩阵带来的快速计算: (3)计算了不同的核函数的封闭解. . 稠密采样.循环移位如上图所 ...
One-Stage Visual Grounding论文汇总
目录现有方法 2017 arXiv 题目动机简介 2017 CVPR 题目动机简介 2017 CVPR 题目动机简介 2017 IJCAI 题目动机简介 2018 arXiv 题目 ...

ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记

目录

简介

动机

贡献

方法

实验

ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记相关推荐

最新文章

热门文章