目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

本文出自罗彻斯特大学+腾讯AI Lab
下载链接

动机

现有的visual grounding方法可以分为两类:一阶段、两阶段。本文面向一阶段方法,提升现有方法处理长(long)、复杂(complex)query的能力。本质是:本文提出了一个可以用在一阶段visual grounding模型中的query modeling方法(两阶段模型中有很多query modeling方法,但是由于一些限制,不能直接用于一阶段模型)。

贡献

  1. 对一阶段的visual grounding方法进行了改善,提升了其处理长且复杂的query的能力;
  2. 提出了一个递归的子查询构建网络,通过递归来降低referring ambiguity;
  3. 实验结果好,在不同数据集上提升5-12个百分点。

方法

本文方法的整体架构如下图所示,共包含两个核心模块:子查询学习器(Sub-query Learner)和子查询调制器(Sub-query Modulation)。

子查询学习器负责学习Query中每个word的注意力αn(k)\alpha_n^{(k)}αn(k)​,通过下式得到:
αn(k)=softmax[Wa1(k)tanh(Wa0(k)hn(k)(v‾(k−1)⊙sn)+ba0(k))+ba1(k))]\alpha_n^{(k)}=\text{softmax}[W_{a1}^{(k)} \text{tanh}(W_{a0}^{(k)} h_{n}^{(k)} (\overline{v}^{(k-1)} \odot s_n ) + b_{a0}^{(k)} ) + b_{a1}^{(k)} )]αn(k)​=softmax[Wa1(k)​tanh(Wa0(k)​hn(k)​(v(k−1)⊙sn​)+ba0(k)​)+ba1(k)​)]
可以看出,学习注意力的过程中,同时考虑了{sn}n=1N\{s_n\}_{n=1}^{N}{sn​}n=1N​(query word feature,N代表word个数)、v‾(k−1)\overline{v}^{(k-1)}v(k−1)(text-conditional visual feature)和{hn(k)}n=1N\{h_{n}^{(k)}\}_{n=1}^{N}{hn(k)​}n=1N​(history vector)。其中:

  • {sn}n=1N\{s_n\}_{n=1}^{N}{sn​}n=1N​没什么好说的,就是query中每个单词的特征;
  • v‾(k−1)\overline{v}^{(k-1)}v(k−1)是上一轮得到的text-conditional visual feature的均值池化(H×W×C→1×1×CH \times W \times C \rightarrow 1 \times 1 \times CH×W×C→1×1×C);
  • {hn(k)}n=1N\{h_{n}^{(k)}\}_{n=1}^{N}{hn(k)​}n=1N​表示每个word在以前的迭代过程中被“访问”的概率,通过h(k)=1−min(∑i=1k−1α(i),1)\bf{h}^{(k)} = \textbf{1} - \text{min}(\sum_{i=1}^{k-1}\bf{\alpha}^{(i)}, \bf{1})h(k)=1−min(∑i=1k−1​α(i),1)计算。

对于这部分,作者添加了两个loss,如下所示:

  • Ldiv=∣∣ATA⊙(1−I)∣∣F2L_{div}=|| A^TA \odot ({\bf 1}-I) ||^2_FLdiv​=∣∣ATA⊙(1−I)∣∣F2​,AAA是K×NK \times NK×N的矩阵,由每轮迭代得到的attention拼接而成,KKK是迭代轮数,NNN是word个数。此loss用于控制每一轮中,不应该focus在相同的单词上,也就是强制提升每轮迭代关注的单词的差异性。
  • Lcover=∣∣1−min(∑i=1Kα(i),1)∣∣1L_{cover} = || \bf1-\text{min}(\sum_{i=1}^K {\bf \alpha}^{(i)}, \bf 1) ||_1Lcover​=∣∣1−min(∑i=1K​α(i),1)∣∣1​,此loss用于提升word的查全性。

子查询调制器就是基于子查询学习器得到的注意力,对text-conditional visual feature进行refine,增强referred object的特征,并压制其他object的特征。共分为三步:

  1. 基于子查询学习器得到的αn(k)\alpha_n^{(k)}αn(k)​对sns_nsn​添加attention,得到q(k)=∑n=1Nαn(k)snq^{(k)}=\sum_{n=1}^N\alpha_n^{(k)}s_nq(k)=∑n=1N​αn(k)​sn​;
  2. 基于q(k)q^{(k)}q(k),分别使用两个MLPs得到尺度向量γ(k)=tanh(Wγ(k)q(k)+bγ(k))\gamma^{(k)}=\text{tanh}(W_\gamma^{(k)}q^{(k)} + b_\gamma^{(k)})γ(k)=tanh(Wγ(k)​q(k)+bγ(k)​)和平移向量β(k)=tanh(Wβ(k)q(k)+bβ(k))\beta^{(k)}=\text{tanh}(W_\beta^{(k)}q^{(k)} + b_\beta^{(k)})β(k)=tanh(Wβ(k)​q(k)+bβ(k)​)。
  3. 基于上一轮迭代得到的text-conditional visual feature v(k−1)v^{(k-1)}v(k−1)、尺度向量γ(k)\gamma^{(k)}γ(k)和平移向量β(k)\beta^{(k)}β(k),计算得到此轮的text-conditional visual feature v(k)v^{(k)}v(k),具体公式为:
    v(k)(i,j)=f2{ReLU[f1(v(k−1)(i,j))⊙γ(k)+β(k)]+v(k−1)(i,j)}v^{(k)}(i,j)=f_2\{ ReLU[f_1(v^{(k-1)}(i,j)) \odot \gamma^{(k)} + \beta^{(k)}] +v^{(k-1)}(i,j) \}v(k)(i,j)=f2​{ReLU[f1​(v(k−1)(i,j))⊙γ(k)+β(k)]+v(k−1)(i,j)}
    上式中,f1,f2f_1, f_2f1​,f2​是两个可学习的mapping层,具体结构在上面的整体框架图中有展示,f1=1×1conv+instance normalization layerf_1=1 \times 1 \space \text{conv} + \text{instance normalization layer}f1​=1×1 conv+instance normalization layer,f2=3×3conv+BN+ReLUf_2=3 \times 3 \space \text{conv} + \text{BN} + \text{ReLU}f2​=3×3 conv+BN+ReLU。

实验

在RefCOCO、RefCOCO+和RefCOCOg上的实验结果:

在ReferItGame和Flickr30K Entities上的实验结果:

关于query modeling的消融实验:

一些可视化的结果:

ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记相关推荐

  1. ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文设计了一个Cross-Modality Relevance Module(跨模态相关模块),对不同模态的信息进行关联,且在不同的task上都是端到端训练. ...

  2. Learning Visual Commonsense for Robust Scene Graph Generation论文笔记

    原论文地址:https://link.springer.com/content/pdf/10.1007/978-3-030-58592-1_38.pdf 目录 总体结构: 感知模型GLAT: 融合感知 ...

  3. CVPR 2020 《Context-Aware Group Captioning via Self-Attention and Contrastive Features》论文笔记(数据集)

    目录 简介 动机 贡献 方法 实验 简介 本文提出了一个新任务--Group Captioning,就是在一堆图片中,对特定的几个图片生成caption,生成的caption要具备选定的图片的特性,且 ...

  4. ECCV 2018 《Triplet Loss in Siamese Network for Object Tracking》论文笔记

    目录 模型概况 实验结果 理解出错之处望不吝指正.        文章链接 模型概况 模型结构如下图所示:        本模型与SiamFC的区别在于:提出了一种不同于SiamFC的损失函数.   ...

  5. ECCV 2018 MemTrack:《Learning Dynamic Memory Networks for Object Tracking》论文笔记

    理解出错之处望不吝指正. 本文模型叫做MemTrack.本文的模型是基于相似学习的,主要有两个创新点:①.设计一个动态记忆网络:②.使用门控剩余模板和初始模板,生成最终的匹配模板.模型的整体架构如下: ...

  6. CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记

    理解出错之处望不吝指正. 本文模型叫做ADNet.该模型通过强化学习产生动作序列(对bbox进行移动or尺度变换)来进行tracking.原理如下图(第一列代表初始帧,第二列和第三列代表通过RL产生的 ...

  7. ECCV 2012 KCF/DCF:《High-speed tracking with kernelized correlation filters》论文笔记

    理解出错之处望不吝指正. 本文模型就是大名鼎鼎的KCF/DCF. 本文在CSK的基础上进行了一些改进,大致如下: (1)不像CSK中使用的是灰度特征,本文使用HOG特征: (2)使用HOG特征+高斯核 ...

  8. ECCV 2012 CSK:《Exploiting the circulantstructure of tracking-by-detection with kernels》论文笔记

    理解出错之处望不吝指正. 本文模型就是大名鼎鼎的CSK. 本文的贡献: (1)稠密采样.循环移位: (2)循环矩阵带来的快速计算: (3)计算了不同的核函数的封闭解. . 稠密采样.循环移位 如上图所 ...

  9. One-Stage Visual Grounding论文汇总

    目录 现有方法 2017 arXiv 题目 动机 简介 2017 CVPR 题目 动机 简介 2017 CVPR 题目 动机 简介 2017 IJCAI 题目 动机 简介 2018 arXiv 题目 ...

最新文章

  1. mysql 资源占用过高分析和解决方法
  2. YCbCr与YUV的区别
  3. 大型web系统数据缓存设计-l转载
  4. java面试题在线做_java考试题目及答案也可以当面试题
  5. php+node+redis,redis,nodejs,php,pub/sub 实战: 微信语音识别
  6. 【算法竞赛学习】数据分析达人赛2:产品关联分析
  7. 让apache解析html里的php代码,让Apache解析html文件中的php语句
  8. ajax jsonp img
  9. java printwriter 没有关闭_Java PrintWriter close()方法
  10. VB.NET工作笔记005---用visual studio2017 编写WCF vb.net webservice
  11. FL Studio新手教程:FL Studio五大常用按钮介绍
  12. “熊猫烧香”有新变种 可自动下载病毒
  13. SLAM技术与市场杂谈
  14. Linux C语言编程学习材料
  15. java前后端分离怎么测试,前后端分离如何提高开发测试效率
  16. html2canvas苹果不显示图片,html2canvas页面截图图片不显示
  17. 服装行业ERP选型咨询提纲
  18. IT 行业平均薪资第一
  19. 基于Android Tiny4412平台---敦泰I2C接口FT5X06电容屏驱动原理及软件架构分析
  20. 六 系统可靠性分析与设计

热门文章

  1. 科大星云诗社动态20210406
  2. 二、“究恒常之宇宙,成一家之学说”
  3. 开源!《模式识别与机器学习(PRML)》笔记、代码、NoteBooks 发布
  4. php 表单录入,PHP 表单和用户输入
  5. python获得用户输入的一个字符串(长度3)_python3 字符串属性(一)
  6. 推荐系统常用术语 [ACM暑校]
  7. 信号分解:标架、对偶标架、紧标架
  8. Delphi十进制和十六进制互转 Delphi 自带函数 IntToHex
  9. 一招让你彻底掌握C语言中运用宏以及#与##的妙用
  10. volatile类型的数据