CVPR 2020

Exploring Phrase Grounding without Training: Contextualisation and Extension to Text-Based Image Retrieval

Letitia Parcalabescu and Anette Frank

文章目录

Exploring Phrase Grounding without Training: Contextualisation and Extension to Text-Based Image Retrieval
- 摘要
- 引言
- 模型
- 笔记
- - 1. 任务介绍
  - 2. 区别
  - 3. 针对前人工作的总结
  - 4. 模型详细理解

摘要

图像中的短语定位连接了视觉和文本两个模态的信息并且有利于图像理解和多模态任务的发展。已知的所有模型都严重依赖于注释数据和复杂的训练系统来完成短语定位任务，除了最近[38]的工作，他们提出了既不需要训练过程也不需要对齐的注释数据的一个系统，而且在公开数据集上与（弱）监督类任务具有很强的竞争力。我们是通过将具有结构化表征的视觉模态特以及文本模态特征语境化（加入了上下文信息）的方法，探索和扩展了系统（与[38]任务类似的一个系统）的上界。我们表明，我们的扩展对于模型是有利的，并且为(弱)监督模型建立了更困难但是更加公平的基线。我们还进行了压力测试（stress test），以评估构造不需要训练以及标注数据的句子检索系统的进一步适用性。（?）我们表明，这样的模型起步困难，还有很长的路要走，需要更多的研究。

引言

当在多模态任务（例如，视觉问答，对话和常识推理）中整合视觉和语言时，有必要将文本短语与被提及的图像中的视觉区域对齐。这被称之为短语定位。短语定位非常重要，原因在于在图像中定位文本模态信息，我们将知识和语境从两种模态联系起来并且期望在联合视觉和语言任务中提高模型的性能。评估一个短语定位系统的能力也打开了可解释性的大门：我们可以推断出在模型预测时，那些区域（视觉）与（文本）短语更重要。考察系统是否同时对视觉和语言做出了决策。以及检验模型是否可以正确对齐两种模态的信息，而不会有歧义或者混肴。

短语定位是解决一般视觉和语言任务的一个步骤[18,21,30]。虽然CV目标检测器被训练从一个封闭的词汇表（例如，cat一个比较具体的类别词，并不是一个比较宽松的短语，例如会有一些形容词，动词之类的）中识别（固定类别的）物体，而对于短语定位来说，它被期望借助表达更加自由的短语来针对图像中相关的目标进行定位（例如，一个刚刚出生的暹罗小猫）。因此，短语定位可以被认为是一种更加宽泛的目标识别任务，这种任务在很大程度上扩展了在预训练的目标检测器中捕获的视觉-语言知识，并且需要系统去拥有或者探索额外的语言知识。

短语定位的一个相关应用是句子-图像的对齐。这里主要关注点是检索与语言描述相对应的图像，而短语定位的得分可以被重新用于对齐图像与文本描述[16,30]。

大多数短语定位的方法都是带有注释的短语或者句子-区域对的强监[2,3,11,12,13,23,28,29,34,40,39,
46]或者短语/句子-图像对的弱监督[1,4,41,43,47,47,6] (图1. 左和中)。在最近的工作，Wang&Specia
[38]提出了不带有任何注释对情况下进行的短语定位，通过将多个目标检测器提取出的对象标签与标题短语对齐的方法并且通过配对语言学方面的最相似的短语-标签对进行配对来选择"最佳"对齐项目。他们的方法优于弱监督设置并且为完全监督定义了一个强基准线。Wang&Specia的方法可以被描述为一种类似"bag of words（BOW）"的方法，它利用标题短语与分配给提议区域的对象标签之间的语义相似性——而不考虑文本呢和图像的结构属性。然而，他们的方法联合了多个不同检测器的输出，可以认为对(弱)监督模型是不公平的，因为后者仅依赖一个具有边界覆盖的提议主干网。此外，他们模型的另一个缺点是没有考虑上下文。它们的分散的词嵌入不是语境化的（未嵌入上下文信息），会得到一些不被期待的关联，例如，将同义词和反义词映射到相似的空间区域——在搜索最相似的对象标签和短语时，这是一种令人讨厌的属性/特性。

尽管如此，Wang&Specia的基线不需要培训或监督，这是一个有趣的方法，与需要大型培训集监督的系统相比，值得进一步探索。因此，我们的工作有两个目标:我们的目标是(i)通过在图像和语言表征中扩展上下文化来探索和扩展无监督方法的上限，以及(ii)评估其在从句子到图像检索的相关任务中的性能。我们的贡献涉及四个方面:

标签集大小和底层对象检测器的上界：Wang & Specia使用了一组对象检测器，这些检测器在很大程度上共同改善了系统的结果。为了确保与(弱)监督系统竞争比较时的公平，我们的目标是使用一个具有细粒度标签集合的对象检测器。同时，Wang & Specia的对象探测器提供了约50%的建议上限时，我们使用单目标探测器建立了一个更符合实际的改进基线，建议上限接近90 %。
构建视觉表征：当Wang&Specia比较非结构化标签集（BoW）时，我们利用场景图提供的图像的结构化信息，将视觉情态语境化。这使得我们可以解决对象检测器和小类标签集的缺陷。
因为，上一篇引用论文引入多个对象检测器的目的也是因为，对象检测器有误差，比如，并不能够检测到图像上所有的对象。小类标签的缺陷应该是说，比如，一个人在踢球。那么人是一个大类别，而人身上穿的衣服，佩戴的配饰是小类别？
知识注入/引入：将图像区域提案的语义标签置于结构化的背景知识源中，使其在语言情态中语境化，从而扩展模型的语言能力。我们(a)通过丰富上游目标检测系统的词汇覆盖率(使用Open Images v5[20]标签层次结构)来弥补目标检测器的不足，(b)在WordNet[9]图结构上计算单词的相似度，作为一种替代方案，而不是像Wang&Specia中那样只测量分布词嵌入的余弦相似度。
用于图像检索的无监督短语定位：我们将我们的方法应用到句子图像检索任务中，探讨了无监督短语定位的局限性。为此，我们将短语基础分数重新定义为图像排名分数。

Flickr30kEntities数据集实验[30]表明,(1)我们的方法——使用培训和监督,但场景图和外部知识以很大的优势——优于最先进的弱监督模型和超过大多数监管模型,建立一个强有力的基线强烈监督模型。我们的模型只使用一个对象检测器，这是一个很好的替代方案，可以设计一个合适的对象检测器集合:它在Flickr30kEntities上的性能优于Wang&Specia的系统，并且我们表明它从利用知识和上下文两种模式中获益。然而，尽管我们的方法在将实体放在同一幅图像中的任务上具有竞争力，(b)我们在Flickr30k[44]上进行的基于文本的图像检索实验表明，它的结果无法与最近被监督的最先进的系统相媲美。尽管如此，我们的方法设置了一个值得注意的基线，作为(据我们所知)只需要句子图像检索方法，不需要监督和训练数据。

模型

模型概述：我们构建了图像 $I$ 的visual representation，该图像是由一组对象proposal $Ω={oi}\Omega=\{o_i\}$ 以包围框的形式和一个语言标签 $oi=⟨bi,li⟩o_i=\langle b_i,l_i \rangle$ 组成。我们通过以下方法扩展了先前的工作。(i)包括检测对象之间的关系信息 $r_{i,j}$ 形成一个场景图 $SG=\{(o_i,r_{i,j},o_j)\}$ (图3中的红色节点)。(ii)我们丰富了对象的语义表示/类别标签 $l_i$ ，通过将他们与语言知识库中比如WordNet(图3中的绿色节点)得到的结构语义知识。具体的，(a)我们将标签 $l_i$ 作为场景图节点绘制为子图{k_i}，链接 $l_i$ 在LKB中与他的直接邻居节点，使用选择的关系，例如worldNet中的hyponymy（上下位关系）或者(b)用完整的LKB来计算类别标签与短语object-phrase pair的最短路径，以此作为二者的相似性从而检索最佳拟合项。

为了获得文本中短语 $p_i$ 的语言表征，我们用一个language embedding model来嵌入/编码短语(一个单词)为向量 $p_i^h$ 。我们用相同的embedding model来编码丰富视觉表征 $SG \cup \{k_i\}$ label $r_{i,j}$ 和词lemms $l_i$ (例如，来自LKB的场景图中的label对象节点和边以及连接的子图{k_i})。用编码模型将他们转换为向量表示为 $SG={(⟨bi,lih⟩,ri,jh,⟨bj,ljh⟩)}SG=\{(\langle b_i,l_i^h \rangle,r_{i,j}^h,\langle b_j,l_j^h \rangle)\}$ ({k_i}同)。最后，我们将短语 $p_i$ 映射到LKB中的所有概念 $s_i$ (使用它们的lemma)，并选择连接路径最短的一个。
有了这些扩展，我们可以测量短语表征 $p_h$ 与任何语言组件 $l^h$ ， $r^h$ ， $k^h$ 在丰富了的视觉表征 $SG \cup \{k_i\}$ 之间的相似度。用的方法如下，(i)向量上的余弦相似度度量。以及(ii)扩展的语义表示的概念表示以及与短语之间的最短路径得分。通过排序短语与所有的视觉表示之间成对的距离,得到最好得分的视觉 $o_i$ 并生成定位结果。

笔记

1. 任务介绍

不同于原有的具有图像-短语/句子对的弱监督或者具有具体区域-短语/句子对的强/完全监督的这类任务设置条件，该篇论文提及到的短语定位任务是不涉及任何监督信息，也就是在模型学习过程中，不会为短语/句子与图像之间建立任何显示的关联性。

意义：

可以推断出在模型预测时，那些区域（视觉）与（文本）短语更重要。
考察系统是否同时对视觉和语言做出了决策。
检验模型是否可以正确对齐两种模态的信息，而不会有歧义或者混肴。

2. 区别

（1）与目标检测类任务的区别：
目标检测类任务为图像学习一个固定的类别标签，没有一些特定描述。而短语定位任务是期待的是一种更加特定的描述或者说专属的语义。所以，它的短语/句子更加宽泛，更加一般。
因此，短语定位可以被认为是一种更加宽泛的目标识别任务，这种任务在很大程度上扩展了在预训练的目标检测器中捕获的视觉-语言知识，并且需要系统去拥有或者探索额外的语言知识。

（2）与图像检索类任务的区别：
图像检索类也可以表示为句子-图像对齐类任务，该类任务主要是为了检索出与短语/句子描述最相关/对应的图像。而短语定位则是为了检索出与短语/句子描述最相关/对应的那个具体的对象区域/目标。所以，区域检索类的定位任务检测的目标更加具体。而且，这类任务的得分也可以被重新用于对齐图像与文本的描述。

3. 针对前人工作的总结

Wang&Specia(ICCV2019 Phrase Localization Without Paired Training Examples)是第一个在任何监督信息的情况下，探索短语定位任务的。

方法介绍：

多个目标检测器提取出的对象标签与标题短语对齐的方法并且通过配对语言学方面的最相似的短语-标签对进行配对来选择"最佳"对齐项目。
方法可以被描述为一种类似"bag of words（BOW）"的方法，它利用标题短语与分配给提议区域的对象标签之间的语义相似性——而不考虑文本呢和图像的结构属性。

方法缺陷：

他们的方法联合了多个不同检测器的输出，可以认为对(弱)监督模型是不公平的，因为后者仅依赖一个具有边界覆盖的提议主干网。
他们模型的另一个缺点是没有考虑上下文。它们的分散的词嵌入不是语境化的（未嵌入上下文信息），会得到一些不被期待的关联，例如，将同义词和反义词映射到相似的空间区域——在搜索最相似的对象标签和短语时，这是一种令人讨厌的属性/特性。

4. 模型详细理解

首先，明确论文一开始提供的概念。

任务描述：
$\longrightarrow image$
$\longrightarrow phrase$
$\longrightarrow boundingbox$ 短语/句子描述的图片中的具体目标的区域范围/位置
无需训练的定位\任务具体设置：
i. 已存在的对象检测器
ii. 已存在的场景图生成器
iii. 外部语言知识库
iv. language embedding 中获得的词embedding。
其中，（1）language embedding模型虽然很可能是在监督条件下进行的，但是他并没有使用任何与短语定位数据集有关的文本进行训练，而是在通用数据集上学习的。（2）有关图像的检测模型也很可能是有监督条件下进行的，但是其并没有经过短语定位中具体短语进行学习，也就是没有在已知短语与图像内容对应的答案下，进行训练学习。所以，总的来说，论文提出的短语定位系统在短语定位任务上是完全没有经过监督的，它使用的所有信息都是从现成的模型或知识库中提取的。
语境化：
当创建短语基础的视觉表示时，我们的目标是全面捕捉视觉内容。Wang&Specia[38]使用多个对象检测器来提取一个“对象袋(BoO)”:一组检测到的对象{b;l}，由它们的坐标带预测标签组成。但是一袋物体并不能模拟图像中物体之间的依赖关系或邻域，而且有可能忽略重要的上下文信息。我们建议以场景图的形式使用图像内容的结构化表示，模型对象之间的关系。这种设计将对象置于上下文中，因此，视觉上下文可以提供可区分的上下文信息，例如。，消除将相同的粗粒度类别标签分配给不同实体的歧义，而视觉邻居可能提供额外的提示，以正确地确定短语。在图5左上角的图片中可以看到一个例子。
结构化视觉和语言表示的另一个优势是，它可以弥补语言中缺失的显性。如图2所示，我们将词组制服放在这里。BoO方式将缺少这样的信息，即女性的一套衬衫、夹克、裤子共同构成了所谓的制服。相比之下，像WordNet这样的LKB通过关系路径(例如制服-服装-裙子)来捕获这些概念的相关性。
i. 目的：是为了获得更加全面的视觉内容。
ii. Wang&Specia[38]模型的缺陷：
首先，他们的模型是使用多个目标检测器提取了一系列的对象区域以及为该对象区域返回的类别标签 $O = \{b_x,l_x\}_{x=1}^n$ 。虽然，这些类别标签丰富，例如，颜色、物体具体名称、整张图描述的场景类别等，但是，有个明显的问题是，这些类别标签彼此独立。比如，如下图所示，图中有穿着绿色衣服的和穿着蓝色衣服（忽略其他穿蓝色衣服的人，只看最右侧）。模拟论文模型，查询语句为：绿色衣服的女子。模型经过对图片分析，返回一系列类别标签，蓝色衣服，女子，女子，绿色衣服。接着，将绿色衣服女子经过语言模型提取embedding后，与各个类别标签进行相似度计算，那么，绿色衣服以及女子，女子会得到很高的数值，最后将有交集的高评分项目联合起来，求一个最小框范围，那么因为绿色衣服的人与蓝色衣服的人有一定距离，所以，很明显，这可以得到良好的结果，尽管各个类别标签没有建立任何的关系。但是，如果是与其有相交的左侧蓝色衣服的人，很有可能将绿色衣服和蓝色衣服同时纳入最小框值范围内。因为，标签彼此独立，并不知道绿色衣服是穿在谁身上的。

所以，引入语境化的重要性便凸显出来。
（1）语境化的意思是说，将类别标签置于上下文中，如上图左图显示，他会将一系列无序独立的类别标签根据其是否存在某种关系而链接在一起，那么当出现上图中粗类别“女子/人”这类出现时，便可以根据与其邻居节点以及与邻居节点存在关系所反馈的信息，如“wears”、“skirt and jacket”与“wears ”、“skirt and pants”来丰富该粗类别标签，从而达到区分“woman”的目的。
（2）不仅如此，还可以引入例如wordnet类词典，为各个类别标签引入同义词、反义词、从属关系（uniform $←\leftarrow$ {skirt，jacket，pants}，所以有 $u n i f o r m - c l o t h i n g - s k i r t$ ）以及上下关系（桃树，杏树、梨树等的上层类别为树）等词来丰富该类别标签的含义。
模型概述：

总结来说，该模型分为三个部分，第一部分是提取场景图以及场景图内类别标签的额外语义知识补充。第二部分是提取文本编码。第三部分计算二者之间的相似度，相似度包含两个部分，一是计算场景图中语义编码表征与文本编码表征之间余弦相似度，二是为文本中所有短语与场景图中的类别标签以及额外扩充的语义知识之间在wordNet的帮助下，求他们的同义词组之间的相似性，并以最短路径作为相似得分，之后将两个得分相加作为最终相似性。最后找到最相似的object region。
模型具体讲解：
（1）结构化的视觉-语义表征
场景图生成：此部分，作者首先是利用对象检测系统从图像中提取一系列的object proposal region，这些region中包括bound ing box的位置信息以及生成的类别标签。之后，将提取出的region视觉输入到场景图生成器中，本文作者采用的是Zellers et.al [45]的模型，其可以为不同object之间建立关系，比如，woman与jacket可以为其建立wears的关系等。如此，作者就为该模型建立了主要的场景图，可以记为 $S$ ，如上图中的红色节点。
丰富/增强/扩展场景图：之后，丰富该场景图的内容，比如，对于woman，其可能会有很多同义词集，或者上一词，例如person。所以，为了更好的得到准确结果，所以，作者在worldNet词典结构的帮助下，为其添加了额外的语义知识，如上图中的绿色节点，绿色节点的词为红色节点词child的额外知识，整个绿色图可以成为LKB，记为 $k$ 。具体的，二者之间的表征或者编码是用文本编码器分别提取并且将他们求平均得到的。即child的表征是child、kid、kindergartener编码的平均值。
（2）文本编码
文本编码中，用一个文本编码器，将文本的词义、词性、拼写检查等嵌入其中，如果短语中单词不只一个，则求其平均值作为单词编码表征。文本编码器是word2vec，用300维表示一个词向量。
之后，还为每个词添加了同义词集合，为后续链接视觉标签做准备。
(3) 排序
该部分主要是为了计算相似度得分，公式如下：
$γi=cosim(oih,pih)⋅maxsyns(pathsim(oi,psyns))\gamma_i = cosim(o_i^h,p_i^h) \cdot max_{syns}(path_sim(o_i,p_{syns}))$
余弦相似度得分是计算的文本编码与视觉标签编码之间的余弦相似度，第二个是最短路径的得分。理解的是，wordnet中同义词成图排列，那么，两个词语之间可以根据wordnet的这张大网络求一个最短路径得分，路径越短越相似。
（4）图片检索通过排序提议得分
这个其实是，比如一个文本描述面对一千张图片时，计算文本描述与每张图片中提议的分数，将该图片中所有提议分数相加求和，最高的那个为所求图片。得到

Exploring Phrase Grounding without Training: Contextualisation and Extension to Text-Based Image Ret相关推荐

论文：Exploring Phrase Grounding without Training: Contextualisation and Extension to Text-Based Image
作者摘要 Grounding phrases in images links the visual and the textual modalities and is useful for many ...
【多模态】9、GLIP | 首次将 object detection 重建为 phrase grounding 任务
文章目录一.背景二.方法 2.1 将 object detection 和 phrase grounding 进行统一 2.2 Language-aware deep fusion 2.3 使用语 ...
论文：Zero-Shot Grounding of Objects from Natural Language Queries
作者摘要 A phrase grounding system localizes a particular object in an image referred to by a natural l ...
Automated Phrase
Automated Phrase Mining from Massive Text Corpora 海量文本语料库中的自动短语挖掘 ABSTRACT 摘要 As one of the fundamen ...
【多模态】10、GLIPv2 | 在 GLIP 上扩展 negative phrase 并新增分割功能
文章目录一.背景二.方法 2.1 A Unified VL Formulation and Architecture 2.2 GLIPv2 pre-training 2.3 将 GLIPv2 迁移 ...
【多模态】11、Grounding DINO | 将 DINO 扩展到开集目标检测
文章目录一.背景二.方法 2.1 特征抽取和加强 2.2 Language-Guided Query Selection 2.3 Cross-Modality Decoder 2.4 Sub-se ...
[文献阅读] Sparsity in Deep Learning: Pruning and growth for efficient inference and training in NN
文章目录 1. 前言 2. Overview of Sparsity in Deep Learning 2.1 Generalization 2.2 performance and model sto ...
AAAI-19录用论文清单
AAAI-19于1月27日在夏威夷召开,今年是33届会议. 会议录用论文清单, workshop16个,tutorials24个. 标题的词云分析: 作者单位词云(按作者人数计算/一篇文章可能有多个作 ...
【ECCV2020】接收论文列表part1
ECCV2020将于2020年8月23-28日在线上举行,今年共接受了1361篇论文,本文是接收论列表的第一部分,第二部见链接 Paper ID Paper Title Category 267 Qu ...

Exploring Phrase Grounding without Training: Contextualisation and Extension to Text-Based Image Ret