作者

摘要

Grounding phrases in images links the visual and the textual modalities and is useful for many image understanding and multimodal tasks. All known models heavily rely on annotated data and complex trainable systems to perform phrase grounding – except for a recent work [38] that proposes a system requiring no training nor aligned data, yet is able to compete with (weakly) supervised systems on popular phrase grounding datasets. We explore and expand the upper bound of such a system, by contextualising both the image and language representation with structured representations. We show that our extensions benefit the model and establish a harder, but fairer baseline for (weakly) supervised models. We also perform a stress test to assess the further applicability of such a system for creating a sentence retrieval system requiring no training nor annotated data. We show that such models have a difficult start and a long way to go and that more research is needed.

图像中的grounding phrases连接视觉和文本modalities,对于许多图像理解和多模态任务非常有用。所有已知模型都严重依赖注释数据和复杂的可训练系统来执行短语接地——除了最近的一项工作[38],该工作提出了一个不需要训练也不需要对齐数据的系统,但能够在流行的短语接地数据集上与(弱)监督系统竞争。我们探索并扩展了这样一个系统的上限,通过将图像和语言表示与结构化表示结合起来。我们证明了我们的扩展有益于模型,并为(弱)监督模型建立了一个更难但更公平的基线。我们还进行了压力测试,以评估该系统在创建无需训练或注释数据的句子检索系统方面的进一步适用性。我们表明,这样的模型有一个艰难的开始,还有很长的路要走,需要更多的研究。

Introduction

在多模态任务(如视觉问答、对话或常识推理)中整合视觉和语言时,将文本短语与其所指的图像区域对齐是至关重要的。这被称为短语基础或短语本地化。短语基础是重要的,因为通过在图像中基础文本模态,我们将两种模态的知识和上下文联系起来,并且可以期望在联合视觉和语言任务中改进模型性能。评估系统的短语基础能力也打开了可解释性的大门:我们可以推断哪些区域或短语对系统预测很重要,检查系统是否同时根据vision&language做出决策,并测试模型是否在没有混淆的情况下对齐两种模式。
Phrase grounding是解决一般vision&language任务的一个步骤[18,21,30]。虽然CV对象检测器经过训练,可以从封闭的词汇表(如cat)中识别(固定类别的)对象,但Phrase grounding预计可以在以自由形式短语(如a newborn Siamese kitten)引用的图像中定位对象。因此,Phrase grounding可以被认为是一项广义的对象识别任务,它极大地扩展了在预先训练的对象检测器中捕获的视觉语言知识,并且要求系统拥有或利用额外的语言知识。
Phrase grounding的一个相关应用是句子对图像对齐。这里的主要兴趣是检测与语言描述相对应的图像,Phrase grounding分数可以重新用于对齐图像和文本描述[16,30]。

大多数phrase grounding方法都使用注释短语区域对进行了强监督[2,3,11,12,13,23,28,29,34,35,40,39,46],或使用句子图像对进行弱监督[1,4,41,43,47,6](见图1左和中)。在最近的工作中,Wang&Specia[38]建议在没有任何注释对的情况下执行短语基础,方法是将标题短语与多个对象检测器提出的对象标签对齐,并通过配对语言上最相似的短语-标签对来选择“最佳”对齐。他们的方法优于弱监督设置,并为完全监督的方法定义了一个强基线。Wang&Specia的方法可以被描述为一种“Bags of Word(BoW)”方法,它利用分配给区域方案的成对标题短语和对象标签的语言相似性,而不考虑文本或图像的结构特性。此外,他们的方法结合了不同检测器的输出,可被视为对(弱)监督模型不公平,因为后者仅依赖于一个覆盖范围有界的区域建议主干。他们的模型的另一个弱点是它不考虑上下文。它们的分布式单词嵌入不受上下文的影响,并且可能会受到不希望的关联的影响,例如,将同义词和反义词映射到相似的空间区域——这是搜索最相似的对象标签和短语时令人不快的特性。
尽管如此,Wang&Specia的基线不需要培训或监督是一种有趣的方法,与需要大型培训集监督的系统相比,值得进一步探索。因此,我们的工作有两个目标:我们的目标是(i)通过在图像和语言表示中的语境化来扩展无监督方法的上限,并(ii)评估其在句子到图像检索相关任务中的性能。我们的贡献涉及四个方面:

  • 标签集大小和基础对象检测器的上限:Wang&Specia采用了一系列目标探测器,这些探测器在相当程度上共同改善了系统结果。为了确保与竞争(弱)监督系统进行公平比较,我们的目标是使用具有更细粒度标签集的单个对象检测器。此外,虽然Wang& Specia的物体探测器提供了约50%的建议上限,但我们使用建议上限接近90%的单物体探测器建立了非道德主义改进型自选系统。
  • 构造视觉表示:当Wang& Special比较非结构化标签集(BoW)时,我们通过利用场景图提供的图像的结构化信息来上下文化视觉模态。这使我们能够解决对象检测器和小类标签集的缺陷。
  • 知识注入:我们通过将图像区域建议的语义标签置于结构化背景知识源中,将其置于语言情态中,从而扩展模型的语言能力。我们(a)通过丰富上游目标检测系统的词汇覆盖范围(使用Open Images v5[20]标签层次)来弥补目标检测器的不足,(b)计算WordNet[9]图形结构上的单词相似度,作为仅测量分布词嵌入的余弦相似性的替代方法,如Wang&Specia。
  • 图像检索的无监督短语接地:我们将我们的方法应用到句子图像检索任务中,探索无监督短语接地的局限性。为此,我们将短语基础分数重新定位为图像排名分数。

在Flickr30kEntities数据集[30]上的实验表明:(a)我们的方法——不使用训练或监督,而是使用场景图和外部知识——大大优于最先进的弱监督模型,并超过大多数监督模型,为强监督模型建立了一个强基线。我们的模型只使用一个对象检测器,可以很好地替代设计合适的对象检测器集合:它在Flickr30k实体上的性能优于Wang&Specia的系统,并且我们表明,它从两种模式中利用知识和上下文中获益。然而,尽管我们的方法在处理同一图像中的地面实体时具有竞争力,(b)我们在Flickr30k上进行的基于文本的图像检索实验[44]表明,它的结果无法与最近监督的最先进系统相媲美。尽管如此,我们的方法设置了一个值得注意的基线,作为(据我们所知)唯一不需要监督和训练数据的句子图像检索方法。

Related Work

越来越精确的对象识别系统正被开发出来,该系统提取检测到的对象的边界框,并使用固定类标签集(词汇表)[8,10,24,31,32,33,48]中的类对其进行标记。短语基础的任务显然得益于增强的对象识别系统,但它需要解决一个扩展任务:通过将短语与建议的边界框对齐,将短语从开放词汇表基础化到图像中的对象
当前的研究措辞可分为强监督和弱监督两种方法。
强监督方法[2,3,7,11,12,13,23,28,29,34,35,40,39,46]使用不同的技术:一些方法将视觉和文本模式投射到同一空间[29,27,40,39],另一些方法关注正确的图像区域并重建相应的短语[34]。体系结构变得越来越复杂:Hinami& Satoh[12]使用开放词汇表训练对象检测器,Plummeret al.[28]将文本表示置于短语类别上。我们还发现,处理短语的方法不是单独的,而是作为一个顺序和上下文过程[7]。最近的方法将目标探测器的视觉特征集成到变压器模型中[23,25]。
弱监督系统[1,4,41,43,47,6]无法访问训练中的成对边界框和短语。他们通过解决下游任务(如图像检索的标题[6])、使用外部区域建议和知识[1,47]、注意图[41]或共现统计[43],学习隐式地固定短语。
基于文本的图像检索方法(TBIR)的常规技术是将文本和图像特征映射到学习的关节空间,以便计算两种不同模式的向量之间的距离[14,17,22,30]。早期方法[17]采用基于CNN的区域建议网络在对象级别对图像进行编码,并采用双向RNN[36]进行文本处理。最新的方法对视觉和文本特征的细化程度更高。例如,[22]使用图卷积神经网络(GCN)[19]来推理所提出的图像区域之间的关系。通过门和内存机制,它们根据GCN的增强功能进行全局推理。这项工作的最新创新是具有自我注意机制的视觉变压器模型[5,25]。它以多任务方式(掩蔽多模态建模和多模态对准预测)对更大的训练数据进行预训练,并适用于图像检索以外的许多下游任务。与我们最相似的方法是将图像区域划分为对象、动作和属性,并使用这些标签和视觉特征来学习它们的语义顺序[14]。通过LSTM和句子相似性评分生成句子,监督排序。在我们的工作中,我们的目标是测试一个无监督系统的性能,该系统只能访问文本中的分类对象标签和名词短语,而上述系统由损失函数引导,可以访问视觉特征,并以高度复杂度处理这些和文本嵌入。
最近,Wang&Specia[38]开发了(据我们所知)唯一一种不需要配对训练示例的短语基础方法。他们将四个不同系统的目标检测和一个颜色检测器组合成带标签的候选边界框。它们嵌入所有标签和带有词向量的短语,并根据余弦相似度对标签进行排序。作为基础建议,他们选择排名最高的标签的边界框。他们的方法可以被视为“对象包(BoO)”方法。相比之下,我们将使用单一对象检测器,并利用语言和视觉形态中的结构化上下文。

Contextualising phrase localisation with knowledge and scene graphs

**“接地任务”**一词衡量的是一个系统识别给定图像中某个区域的能力。该系统的任务是交付边界框BIN图像,以限定该区域的位置。
Grounding without training我们完成该任务的方法不依赖于强监督设置中的带注释的对{p, b}(pa短语,ba bounding box inI),也不依赖于弱监督设置中的对{p, I}。我们的模型使用的信息来自(i)开箱即用的对象检测器、(ii)开箱即用的场景图生成器、(iii)外部语言知识库和(iv)从语言嵌入模型中获得的词嵌入,这些语言嵌入模型是在一般文本上训练的,而不是在短语基础数据集的短语或词汇上训练的。尽管用于生成(i-iv)的模型可以通过监督进行训练,但我们的短语接地系统是完全没有监督的,它使用的所有信息都是从现成的模型或知识库中提取的。
contextualization当创建短语基础的视觉表示时,我们的目标是全面捕捉视觉内容。Wang&Specia[38]使用多个对象检测器来提取一个“对象袋(BoO)”:一组检测到的对象{b;l},由它们的坐标带预测标签组成。但是一袋物体并不能模拟图像中物体之间的依赖关系或邻域,而且有可能忽略重要的上下文信息。我们建议以场景图的形式使用图像内容的结构化表示,模型对象之间的关系。这种设计将对象置于上下文中,因此,视觉上下文可以提供可区分的上下文信息,例如。,消除将相同的粗粒度类别标签分配给不同实体的歧义,而视觉邻居可能提供额外的提示,以正确地确定短语。在图5左上角的图片中可以看到一个例子。
结构化视觉和语言表示的另一个优势是,它可以弥补语言中缺失的显性。如图2所示,我们将词组制服放在这里。BoO方式将缺少这样的信息,即女性的一套衬衫、夹克、裤子共同构成了所谓的制服。相比之下,像WordNet这样的LKB通过关系路径(例如制服-服装-裙子)来捕获这些概念的相关性。

Model Overview


我们构建了一个图像I的视觉表示,该图像由一组object proposalΩ={oi}Ω= \{oi\}Ω={oi}以包围框的形式和一个语言标签oi=(bi,li)o_i=(b_i, l_i)oi​=(bi​,li​)组成。我们通过(i)包括对象检测之间的关系信息rijr_{ij}rij​,形成场景图SG={(oi,rij,oj)}SG=\{(o_i, r_{ij}, o_j)\}SG={(oi​,rij​,oj​)}(图3中的红色节点)。我们也(ii)丰富对象的语言成分。通过从一个语言知识库(图3中的绿色节点)将它们连接到结构化语义知识来表示。具体来说,我们(a)地图场景图节点的标签lil_ili​小的子图指出{ki}\{k_i\}{ki​},使用选择的关系,如hyponymyin WordNet,或者(b)使用完整LKB提高搜索最佳拟合phrase-object 对,用最短路径法来计算路径相似。
为了获得文本中pip_ipi​的语言表示,我们使用语言嵌入模型将它们编码到向量pihp^h_ipih​中。我们使用相同的嵌入模型对丰富的视觉表示SG∪{ki}SG∪\{ki\}SG∪{ki}(即,在场景图和链接的子图{ki}\{ki\}{ki}中标记的对象节点和边,使用词嵌入模型将它们转换为SG={(hbi,lhii,rhij,hbj,lhji)}SG = \{(hbi, lhii, rhij,hbj, lhji)\}SG={(hbi,lhii,rhij,hbj,lhji)}中的向量(类似于子图{ki}中的节点)。最后,我们将短语映射到LKB中的所有概念(使用它们的引理),并选择连接路径最短的那个。
通过这些扩展,我们可以测量短语表示php_hph​和任何语言成分lh、rh或khl_h、r_h或k_hlh​、rh​或kh​之间的相似性,在(丰富的)视觉表示SG∪{ki}SG∪\{ki\}SG∪{ki}中使用(i)向量上的余弦相似度度量,以及(ii)基于连接短语的概念表示和扩展语言表示中的对象标签的最短路径的得分。通过对短语pi和视觉对象oj表示的所有对的距离进行排序,为查询短语pi选择排名最高的视觉建议oi,并生成搁浅结果。

3.1. Structured visual-linguistic representations

Scene graph generation
我们首先用边界框Ω={oi}Ω =\{o_i\}Ω={oi​}提取object proposals。然后,我们从图像中提取一个场景图来构建结构化建议的图。图SG=Ω∪R=(oi,rij,oj)SG= Ω∪R={(o_i, r_ij, o_j)}SG=Ω∪R=(oi​,ri​j,oj​)(在所有图中以红色表示)由包含包围框信息和标签的对象节点集Ω={oi}Ω =\{o_i\}Ω={oi​}和对检测对象之间的可视关系KaTeX parse error: Expected '}', got 'EOF' at end of input: R=\{r_{ij。\}进行建模的标签边集描述.。
我们使用Zellerset的生成器从图像中提取场景图。我们选择这个模型是因为它执行的几乎是最先进的,并且包含了随时可以运行的代码。场景图生成模型[45]在Visual Genome[21]上进行训练,其中包含150个对象标签和50个关系。为了生成场景图,我们使用生成器输出的50个最confidence的关系。

Enhancing visual with structured linguistic representation

当将一个开放词汇短语与标记为粗略类别的图像对象相关联时,我们需要用语义知识通知场景图的节点,以便做出正确的预测。当使用分布式单词嵌入在向量空间中对对象标签进行编码时,必须考虑非直观的副作用,例如,当新郎的向量表示更接近女性而非男性时。为了对抗这种影响,我们通过将人与语言本体中的相邻概念{ki}的含义进行聚合,创建了一种增强的人的表示,从而进一步表征了实体。为此,我们将每个对象标签li映射到一个概念ki∈LKB并检索直接邻居{ki}。然后,我们通过计算节点ohi及其直接相邻概念{khi}嵌入的平均值,将向量ohiohiohi转换为丰富的、上下文化的意义o^ih\hat{o}^h_io^ih​。例如,邻居先生、小伙子、成年男性引导系统选择正确的回答者,而不是女性。我们对SG节点和关系应用类似的聚合,以获得上下文化的视觉对象表示“ohi”。
在这项工作中,我们对两个LKB进行了实验:WordNet[9]和OpenImages(OI)v5[20]类标签层次结构。当使用WordNet作为LKB时,lito{ki}的映射很容易,因为对象标签是用WordNet感官注释的。{ki}中的直接邻居包括同义词、上下义词。对于OI标签层次结构,邻域图{ki}仅由直接上下义词组成,如图4所示。LiandKiis之间的映射也很明确,因为我们使用在开放图像v4[20]上训练的更快的RCNN[33]预测对象作为基础方案,因此LiLabel都链接到层次结构。

3.2. Text representation

对于短语基础,我们将查询短语映射到向量表示。为此,我们使用NLTK包使用Stanford Tagger[37]执行词性标记。我们提取和小写形容词和名词,执行拼写检查,并使用单词嵌入来嵌入它们。对于多词短语,我们计算短语中所有标记嵌入的平均值,以获得最终短语向量。我们使用300维word2vec[26]嵌入。
作为单词嵌入的替代方法,我们使用WordNet来比较标签和短语。WordNet中的词汇意义是用语法集来表示的,即给定词义的同义词集。语义关系(上下义等)是在句法集之间定义的。我们通过将短语中的所有单词映射到其所有可能的WordNet词义,并搜索连接短语的任何语法集或任何候选标记对象的最短路径,将短语链接到可视化表示中的标记节点。

3.4Grounding by ranking proposals

在最后一步中,我们根据视觉表现对提案进行排序,并根据其语义相似性选择高度关联的候选提案。对于排名(图3),我们通过组合计算短语ppp和图像oio_ioi​区域之间的基础得分γiγ_iγi​(i)视觉表示oiho^h_ioih​标签的单词嵌入与查询短语φφφ的嵌入之间的余弦相似度乘以(ii)最大WordNet路径相似性得分路径sim=1d+1∈[0,1]sim= {1\over{d+1}}\in[0,1]sim=d+11​∈[0,1]基于最短路径距离d,连接WordNet上下义词分类法中短语的标签synset oi和任何synset psyns。选择具有最大接地得分γiγ_iγi​的节点或关系,并预测其边界框作为短语定位结果。
我们采用了几种策略:如果过程选择了一个知识节点,则预测图像坐标由知识附加到的场景图节点的边界框定义。如果两个节点获得相等的分数,我们将预测其边界框的并集。但是如果场景图节点和知识节点得分相同,我们只考虑场景图节点,尽量减少同等评分节点的数量(例如,当对象检测器预测人、女人和知识再次附加到人时)。

3.4. Image retrieval by ranking proposal scores

当考虑句子和图像中所有短语之间的短语基础对齐时,我们可以使用它们的基础分数之和进行句子到图像检索。通过这样做,我们可以评估短语基础方法的实用性,这些方法不需要训练,也不需要在句子图像检索的既定基准上进行配对注释数据。我们不期望这些方法表现得很好,但我们也不期望它们在短语基础任务中表现得有竞争力。
我们从文本搜索引擎创建一个无监督的图像,而不涉及任何训练数据,方法是在查询语句和1000个候选图像之间对每个图像的基础分数ΓIΓ_IΓI​进行排序(遵循Flickr30k的标准协议)。ΓIΓ_IΓI​被定义为句子ΓI=∑nNγnΓ_I=\sum{^N _nγ_n}ΓI​=∑nN​γn​中两个短语之间的基础分数之和。

Experiments




Conclusion

We propose a method that tackles the phrase grounding task without using annotated image-language pairs. We show that a structured representation of images and injection of linguistic knowledge are beneficial in a system that requires no training nor loss function to guide the attention to relevant input regions. Our model surpasses the performance of all weakly supervised and many supervised models on Flickr30kEntities and establishes a more serious baseline for (weakly) supervised models than prior work. A crucial factor are extensions for visual and linguistic contextualisation, which may be further enhanced in future work.We also stress-test our alignment system on the challenging Flickr30k sentence-image retrieval task and achieve first noteworthy results for a system without a training phase.
The strong performance of phrase grounding methods requiring no training casts doubt on the adequacy of supervised architectures trained on annotated phrase-region pairs, since these highly complex and over-parameterised trainable systems do not improve much over our approach, which does not require a training stage.

我们提出了一种不使用带注释的图像语言对处理短语基础任务的方法。我们证明,在一个不需要训练也不需要损失函数来引导注意力到相关输入区域的系统中,图像的结构化表示和语言知识的注入是有益的。我们的模型超越了所有弱监督模型和许多监督模型在实体上的性能,并为(弱)监督模型建立了比以前工作更严格的基线。一个关键的因素是对ISUAL语言语境化的扩展,在未来的工作中可能会进一步加强。我们还着重测试了具有挑战性的Flickr30k句子图像检索任务中的对齐系统,并在没有训练阶段的系统中取得了第一个值得注意的结果。
无需训练的短语基础方法的强大性能使人们对在注释短语区域对上训练的监督体系结构的充分性产生了怀疑,因为这些高度复杂和过度参数化的可训练系统与我们的方法相比并没有多大改进,我们的方法不需要训练阶段。

论文:Exploring Phrase Grounding without Training: Contextualisation and Extension to Text-Based Image相关推荐

  1. Exploring Phrase Grounding without Training: Contextualisation and Extension to Text-Based Image Ret

    CVPR 2020 Exploring Phrase Grounding without Training: Contextualisation and Extension to Text-Based ...

  2. 论文:Zero-Shot Grounding of Objects from Natural Language Queries

    作者 摘要 A phrase grounding system localizes a particular object in an image referred to by a natural l ...

  3. 【多模态】9、GLIP | 首次将 object detection 重建为 phrase grounding 任务

    文章目录 一.背景 二.方法 2.1 将 object detection 和 phrase grounding 进行统一 2.2 Language-aware deep fusion 2.3 使用语 ...

  4. Paper之BigGAN:ICLR 2019最新论文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(未完待续)

    Paper之BigGAN:ICLR 2019最新论文<LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS> ...

  5. 【论文笔记】D2A U-Net: Automatic segmentation of COVID-19 CT slices based on dual attention and hybrid di

    声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV.NLP.Data Fusion.Digital Twin 论文标题:D2A U-Net: Automat ...

  6. 2015-2020年各类国际会议与期刊基于图像的三维对象重建论文综述(6)——Training

    6. Training 除了它们的体系结构外,深度学习网络的性能取决于它们被训练的方式. Degree of supervision 早期方法依赖于3D监督. 然而手工或使用传统的三维重建技术获取gr ...

  7. 论文略读1《Direct training for spiking neural networks:faster,larger,better》

    发布时间2019-07-17,AAAI 文章链接Direct Training for Spiking Neural Networks: Faster, Larger, Better | Procee ...

  8. 【论文阅读】Interpolation Consistency Training for Semi-Supervised Learning

    论文下载 1. 摘要 我们介绍了插值一致性训练 (ICT),这是一种简单且计算效率高的算法,用于在半监督学习范式中训练深度神经网络. ICT 鼓励在未标记点的插值上的预测与在这些点的预测的插值一致.在 ...

  9. 论文理解:“Designing and training of a dual CNN for image denoising“

    译:用于图像去噪的双CNN的设计与训练 -- Knowledge-Based Systems -- 2021 目录 一.引言 二.方法 2.1.网络结构 2.2.损失函数 三.实验结果 一.引言 模型 ...

最新文章

  1. 铁甲雄心机器人建造成本_玄武10移动抓取机器人帮助解决具有挑战性的任务
  2. citrix xenapp应用保存文件时隐藏服务器上的磁盘
  3. 从零开始学习jQuery (二) 万能的选择器
  4. [日志]做人与标点符号
  5. mysql的安装备份恢复_安装使用Percona XtraBackup来备份恢复MySQL的教程
  6. 数据库操作,内外联查询,分组查询,嵌套查询,交叉查询,多表查询,语句小结...
  7. html判断输入是否为空格,javascript怎么判断是否为空格?
  8. Web前端开发基础三剑客学习知识分享
  9. C#通用类库--数字转为人民币汉字大写表示
  10. Java总结基础知识
  11. 详解MATLAB/Simulink通信系统建模与仿真源码
  12. vue路由守卫以及用法
  13. 用python批量下载网络图片_使用python批量下载图片吗?怎么做?
  14. 单片机 | 51单片机原理
  15. [回忆]2007年的GDNT研发广东北电辞职信.
  16. oracle监控pga,监控PGA最大空间、分配
  17. 07 ,日志入库项目 :
  18. HTTP 协议相关入门
  19. 【有限域元素加法和乘法】有限域元素加法和乘法的原理及MATLAB实现
  20. 西南科技大学OJ题 求最小生成树(Prim算法)1075

热门文章

  1. git: Accessdenied 错误解决办法
  2. 数据恢复之数据恢复软件
  3. 经验 | 初学者注意这几点,可以少走一些弯路!
  4. 英语知识点整理day15-谚语学习(G字母开头)
  5. python在电脑上的图标_python-设置窗口图标
  6. 宝塔面板安装完成后关闭手机号账号绑定
  7. 某省公共资源交易公共服务平台数据解密,headers中的portal-sign加密
  8. 云服务器装win 10系统,云服务器可以安装win10吗
  9. php上传文件 找不到临时文件夹(解决方法)
  10. 策略模式详解(英雄联盟上王者案例)