Answering Visual-Relational Queries in Web-Extracted Knowledge Graphs

Answering Visual-Relational Queries in Web-Extracted Knowledge Graphs(在web提取的知识图中回答可视化关系查询)

代码地址： https://github.com/nle-ml/mmkb.git

摘要：

视觉关系知识图(KG)是一个多关系图，其实体与图像相关联。探索了新的机器学习方法来回答网络提取的知识图中的可视化关系查询，为此创建了ImageGraph。这是一个知识图谱，包含1,330个关系类型、14,870个实体和829,931张从网络上抓取的图像。通过像ImageGraph这样的视觉关系KGs，可以引入新的概率查询类型，其中图像被视为一等公民。无论是不可见图像之间的关系预测，还是多关系图像检索，都可以用特定的可视化关系查询族来表示。我们引入了卷积网络和知识图嵌入方法的新组合来回答这类问题。我们还探索了一个零镜头学习场景，其中一个全新实体的图像与一个现有KG的实体的多个关系相链接。由此产生的不可见实体图像的多关系基础成为知识图，作为语义实体表示。实验结果表明，所提出的方法能够高效、准确地回答这些可视化关系查询。

1、介绍：

许多应用程序都可以用知识图建模，知识图用节点表示实体，用节点属性表示对象属性，用有向类型化边表示实体之间的关系。例如，产品推荐系统可以表示为一个知识图，其中节点表示客户和产品，输入边表示客户评论和购买事件。在医学领域，有几种知识图用于模拟疾病、症状、药物、基因及其相互作用。这些知识图中的实体越来越多地与可视化数据相关联，例如，在在线零售领域，有产品和广告图像，而在医疗领域，有与患者相关的成像数据集(核磁共振成像、ct等)，视觉数据是社交网络和万维网的一个重要组成部分。
知识图谱有助于结构化数据的集成、组织和检索，并支持各种形式的搜索应用程序，近年来，知识图谱在诸如问答[Das等人，2017]、语言建模[Ahn等人，2016]和文本生成[Serban等人，2016]等领域发挥着越来越重要的作用。
尽管在构建和维护KG方面有大量的工作，但是可视化关系KG的设置(实体与可视化数据关联)并没有得到太多的关注。
可视化关系KG表示实体、这些实体之间的关系，以及与实体关联的大量图像：

ImageNet [Deng等人，2009年]和VisualGenome [Krishna等人，2016年]数据集是基于KGs如WordNet。它们主要被用作ImageNet的对象分类数据集或用于促进单个图像中的场景理解，通过这项工作，我们解决了在知识图中组织的一组大型图像中对视觉概念进行推理的问题。
我们希望探索在何种程度上，web提取的视觉数据可以用来丰富现有的知识图谱，从而促进超越基本图像检索的复杂视觉搜索应用。
我们工作的核心思想是在KGs和可视化关系查询中都将图像视为一等公民。我们工作的主要目标是了解与KG实体关联的视觉数据在多大程度上可以与深度学习方法结合使用来回答这些视觉关系查询。允许图像作为查询的参数有助于许多新的查询类型，在图中，我们列出了本文中讨论的一些查询类型。

为了回答这些问题，我们在KG嵌入方法和深度表示学习方法上构建了可视化数据。这使我们能够准确而有效地回答这些视觉查询。
有许多应用领域可以从视觉KGs的查询回答中受益。
在在线零售中，新颖产品的视觉表示可以用于zero-shot产品推荐。
可视化关系KG不仅能够检索相似的产品，还能够支持产品属性的预测，更具体地说，支持客户可能感兴趣的哪些属性。
时尚行业的视觉属性对于产品推荐至关重要[Liu等人，2016,Veit等人，2015]能够将新颖的视觉概念根植到具有属性和各种关系类型的现有KG中是一种合理的零镜头学习方法。

贡献：

我们做出了以下贡献。首先，我们引入了ImageGraph，这是一个可视化关系网络提取的KG。有1,330个关系，其中829,931张图像与14,870个不同的实体关联，我们引入一组新的可视化关系查询类型，我们提出了一套新的神经体系结构和目标，用于回答这些新的查询类型。这些查询类型概括了图像检索和链接预测查询，是首次将深度CNN和KG嵌入学习目标结合到一个联合模型中。证明了提出的深度神经网络类对于zero-shot学习也是成功的，即在查询时仅使用视觉数据创建完全不可见实体和KG之间的关系。

2、相关工作：

我们讨论了我们对以前工作的贡献的关系。
重点是关系学习、图像检索、目标检测、场景理解、现有数据集和零镜头学习。
关系学习：
目前已经出现了一系列针对特定问题(如多关系图中的链接预测)的方法。例如，知识库分解和嵌入方法[Bordes等人，2013,Nickel等人，2011,Guu等人，2015]和基于随机游走的ML模型[Lao等人，2011,Gardner和Mitchell, 2015]。重点是集成额外的属性类型，如文本[Yahya等人，2016年，C.等人，2017年]，时间图动力学[Trivedi等人，2017年]和多种模式[Pezeshkpour等人，2018年]。
另一个研究方向是将链路预测问题扩展到多跳推理[Zhang等人，2018]。我们不能在这里列出所有先前的链接预测方法，而是推荐读者阅读两篇调查论文[Nickel等人，2016a, al Hasan和Zaki, 2011]。
与现有的方法相反，我们解决了在实体与网络提取的图像相关联的知识图谱中回答可视化关系查询的问题。
我们还解决了零射击学习场景，这是一个在多关系图中的链接预测环境中没有解决的问题。
图像排名：
图像检索是一个流行的问题，并已被多位作者解决[Wang et al.， 2014, Yang et al.， 2016, Jiang et al.， 2017, Niu等，2018,Guy et al.， 2018]。在[Yang等人，2016]中，提出了通过学习基于点击的多特征相似性对给定搜索引擎的输出进行重新排序，作者进行光谱聚类，并通过计算基于点击的聚类得到最终排名结果。在[Guy et al.， 2018]中，作者对DNN进行了微调，以对用户可能想要在社交媒体上分享的照片进行排名，以及一种检测重复照片的机制。在[Niu等人，2018]中，学习了一种联合用户图像嵌入，以根据用户偏好生成排名。与之前的方法相反，我们引入了一套新颖的视觉查询类型，在一个web提取的带有图像的KG中，并提供了有效地回答这些查询的方法。
关系数据和可视化数据
以往将关系数据和视觉数据相结合的工作主要集中在目标检测[Felzenszwalb等人，2010,Girshick等人，2014,Russakovsky等人，2013,Marino等人，2017,Li等人，2017]和场景识别[Doersch等人，2013,Pandey和Lazebnik, 2011, Sadeghi和Tappen, 2012, Xiao等人，2010,Teney等人，2017]，这需要更复杂的视觉-关系推理。
近年来，关于人-物、物-物和物-属性关系的推理激增[Gupta等人，2009,Farhadi等人，2009,Malisiewicz和Efros, 2009, Yao和Fei-Fei, 2010, Felzenszwalb等人，2010,Chen等人，2013,Izadinia等人，2014,Zhu等人，2014]。
VisualGenome项目[Krishna等人，2016]是一个集成了语言和视觉模式的知识库。该项目提供了一个基于WordNet的知识图谱，它为每个图像提供了类别、属性和关系类型的注释。
最近的工作使用数据集集中在单个图像的场景理解。例如，Lu等人[Lu et al.， 2016]提出了一个通过推断句子比如“骑自行车的人”来检测图像中描绘的对象之间关系类型的模型。
Veit等人[Veit等人，2015]提出了一个连体CNN来学习纺织产品对的度量表示，以便了解哪些产品具有相似的风格。有大量关于度量学习的工作，其目标是生成图像嵌入，以使基于成对距离的损失最小化。[Schroff等人，2015,Bell和Bala, 2015, Oh Song等人，2016,Sohn, 2016, Wang等人，2017]。
最近的工作将这一思想扩展到直接优化聚类质量度量[Song等人，2017]。在Vincent等人[Vincent等人，2017]中，他们提出了图像和知识图的相互嵌入空间，因此图像和知识图中已知实体之间的关系被联合编码。Zhou等人[Zhou和Lin, 2016]提出了一种基于二部图的方法，将对食物的描述与其配料联系起来。Johnson等人[Johnson等人，2015]提出使用VisualGenome数据从文本查询中恢复图像。在Thoma等人的工作中[Thoma等人，2017]，他们在一个联合表示中合并来自图像、文本和KG的嵌入，并使用该表示对DBpedia进行链接预测。
ImageGraph与这些数据集的不同之处在于，不同的图像和图像注释实体之间存在关系类型。这就定义了一类新的问题，在这些问题中，人们试图回答诸如“这两个图像是如何相关的?”通过这项工作，我们解决了从预测图像对的关系类型到多关系图像检索的问题。
zero-shot 学习
我们专注于探索如何使用KG数据来发现未见实体(即在训练期间不属于KG的实体)的视觉数据与已知KG实体的视觉数据之间的关系。这是一种零镜头学习(ZSL)的形式，其目标是推广到新的视觉概念。
一般来说，ZSL方法(如[Romera-Paredes和Torr, 2015, Zhang和Saligrama, 2015])依赖于底层嵌入空间，如基于视觉属性的嵌入空间，来识别不可见的类别。在本文中，我们不假设这样一个公共嵌入空间的可用性，而是假设一个外部的可视关系KG的存在。与我们的方法类似，当这种显性知识没有被编码在底层嵌入空间时，其他的工作依赖于通过语言模式(例如[Ba等人，2015,Lu等人，2016])来寻找相似性，利用分布词表征来捕捉相似性的概念。
然而，这些方法在单个图像中解决场景理解，即这些模型能够检测给定图像中的视觉关系。另一方面，我们的方法查找不同图像和实体之间的关系。

3、ImageGraph:一个web提取的视觉知识图

ImageGraph是一个可视化关系KG，其关系结构基于Freebase [Bollacker等人，2008]，更具体地说，基于FB15k, Freebase的一个子集和一个流行的基准数据集[Nickel等人，2016a]。
由于FB15k不包含视觉数据，我们执行以下步骤用图像数据丰富KG实体。
（1）实现了一个网络爬虫，能够解析图像搜索引擎谷歌图像，必应图像和雅虎图像搜索的查询结果，
（2）为了尽量减少由于多义性实体标签(例如，有超过100个Freebase实体的文本标签为“Springfield”)而产生的噪音，我们为FB15k中的每个实体提取了19亿个维基百科三元组freebase RDFdump的所有维基uri。例如，对于马萨诸塞州的Springfield，我们获得了Springfield_(Massachusetts,United_States)和Springfield_(MA)这样的uri，为了消除歧义，这些uri被处理并用作搜索查询。我们使用爬虫下载了超过2.4M的图片(超过462Gb的数据)。我们删除了损坏的、低质量的和重复的图片，当有超过25个结果时，我们使用每个图片搜索引擎返回的25个顶部图片。图像被缩放到最大高度或宽度为500像素，同时保持其纵横比。这导致了与14,870个不同实体相关的829,931张图像(每个实体55.8张图像)，在过滤掉头或尾实体不能与图像关联的三元组后，视觉KG由564,010个三元组组成，表达14,870个实体之间的1,330种不同关系类型。我们提供了三组三元组用于训练、验证和测试。另外还有三组图像分组用于训练、验证和测试。表1列出了视觉KG结果的统计数据。任何来自FB15k的KG，如FB15k-237[Toutanova和Chen, 2015]也可以与爬取的图像相关联。

由于提供图片本身就会违反版权法，所以我们提供了分布式爬虫的代码以及为本文实验所抓取的图片urls。
关系类型的分布如图3(左)所示。它为每个关系类型绘制它出现在其中的三元组的数量。一些关系类型如award_nominee或profession经常出现，而另一些关系类型如ingredient 只有很少的实例。

对称关系类型占4%，不对称关系类型占88%，其他关系类型占8%(见表4(左))

有585种不同的实体类型，如Person、Athlete和City。图3(中间)显示了最常见的实体类型。

图3(右)可视化了ImageGraph三元组中的实体分布和一些示例实体。

表1列出了ImageGraph KG和相关工作中其他KG的一些统计数据。
首先，我们想强调ImageGraph和可视化基因组项目(VG)之间的区别[Krishna等人，2016]，通过ImageGraph，我们解决了学习具有规范关系类型的KG的表示，而不是通过文本表示的关系类型的问题。在较高的层次上，我们专注于在一个web提取的KG中回答可视化关系查询。这与信息检索有关，但在我们的工作中，图像是一等公民，我们引入了新的和更复杂的查询类型。相比之下，VGD侧重于对图像中对象之间的关系进行建模，并用自然语言表达关系类型。
ImageGraph和ImageNet之间的其他区别如下所示：
（1）ImageNet基于词汇数据库WordNet，其中来自同一词汇类别的同义词被分组到同义词集中。在同义词集之间有18种关系表示连接。另一方面，在Freebase，有两个数量级的关系，在我们关注的FB15k中，有1345种关系表示地点的位置、篮球运动员的位置和实体的性别。ImageNet中的实体专门表示实体类型，如猫和汽车，
（2）FB15k中的实体要么是实体类型，要么是实体类型的实例，如Albert Einstein和Paris。这使得与ImageGraph相关的计算机视觉问题比现有数据集更具挑战性。ImageGraph的重点是学习关系ML模型，该模型在学习期间和查询时都包含可视化数据。

4、可视化关系图的表示学习

知识图KG K由一组三元组T给出，即(h, r, T)形式的陈述，其中h, T∈E分别是头实体和尾实体，r∈r是一种关系类型。图1a描述了KG的一个小片段，其中包含实体和与实体关联的图像之间的关系。

之前的工作不包括图像数据，因此主要关注以下两种类型的查询（1）首先，查询类型(h, r?， t)要求给定一对头尾实体之间的关系。（2）第二，查询类型(h, r, t?)和(h?， r, t)，要求实体正确完成三元组。后一种查询类型通常称为知识库完成。在这里，我们主要关注将可视化数据作为查询对象的查询，即包含在查询、查询的答案或两者都包含的对象

4.1 可视化关系查询问答

当实体与图像数据相关联时，可能会出现几种全新的查询类型。图1b列出了我们在本文中关注的查询类型。我们将训练过程中使用的图像称为可见图像，而将其他所有图像称为不可见图像。

（1）给定一对不可见的图像，我们不知道它们的KG实体，确定潜在实体之间的未知关系。
（2）给定一个不可见的图像(我们不知道其底层KG实体)和一个关系类型，确定完成查询的可见图像
（3）给定一个不属于KG的全新实体的不可见图像，以及一个我们不知道底层KG实体的不可见图像，确定两个底层实体之间未知的关系。
（4）给定一个不属于KG的全新实体的不可见图像和一个已知的KG实体，确定两个实体之间未知的关系。
对于这些查询类型中的每一个，在训练期间都没有观察到底层实体之间的求购关系。
查询类型(3)和(4)是zero-shot学习的一种形式。因为在训练过程中，新实体与其他实体的关系以及它的图像都没有被观察到。这些考虑说明了可视化查询类型的新颖特性。机器学习模型必须能够学习KG的关系语义，而不是简单地将图像分配给实体的分类器。这些查询类型的另一个原因是，对于典型的KGs来说，实体的数量比关系的数量大几个数量级

4.2 面向可视化关系查询回答的深度表示学习

我们首先讨论KG完成方法，并将概念转化为可视化关系KGs中的查询回答。设rawiraw_{i}rawi为实体i∈E的原始特征表示,设f和g为可微函数,大多数KG完成方法通过一些评分函数来学习在向量空间中嵌入实体，该函数被训练为将高分分配给正确的三元组，将低分分配给错误的三元组。评分函数通常以fr(eh, et)的形式出现，其中r是一种关系类型，eh和et是d维向量(分别是头实体和尾实体的嵌入),其中ei = g(rawi)是一个嵌入函数，它将实体的原始输入表示映射到嵌入空间。在没有可视数据的KGs的情况下，实体的原始表示只是它的独热编码。
现有的KG补全方法使用嵌入函数g(rawi) = raw| iW，其中W是一个|E|×d矩阵，不同的只是它们的评分函数不同，即头尾实体的嵌入与参数向量结合的方式不同。
（1）差异：TransE
（2）乘法：DistMult
（3）圆形相关性：HolE
（4）串联，连结：
对于每一个实例，在训练过程中学习矩阵W(存储实体嵌入)和向量φr。一般来说，参数被训练成这样，fr(eh, et)对于真三元组是高的，对于假设在KG中不存在的三元组是低的。训练目标通常基于逻辑损失，这已被证明是优越的，大多数的组成函数：

其中Tpos和Tneg分别是正训练三元组和负训练三元组的集合，Θ是学习期间训练的参数，λ是正则化超参数。为了实现上述目标，需要一个创建损坏的三元组Tneg的过程。这通常涉及对头部或尾部实体进行随机抽样。
为了在训练后回答类型(h, r, t?)和(h?， r, t)，我们形成所有可能的查询完成，并根据训练模型分配给这些完成的分数计算一个排名。
对于类型(h, r?， t)人们通常使用softmax激活与分类交叉熵损失相结合，它不需要负三元组

其中Θ是学习期间训练的参数。
对于可视化关系KGs，输入由原始图像数据组成，而不是实体的单热编码。我们提出的方法建立在完成KG的思路和方法的基础上。然而，我们使用深度卷积神经网络从输入图像中提取有意义的视觉特征，而不是用一个简单的嵌入函数g将输入图像乘以一个权值矩阵。
对于复合函数f，我们计算KG补全文献中使用的四种操作:差分、乘法、拼接和循环关联。图5a描述了我们为查询应答训练的基本架构。

对神经网络中负责嵌入原始图像输入的部分(表示为g)的权值进行绑定。我们还尝试了用虚线密集层表示的其他隐藏层。复合操作操作是差分、乘法、串联或循环关联。据我们所知，这是KG嵌入学习和深度CNN首次结合用于视觉关系查询回答

5、实验

我们进行了一系列实验来评估所提出的方法。首先，我们描述适用于所有实验的实验设置。其次，我们报告和解释不同类型的可视化关系查询的结果。

5.1 一般设置

我们使用深度学习框架Caffe [Jia等人，2014]来设计、训练和评估提出的模型。嵌入函数g基于[Simonyan and Zisserman, 2014]中引入的VGG16模型。我们在ImageNet [Deng et al.， 2009]导出的ILSVRC2012数据集上预训练了VGG16，并去掉了原始VGG16的softmax层。在VGG16的最后一个密集层之后，我们添加了一个256维的层。这一层的输出作为输入图像的嵌入。将嵌入维数从4096降低到256的目的是为了获得一种高效、紧凑的潜在表示，该潜在表示对具有十亿实体的KGs是可行的。
对于复合函数f，我们执行了差分、乘法、拼接和循环关联这四种操作中的任意一种。我们还在ReLu激活中尝试了一个额外的隐藏层。图5a描述了通用网络架构。该架构的输出层具有具有交叉熵损失的softmax或sigmoid激活。我们用Xavier方法初始化了新添加层的权重[gloria and Bengio, 2010]
我们使用的批大小为45，这是适合GPU内存的最大值。为了创建训练批次，我们从训练批次中均匀随机抽样一个随机三元组。对于给定的三组图像，我们从训练图像集中随机抽取一张图像作为头部和一张图像作为尾部。我们使用SGD, VGG16的参数学习率为10−5，其余参数学习率为10−3。使用两种不同的学习率是至关重要的，因为新添加的层中较大的梯度会导致网络中预先训练的部分不合理的变化。我们设置权重衰减为5 × 10−4。每4万次迭代，学习率就降低0.1倍。每个模型都经过了10万次迭代的训练。由于所有查询类型的答案要么是图像排名，要么是关系排名，我们使用度量排名质量的指标。特别地，我们报告了**hits@1 (hits@10, hits@100)**的结果，测量正确关系排名最高的百分比(排名前10，前100)。我们还计算正确实体或关系排名的中位数，以及实体和关系排名的平均倒数排名(MRR)，分别定义如下:

其中T是所有测试三元组的集合，rank（r）是正确关系的秩，rank（img(h)）是实体h中排名最高的图像的秩。对于每个查询，我们从排名中删除所有同时是查询正确答案的三元组。所有实验都在128GB RAM、2.8 GHz CPU和NVIDIA 1080 Ti的普通硬件上运行。

5.2 视觉关系预测

给定一对不可见的图像，我们想确定它们潜在的未知实体之间的关系。它可以用**(imgh, r?，imgt)。图1b对这种查询类型进行了说明，我们称之为可视化关系预测。
我们分别使用训练和验证三元组和图像训练深度架构。对于训练数据集中的每一个三元组(h, r, t)，我们均匀随机地为头部和尾部实体抽取一个训练图像。我们使用图5a中描述的带有softmax激活和分类交叉熵损失的架构。对于每个测试三元组，我们分别从头部和尾部实体的测试图像中均匀随机地抽取一个图像。然后我们使用这对图像来查询训练好的深度神经网络。为了获得评估度量的更可靠的统计估计，我们在每个测试三元组中重复上述过程三次。同样，在训练过程中没有看到任何测试三元组和图像，在测试过程中也没有使用任何训练图像。计算一个查询的答案需要20毫秒。
我们将提出的体系结构与两种不同的基线进行了比较:一种是基于实体分类**，然后采用知识库嵌入方法进行关系预测(VGG16+DistMult)，另一种是概率baseline(Prob，baseline)。实体分类基线包括微调预训练的VGG16，将图像分类到ImageGraph的14,870个实体中。为了获得测试时的关系类型排名，我们使用VGG16预测头部和尾部的实体，然后使用KB嵌入方法DistMult[Yang等人，2014]返回给定(头，尾)对的关系类型排名。DistMult是一种KB嵌入方法，可在FB15k上实现当前最先进的KB完成结果[Kadlec等人，2017]。因此，在这个实验中，我们只是将ImageNet上预训练的VGG16的原始输出层替换为适合我们问题的新的输出层。为了训练，我们加入一个验证分裂的训练，我们设置所有层的学习率为10 - 5，我们按照我们在所有实验中使用的相同策略训练。一旦系统被训练，我们通过对测试集中的图像实体进行分类来测试模型。为了训练DistMult，我们对每个正三元组采样500个负三元组，并使用100的嵌入大小。图5b说明了VGG16+DistMult基线，并将其与我们提出的方法进行对比。

第二个基线(概率基线)使用训练和验证三元组集计算每种关系类型的概率。基线根据这些先验概率对关系类型进行排序。表2列出了两个基线和不同建议的体系结构的结果。

概率基线在3个指标上优于VGG16+DistMult基线。这是由于在训练、验证和测试集中关系类型的高度倾斜分布，一小部分关系类型组成了很大一部分三元组。图3(左)和图3(右)描述了关系类型和实体的计数图。此外，尽管对于实体对之间的关系预测问题，DistMult的hits@1值为0.46，但基线VGG16+DistMult的表现很差。这是由于VGG的实体分类性能较差(accuracy: 0.082, F1: 0.068)。因此，在其余的实验中，我们只与概率基线进行比较。
在表2的下半部分，我们列出了DIFF、MULT和CAT表示不同的组合操作实验结果。虽然我们尝试了几种不同的优化器和超参数设置，但仍然无法使相应的模型收敛，因此我们省略了复合运算循环相关。在后修复1HL代表的架构中，我们添加了一个额外的隐藏层，在softmax之前激活ReLu。
串联操作的性能明显优于乘法和差分操作。这与KG完成文献中MULT和DIFF优于串联操作的发现相反。除了DIFF模型外，带有额外隐藏层的模型并不比它们的浅层模型表现得更好。我们假设这是因为差分是唯一的线性组合操作，受益于额外的非线性。每一个被提议的模型都优于基线。

5.3 多关系图像检索

给定一个不可见的图像(我们不知道其底层KG实体)和一个关系类型，我们希望检索完成查询的现有图像。如果给出了头部实体的图像，则返回尾部实体的图像排序;如果给出了尾部实体图像，则返回头部实体图像的排序。
这个问题对应于图1b中的查询类型(2)。请注意，这相当于执行多关系度量学习，据我们所知，这是以前没有做过的。我们分别对三个组成函数f和两个不同的激活/损失函数进行了实验。首先，我们使用softmax激活和分类交叉熵损失训练的模型对图像进行排序。其次，我们采用softmax激活训练的模型，用sigmoid激活和相应的二叉交叉熵损失替换softmax激活。对于每个训练三元组(h, r, t)，我们然后通过从实体集合中采样一次头部和一次尾部实体来创建两个负三元组。然后，将负的三元组与方程1的二元交叉熵损失结合使用，以提炼预先训练的权值。直接训练一个模型与二元交叉熵损失是不可能的，因为该模型没有适当收敛。利用softmax和分类交叉熵损失进行预训练是实现二元损失的关键。
在测试期间，我们使用测试三元组，并根据各自模型返回的概率对图像进行排序。例如，给定查询(imgSenso-ji, locatedIn, imgt?)，我们将imgt?使用所有的训练和验证图像，一次一个，并根据模型返回的概率对图像进行排序。我们使用属于真实实体(这里是:日本)的排名最高的图像的排名来计算评价措施的值。我们重复相同的实验三次(每次随机抽取图像)并报告平均值。同样，我们用概率基线比较不同架构的结果。然而，对于基线，我们为每个关系类型计算头部和尾部实体的分布。例如，对于关系类型locatedIn，我们计算两个分布，一个用于头实体，一个用于尾实体。我们使用与前一个实验相同的方法来评估返回的图像排名。
表3列出了实验结果

在关系预测方面，基于连接操作的模型性能最好，其次是差分和乘法操作。具有额外隐藏层的架构不会提高性能。我们还提供了基于串联的softmax激活模型的结果，在该模型中，我们使用sigmoid激活和负采样来细化权重，如前所述。这个模型是性能最好的模型。所有神经网络模型在中位数和hits@100方面都明显优于基线。然而，基线的MRR结果稍好一些。这是由于KG中实体和关系的倾斜分布(参见图3(右)和图3(左))。这再次表明，对于给定的KG，基准具有很强的竞争力。图6显示了CAT-SIG模型为一组四个示例查询提供的答案。

对于左侧的两个查询，模型表现良好，并将正确的实体排在前3位(绿色框架)。右边的示例展示了模型返回不准确排名的查询。为了高效地进行查询回答，我们对所有的图像嵌入进行一次预计算和存储，在查询时只计算评分函数(涉及合成运算和与φr的点积)。回答一个多关系图像检索查询(否则将需要613,138个查询，每个可能的图像一个查询)只需要90毫秒。

5.4 zero-shot 视觉关系预测

最后一组实验解决了zero-shot学习的问题。对于这两种查询类型，我们都得到了一个全新实体的新图像，该实体不属于KG。第一个查询类型询问给定图像和我们不知道底层KG实体的不可见图像之间的关系。第二个查询类型询问给定图像和现有KG实体之间的关系。我们认为，创建到现有KG实体的多关系链接是一种合理的zero-shot学习方法，因为与现有视觉概念及其属性的关系提供了对新实体/类别的表征。
对于zero-shot实验，我们生成了一组新的训练、验证和测试三元组。我们在测试三元组中随机抽取500个正面(反面)实体。然后，我们删除了所有训练集和验证集中头实体或尾实体是这1000个实体之一的三元组。最后，我们只保留1000个实体中的一个作为头或尾的测试三元组，而不是同时保留两个实体。我们从其图像中抽取10个样本，并使用模型10次来计算概率。我们使用平均概率对关系排序。对于查询类型(3)，我们只使用随机抽样的一张图像。与之前的实验一样，我们重复了三次，并将结果取平均值。对于基线，我们计算训练和验证集中关系的概率(对于查询类型(3))，以及以目标实体为条件的关系的概率(对于查询类型(4))，同样，由于关系和实体的倾斜分布，这是非常具有竞争力的基线。表7(左)列出了实验结果。

基于串联操作(CAT)的模型优于基线，表现令人惊讶的好。深度模型能够推广到不可见的图像，因为它们的性能与关系预测任务(查询类型(1))中的性能相当，在该任务中，实体在训练期间是KG的一部分(见表2)，下图中描述了关于零射击查询类型(3)的示例查询。

对于第一个查询示例，CAT模型将正确的关系类型排在第一位(由绿色边框表示)。第二个例子更具挑战性，正确的关系类型不在排名前10的关系类型中。图5.4显示了零射击学习问题的一个具体例子。在绿色中，来自未知实体的视觉数据与来自KG实体的视觉数据(蓝色)通过排列最可能的关系类型进行链接。这个问题不能用标准关系预测方法来解决，因为实体需要在训练期间成为KG的一部分，这些模型才能工作。

总结：

KGs是众多AI应用的核心。目前的研究主要集中在仅对关系结构进行链接预测或对单个图像的场景理解上。我们提出了一种新颖的可视化关系KG，其中实体被可视化数据丰富。我们提出了几种新的查询类型，并引入了适合于概率查询回答的神经结构。我们提出了一种新颖的零镜头学习方法，作为视觉映射一个全新实体的图像到KG的问题