知识图谱嵌入经典方法（Trans系列、KG2E）

1. 知识图谱嵌入

相关内容部分来自：https://zhuanlan.zhihu.com/p/147542008，https://mp.weixin.qq.com/s/Cb-CP1Tf2bv_hlyusRN6zA，https://zhuanlan.zhihu.com/p/80149671

2. 知识表示的一些背景知识

通常，我们使用三元组(head, relation, tail)来表示知识。在这里，头和尾是实体。例如，(sky tree, location, Tokyo)。我们可以用独热向量来表示这个知识。但实体和关系太多，维度太大。当两个实体或关系很近时，独热向量无法捕捉相似度。受Wrod2Vec模型的启发，我们想用分布表示来表示实体和关系。

3. 下游任务的应用

连接预测

连接预测通常被称为预测某个实体与另一个给定实体是否具有特定关系的任务。比如，给定 $h$ 预测 $(r, t)$ 或者给定 $t$ 预测 $(h, r)$ ，前者表示为 $(?, r, t)$ ，后者表示为 $(h, r, ?)$ 。例如，(?, 导演,惊魂)，是预测电影的导演，(毒液,导演,?)，就是预测某个电影被某个人导演。这本质上是一个知识图谱的完善的任务。

推荐系统

推荐系统为用户提供他们可能想要购买或查看的物品的一些建议。在不同的推荐策略中，协同过滤技术取得了显著的成功。但是，并不总是有效，因为用户-物品的交互可能非常稀少。在这种情况下，混合推荐系统通常可以取得更好的性能，混合推荐系统将用户-物品的交互作用与用户或物品的辅助信息相结合。

利用知识图提高协同过滤的质量。具体来说，他们使用存储在KG中的三种类型的信息，包括结构化知识(三元组)、文本知识(例如，一本书或一部电影的文本摘要)和视觉知识(例如，一本书的封面或电影的海报图像)，来推导物品的语义表征。为了对结构化知识进行建模，提出了一种典型的知识图谱的嵌入技术。TransR 为每个物品学习了一个结构化的表示。对于另外两种类型的信息，可以使用堆叠去噪自动编码器和堆叠的卷积自动编码器分别提取物品的文本表示和视觉表示。

也有一些应用利用到了知识图谱的嵌入，如实体解析，关系提取，问题回答等。你可以从这篇文章中找到更多的信息：Knowledge Graph Embedding: A Survey of methods and Applications(2017)。

4. 平移距离模型 (Translate)

平移距离模型利用了基于距离的评分函数，通过两个实体之间的距离对事实的合理性进行度量。

4.1 TransE–NIPS 2013 模型及其扩展

TransE 模型。表示学习在自然语言处理领域受到广泛关注起源于 Mikolov 等人于2013年提出的 word2vec 词表示学习模型和工具包。利用该模型，Mikolov 等人发现词向量空间存在平移不变现象。例如他们发现:

受到该平移不变现象的启发，Border等人提出了TransE模型，将知识库中的关系看作实体间的某种平移向量。对于每个事实三元组(h,r,t)，TransE模型将实体和关系表示为同一空间中，把关系向量r看作为头实体向量 $h$ 和尾实体向量 $t$ 之间的平移即 $h + r \approx t$ 。

比如：对于给定的2个事实(姜文, 导演, 邪不压正)和(冯小刚, 导演, 芳华) ，可以得到：姜文+ 导演≈邪不压正和冯小刚+导演≈芳华。

知识图谱中的实体关系类型可分为一对一、一对多、多对一、多对多4 种类型，而复杂关系主要指的是一对多、多对一、多对多的 3 种关系类型。虽然TransE模型的参数较少，计算的复杂度显著降低，并且在大规模稀疏知识库上也同样具有较好的性能与可扩展性。但是TransE 模型不能用在处理复杂关系上。原因如下：

以一对多为例，对于给定的事实，以姜文拍的民国三部曲电影为例，即《让子弹飞》、《一步之遥》和《邪不压正》。按照上面对于TransE模型的介绍，可以得到，让子弹飞≈一步之遥≈邪不压正，但实际上这三部电影是不同的实体，应该用不同的向量来表示。多对一和多对多也类似。

4.2 TransH–AAAI 2014

TransH 的动机就是解决这种复杂关系，那么它具体是怎么解决的呢？

TransH 的核心思想是对于关系每一个 $r$ ，有一个超平面 $W r$ 和一个关系向 $d r$ 表示，而不是和实体在同一个嵌入空间。具体来说，在每个三元组中，将头实体 $h$ 和尾实体 $t$ 都映射到这个超平面上得到向量 $h ⊥$ 和 $t ⊥$ ，训练使 $h ⊥ + d r \approx t ⊥$ 。目的是为了能够使得同一个实体在不同关系中有不同的意义，因为不同的关系有不同的法平面。回到我们上面的 $N - 1$ 的复杂关系问题，对于三元组 $(h, r, t)$ 和 $h_1, r, t)$ ，根据 TransE 的思想, $h_1 = h$ 。而对于 TransH 来说，只需要满足 $h$ 和 $h_1$ 在关系 r 的超平面上的投影相同就行，这样就可以区分出 $h$ 和 $h_1$ ，两个的向量表示是不同的。简单来说就是增加了一个额外的特征空间对不同实体具有相似语义的情况进一步进行抽象，这样可以保证在额外的空间中语义相似，同时在原特征空间中进行实体间的区分

4.3 TransR—AAAI 2015

虽然TransH模型使每个实体在不同关系下拥有了不同的表示，它仍然假设实体和关系处于相同的语义空间中，这一定程度上限制了TransH的表示能力。TransR模型则认为，一个实体是多种属性的综合体，不同关系关注实体的不同属性。TransR认为不同的关系拥有不同的语义空间。对每个三元组，首先应将实体投影到对应的关系空间中，然后再建立从头实体到尾实体的翻译关系。

如图1（c）所示是TransR模型的简单示例。对于每个三元组 $(h, r, t)$ ，我们首先将实体向量向关系r空间投影。具体而言，对于每一个关系 $r$ ，TransR定义投影矩阵 $M_r$ ，将实体向量从实体空间投影到关系 $r$ 的子空间，用 $h ⊥$ 和 $t ⊥$ 表示如下，基于此以TransE的思想构造损失函数完成关系嵌入：

4.4 TransD—ACL 2015

TransD 方法的提出是在 TransR 的基础之上，虽然 TransR 相对于前两种方法有显著的效果，但是也存在明显的缺点，如下：

(1) 在同一关系 r 下, 头尾实体共用相同的投影矩阵，然而，一个关系的头尾实体存在很大的差异，例如（美国，总统，奥巴马），美国是一个实体，代表国家，奥巴马是一个实体，代表的是人物。
(2) TransR 仅仅让给投影矩阵与关系有关是不合理的，因为投影矩阵是头尾实体与关系的交互过程，应该与实体和关系都相关。
(3) TransR 模型的参数急剧增加，计算的时间复杂度大大提高。

TransD 的模型思想，给定一个三元组 $(h, r, t)$ ，TransD 将头尾实体分别投影到关系空间得到投影矩阵 $M_{rh}$ 和 $M_{rt}$ ,这样得到的投影矩阵便与实体和关系都有关系。获取投影矩阵之后，和 TransR 一样，计算头尾实体的投影向量。

4.5 TransA—ACL 2015

TransA模型认为前述的模型都存在以下两个问题:

损失函数中的距离度量太过简单，不具备灵活性
由于损失函数过于简单，实体和关系向量的每一维都等同对待，但是不同维度的重要度不一样，有些维度效果好，有些维度可能是噪音。

上述方法中实体和关系向量的每一维都等同对待，但是不同维度的重要度不一样，有些维度效果好，有些维度可能是噪音，因此将其等同对待是不合理的。

来看下图，实点表示正确匹配，空心点表示错误匹配，箭头表示某种关系(HasPart)，在图(a)中采用欧式距离得到的结果中有一个三元组(Sleeping，HasPart, Appliance)，但是它是错误的，正确的三元组是(Sleeping，HasPart, Dreaming)。

TransA 为了不等同对待向量的每一维，对向量维度加权，赋予不同的权重，在图(b)中对 $x, y$ 轴进行了拆解，对 $y$ 轴加权，对 $x$ 轴降权，这样 $x$ 轴就有一个较小的loss，会向正确的三元组方向学习。
（1）式代表传统的模型，（2）代表TransA的优化形式

5. 高斯嵌入模型

5.1 KG2E—ACM 2015

作者认为以前的方法都是将实体和关系嵌入到点向量空间中，这些模型总是以同样的方式看待所有的实体和关系，而作者认为实体库中的实体和关系本身就就存在不确定性，以前的方法模型忽略了这一不确定性。针对这种不确定性，文中给出了图示，如下图所示，带有下划线的表示关系，每个圆圈代表不同实体和关系的表示，他们分别于 Hillary Clinton构成了三元组，圆圈越大代表其不确定性越大，从图中我们能够看出 nationality这个关系的不确定性是最大的。

5.2 TransG—ACL 2016

TransD 模型的提出是为了解决关系的多种语义问题，和上面的 TransR 解决的问题类似，一种关系可能存在多种语义表达。

TransG认为既然一种关系存在多种语义表达，那么将每种语义采用高斯分布来刻画。具体的评分公式定义如下，Mr代表的是潜在语义关系数量，对于一种关系的多种语义，期待学习到可能性最大的语义关系

最后来看下传统模型和 TransG 模型的比较，如下图，其中三角形为正确的尾实体，圆点为错误的尾实体，不同颜色的三角代表不同的语义表达。

(a) 为传统模型示例，由于将关系 r 的所有语义混为一谈，导致错误的实体无法被区分
(b) 中为 TransG的模型示例，TransG 利用高斯分布刻画不同语义关系，从而能够区分出错误实体。