论文整理：Probabilistic Logic Neural Networks for Reasoning

这篇论文是将马尔可夫逻辑网络用到知识图谱补全任务。
马尔可夫逻辑网络传送门

摘要

基于原则逻辑规则的方法是马尔可夫逻辑网络(MLN)，它能够利用一阶逻辑的领域知识，同时处理不确定性。然而，由于复杂的图结构，多层神经网络的推理通常非常困难。与多层神经网络不同，知识图嵌入方法(如TransE、DistMult)学习有效的实体和关系嵌入进行推理，更加有效和高效。然而，他们无法利用领域知识。

本文提出了概率逻辑神经网络，它结合了两种方法的优点。pLogicNet通过使用具有一阶逻辑的马尔可夫逻辑网络来定义所有可能三元组的联合分布，该网络可以通过变分EM算法来有效地优化。在E-步骤中，使用知识图嵌入模型来推断缺失的三元组，而在M-步骤中，基于观察到的和预测的三元组来更新逻辑规则的权重。在多个知识图上的实验证明了pLogicNet在多个竞争基线上的有效性。

问题定义

知识图谱中是事实的集合，一个三元组表示为 (h,r,t)(h,r,t)(h,r,t)，通常，给定一个知识图谱(E,R,O)(E,R,O)(E,R,O)，RRR是关系集合，EEE是实体集合，OOO是观察到的事实集合，目标是用已知的三元组去推理缺失的三元组。这个问题可以用概率的方法去重新表述：每一个三元组(h,r,t)(h,r,t)(h,r,t)都关联着一个二元指示变量v(h,r,t)v_{(h,r,t)}v(h,r,t) ，v(h,r,t)=1v_{(h,r,t)}=1v(h,r,t)=1证明(h,r,t)(h,r,t)(h,r,t)是true，否则，v(h,r,t)=0v_{(h,r,t)}=0v(h,r,t)=0，给定一些真的事实vO={v(h,r,t)=1}(h,r,t)∈Ov_O = \{v_{(h,r,t)} = 1\}_{(h,r,t)∈O}vO={v(h,r,t)=1}(h,r,t)∈O，我们的目标是去预测隐藏的三元组的标签是什么：vH={v(h,r,t)}(h,r,t)∈Hv_H = \{v_{(h,r,t)}\}_{(h,r,t)∈H}vH={v(h,r,t)}(h,r,t)∈H。

我们致力于去学习观察到的和隐藏的三元组的联合分布p(vO,vH)p(v_O, v_H)p(vO,vH)。

马尔可夫逻辑网络（MLN）

在MLN中，马尔可夫网络被设计来定义观察到的和隐藏的三元组的联合分布，其中势函数由一阶逻辑定义。逻辑包括：

对于每个逻辑规则l，我们可以通过用知识图中的真实实体实例化逻辑规则中的实体占位符来获得一组可能的基础GlG_lGl。例如，对于子关系规则∀x,y∈E，v(x,Bornin,y)⇒v(x,Livein,y)\forall x,y∈E，v_{(x,Born in,y)} \Rightarrow v_{(x,Live in,y)}∀x,y∈E，v(x,Bornin,y)⇒v(x,Livein,y)，这个规则的基础GlG_lGl可以是v(Einstein,Bornin,German)⇒v(Einstein,Livein,German)v_{(Einstein,Born in,German)} \Rightarrow v_{(Einstein,Live in,German)}v(Einstein,Bornin,German)⇒v(Einstein,Livein,German)和v(Newton,Bornin,UK)⇒v(Newton,Livein,UK)v_{(Newton,Born in,UK)} \Rightarrow v_{(Newton,Live in,UK)}v(Newton,Bornin,UK)⇒v(Newton,Livein,UK)，我们可以看到前为真，后为假。为了去控制逻辑规则的不确定性，马尔可夫逻辑网络为每个规则lll引入一个权重wlw_lwl，然后所有三元组的联合分布定义如下:

p(vO,vH)=1Zexp(∑l∈Lwl∑g∈Gl1{gistrue})=1Zexp(∑l∈Lwlnl(vO,vH))p(v_O , v_H)=\frac{1}{Z} exp(\sum_{l\in L}w_l \sum_{g \in G_l}1\{ g is true\})= \frac{1}{Z} exp(\sum_{l \in L}w_l n_l (v_O, v_H ))p(vO,vH)=Z1exp(l∈L∑wlg∈Gl∑1{gistrue})=Z1exp(l∈L∑wlnl(vO,vH))，

其中，nln_lnl是基于vOv_OvO和vHv_HvH值的逻辑规则lll的真值groundings（基础数）。有了这样的公式，预测缺失的三联体本质上就变成了推断后验分布p(vH∣vO)p(v_H|v_O)p(vH∣vO)。由于复杂的图结构，精确推理通常是不可行的，因此通常使用近似推理。

知识图谱嵌入

与基于逻辑规则的方法不同，知识图嵌入方法通过观察到的事实vOv_OvO来学习实体和关系的嵌入，然后通过学习到的实体和关系嵌入来预测缺失的事实。通常来说，每个实体e∈Ee ∈ Ee∈E和关系r∈Rr ∈ Rr∈R都与一个嵌入的xex_exe和xrx_rxr相关联。那么所有三元组的联合分布被定义为:

p(vO,vH)=∏(h,r,t)∈O⋃HBer(v(h,r,t)∣f(xh,xr,xt))p(v_O, v_H) = \prod_{(h,r,t) \in O \bigcup H} Ber(v_{(h,r,t)}| f(x_h , x_r, x_t))p(vO,vH)=(h,r,t)∈O⋃H∏Ber(v(h,r,t)∣f(xh,xr,xt))

其中，Ber是标准的伯努利分布，f(xh,xr,xt)f(x_h,x_r,x_t)f(xh,xr,xt)计算了真值三元组（h,r,t)（h,r,t)（h,r,t)的概率，f()f()f()函数是在实体和关系嵌入上的得分函数。例如TranE，fff为σ（γ−∣∣xh+xr−xt∣∣）\sigma （\gamma - ||x_h+x_r-x_t ||）σ（γ−∣∣xh+xr−xt∣∣）,其中σ\sigmaσ是激活函数、γ\gammaγ是混合bias。

然后最大化log⁡p(vO=1,vH=0)\log p(v_O=1,v_H=0)logp(vO=1,vH=0)。整个优化过程使用随机梯度下降。

黄色圆圈是观察（vOv_OvO）到的三元组，灰色圆圈是隐藏（vHv_HvH）的三元组，他们由一套逻辑规则(每个规则有一个红色权重)连接起来。

对于中心三元组，KGE模型通过嵌入预测其指标，而逻辑规则考虑三元组的马尔可夫毯(所有连接的三元组)。在E-step中，我们使用逻辑规则来预测中心指标，并将其作为KGE模型的额外训练数据。在M-step中，我们用KGE模型标注所有隐藏的指标，然后更新规则的权重。

模型

变分EM（Variational EM）

给定一组一阶逻辑规则L={li}i=1∣L∣L=\{l_i\}_{i=1}^{|L|}L={li}i=1∣L∣，我们用一个马尔可夫逻辑网络去建模联合分布：

pw(vO,vH)=1Zexp(∑l∈Lwlnl(vO,vH))p_w(v_O , v_H)=\frac{1}{Z} exp(\sum_{l \in L}w_l n_l (v_O, v_H ))pw(vO,vH)=Z1exp(l∈L∑wlnl(vO,vH))

其中，wlw_lwl是规则l的权重。这个模型可以用最大化观察到的指示器变量log似然函数来训练：log⁡pw(vO)\log p_w(v_O)logpw(vO)。但是，直接优化是有困难的，因此转化为下面的公式：

log⁡pw(vO)≥L(qθ,pw)=Eqθ(vH)[log⁡pw(vO,vH)−log⁡qθ(vH)]\log p_w(v_O) \geq L(q_{\theta},p_{w}) = E_{q_{\theta}}(v_H)[\log p_{w}(v_O,v_H)- \log q_{\theta}(v_H)] logpw(vO)≥L(qθ,pw)=Eqθ(vH)[logpw(vO,vH)−logqθ(vH)]

其中，隐含变量vHv_HvH的变化分布为qθ(vH)q_{\theta}(v_H)qθ(vH)，当qθ(vH)q_{\theta}(v_H)qθ(vH)和真实的后验分布pw(vH∣vO)p_{w}(v_H|v_O)pw(vH∣vO)相等的时候，上述等式成立。上述下界可以用EM算法来有效地优化，在E-step中，称为推理过程，我们固定pwp_{w}pw并更新qθq_{\theta}qθ，去最小化qθ(vH)q_{\theta}(v_H)qθ(vH)和pw(vH∣vO)p_{w}(v_H|v_O)pw(vH∣vO)之间的KL散度。在M-step中，称为学习过程，我们固定qθq_{\theta}qθ并更新pwp_{w}pw，去最大化所有三元组的log最大似然函数：Eqθ(vH)[log⁡pw(vO,vH)]E_{q_{\theta}(v_H)}[\log p_{w}(v_O,v_H)]Eqθ(vH)[logpw(vO,vH)]。

E-step: Inference Procedure

在推理中，我们的目的是推断隐藏变量的后验分布：pw(vH∣vO)p_{w}(v_H|v_O)pw(vH∣vO)，我们使用mean-field变分分布qθ(vH)q_{\theta}(v_H)qθ(vH)来近似真实的后验分布，其中，每一个v(h,r,t)v_{(h,r,t)}v(h,r,t)独立的由（h,r,t)∈H（h,r,t) \in H（h,r,t)∈H推断得到。为了进一步改进推理，我们使用摊销推理（amortized inference），并且用一个KGE模型来参数化qθ(v(h,r,t))q_{\theta}(v_{(h,r,t)})qθ(v(h,r,t))，形式上，qθ(vH)q_{\theta}(v_H)qθ(vH)的公式如下：

qθ(vH)=∏(h,r,t)∈Hqθ(v(h,r,t))=∏(h,r,t)∈HBer(v(h,r,t)∣f(xh,xr,xt))q_{\theta}(v_H) = \prod_{(h,r,t) \in H}q_{\theta} (v_{(h,r,t)}) = \prod_{(h,r,t) \in H} Ber(v_{(h,r,t)} | f(x_h,x_r,x_t))qθ(vH)=(h,r,t)∈H∏qθ(v(h,r,t))=(h,r,t)∈H∏Ber(v(h,r,t)∣f(xh,xr,xt))

通过最小化变分分布qθ(vH)q_{\theta}(v_H)qθ(vH)和真的后验分布pw(vH∣vO)p_w(v_H|v_O)pw(vH∣vO)，最佳qθ(vH)q_{\theta}(v_H)qθ(vH)由定点条件给出：

log⁡qθ(v(h,r,t))=Eqθ(vMB(h,r,t))[log⁡pw(v(h,r,t))∣vMB(h,r,t)]+constforall(h,r,t)∈H\log q_{\theta}(v_{(h,r,t)})=E_{q_{\theta}(v_{MB(h,r,t)})}[\log p_w(v_{(h,r,t)})|v_{MB(h,r,t)}] + const \quad for \quad all \quad (h,r,t) \in Hlogqθ(v(h,r,t))=Eqθ(vMB(h,r,t))[logpw(v(h,r,t))∣vMB(h,r,t)]+constforall(h,r,t)∈H

其中MB(h,r,t)MB(h,r,t)MB(h,r,t)是（h,r,t)（h,r,t)（h,r,t)的马尔科夫毯。对于上面的公式，我们的目标是找到一个分布qθq_{\theta}qθ满足条件，但是，公式的涉及qθ(vMB(h,r,t))q_{\theta}(v_{MB(h,r,t)})qθ(vMB(h,r,t))的期望，为了简化条件，我们采用样本v^MB(h,r,t)={v^(h′,r′,t′)}(h′,r′,t′)∈MB(h,r,t)\hat{v}_{MB_{(h,r,t)}} = \{\hat{v}_{(h^\prime,r^\prime,t^\prime)}\}_{(h^\prime,r^\prime,t^\prime) \in MB(h,r,t)}v^MB(h,r,t)={v^(h′,r′,t′)}(h′,r′,t′)∈MB(h,r,t)来估计期望。特别的，如果对每一个(h′,r′,t′)∈MB(h,r,t)(h^\prime,r^\prime,t^\prime) \in MB(h,r,t)(h′,r′,t′)∈MB(h,r,t)，如果它是obversed，v^MB(h,r,t)=1\hat{v}_{MB_{(h,r,t)}}=1v^MB(h,r,t)=1，否则，v^MB(h,r,t)～qθ(v(h′,r′,t′))\hat{v}_{MB_{(h,r,t)}}～q_{\theta}(v_{(h^\prime,r^\prime,t^\prime)})v^MB(h,r,t)～qθ(v(h′,r′,t′))，以这种方式，优化条件可以简单概述为qθ(v(h,r,t))≈pw(v(h,r,t)∣v^MB(h,r,t))q_{\theta}(v_{(h,r,t)}) ≈ p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})qθ(v(h,r,t))≈pw(v(h,r,t)∣v^MB(h,r,t))。

直观上，对于每个隐含的三元组(h,r,t)(h,r,t)(h,r,t)，KGC模型通过实体和关系的嵌入（即qθ(v(h,r,t))q_{\theta} (v_{(h,r,t)})qθ(v(h,r,t))来预测v(h,r,t)v_{(h,r,t)}v(h,r,t),而逻辑规则利用与(h,r,t)(h,r,t)(h,r,t)相连的三元组pw(v(h,r,t)∣v^MB(h,r,t))p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})pw(v(h,r,t)∣v^MB(h,r,t))进行预测。如果任何与(h,r,t)(h,r,t)(h,r,t)相连的三元组(h′,r′,t′)(h^\prime,r^\prime,t^\prime)(h′,r′,t′)没有观察到，则用样本v^(h′,r′,t′)～qθ(v(h′,r′,t′))\hat{v}_{(h^\prime,r^\prime,t^\prime)} ～q_{\theta}(v_{(h^\prime,r^\prime,t^\prime)})v^(h′,r′,t′)～qθ(v(h′,r′,t′))来填充。然后，简化的最优条件告诉我们，对于最优的知识图谱嵌入模型，每一个(h,r,t)(h,r,t)(h,r,t)的v（h,r,t)v_{（h,r,t)}v（h,r,t)分布，应和逻辑规则达成一致，即qθ(v(h,r,t))≈pw(v(h,r,t)∣v^MB(h,r,t))q_{\theta}(v_{(h,r,t)}) ≈ p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})qθ(v(h,r,t))≈pw(v(h,r,t)∣v^MB(h,r,t))

为了去优化qθq_{\theta}qθ，我们通过当前的qθq_{\theta}qθ去计算pw(v(h,r,t)∣v^MB(h,r,t))p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})pw(v(h,r,t)∣v^MB(h,r,t))，接着，我们将值作为目标，更新qθq_{\theta}qθ去最小化qθ(v(h,r,t))和pw(v(h,r,t)∣v^MB(h,r,t))q_{\theta}(v_{(h,r,t)}) 和 p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})qθ(v(h,r,t))和pw(v(h,r,t)∣v^MB(h,r,t))的KL散度，有以下目标：

Oθ,U=∑(h,r,t)∈HEpw(v(h,r,t)∣v^MB(h,r,t))[log⁡qθ(v(h,r,t))]O_{\theta,U} = \sum_{(h,r,t) \in H} E_{p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})}[\log q_{\theta}(v_{(h,r,t)})]Oθ,U=(h,r,t)∈H∑Epw(v(h,r,t)∣v^MB(h,r,t))[logqθ(v(h,r,t))]

为了去优化这个目标，首先对每个隐藏的三元组(h,r,t)(h,r,t)(h,r,t)计算pw(v(h,r,t)∣v^MB(h,r,t))p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})pw(v(h,r,t)∣v^MB(h,r,t))，如果pw(v(h,r,t)=1∣v^MB(h,r,t))≥ap_w(v_{(h,r,t)}=1|\hat{v}_{MB(h,r,t)}) ≥ apw(v(h,r,t)=1∣v^MB(h,r,t))≥a，其中aaa是超参数，我们便将(h,r,t)(h,r,t)(h,r,t)作为一个正例，训练知识图谱嵌入模型，去最大化对数似然函数log⁡qθ(v(h,r,t)=1)\log q_{\theta}(v_{(h,r,t)}=1)logqθ(v(h,r,t)=1)，否则三元组将被视为反例，这样，由逻辑规则捕获的知识可以有效地提取到知识图谱嵌入模型中。

我们也可以用OOO中观察到的三元组作为实证来增强知识图嵌入模型。因此，我们还优化了以下目标函数:

Oθ,L=∑(h,r,t)∈Olog⁡qθ(v(h,r,t)=1)O_{\theta,L}=\sum_{(h,r,t) \in O} \log q_{\theta}(v_{(h,r,t)}=1)Oθ,L=(h,r,t)∈O∑logqθ(v(h,r,t)=1)

因此，我们得到了qθq_{\theta}qθ的总体目标函数Oθ=Oθ,U,+Oθ,LO_\theta=O_{\theta,U}, + O_{\theta,L}Oθ=Oθ,U,+Oθ,L。

M-step: Learning Procedure

在学习过程中，我们固定qθq_\thetaqθ，通过最大化对数似然估计函数来更新逻辑规则的权重，即Eqθ(vH)[log⁡pw(vO,vH)]E_{q_{\theta}}(v_H)[\log p_{w}(v_O,v_H)]Eqθ(vH)[logpw(vO,vH)]。但是直接优化是非常困难的，因为我们需要去处理分段函数ZZZ，因此我们使用伪极大似然函数来代替优化：

lPL≜Eqθ(vH)[∑h,r,tlog⁡pw(v(h,r,t)∣vO∪H\(h,r,t))]=Eqθ(vH)[∑h,r,tlog⁡pw(v(h,r,t))∣vMB(h,r,t)]l_{PL} \triangleq E_{q_\theta(v_H)}[\sum_{h,r,t} \log p_{w}(v_{(h,r,t)}|v_{O \cup H \backslash (h,r,t)})] = E_{q_{\theta}(v_{H})}[\sum_{h,r,t} \log p_w(v_{(h,r,t)})|v_{MB(h,r,t)}]lPL≜Eqθ(vH)[h,r,t∑logpw(v(h,r,t)∣vO∪H\(h,r,t))]=Eqθ(vH)[h,r,t∑logpw(v(h,r,t))∣vMB(h,r,t)]

其中第二个等式是在MLN方程中的独立性导出的，我们通过梯度下降算法优化www，对每个期望的条件分布Eqθ(vH)[∑h,r,tlog⁡pw(v(h,r,t))∣vMB(h,r,t)]E_{q_{\theta}(v_{H})}[\sum_{h,r,t} \log p_w(v_{(h,r,t)})|v_{MB(h,r,t)}]Eqθ(vH)[∑h,r,tlogpw(v(h,r,t))∣vMB(h,r,t)]，假设v(h,r,t)v_{(h,r,t)}v(h,r,t)通过一组规则与vMB(h,r,t)v_{MB(h,r,t)}vMB(h,r,t)连接，对一个这样的规则lll，相对于wlw_lwl的导数计算如下：

▽wlEqθ(vH)[∑h,r,tlog⁡pw(v(h,r,t))∣vMB(h,r,t)]≃y(h,r,t)−pw(v(h,r,t)=1∣v^MB(h,r,t))\bigtriangledown_{w_l}E_{q_{\theta}(v_{H})}[\sum_{h,r,t} \log p_w(v_{(h,r,t)})|v_{MB(h,r,t)}] \simeq y_{(h,r,t)}-p_{w}(v_{(h,r,t)}=1| \hat{v}_{MB(h,r,t)})▽wlEqθ(vH)[h,r,t∑logpw(v(h,r,t))∣vMB(h,r,t)]≃y(h,r,t)−pw(v(h,r,t)=1∣v^MB(h,r,t))

其中，如果(h,r,t)(h,r,t)(h,r,t)是显式三元组，那么y(h,r,t)=1y_{(h,r,t)}=1y(h,r,t)=1；如果(h,r,t)(h,r,t)(h,r,t)是隐式三元组，那么y(h,r,t)=qθ(v(h,r,t)=1∣v^MB(h,r,t))y_{(h,r,t)}= q_\theta (v_{(h,r,t)}=1| \hat{v}_{MB(h,r,t)})y(h,r,t)=qθ(v(h,r,t)=1∣v^MB(h,r,t))，v^MB(h,r,t)={v^(h′,r′,t′)}(h′,r′,t′)∈MB(h,r,t)\hat{v}_{MB(h,r,t)}=\{ \hat{v}_{(h^\prime,r^\prime,t^\prime)}\}_{(h^\prime,r^\prime,t^\prime) \in MB(h,r,t)}v^MB(h,r,t)={v^(h′,r′,t′)}(h′,r′,t′)∈MB(h,r,t)是qθq_\thetaqθ的一个例子。如果对每一个(h′,r′,t′)∈MB(h,r,t)(h^\prime,r^\prime,t^\prime) \in MB(h,r,t)(h′,r′,t′)∈MB(h,r,t)，如果它是obversed，v^(h′,r′,t′)=1\hat{v}_{(h^\prime,r^\prime,t^\prime)}=1v^(h′,r′,t′)=1，否则，v^(h′,r′,t′)～qθ(v(h′,r′,t′))\hat{v}_{(h^\prime,r^\prime,t^\prime)}～q_{\theta}(v_{(h^\prime,r^\prime,t^\prime)})v^(h′,r′,t′)～qθ(v(h′,r′,t′))。

直观来说，对每个观察到的三元组(h,r,t)∈O(h,r,t) \in O(h,r,t)∈O,我们寻求最大化pw(v(h,r,t)=1∣v^MB(h,r,t))p_{w}(v_{(h,r,t)}=1| \hat{v}_{MB(h,r,t)})pw(v(h,r,t)=1∣v^MB(h,r,t))，对每一个隐式三元组(h,r,t)∈H(h,r,t) \in H(h,r,t)∈H，我们把qθ(v(h,r,t)=1q_\theta (v_{(h,r,t)}=1qθ(v(h,r,t)=1作为pw(v(h,r,t)=1∣v^MB(h,r,t))p_{w}(v_{(h,r,t)}=1| \hat{v}_{MB(h,r,t)})pw(v(h,r,t)=1∣v^MB(h,r,t))目标。

实验结果