论文整理:Probabilistic Logic Neural Networks for Reasoning

这篇论文是将马尔可夫逻辑网络用到知识图谱补全任务。
马尔可夫逻辑网络传送门

摘要

基于原则逻辑规则的方法是马尔可夫逻辑网络(MLN),它能够利用一阶逻辑的领域知识,同时处理不确定性。然而,由于复杂的图结构,多层神经网络的推理通常非常困难。与多层神经网络不同,知识图嵌入方法(如TransE、DistMult)学习有效的实体和关系嵌入进行推理,更加有效和高效。然而,他们无法利用领域知识。

本文提出了概率逻辑神经网络,它结合了两种方法的优点。pLogicNet通过使用具有一阶逻辑的马尔可夫逻辑网络来定义所有可能三元组的联合分布,该网络可以通过变分EM算法来有效地优化。在E-步骤中,使用知识图嵌入模型来推断缺失的三元组,而在M-步骤中,基于观察到的和预测的三元组来更新逻辑规则的权重。在多个知识图上的实验证明了pLogicNet在多个竞争基线上的有效性。

问题定义

知识图谱中是事实的集合,一个三元组表示为 (h,r,t)(h,r,t)(h,r,t),通常,给定一个知识图谱(E,R,O)(E,R,O)(E,R,O),RRR是关系集合,EEE是实体集合,OOO是观察到的事实集合,目标是用已知的三元组去推理缺失的三元组。这个问题可以用概率的方法去重新表述:每一个三元组(h,r,t)(h,r,t)(h,r,t)都关联着一个二元指示变量v(h,r,t)v_{(h,r,t)}v(h,r,t)​ ,v(h,r,t)=1v_{(h,r,t)}=1v(h,r,t)​=1证明(h,r,t)(h,r,t)(h,r,t)是true,否则,v(h,r,t)=0v_{(h,r,t)}=0v(h,r,t)​=0,给定一些真的事实vO={v(h,r,t)=1}(h,r,t)∈Ov_O = \{v_{(h,r,t)} = 1\}_{(h,r,t)∈O}vO​={v(h,r,t)​=1}(h,r,t)∈O​,我们的目标是去预测隐藏的三元组的标签是什么:vH={v(h,r,t)}(h,r,t)∈Hv_H = \{v_{(h,r,t)}\}_{(h,r,t)∈H}vH​={v(h,r,t)​}(h,r,t)∈H​。

我们致力于去学习观察到的和隐藏的三元组的联合分布p(vO,vH)p(v_O, v_H)p(vO​,vH​)。

马尔可夫逻辑网络(MLN)

在MLN中,马尔可夫网络被设计来定义观察到的和隐藏的三元组的联合分布,其中势函数由一阶逻辑定义。逻辑包括:

  1. 组合规则(composition rules):一个关系rkr_krk​是rir_iri​和rjr_jrj​的组合,意味着对于任何三个实体xxx,yyy,zzz,如果∀x,y,z∈E,v(x,ri,y)∧v(x,ri,y)⇒v(x,rk,z)\forall x,y,z\in E,v_{( x,r_i,y)} \wedge v_{(x,r_i,y)} \Rightarrow v_{(x,r_k,z)}∀x,y,z∈E,v(x,ri​,y)​∧v(x,ri​,y)​⇒v(x,rk​,z)​
  2. 反向规则(Inverse Rules):∀x,y∈E,v(x,ri,y)⇒v(y,rj,x)\forall x,y\in E,v_{(x,r_i,y)} \Rightarrow v_{(y,r_j,x)}∀x,y∈E,v(x,ri​,y)​⇒v(y,rj​,x)​
  3. 对称规则(Symmetric Rules):∀x,y∈E,v(x,r,y)⇒v(y,r,x)\forall x,y \in E,v_{(x,r,y)} \Rightarrow v_{(y,r,x)}∀x,y∈E,v(x,r,y)​⇒v(y,r,x)​
  4. 子关系规则(Subrelation Rules):∀x,y∈E,v(x,ri,y)⇒v(x,rj,y)\forall x,y \in E,v_{(x,r_i,y)} \Rightarrow v_{(x,r_j,y)}∀x,y∈E,v(x,ri​,y)​⇒v(x,rj​,y)​

对于每个逻辑规则l,我们可以通过用知识图中的真实实体实例化逻辑规则中的实体占位符来获得一组可能的基础GlG_lGl​。例如,对于子关系规则∀x,y∈E,v(x,Bornin,y)⇒v(x,Livein,y)\forall x,y∈E,v_{(x,Born in,y)} \Rightarrow v_{(x,Live in,y)}∀x,y∈E,v(x,Bornin,y)​⇒v(x,Livein,y)​,这个规则的基础GlG_lGl​可以是v(Einstein,Bornin,German)⇒v(Einstein,Livein,German)v_{(Einstein,Born in,German)} \Rightarrow v_{(Einstein,Live in,German)}v(Einstein,Bornin,German)​⇒v(Einstein,Livein,German)​和v(Newton,Bornin,UK)⇒v(Newton,Livein,UK)v_{(Newton,Born in,UK)} \Rightarrow v_{(Newton,Live in,UK)}v(Newton,Bornin,UK)​⇒v(Newton,Livein,UK)​,我们可以看到前为真,后为假。为了去控制逻辑规则的不确定性,马尔可夫逻辑网络为每个规则lll引入一个权重wlw_lwl​,然后所有三元组的联合分布定义如下:

p(vO,vH)=1Zexp(∑l∈Lwl∑g∈Gl1{gistrue})=1Zexp(∑l∈Lwlnl(vO,vH))p(v_O , v_H)=\frac{1}{Z} exp(\sum_{l\in L}w_l \sum_{g \in G_l}1\{ g is true\})= \frac{1}{Z} exp(\sum_{l \in L}w_l n_l (v_O, v_H ))p(vO​,vH​)=Z1​exp(l∈L∑​wl​g∈Gl​∑​1{gistrue})=Z1​exp(l∈L∑​wl​nl​(vO​,vH​)),

其中,nln_lnl​是基于vOv_OvO​和vHv_HvH​值的逻辑规则lll的真值groundings(基础数)。有了这样的公式,预测缺失的三联体本质上就变成了推断后验分布p(vH∣vO)p(v_H|v_O)p(vH​∣vO​)。由于复杂的图结构,精确推理通常是不可行的,因此通常使用近似推理。

知识图谱嵌入

基于逻辑规则的方法不同,知识图嵌入方法通过观察到的事实vOv_OvO​来学习实体和关系的嵌入,然后通过学习到的实体和关系嵌入来预测缺失的事实。通常来说,每个实体e∈Ee ∈ Ee∈E和关系r∈Rr ∈ Rr∈R都与一个嵌入的xex_exe​和xrx_rxr​相关联。那么所有三元组的联合分布被定义为:

p(vO,vH)=∏(h,r,t)∈O⋃HBer(v(h,r,t)∣f(xh,xr,xt))p(v_O, v_H) = \prod_{(h,r,t) \in O \bigcup H} Ber(v_{(h,r,t)}| f(x_h , x_r, x_t))p(vO​,vH​)=(h,r,t)∈O⋃H∏​Ber(v(h,r,t)​∣f(xh​,xr​,xt​))

其中,Ber是标准的伯努利分布,f(xh,xr,xt)f(x_h,x_r,x_t)f(xh​,xr​,xt​)计算了真值三元组(h,r,t)(h,r,t)(h,r,t)的概率,f()f()f()函数是在实体和关系嵌入上的得分函数。例如TranE,fff为σ(γ−∣∣xh+xr−xt∣∣)\sigma (\gamma - ||x_h+x_r-x_t ||)σ(γ−∣∣xh​+xr​−xt​∣∣),其中σ\sigmaσ是激活函数、γ\gammaγ是混合bias。

然后最大化log⁡p(vO=1,vH=0)\log p(v_O=1,v_H=0)logp(vO​=1,vH​=0)。整个优化过程使用随机梯度下降

黄色圆圈是观察(vOv_OvO​)到的三元组,灰色圆圈是隐藏(vHv_HvH​)的三元组,他们由一套逻辑规则(每个规则有一个红色权重)连接起来。

对于中心三元组,KGE模型通过嵌入预测其指标,而逻辑规则考虑三元组的马尔可夫毯(所有连接的三元组)。在E-step中,我们使用逻辑规则来预测中心指标,并将其作为KGE模型的额外训练数据。在M-step中,我们用KGE模型标注所有隐藏的指标,然后更新规则的权重。

模型

  1. 变分EM(Variational EM)

给定一组一阶逻辑规则L={li}i=1∣L∣L=\{l_i\}_{i=1}^{|L|}L={li​}i=1∣L∣​,我们用一个马尔可夫逻辑网络去建模联合分布:

  • pw(vO,vH)=1Zexp(∑l∈Lwlnl(vO,vH))p_w(v_O , v_H)=\frac{1}{Z} exp(\sum_{l \in L}w_l n_l (v_O, v_H ))pw​(vO​,vH​)=Z1​exp(l∈L∑​wl​nl​(vO​,vH​))

其中,wlw_lwl​是规则l的权重。这个模型可以用最大化观察到的指示器变量log似然函数来训练:log⁡pw(vO)\log p_w(v_O)logpw​(vO​)。但是,直接优化是有困难的,因此转化为下面的公式:

  • log⁡pw(vO)≥L(qθ,pw)=Eqθ(vH)[log⁡pw(vO,vH)−log⁡qθ(vH)]\log p_w(v_O) \geq L(q_{\theta},p_{w}) = E_{q_{\theta}}(v_H)[\log p_{w}(v_O,v_H)- \log q_{\theta}(v_H)] logpw​(vO​)≥L(qθ​,pw​)=Eqθ​​(vH​)[logpw​(vO​,vH​)−logqθ​(vH​)]

其中,隐含变量vHv_HvH​的变化分布为qθ(vH)q_{\theta}(v_H)qθ​(vH​),当qθ(vH)q_{\theta}(v_H)qθ​(vH​)和真实的后验分布pw(vH∣vO)p_{w}(v_H|v_O)pw​(vH​∣vO​)相等的时候,上述等式成立。上述下界可以用EM算法来有效地优化,在E-step中,称为推理过程,我们固定pwp_{w}pw​并更新qθq_{\theta}qθ​,去最小化qθ(vH)q_{\theta}(v_H)qθ​(vH​)和pw(vH∣vO)p_{w}(v_H|v_O)pw​(vH​∣vO​)之间的KL散度。在M-step中,称为学习过程,我们固定qθq_{\theta}qθ​并更新pwp_{w}pw​,去最大化所有三元组的log最大似然函数:Eqθ(vH)[log⁡pw(vO,vH)]E_{q_{\theta}(v_H)}[\log p_{w}(v_O,v_H)]Eqθ​(vH​)​[logpw​(vO​,vH​)]。

  1. E-step: Inference Procedure

在推理中,我们的目的是推断隐藏变量的后验分布:pw(vH∣vO)p_{w}(v_H|v_O)pw​(vH​∣vO​),我们使用mean-field变分分布qθ(vH)q_{\theta}(v_H)qθ​(vH​)来近似真实的后验分布,其中,每一个v(h,r,t)v_{(h,r,t)}v(h,r,t)​独立的由(h,r,t)∈H(h,r,t) \in H(h,r,t)∈H推断得到。为了进一步改进推理,我们使用摊销推理(amortized inference),并且用一个KGE模型来参数化qθ(v(h,r,t))q_{\theta}(v_{(h,r,t)})qθ​(v(h,r,t)​),形式上,qθ(vH)q_{\theta}(v_H)qθ​(vH​)的公式如下:

  • qθ(vH)=∏(h,r,t)∈Hqθ(v(h,r,t))=∏(h,r,t)∈HBer(v(h,r,t)∣f(xh,xr,xt))q_{\theta}(v_H) = \prod_{(h,r,t) \in H}q_{\theta} (v_{(h,r,t)}) = \prod_{(h,r,t) \in H} Ber(v_{(h,r,t)} | f(x_h,x_r,x_t))qθ​(vH​)=(h,r,t)∈H∏​qθ​(v(h,r,t)​)=(h,r,t)∈H∏​Ber(v(h,r,t)​∣f(xh​,xr​,xt​))

通过最小化变分分布qθ(vH)q_{\theta}(v_H)qθ​(vH​)和真的后验分布pw(vH∣vO)p_w(v_H|v_O)pw​(vH​∣vO​),最佳qθ(vH)q_{\theta}(v_H)qθ​(vH​)由定点条件给出:

  • log⁡qθ(v(h,r,t))=Eqθ(vMB(h,r,t))[log⁡pw(v(h,r,t))∣vMB(h,r,t)]+constforall(h,r,t)∈H\log q_{\theta}(v_{(h,r,t)})=E_{q_{\theta}(v_{MB(h,r,t)})}[\log p_w(v_{(h,r,t)})|v_{MB(h,r,t)}] + const \quad for \quad all \quad (h,r,t) \in Hlogqθ​(v(h,r,t)​)=Eqθ​(vMB(h,r,t)​)​[logpw​(v(h,r,t)​)∣vMB(h,r,t)​]+constforall(h,r,t)∈H

其中MB(h,r,t)MB(h,r,t)MB(h,r,t)是(h,r,t)(h,r,t)(h,r,t)的马尔科夫毯。对于上面的公式,我们的目标是找到一个分布qθq_{\theta}qθ​满足条件,但是,公式的涉及qθ(vMB(h,r,t))q_{\theta}(v_{MB(h,r,t)})qθ​(vMB(h,r,t)​)的期望,为了简化条件,我们采用样本v^MB(h,r,t)={v^(h′,r′,t′)}(h′,r′,t′)∈MB(h,r,t)\hat{v}_{MB_{(h,r,t)}} = \{\hat{v}_{(h^\prime,r^\prime,t^\prime)}\}_{(h^\prime,r^\prime,t^\prime) \in MB(h,r,t)}v^MB(h,r,t)​​={v^(h′,r′,t′)​}(h′,r′,t′)∈MB(h,r,t)​来估计期望。特别的,如果对每一个(h′,r′,t′)∈MB(h,r,t)(h^\prime,r^\prime,t^\prime) \in MB(h,r,t)(h′,r′,t′)∈MB(h,r,t),如果它是obversed,v^MB(h,r,t)=1\hat{v}_{MB_{(h,r,t)}}=1v^MB(h,r,t)​​=1,否则,v^MB(h,r,t)~qθ(v(h′,r′,t′))\hat{v}_{MB_{(h,r,t)}}~q_{\theta}(v_{(h^\prime,r^\prime,t^\prime)})v^MB(h,r,t)​​~qθ​(v(h′,r′,t′)​),以这种方式,优化条件可以简单概述为qθ(v(h,r,t))≈pw(v(h,r,t)∣v^MB(h,r,t))q_{\theta}(v_{(h,r,t)}) ≈ p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})qθ​(v(h,r,t)​)≈pw​(v(h,r,t)​∣v^MB(h,r,t)​)。

直观上,对于每个隐含的三元组(h,r,t)(h,r,t)(h,r,t),KGC模型通过实体和关系的嵌入(即qθ(v(h,r,t))q_{\theta} (v_{(h,r,t)})qθ​(v(h,r,t)​)来预测v(h,r,t)v_{(h,r,t)}v(h,r,t)​,而逻辑规则利用与(h,r,t)(h,r,t)(h,r,t)相连的三元组pw(v(h,r,t)∣v^MB(h,r,t))p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})pw​(v(h,r,t)​∣v^MB(h,r,t)​)进行预测。如果任何与(h,r,t)(h,r,t)(h,r,t)相连的三元组(h′,r′,t′)(h^\prime,r^\prime,t^\prime)(h′,r′,t′)没有观察到,则用样本v^(h′,r′,t′)~qθ(v(h′,r′,t′))\hat{v}_{(h^\prime,r^\prime,t^\prime)} ~q_{\theta}(v_{(h^\prime,r^\prime,t^\prime)})v^(h′,r′,t′)​~qθ​(v(h′,r′,t′)​)来填充。然后,简化的最优条件告诉我们,对于最优的知识图谱嵌入模型,每一个(h,r,t)(h,r,t)(h,r,t)的v(h,r,t)v_{(h,r,t)}v(h,r,t)​分布,应和逻辑规则达成一致,即qθ(v(h,r,t))≈pw(v(h,r,t)∣v^MB(h,r,t))q_{\theta}(v_{(h,r,t)}) ≈ p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})qθ​(v(h,r,t)​)≈pw​(v(h,r,t)​∣v^MB(h,r,t)​)

为了去优化qθq_{\theta}qθ​,我们通过当前的qθq_{\theta}qθ​去计算pw(v(h,r,t)∣v^MB(h,r,t))p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})pw​(v(h,r,t)​∣v^MB(h,r,t)​),接着,我们将值作为目标,更新qθq_{\theta}qθ​去最小化qθ(v(h,r,t))和pw(v(h,r,t)∣v^MB(h,r,t))q_{\theta}(v_{(h,r,t)}) 和 p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})qθ​(v(h,r,t)​)和pw​(v(h,r,t)​∣v^MB(h,r,t)​)的KL散度,有以下目标:

Oθ,U=∑(h,r,t)∈HEpw(v(h,r,t)∣v^MB(h,r,t))[log⁡qθ(v(h,r,t))]O_{\theta,U} = \sum_{(h,r,t) \in H} E_{p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})}[\log q_{\theta}(v_{(h,r,t)})]Oθ,U​=(h,r,t)∈H∑​Epw​(v(h,r,t)​∣v^MB(h,r,t)​)​[logqθ​(v(h,r,t)​)]

为了去优化这个目标,首先对每个隐藏的三元组(h,r,t)(h,r,t)(h,r,t)计算pw(v(h,r,t)∣v^MB(h,r,t))p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})pw​(v(h,r,t)​∣v^MB(h,r,t)​),如果pw(v(h,r,t)=1∣v^MB(h,r,t))≥ap_w(v_{(h,r,t)}=1|\hat{v}_{MB(h,r,t)}) ≥ apw​(v(h,r,t)​=1∣v^MB(h,r,t)​)≥a,其中aaa是超参数,我们便将(h,r,t)(h,r,t)(h,r,t)作为一个正例,训练知识图谱嵌入模型,去最大化对数似然函数log⁡qθ(v(h,r,t)=1)\log q_{\theta}(v_{(h,r,t)}=1)logqθ​(v(h,r,t)​=1),否则三元组将被视为反例,这样,由逻辑规则捕获的知识可以有效地提取到知识图谱嵌入模型中。

我们也可以用OOO中观察到的三元组作为实证来增强知识图嵌入模型。因此,我们还优化了以下目标函数:

Oθ,L=∑(h,r,t)∈Olog⁡qθ(v(h,r,t)=1)O_{\theta,L}=\sum_{(h,r,t) \in O} \log q_{\theta}(v_{(h,r,t)}=1)Oθ,L​=(h,r,t)∈O∑​logqθ​(v(h,r,t)​=1)

因此,我们得到了qθq_{\theta}qθ​的总体目标函数Oθ=Oθ,U,+Oθ,LO_\theta=O_{\theta,U}, + O_{\theta,L}Oθ​=Oθ,U​,+Oθ,L​。

  1. M-step: Learning Procedure

在学习过程中,我们固定qθq_\thetaqθ​,通过最大化对数似然估计函数来更新逻辑规则的权重,即Eqθ(vH)[log⁡pw(vO,vH)]E_{q_{\theta}}(v_H)[\log p_{w}(v_O,v_H)]Eqθ​​(vH​)[logpw​(vO​,vH​)]。但是直接优化是非常困难的,因为我们需要去处理分段函数ZZZ,因此我们使用伪极大似然函数来代替优化:

lPL≜Eqθ(vH)[∑h,r,tlog⁡pw(v(h,r,t)∣vO∪H\(h,r,t))]=Eqθ(vH)[∑h,r,tlog⁡pw(v(h,r,t))∣vMB(h,r,t)]l_{PL} \triangleq E_{q_\theta(v_H)}[\sum_{h,r,t} \log p_{w}(v_{(h,r,t)}|v_{O \cup H \backslash (h,r,t)})] = E_{q_{\theta}(v_{H})}[\sum_{h,r,t} \log p_w(v_{(h,r,t)})|v_{MB(h,r,t)}]lPL​≜Eqθ​(vH​)​[h,r,t∑​logpw​(v(h,r,t)​∣vO∪H\(h,r,t)​)]=Eqθ​(vH​)​[h,r,t∑​logpw​(v(h,r,t)​)∣vMB(h,r,t)​]

其中第二个等式是在MLN方程中的独立性导出的,我们通过梯度下降算法优化www,对每个期望的条件分布Eqθ(vH)[∑h,r,tlog⁡pw(v(h,r,t))∣vMB(h,r,t)]E_{q_{\theta}(v_{H})}[\sum_{h,r,t} \log p_w(v_{(h,r,t)})|v_{MB(h,r,t)}]Eqθ​(vH​)​[∑h,r,t​logpw​(v(h,r,t)​)∣vMB(h,r,t)​],假设v(h,r,t)v_{(h,r,t)}v(h,r,t)​通过一组规则与vMB(h,r,t)v_{MB(h,r,t)}vMB(h,r,t)​连接,对一个这样的规则lll,相对于wlw_lwl​的导数计算如下:

▽wlEqθ(vH)[∑h,r,tlog⁡pw(v(h,r,t))∣vMB(h,r,t)]≃y(h,r,t)−pw(v(h,r,t)=1∣v^MB(h,r,t))\bigtriangledown_{w_l}E_{q_{\theta}(v_{H})}[\sum_{h,r,t} \log p_w(v_{(h,r,t)})|v_{MB(h,r,t)}] \simeq y_{(h,r,t)}-p_{w}(v_{(h,r,t)}=1| \hat{v}_{MB(h,r,t)})▽wl​​Eqθ​(vH​)​[h,r,t∑​logpw​(v(h,r,t)​)∣vMB(h,r,t)​]≃y(h,r,t)​−pw​(v(h,r,t)​=1∣v^MB(h,r,t)​)

其中,如果(h,r,t)(h,r,t)(h,r,t)是显式三元组,那么y(h,r,t)=1y_{(h,r,t)}=1y(h,r,t)​=1;如果(h,r,t)(h,r,t)(h,r,t)是隐式三元组,那么y(h,r,t)=qθ(v(h,r,t)=1∣v^MB(h,r,t))y_{(h,r,t)}= q_\theta (v_{(h,r,t)}=1| \hat{v}_{MB(h,r,t)})y(h,r,t)​=qθ​(v(h,r,t)​=1∣v^MB(h,r,t)​),v^MB(h,r,t)={v^(h′,r′,t′)}(h′,r′,t′)∈MB(h,r,t)\hat{v}_{MB(h,r,t)}=\{ \hat{v}_{(h^\prime,r^\prime,t^\prime)}\}_{(h^\prime,r^\prime,t^\prime) \in MB(h,r,t)}v^MB(h,r,t)​={v^(h′,r′,t′)​}(h′,r′,t′)∈MB(h,r,t)​是qθq_\thetaqθ​的一个例子。如果对每一个(h′,r′,t′)∈MB(h,r,t)(h^\prime,r^\prime,t^\prime) \in MB(h,r,t)(h′,r′,t′)∈MB(h,r,t),如果它是obversed,v^(h′,r′,t′)=1\hat{v}_{(h^\prime,r^\prime,t^\prime)}=1v^(h′,r′,t′)​=1,否则,v^(h′,r′,t′)~qθ(v(h′,r′,t′))\hat{v}_{(h^\prime,r^\prime,t^\prime)}~q_{\theta}(v_{(h^\prime,r^\prime,t^\prime)})v^(h′,r′,t′)​~qθ​(v(h′,r′,t′)​)。

直观来说,对每个观察到的三元组(h,r,t)∈O(h,r,t) \in O(h,r,t)∈O,我们寻求最大化pw(v(h,r,t)=1∣v^MB(h,r,t))p_{w}(v_{(h,r,t)}=1| \hat{v}_{MB(h,r,t)})pw​(v(h,r,t)​=1∣v^MB(h,r,t)​),对每一个隐式三元组(h,r,t)∈H(h,r,t) \in H(h,r,t)∈H,我们把qθ(v(h,r,t)=1q_\theta (v_{(h,r,t)}=1qθ​(v(h,r,t)​=1作为pw(v(h,r,t)=1∣v^MB(h,r,t))p_{w}(v_{(h,r,t)}=1| \hat{v}_{MB(h,r,t)})pw​(v(h,r,t)​=1∣v^MB(h,r,t)​)目标。

实验结果

论文整理:Probabilistic Logic Neural Networks for Reasoning相关推荐

  1. 论文阅读2018-Deep Convolutional Neural Networks for breast cancer screening 重点:利用迁移学习三个网络常规化进行分类

    论文阅读2018-Deep Convolutional Neural Networks for breast cancer screening 摘要:我们探讨了迁移学习的重要性,并通过实验确定了在训练 ...

  2. 对抗样本论文学习:Deep Neural Networks are Easily Fooled

    近日看了一些对抗样本(adversarial examples)方面的论文,在这里对这些论文进行一下整理和总结. 以下仅代表个人理解,本人能力有限难免有错,还请大家给予纠正,不胜感激.欢迎一起讨论进步 ...

  3. [论文阅读笔记]Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images

    Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images(CVPR201 ...

  4. 【读点论文】CMT: Convolutional Neural Networks Meet Vision Transformers

    CMT: Convolutional Neural Networks Meet Vision Transformers Abstract 视觉transformer已经成功地应用于图像识别任务,因为它 ...

  5. 经典DL论文研读(part3)--Improving neural networks by preventing co-adaptation of feature detectors

    学习笔记,仅供参考,有错必纠 文章目录 Improving neural networks by preventing co-adaptation of feature detectors Abstr ...

  6. 【论文阅读】Deep Neural Networks for Learning Graph Representations | day14,15

    <Deep Neural Networks for Learning Graph Representations>- (AAAI-16)-2016 文章目录 一.模型 1.1解决了两个问题 ...

  7. 论文笔记:Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering

    前言 初代频域GCN简单粗暴的将diag(g^(λl))diag(\hat{g}{(\lambda_l)})diag(g^​(λl​))变成了卷积核diag(θl)diag(\theta_l)diag ...

  8. 论文阅读:Recurrent Neural Networks for Time Series Forecasting Current Status and Future Directions

    typora-copy-images-to: ./ Recurrent Neural Networks for Time Series Forecasting: Current Status and ...

  9. 论文阅读:Convolutional Neural Networks for Sentence Classification 卷积神经网络的句子分类

    Convolutional Neural Networks for Sentence Classification 卷积神经网络的句子分类 目录 Convolutional Neural Networ ...

  10. [ICCV2019论文阅读]Asymmetric Non-local Neural Networks for Semantic Segmentation

    作者:Zhen Zhu, Mengde Xu, Song Bai, Tengteng Huang, Xiang Bai 机构:Huazhong University of Science and Te ...

最新文章

  1. XML简单的增改删操作
  2. python3 读写文件
  3. epoll和select的区别
  4. 类视图ListView和DetailView比较
  5. HTML入门小站,Phaser
  6. php 5.5 链接redis,PHP实例:PHP5.5安装PHPRedis扩展及连接测试方法
  7. ie 代理设置中地址和端口置灰的解决办法
  8. Hadoop I/O
  9. jdbc连接timesten_采用java链接timesten内存数据库
  10. 利用XML生成Word
  11. 中泰证券钢铁行业数据库
  12. 电脑开机时按F几重装系统
  13. java mybatis多层collection嵌套查询
  14. Exe文件开机启动,隐藏运行窗口运行
  15. HSB概念和应用场景
  16. 树莓派——win10远程登录以及蓝屏问题(转载)
  17. 解决Django报错:SQLITE 3.8.3 OR LATER IS REQUIRED
  18. [运维] 在CentOS7系统上安装部署wok
  19. STM32细节逻辑,relay的自适应
  20. iOS快捷指令 | iPicGo,随时随地用手机上传图片到图床

热门文章

  1. 《动手学深度学习》(PyTorch版)代码注释 - 12 【House_price_prediction】
  2. 计网笔记-计网总结-计网复习提纲-第一章.概述
  3. 并查集-A Bug's Life(poj2492)
  4. java阴阳师抽卡算法_阴阳师最强召唤黑科技:如何抽卡必出SSR
  5. HAL学习笔记 - 7 定时器之基本定时器
  6. iOS最新面试题(一)
  7. 笔记_KMeans聚类
  8. 闭关之 Vulkan 应用开发指南笔记(三): 着色器和管线、图形管线
  9. 小米忙着营销,麻烦带上技术!
  10. chemdraw如何改中文_如何修改ChemDraw的默认输出格式