[论文笔记]GMNN图马尔可夫网络原理

GMNN Note

参考：

Paper: GMNN: Graph Markov Neural Networks (arxiv.org)

Paper

Motivation

问题定义：弱监督下的关系数据中的对象分类。形式化地来说，给定一个图G，图上有结点V表示一系列对象，在对象间存在有一系列边E，且所有结点的属性集合为xVx_VxV。当前已知部分结点L的标签yLy_LyL，L⊂VL\subset VL⊂V，目的是推测出剩余结点U的标签值yUy_UyU，U=V−LU=V-LU=V−L。
该问题当前主要可以从两个方向进行研究：
1. 统计关系学习（SRL, Statistical Relational Learning）
  
  以统计模型来对关系数据进行建模，代表性的方法有条件马尔可夫网络（relational Markov networks）和马尔可夫逻辑网（Markov logic networks）。这些方法通常使用条件随机场来对对象之间的依赖关系进行建模，也正是因为这种建模的有效性，这些方法能够在弱监督的对象分类上取得不错的效果。
采用CRF 序列化标注算法（sequence labeling algorithm）
- 以如下方式计算标签的联合概率分布：
  p(yV∣xV)=1Z(xV)∏(i,j)∈Eψi,j(yi,yj,xV)(1)p(y_V|x_V)=\frac{1}{Z(x_V)}\prod_{(i,j)\in E}\psi_{i,j}(y_i,y_j,x_V) \tag{1} p(yV∣xV)=Z(xV)1(i,j)∈E∏ψi,j(yi,yj,xV)(1)
  - (i,j)(i,j)(i,j)是图G上的边，ψi,j(yi,yj,xV)\psi_{i,j}(y_i,y_j,x_V)ψi,j(yi,yj,xV)是边的潜在得分，通常潜在的分数是通过一些手工功能函数（如逻辑公式）的线性组合来计算的。
- 这种情况下，预测未知标签任务被看做是推断问题，我们还要去计算位置标签的后验分布p(yU∣yL,xV)p(y_U|y_L,x_V)p(yU∣yL,xV)，然而由于标签的复杂结构关系，后验十分难求。
1. 图神经网络（GNN, Graph Neural Network）
  
  通过非线性的神经结构，能够以端到端的方式学习到有效的对象表示（representation），从而解决对象分类的问题。例如图卷积网络（graph convolutional networks）可以有效地将周围结点的信息学习到结点的表示当中。这类方法由于能够有效地从关系数据中学习到对象的表示，目前已经达到了SOTA的表现。
- 与 SRL 相比，GNN 忽略掉标签的依赖关系，只关注于节点的特征表示。由于 GNN 将标签之间视为独立，那么此情况下标签的联合分布表示为：
  p(yV∣xV)=∏n∈Vp(yn∣xV)p(y_V|x_V)=\prod_{n\in V}p(y_n|x_V) p(yV∣xV)=n∈V∏p(yn∣xV)
- 因此，GNN独立地独立推断每个对象的标签分布p(yn∣xV)p(y_n|x_V)p(yn∣xV)。
  h=g(xV,E),p(yn∣xV)=Cat(yn∣softmax(Whn))(2)h=g(x_V,E),p(y_n|x_V)=Cat(y_n|softmax(Wh_n))\tag{2} h=g(xV,E),p(yn∣xV)=Cat(yn∣softmax(Whn))(2)
  其中h是|V|×d维的特征向量，W是权重，每一轮节点特征h都会通过自己的邻居进行更新。经过多层网络的学习，特征最后经过一个softmax分类器来预测最终的标签。整个工作可以看做一个端到端的训练。代表性的方法有GCN、GAT等。
从本质上讲，这两种方法的目标都是对已知对象属性xVx_VxV和图结构条件EEE下的对象标签分布进行建模，即p(yV∣xV,E)p(y_V|x_V,E)p(yV∣xV,E)。
存在的问题
- 在传统的统计关系学习方法中，存在着以下缺陷：
  1. 由于这些方法通常采用CRF进行建模，因此需要手动地构造一些特征函数来作为势函数的组成部分，而这些特征函数往往是启发式的，从而导致了模型的能力有限；
  2. 由于对象之间关系结构的复杂性，导致难以推理（inference）出未知标签的结点U的后验分布（posterior distribution）。
- 在图神经网络的方法中，由于各个结点的标签是根据相关的表示分别预测的，因此忽略了各个结点的标签之间的依赖性

Method

提出基于半监督目标分类的图马尔可夫神经网络（GMNN, Graph Markov Neural Network），结合了SRL与GNN的优点，既能够学习到有效的结点表示，也能够对结点标签之间的依赖进行建模。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Wlm3sVW-1634456297251)(GMNN_Note/word-image-749.png)]
GMNN利用CRF通过对象属性（节点特征）来建模标签之间的联合分布：p(yV∣xV)p(y_V|x_V)p(yV∣xV)。然后采用伪似然变分EM（Pseudolikelihood Variational EM）框架对条件随机场进行优化。在E-step中，使用GNN来学习节点特征，以便进行标签预测。在M-step中，利用另一个GNN对目标标签的局部依赖性进行建模。

Pseudo-likelihood Variational EM

GMNN使用SRL方法CRF，即
pϕ(yV∣xV)=1Z(xV)∏(i,j)∈Eψi,j(yi,yj,xV)(1)p_{\phi}(y_V|x_V)=\frac{1}{Z(x_V)}\prod_{(i,j)\in E}\psi_{i,j}(y_i,y_j,x_V)\tag{1} pϕ(yV∣xV)=Z(xV)1(i,j)∈E∏ψi,j(yi,yj,xV)(1)
来建立基于节点特征的节点标签联合分布模型pϕ(yV∣xV)p_{\phi}(y_V|x_V)pϕ(yV∣xV)，其中ϕ\phiϕ是模型参数。
- 链式马尔科夫随机向量场CRF公式：
P(y∣x)=exp⁡(w⋅ϕ(x,y))Z(x)Z(x)=∑yexp⁡(w⋅ϕ(x,y))P(y|x)=\frac{\exp(w·\phi(x,y))}{Z(x)}\\ Z(x)=\sum_y\exp(w·\phi(x,y)) P(y∣x)=Z(x)exp(w⋅ϕ(x,y))Z(x)=y∑exp(w⋅ϕ(x,y))
- 在普遍的随机向量场
CRF 则使用一个指数模型来表示整个标签序列的联合概率，这个概率条件依赖于给定的完整观察序列。也就是说CRF是一个以观测序列XXX为全局条件的随机场。存在函数f(y1,...,yn;X)f(y_1,...,y_n;X)f(y1,...,yn;X)，使得
P(y1,y2,...,yn∣X)=exp⁡(f(y1,y2,...,yn;X))Z(X)Z(X)=∑y1,y2,...,yn∈Snef(y1,...,yn;X)P(y_1,y_2,...,y_n|X)=\frac{\exp(f(y_1,y_2,...,y_n;X))}{Z(X)}\\ Z(X)=\sum_{y_1,y_2,...,y_n\in S^n}e^{f(y_1,...,y_n;X)} P(y1,y2,...,yn∣X)=Z(X)exp(f(y1,y2,...,yn;X))Z(X)=y1,y2,...,yn∈Sn∑ef(y1,...,yn;X)
CRF 的计算困难之处在于上式的分母项包含了所有可能路径SnS^nSn的求和，搜索空间非常庞大.因此做出一些简化，假设输出之间的关联仅发生在相邻位置，并且关联是指数加性的：
f(y1,...,yn;X)=∑k=1nf(yk;X)+∑k=2ng(yk−1,yk)f(y_1,...,y_n;X)=\sum_{k=1}^{n}f(y_k;X)+\sum_{k=2}^{n}g(y_{k-1},y_{k}) f(y1,...,yn;X)=k=1∑nf(yk;X)+k=2∑ng(yk−1,yk)
- 这里，exp⁡(f(y1,...,yn;X))\exp(f(y_1,...,y_n;X))exp(f(y1,...,yn;X))取了边的潜在得分：ψi,j(yi,yj,xV)\psi_{i,j}(y_i,yj,x_V)ψi,j(yi,yj,xV) 不知道为什么这么取
我们通过最大化观测对象标签的对数似然函数，即log⁡pϕ(yL∣xV)\log p_{\phi}(y_L|x_V)logpϕ(yL∣xV)来优化模型参数ϕ\phiϕ，从而求已知标签的最大似然：pϕ(yL∣xV)p_{\phi}(y_L|x_V)pϕ(yL∣xV)。
但由于存在大量的未知标签，直接最大化对数似然很困难，因此我们通过变分推断的方法，用变分分布qθ(yU∣xV)q_\theta(y_U|x_V)qθ(yU∣xV)来最大化对数似然的证据下界（ELBO）：
log⁡pϕ(yL∣xV)≥Eqθ(yU∣xV)[log⁡pϕ(yL,yU∣xV)−log⁡qθ(yU∣xV)](3)\log p_{\phi}(y_L|x_V)\geq\\ \mathbb{E}_{q_{\theta}(y_U|x_V)}[\log p_{\phi}(y_L,y_U|x_V)-\log q_{\theta}(y_U|x_V)] \tag{3} logpϕ(yL∣xV)≥Eqθ(yU∣xV)[logpϕ(yL,yU∣xV)−logqθ(yU∣xV)](3)
变分推断

假定用X=x1:nX=x_{1:n}X=x1:n代表我们输入的观测值，Z=z1:mZ=z_{1:m}Z=z1:m代表模型中的隐藏变量，问题即为推断输入数据的后验条件概率分布p(Z∣X)p(Z|X)p(Z∣X)。
1. 我们提出关于隐藏变量的近似概率分布QQQ，希望从中找到一个与真实的后验分布的KL Divergence（KL散度）最小的分布q∗(X)q^*(X)q∗(X)。因此变分推断将推断问题转化为了求极值的优化问题。
2. 由于
  ln⁡(P(X))=∫Q(Z)ln⁡(P(X,Z))dZ−∫Q(Z)ln⁡(Q(Z))dZ+∫Q(Z)ln⁡(Q(Z)P(Z∣X))dZ\ln(P(X))=\int Q(Z)\ln({P(X,Z)})dZ-\int Q(Z)\ln(Q(Z))dZ+\int Q(Z)\ln(\frac{Q(Z)}{P(Z|X)})dZ ln(P(X))=∫Q(Z)ln(P(X,Z))dZ−∫Q(Z)ln(Q(Z))dZ+∫Q(Z)ln(P(Z∣X)Q(Z))dZ
  等式的右端，ELBO是一个泛函，是Q的函数，由于KL距离是非负的，所以ELBO的上界就是lnP(X) 。
  
  我们的目标是最小化KL距离，但其中P(Z|X) 是难以得知的，但式中KL距离和ELBO是此消彼长的关系，这等价于最大化ELBO。所以我们改变优化目标为evidence lower bound（简称ELBO）：
  arg⁡max⁡Q=E(ln⁡(P(X,Z))−E(ln⁡(Q(Z))\arg\max_Q=\mathbb{E}(\ln({P(X,Z)})-\mathbb{E}(\ln(Q(Z)) argQmax=E(ln(P(X,Z))−E(ln(Q(Z))
接下来，根据变分EM算法(Neal & Hinton, 1998)，可以通过变分E步和M步交替来优化该下界ELBO。
在变分E-step（又称推理程序）中，目标是固定pϕp_{\phi}pϕ并更新变分分布qθ(yU∣xV)q_\theta(y_U|x_V)qθ(yU∣xV)以近似真实的后验分布pϕ(yU∣yL,xV)p_\phi(y_U|y_L,x_V)pϕ(yU∣yL,xV)，即计算最佳的变分参数。
在M-step（也就是学习过程）中，我们固定qθq_\thetaqθ并更新pϕp_{\phi}pϕ以最大化以下似然函数:（即利用E步求出的qθ(yU∣xV)q_\theta(y_U|x_V)qθ(yU∣xV)更新模型参数）
l(ϕ)=Eqθ(yU∣xV)[log⁡pϕ(yL,yU∣xV)](4)\mathscr{l}(\phi)=\mathbb{E}_{q_{\theta}(y_U|x_V)}[\log{p_\phi}(y_L,y_U|x_V)]\tag{4} l(ϕ)=Eqθ(yU∣xV)[logpϕ(yL,yU∣xV)](4)

M-Step

在 M-step，这等价于优化（4）式。然而，直接优化（4）式是很困难的，因为这是对整个条件随机场进行优化，需要计算pϕp_\phipϕ的配分函数（partition function），即（1）式中的分母 Z(xV)Z(x_V)Z(xV)。基于pϕ(yV∣xV)p_\phi(y_V|x_V)pϕ(yV∣xV)的独立性，我们可以将（4）式转化为优化（5）式：？
ℓPL(ϕ)≜Eqθ(yU∣xV)[∑n∈Vlog⁡pϕ(yn∣yV\n,xV)]=Eqθ(yU∣xV)[∑n∈Vlog⁡pϕ(yn∣yNB(n),xV)](5)\begin{aligned} \ell_{P L}(\phi) & \triangleq \mathbb{E}_{q_{\theta}\left(\mathbf{y}_{U} \mid \mathbf{x}_{V}\right)}\left[\sum_{n \in V} \log p_{\phi}\left(\mathbf{y}_{n} \mid \mathbf{y}_{V \backslash n}, \mathbf{x}_{V}\right)\right] \\ &=\mathbb{E}_{q_{\theta}\left(\mathbf{y}_{U} \mid \mathbf{x}_{V}\right)}\left[\sum_{n \in V} \log p_{\phi}\left(\mathbf{y}_{n} \mid \mathbf{y}_{\mathrm{NB}(\mathrm{n})}, \mathbf{x}_{V}\right)\right] \end{aligned}\tag{5} ℓPL(ϕ)≜Eqθ(yU∣xV)[n∈V∑logpϕ(yn∣yV\n,xV)]=Eqθ(yU∣xV)[n∈V∑logpϕ(yn∣yNB(n),xV)](5)
其中 NB（n）是节点 n 的邻居。（5）式被称为伪似然函数（pseudo-likelihood function）。在似然函数（4）式中，某节点的标签与图上的其他所有节点有关；在伪似然函数（5）式中，某节点的标签只与其邻域节点有关；此时，通过最大化伪似然函数求取节点标签，就只需要聚合邻域的信息。
（5）式的意义是，聚合邻域的标签信息和特征信息，通过最大化伪似然函数求取节点标签。因为 GNN 是一个聚合邻域信息并进行消息传递的过程，所以 pϕp_{\phi}pϕ 可以通过一个 GNN 实现。
pϕ(yn∣yNB(n),xV)=Cat⁡(yn∣softmax⁡(Wϕhϕ,n))p_{\phi}\left(\mathbf{y}_{n} \mid \mathbf{y}_{\mathrm{NB}(n)}, \mathbf{x}_{V}\right)=\operatorname{Cat}\left(\mathbf{y}_{n} \mid \operatorname{softmax}\left(W_{\phi} \mathbf{h}_{\phi, n}\right)\right) pϕ(yn∣yNB(n),xV)=Cat(yn∣softmax(Wϕhϕ,n))

E-Step

然后讨论E-step中的qθq_\thetaqθ。由于具体的后验分布是难以计算的，因此引入了平均场近似（mean-field approximation）。由于其独立性，故由平均场理论有：
qθ(yU∣xV)=∏n∈Uqθ(yn∣xV)(6)q_{\theta}\left(\mathbf{y}_{U} \mid \mathbf{x}_{V}\right)=\prod_{n \in U} q_{\theta}\left(\mathbf{y}_{n} \mid \mathbf{x}_{V}\right)\tag{6} qθ(yU∣xV)=n∈U∏qθ(yn∣xV)(6)
受摊还推断（amortized inference）的启发，同样使用一个GNN来参数化结点标签的后验分布，该GNN能够学习到有利于标签预测的结点的表示。
qθ(yn∣xV)=Cat⁡(yn∣softmax⁡(Wϕhϕ,n))(7)q_{\theta}\left(\mathbf{y}_{n} \mid \mathbf{x}_{V}\right)=\operatorname{Cat}\left(\mathbf{y}_{n} \mid \operatorname{softmax}\left(W_{\phi} \mathbf{h}_{\phi, n}\right)\right)\tag{7} qθ(yn∣xV)=Cat(yn∣softmax(Wϕhϕ,n))(7)
最大化似然函数：证明
log⁡qθ(yn∣xV)=Eqθ(yNB(n)∩U∣xV)[log⁡pϕ(yn∣yNB(n),xV)]+const.(8)\begin{aligned} &\log q_{\theta}\left(\mathbf{y}_{n} \mid \mathbf{x}_{V}\right)= \\ &\mathbb{E}_{q_{\theta}\left(\mathbf{y}_{\mathrm{NB}(n) \cap U} \mid \mathbf{x}_{V}\right)}\left[\log p_{\phi}\left(\mathbf{y}_{n} \mid \mathbf{y}_{\mathrm{NB}(n)}, \mathbf{x}_{V}\right)\right]+\mathrm{const.} \end{aligned}\tag{8} logqθ(yn∣xV)=Eqθ(yNB(n)∩U∣xV)[logpϕ(yn∣yNB(n),xV)]+const.(8)
（8）式证明见附录，参考文献 [4] 中也给出了一个类似的式子的证明过程。在（8）式中，用采样代替求期望：
Eqθ(yNB(n)∩U∣xV)[log⁡pϕ(yn∣yNB(n),xV)]≃log⁡pϕ(yn∣y^NB(n),xV)(9)\begin{aligned} &\mathbb{E}_{q_{\theta}\left(\mathbf{y}_{\mathrm{NB}(n) \cap U} \mid \mathbf{x}_{V}\right)}\left[\log p_{\phi}\left(\mathbf{y}_{n} \mid \mathbf{y}_{\mathrm{NB}(n)}, \mathbf{x}_{V}\right)\right] \\ &\simeq \log p_{\phi}\left(\mathbf{y}_{n} \mid \hat{\mathbf{y}}_{\mathrm{NB}(n)}, \mathbf{x}_{V}\right) \end{aligned}\tag{9} Eqθ(yNB(n)∩U∣xV)[logpϕ(yn∣yNB(n),xV)]≃logpϕ(yn∣y^NB(n),xV)(9)
在上述公式中，y^NB(n)={y^k}k∈NB(n)\hat y_{NB(n)}=\{\hat y_k\}_{k\in NB(n)}y^NB(n)={y^k}k∈NB(n)定义如下：对于对象n的每个未标记邻域k，我们给出了y^k∼qθ(yk∣xV)\hat y_k\sim q_\theta(y_k|x_V)y^k∼qθ(yk∣xV)，而对于对象n每一个被标记的邻域K，y^k\hat y_ky^k被设为真实的标签。

在实践中，我们发现使用qθ(yNB(n)∩U∣xV)q_\theta(y_{NB(n)\cap U}|x_V)qθ(yNB(n)∩U∣xV)中的一个样本可以得到多个样本的可比结果，因此，在实验中为了效率，只有一个样本被使用，基于方程（8）和（9），最优qθ(yn∣xV)q_\theta(y_n|x_V)qθ(yn∣xV)满足：
qθ(yn∣xV)≈pϕ(yn∣y^NB(n),xV)(10)q_{\theta}\left(\mathbf{y}_{n} \mid \mathbf{x}_{V}\right) \approx p_{\phi}\left(\mathbf{y}_{n} \mid \hat{\mathbf{y}}_{\mathrm{NB}(n)}, \mathbf{x}_{V}\right)\tag{10} qθ(yn∣xV)≈pϕ(yn∣y^NB(n),xV)(10)
（10）式中，qθq_\thetaqθ是一个进行特征传播的 GNN，学习一个从特征到标签的映射，pϕp_\phipϕ是一个进行标签传播的 GNN，学习一个从已标注节点标签到未标注节点标签的映射。即我们使用pϕ(yn∣y^NB(n),xV)p_\phi (y_n|\hat y_{NB(n)},x_V)pϕ(yn∣y^NB(n),xV)，并最小化：KL(pϕ(yn∣y^NB(n),xV)∣∣qθ(yn∣∣xV))KL(p_\phi (y_n|\hat y_{NB(n)},x_V)||q_\theta(y_n||x_V))KL(pϕ(yn∣y^NB(n),xV)∣∣qθ(yn∣∣xV))

我们进一步使用并行更新策略来加速训练，即联合

为对 GMNN 进行训练，我们首先预训练qθq_\thetaqθ：用全体节点的特征作为输入，将已标注节点标签作为监督信息，为全体节点学习“伪标签”。优化目标：
Oθ,L=∑n∈Llog⁡qθ(yn∣xV)(12)O_{\theta, L}=\sum_{n \in L} \log q_{\theta}\left(\mathbf{y}_{n} \mid \mathbf{x}_{V}\right)\tag{12} Oθ,L=n∈L∑logqθ(yn∣xV)(12)
接着，将生成的“伪标签”输入pϕp_\phipϕ，训练目标是使得其生成的标签与“伪标签”尽量接近，这就是（5）式的意义。根据（8）（9）式可将（5）式简化为：
Oϕ=∑n∈Vlog⁡pϕ(y^n∣y^NB(n),xV)(15)O_{\phi}=\sum_{n \in V} \log p_{\phi}\left(\hat{\mathbf{y}}_{n} \mid \hat{\mathbf{y}}_{\mathrm{NB}(\mathrm{n})}, \mathbf{x}_{V}\right)\tag{15} Oϕ=n∈V∑logpϕ(y^n∣y^NB(n),xV)(15)
最后，将节点特征再次输入qθq_\thetaqθ，训练目标是使得其生成的标签与pϕp_\phipϕ生成的标签尽量接近，并将此时qθq_\thetaqθ输出的标签作为预测结果。训练目标：
Oθ,U=∑n∈UEpϕ(yn∣y^NB(n),xV)[log⁡qθ(yn∣xV)](11)O_{\theta, U}=\sum_{n \in U} \mathbb{E}_{p_{\phi}\left(\mathbf{y}_{n} \mid \hat{\mathbf{y}}_{\mathrm{NB}(n)}, \mathbf{x}_{V}\right)}\left[\log q_{\theta}\left(\mathbf{y}_{n} \mid \mathbf{x}_{V}\right)\right]\tag{11} Oθ,U=n∈U∑Epϕ(yn∣y^NB(n),xV)[logqθ(yn∣xV)](11)
所以：
Oθ=Oθ,U+Oθ,L(13)O_\theta=O_{\theta,U}+O_{\theta,L}\tag{13} Oθ=Oθ,U+Oθ,L(13)
f{y}}{\mathrm{NB}(n)}, \mathbf{x}{V}\right)}\left[\log q_{\theta}\left(\mathbf{y}{n} \mid \mathbf{x}{V}\right)\right]\tag{11}
所以：所以：所以：
O_\theta=O_{\theta,U}+O_{\theta,L}\tag{13}
$$