GMNN Note

参考:

Paper: GMNN: Graph Markov Neural Networks (arxiv.org)

Paper

Motivation

  • 问题定义:弱监督下的关系数据中的对象分类。形式化地来说,给定一个图G,图上有结点V表示一系列对象,在对象间存在有一系列边E,且所有结点的属性集合为xVx_VxV​。当前已知部分结点L的标签yLy_LyL​,L⊂VL\subset VL⊂V,目的是推测出剩余结点U的标签值yUy_UyU​,U=V−LU=V-LU=V−L。

  • 该问题当前主要可以从两个方向进行研究:

    1. 统计关系学习(SRL, Statistical Relational Learning)

      以统计模型来对关系数据进行建模,代表性的方法有条件马尔可夫网络(relational Markov networks)和马尔可夫逻辑网(Markov logic networks)。这些方法通常使用条件随机场来对对象之间的依赖关系进行建模,也正是因为这种建模的有效性,这些方法能够在弱监督的对象分类上取得不错的效果。

    采用CRF 序列化标注算法(sequence labeling algorithm)

    • 以如下方式计算标签的联合概率分布:
      p(yV∣xV)=1Z(xV)∏(i,j)∈Eψi,j(yi,yj,xV)(1)p(y_V|x_V)=\frac{1}{Z(x_V)}\prod_{(i,j)\in E}\psi_{i,j}(y_i,y_j,x_V) \tag{1} p(yV​∣xV​)=Z(xV​)1​(i,j)∈E∏​ψi,j​(yi​,yj​,xV​)(1)

      • (i,j)(i,j)(i,j)是图G上的边,ψi,j(yi,yj,xV)\psi_{i,j}(y_i,y_j,x_V)ψi,j​(yi​,yj​,xV​)是边的潜在得分,通常潜在的分数是通过一些手工功能函数(如逻辑公式)的线性组合来计算的。
    • 这种情况下,预测未知标签任务被看做是推断问题,我们还要去计算位置标签的后验分布p(yU∣yL,xV)p(y_U|y_L,x_V)p(yU​∣yL​,xV​),然而由于标签的复杂结构关系,后验十分难求。

    1. 图神经网络(GNN, Graph Neural Network)

      通过非线性的神经结构,能够以端到端的方式学习到有效的对象表示(representation),从而解决对象分类的问题。例如图卷积网络(graph convolutional networks)可以有效地将周围结点的信息学习到结点的表示当中。这类方法由于能够有效地从关系数据中学习到对象的表示,目前已经达到了SOTA的表现。

    • 与 SRL 相比,GNN 忽略掉标签的依赖关系,只关注于节点的特征表示。由于 GNN 将标签之间视为独立,那么此情况下标签的联合分布表示为:
      p(yV∣xV)=∏n∈Vp(yn∣xV)p(y_V|x_V)=\prod_{n\in V}p(y_n|x_V) p(yV​∣xV​)=n∈V∏​p(yn​∣xV​)

    • 因此,GNN独立地独立推断每个对象的标签分布p(yn∣xV)p(y_n|x_V)p(yn​∣xV​)。
      h=g(xV,E),p(yn∣xV)=Cat(yn∣softmax(Whn))(2)h=g(x_V,E),p(y_n|x_V)=Cat(y_n|softmax(Wh_n))\tag{2} h=g(xV​,E),p(yn​∣xV​)=Cat(yn​∣softmax(Whn​))(2)
      其中h是|V|×d维的特征向量,W是权重,每一轮节点特征h都会通过自己的邻居进行更新。经过多层网络的学习,特征最后经过一个softmax分类器来预测最终的标签。整个工作可以看做一个端到端的训练。代表性的方法有GCN、GAT等。

    从本质上讲,这两种方法的目标都是对已知对象属性xVx_VxV​和图结构条件EEE下的对象标签分布进行建模,即p(yV∣xV,E)p(y_V|x_V,E)p(yV​∣xV​,E)。

  • 存在的问题

    • 在传统的统计关系学习方法中,存在着以下缺陷:

      1. 由于这些方法通常采用CRF进行建模,因此需要手动地构造一些特征函数来作为势函数的组成部分,而这些特征函数往往是启发式的,从而导致了模型的能力有限;
      2. 由于对象之间关系结构的复杂性,导致难以推理(inference)出未知标签的结点U的后验分布(posterior distribution)。
    • 在图神经网络的方法中,由于各个结点的标签是根据相关的表示分别预测的,因此忽略了各个结点的标签之间的依赖性

Method

  • 提出基于半监督目标分类的图马尔可夫神经网络(GMNN, Graph Markov Neural Network),结合了SRL与GNN的优点,既能够学习到有效的结点表示,也能够对结点标签之间的依赖进行建模。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Wlm3sVW-1634456297251)(GMNN_Note/word-image-749.png)]

  • GMNN利用CRF通过对象属性(节点特征)来建模标签之间的联合分布:p(yV∣xV)p(y_V|x_V)p(yV​∣xV​)。然后采用伪似然变分EM(Pseudolikelihood Variational EM)框架对条件随机场进行优化。在E-step中,使用GNN来学习节点特征,以便进行标签预测。在M-step中,利用另一个GNN对目标标签的局部依赖性进行建模。

Pseudo-likelihood Variational EM
  • GMNN使用SRL方法CRF,即
    pϕ(yV∣xV)=1Z(xV)∏(i,j)∈Eψi,j(yi,yj,xV)(1)p_{\phi}(y_V|x_V)=\frac{1}{Z(x_V)}\prod_{(i,j)\in E}\psi_{i,j}(y_i,y_j,x_V)\tag{1} pϕ​(yV​∣xV​)=Z(xV​)1​(i,j)∈E∏​ψi,j​(yi​,yj​,xV​)(1)
    来建立基于节点特征的节点标签联合分布模型pϕ(yV∣xV)p_{\phi}(y_V|x_V)pϕ​(yV​∣xV​),其中ϕ\phiϕ是模型参数。

    • 链式马尔科夫随机向量场CRF公式:

    P(y∣x)=exp⁡(w⋅ϕ(x,y))Z(x)Z(x)=∑yexp⁡(w⋅ϕ(x,y))P(y|x)=\frac{\exp(w·\phi(x,y))}{Z(x)}\\ Z(x)=\sum_y\exp(w·\phi(x,y)) P(y∣x)=Z(x)exp(w⋅ϕ(x,y))​Z(x)=y∑​exp(w⋅ϕ(x,y))

    • 在普遍的随机向量场

    CRF 则使用一个指数模型来表示整个标签序列的联合概率,这个概率条件依赖于给定的完整观察序列。也就是说CRF是一个以观测序列XXX为全局条件的随机场。存在函数f(y1,...,yn;X)f(y_1,...,y_n;X)f(y1​,...,yn​;X),使得
    P(y1,y2,...,yn∣X)=exp⁡(f(y1,y2,...,yn;X))Z(X)Z(X)=∑y1,y2,...,yn∈Snef(y1,...,yn;X)P(y_1,y_2,...,y_n|X)=\frac{\exp(f(y_1,y_2,...,y_n;X))}{Z(X)}\\ Z(X)=\sum_{y_1,y_2,...,y_n\in S^n}e^{f(y_1,...,y_n;X)} P(y1​,y2​,...,yn​∣X)=Z(X)exp(f(y1​,y2​,...,yn​;X))​Z(X)=y1​,y2​,...,yn​∈Sn∑​ef(y1​,...,yn​;X)
    CRF 的计算困难之处在于上式的分母项包含了所有可能路径SnS^nSn的求和,搜索空间非常庞大.因此做出一些简化,假设输出之间的关联仅发生在相邻位置,并且关联是指数加性的:
    f(y1,...,yn;X)=∑k=1nf(yk;X)+∑k=2ng(yk−1,yk)f(y_1,...,y_n;X)=\sum_{k=1}^{n}f(y_k;X)+\sum_{k=2}^{n}g(y_{k-1},y_{k}) f(y1​,...,yn​;X)=k=1∑n​f(yk​;X)+k=2∑n​g(yk−1​,yk​)

    • 这里,exp⁡(f(y1,...,yn;X))\exp(f(y_1,...,y_n;X))exp(f(y1​,...,yn​;X))取了边的潜在得分:ψi,j(yi,yj,xV)\psi_{i,j}(y_i,yj,x_V)ψi,j​(yi​,yj,xV​) 不知道为什么这么取
  • 我们通过最大化观测对象标签的对数似然函数,即log⁡pϕ(yL∣xV)\log p_{\phi}(y_L|x_V)logpϕ​(yL​∣xV​)来优化模型参数ϕ\phiϕ,从而求已知标签的最大似然:pϕ(yL∣xV)p_{\phi}(y_L|x_V)pϕ​(yL​∣xV​)。

  • 但由于存在大量的未知标签,直接最大化对数似然很困难,因此我们通过变分推断的方法,用变分分布qθ(yU∣xV)q_\theta(y_U|x_V)qθ​(yU​∣xV​)来最大化对数似然的证据下界(ELBO):
    log⁡pϕ(yL∣xV)≥Eqθ(yU∣xV)[log⁡pϕ(yL,yU∣xV)−log⁡qθ(yU∣xV)](3)\log p_{\phi}(y_L|x_V)\geq\\ \mathbb{E}_{q_{\theta}(y_U|x_V)}[\log p_{\phi}(y_L,y_U|x_V)-\log q_{\theta}(y_U|x_V)] \tag{3} logpϕ​(yL​∣xV​)≥Eqθ​(yU​∣xV​)​[logpϕ​(yL​,yU​∣xV​)−logqθ​(yU​∣xV​)](3)

    变分推断

    假定用X=x1:nX=x_{1:n}X=x1:n​代表我们输入的观测值,Z=z1:mZ=z_{1:m}Z=z1:m​代表模型中的隐藏变量,问题即为推断输入数据的后验条件概率分布p(Z∣X)p(Z|X)p(Z∣X)。

    1. 我们提出关于隐藏变量的近似概率分布QQQ,希望从中找到一个与真实的后验分布的KL Divergence(KL散度)最小的分布q∗(X)q^*(X)q∗(X)。因此变分推断将推断问题转化为了求极值的优化问题。

    2. 由于
      ln⁡(P(X))=∫Q(Z)ln⁡(P(X,Z))dZ−∫Q(Z)ln⁡(Q(Z))dZ+∫Q(Z)ln⁡(Q(Z)P(Z∣X))dZ\ln(P(X))=\int Q(Z)\ln({P(X,Z)})dZ-\int Q(Z)\ln(Q(Z))dZ+\int Q(Z)\ln(\frac{Q(Z)}{P(Z|X)})dZ ln(P(X))=∫Q(Z)ln(P(X,Z))dZ−∫Q(Z)ln(Q(Z))dZ+∫Q(Z)ln(P(Z∣X)Q(Z)​)dZ
      等式的右端,ELBO是一个泛函,是Q的函数,由于KL距离是非负的,所以ELBO的上界就是lnP(X) 。

      我们的目标是最小化KL距离,但其中P(Z|X) 是难以得知的,但式中KL距离和ELBO是此消彼长的关系,这等价于最大化ELBO。所以我们改变优化目标为evidence lower bound(简称ELBO)
      arg⁡max⁡Q=E(ln⁡(P(X,Z))−E(ln⁡(Q(Z))\arg\max_Q=\mathbb{E}(\ln({P(X,Z)})-\mathbb{E}(\ln(Q(Z)) argQmax​=E(ln(P(X,Z))−E(ln(Q(Z))

  • 接下来,根据变分EM算法(Neal & Hinton, 1998),可以通过变分E步和M步交替来优化该下界ELBO。

  • 在变分E-step(又称推理程序)中,目标是固定pϕp_{\phi}pϕ​并更新变分分布qθ(yU∣xV)q_\theta(y_U|x_V)qθ​(yU​∣xV​)以近似真实的后验分布pϕ(yU∣yL,xV)p_\phi(y_U|y_L,x_V)pϕ​(yU​∣yL​,xV​),即计算最佳的变分参数。

  • 在M-step(也就是学习过程)中,我们固定qθq_\thetaqθ​并更新pϕp_{\phi}pϕ​以最大化以下似然函数:(即利用E步求出的qθ(yU∣xV)q_\theta(y_U|x_V)qθ​(yU​∣xV​)更新模型参数)
    l(ϕ)=Eqθ(yU∣xV)[log⁡pϕ(yL,yU∣xV)](4)\mathscr{l}(\phi)=\mathbb{E}_{q_{\theta}(y_U|x_V)}[\log{p_\phi}(y_L,y_U|x_V)]\tag{4} l(ϕ)=Eqθ​(yU​∣xV​)​[logpϕ​(yL​,yU​∣xV​)](4)

M-Step

在 M-step,这等价于优化(4)式。然而,直接优化(4)式是很困难的,因为这是对整个条件随机场进行优化,需要计算pϕp_\phipϕ​的配分函数(partition function),即(1)式中的分母 Z(xV)Z(x_V)Z(xV​)。基于pϕ(yV∣xV)p_\phi(y_V|x_V)pϕ​(yV​∣xV​)的独立性,我们可以将(4)式转化为优化(5)式:?
ℓPL(ϕ)≜Eqθ(yU∣xV)[∑n∈Vlog⁡pϕ(yn∣yV\n,xV)]=Eqθ(yU∣xV)[∑n∈Vlog⁡pϕ(yn∣yNB(n),xV)](5)\begin{aligned} \ell_{P L}(\phi) & \triangleq \mathbb{E}_{q_{\theta}\left(\mathbf{y}_{U} \mid \mathbf{x}_{V}\right)}\left[\sum_{n \in V} \log p_{\phi}\left(\mathbf{y}_{n} \mid \mathbf{y}_{V \backslash n}, \mathbf{x}_{V}\right)\right] \\ &=\mathbb{E}_{q_{\theta}\left(\mathbf{y}_{U} \mid \mathbf{x}_{V}\right)}\left[\sum_{n \in V} \log p_{\phi}\left(\mathbf{y}_{n} \mid \mathbf{y}_{\mathrm{NB}(\mathrm{n})}, \mathbf{x}_{V}\right)\right] \end{aligned}\tag{5} ℓPL​(ϕ)​≜Eqθ​(yU​∣xV​)​[n∈V∑​logpϕ​(yn​∣yV\n​,xV​)]=Eqθ​(yU​∣xV​)​[n∈V∑​logpϕ​(yn​∣yNB(n)​,xV​)]​(5)
其中 NB(n)是节点 n 的邻居。(5)式被称为伪似然函数(pseudo-likelihood function)。在似然函数(4)式中,某节点的标签与图上的其他所有节点有关;在伪似然函数(5)式中,某节点的标签只与其邻域节点有关;此时,通过最大化伪似然函数求取节点标签,就只需要聚合邻域的信息。
(5)式的意义是,聚合邻域的标签信息和特征信息,通过最大化伪似然函数求取节点标签。因为 GNN 是一个聚合邻域信息并进行消息传递的过程,所以 pϕp_{\phi}pϕ​ 可以通过一个 GNN 实现。
pϕ(yn∣yNB(n),xV)=Cat⁡(yn∣softmax⁡(Wϕhϕ,n))p_{\phi}\left(\mathbf{y}_{n} \mid \mathbf{y}_{\mathrm{NB}(n)}, \mathbf{x}_{V}\right)=\operatorname{Cat}\left(\mathbf{y}_{n} \mid \operatorname{softmax}\left(W_{\phi} \mathbf{h}_{\phi, n}\right)\right) pϕ​(yn​∣yNB(n)​,xV​)=Cat(yn​∣softmax(Wϕ​hϕ,n​))

E-Step

然后讨论E-step中的qθq_\thetaqθ​。由于具体的后验分布是难以计算的,因此引入了平均场近似(mean-field approximation)。由于其独立性,故由平均场理论有:
qθ(yU∣xV)=∏n∈Uqθ(yn∣xV)(6)q_{\theta}\left(\mathbf{y}_{U} \mid \mathbf{x}_{V}\right)=\prod_{n \in U} q_{\theta}\left(\mathbf{y}_{n} \mid \mathbf{x}_{V}\right)\tag{6} qθ​(yU​∣xV​)=n∈U∏​qθ​(yn​∣xV​)(6)
受摊还推断(amortized inference)的启发,同样使用一个GNN来参数化结点标签的后验分布,该GNN能够学习到有利于标签预测的结点的表示。
qθ(yn∣xV)=Cat⁡(yn∣softmax⁡(Wϕhϕ,n))(7)q_{\theta}\left(\mathbf{y}_{n} \mid \mathbf{x}_{V}\right)=\operatorname{Cat}\left(\mathbf{y}_{n} \mid \operatorname{softmax}\left(W_{\phi} \mathbf{h}_{\phi, n}\right)\right)\tag{7} qθ​(yn​∣xV​)=Cat(yn​∣softmax(Wϕ​hϕ,n​))(7)
最大化似然函数:证明
log⁡qθ(yn∣xV)=Eqθ(yNB(n)∩U∣xV)[log⁡pϕ(yn∣yNB(n),xV)]+const.(8)\begin{aligned} &\log q_{\theta}\left(\mathbf{y}_{n} \mid \mathbf{x}_{V}\right)= \\ &\mathbb{E}_{q_{\theta}\left(\mathbf{y}_{\mathrm{NB}(n) \cap U} \mid \mathbf{x}_{V}\right)}\left[\log p_{\phi}\left(\mathbf{y}_{n} \mid \mathbf{y}_{\mathrm{NB}(n)}, \mathbf{x}_{V}\right)\right]+\mathrm{const.} \end{aligned}\tag{8} ​logqθ​(yn​∣xV​)=Eqθ​(yNB(n)∩U​∣xV​)​[logpϕ​(yn​∣yNB(n)​,xV​)]+const.​(8)
(8)式证明见附录,参考文献 [4] 中也给出了一个类似的式子的证明过程。在(8)式中,用采样代替求期望:
Eqθ(yNB(n)∩U∣xV)[log⁡pϕ(yn∣yNB(n),xV)]≃log⁡pϕ(yn∣y^NB(n),xV)(9)\begin{aligned} &\mathbb{E}_{q_{\theta}\left(\mathbf{y}_{\mathrm{NB}(n) \cap U} \mid \mathbf{x}_{V}\right)}\left[\log p_{\phi}\left(\mathbf{y}_{n} \mid \mathbf{y}_{\mathrm{NB}(n)}, \mathbf{x}_{V}\right)\right] \\ &\simeq \log p_{\phi}\left(\mathbf{y}_{n} \mid \hat{\mathbf{y}}_{\mathrm{NB}(n)}, \mathbf{x}_{V}\right) \end{aligned}\tag{9} ​Eqθ​(yNB(n)∩U​∣xV​)​[logpϕ​(yn​∣yNB(n)​,xV​)]≃logpϕ​(yn​∣y^​NB(n)​,xV​)​(9)
在上述公式中,y^NB(n)={y^k}k∈NB(n)\hat y_{NB(n)}=\{\hat y_k\}_{k\in NB(n)}y^​NB(n)​={y^​k​}k∈NB(n)​定义如下:对于对象n的每个未标记邻域k,我们给出了y^k∼qθ(yk∣xV)\hat y_k\sim q_\theta(y_k|x_V)y^​k​∼qθ​(yk​∣xV​),而对于对象n每一个被标记的邻域K,y^k\hat y_ky^​k​被设为真实的标签。

在实践中,我们发现使用qθ(yNB(n)∩U∣xV)q_\theta(y_{NB(n)\cap U}|x_V)qθ​(yNB(n)∩U​∣xV​)中的一个样本可以得到多个样本的可比结果,因此,在实验中为了效率,只有一个样本被使用,基于方程(8)和(9),最优qθ(yn∣xV)q_\theta(y_n|x_V)qθ​(yn​∣xV​)满足:
qθ(yn∣xV)≈pϕ(yn∣y^NB(n),xV)(10)q_{\theta}\left(\mathbf{y}_{n} \mid \mathbf{x}_{V}\right) \approx p_{\phi}\left(\mathbf{y}_{n} \mid \hat{\mathbf{y}}_{\mathrm{NB}(n)}, \mathbf{x}_{V}\right)\tag{10} qθ​(yn​∣xV​)≈pϕ​(yn​∣y^​NB(n)​,xV​)(10)
(10)式中,qθq_\thetaqθ​是一个进行特征传播的 GNN,学习一个从特征到标签的映射,pϕp_\phipϕ​是一个进行标签传播的 GNN,学习一个从已标注节点标签到未标注节点标签的映射。即我们使用pϕ(yn∣y^NB(n),xV)p_\phi (y_n|\hat y_{NB(n)},x_V)pϕ​(yn​∣y^​NB(n)​,xV​),并最小化:KL(pϕ(yn∣y^NB(n),xV)∣∣qθ(yn∣∣xV))KL(p_\phi (y_n|\hat y_{NB(n)},x_V)||q_\theta(y_n||x_V))KL(pϕ​(yn​∣y^​NB(n)​,xV​)∣∣qθ​(yn​∣∣xV​))

我们进一步使用并行更新策略来加速训练,即联合

为对 GMNN 进行训练,我们首先预训练qθq_\thetaqθ​:用全体节点的特征作为输入,将已标注节点标签作为监督信息,为全体节点学习“伪标签”。优化目标:
Oθ,L=∑n∈Llog⁡qθ(yn∣xV)(12)O_{\theta, L}=\sum_{n \in L} \log q_{\theta}\left(\mathbf{y}_{n} \mid \mathbf{x}_{V}\right)\tag{12} Oθ,L​=n∈L∑​logqθ​(yn​∣xV​)(12)
接着,将生成的“伪标签”输入pϕp_\phipϕ​,训练目标是使得其生成的标签与“伪标签”尽量接近,这就是(5)式的意义。根据(8)(9)式可将(5)式简化为:
Oϕ=∑n∈Vlog⁡pϕ(y^n∣y^NB(n),xV)(15)O_{\phi}=\sum_{n \in V} \log p_{\phi}\left(\hat{\mathbf{y}}_{n} \mid \hat{\mathbf{y}}_{\mathrm{NB}(\mathrm{n})}, \mathbf{x}_{V}\right)\tag{15} Oϕ​=n∈V∑​logpϕ​(y^​n​∣y^​NB(n)​,xV​)(15)
最后,将节点特征再次输入qθq_\thetaqθ​,训练目标是使得其生成的标签与pϕp_\phipϕ​生成的标签尽量接近,并将此时qθq_\thetaqθ​输出的标签作为预测结果。训练目标:
Oθ,U=∑n∈UEpϕ(yn∣y^NB(n),xV)[log⁡qθ(yn∣xV)](11)O_{\theta, U}=\sum_{n \in U} \mathbb{E}_{p_{\phi}\left(\mathbf{y}_{n} \mid \hat{\mathbf{y}}_{\mathrm{NB}(n)}, \mathbf{x}_{V}\right)}\left[\log q_{\theta}\left(\mathbf{y}_{n} \mid \mathbf{x}_{V}\right)\right]\tag{11} Oθ,U​=n∈U∑​Epϕ​(yn​∣y^​NB(n)​,xV​)​[logqθ​(yn​∣xV​)](11)
所以:
Oθ=Oθ,U+Oθ,L(13)O_\theta=O_{\theta,U}+O_{\theta,L}\tag{13} Oθ​=Oθ,U​+Oθ,L​(13)
f{y}}{\mathrm{NB}(n)}, \mathbf{x}{V}\right)}\left[\log q_{\theta}\left(\mathbf{y}{n} \mid \mathbf{x}{V}\right)\right]\tag{11}
所以:所以: 所以:
O_\theta=O_{\theta,U}+O_{\theta,L}\tag{13}
$$

[论文笔记]GMNN图马尔可夫网络原理相关推荐

  1. 图马尔可夫网络:融合统计关系学习与图神经网络

    ©PaperWeekly 原创 · 作者|石壮威 学校|南开大学硕士 研究方向|机器学习.图神经网络 论文标题: GMNN: Graph Markov Neural Networks 收录会议: IC ...

  2. ICML 2019 | 图马尔可夫神经网络

    今天给大家介绍蒙特利尔算法研究所Yoshua Bengio教授课题组在ICML 2019发表的文章"GMNN:Graph Markov Neural Network".作者在文章中 ...

  3. 《Data Algorithm》读书笔记十一— 使用马尔科夫模型的智能邮件营销

    <Data Algorithm>读书笔记十一 - 使用马尔科夫模型的智能邮件营销 1. 智能邮件营销 是什么? 根据顾客的交易历史观测(其实就是推测) "下一个智能邮件营销日期& ...

  4. 机器学习笔记之隐马尔可夫模型(六)解码问题

    机器学习笔记之隐马尔可夫模型--解码问题 引言 解码问题介绍 解码问题分析 引言 上一节介绍了使用狭义EM算法对模型参数λ\lambdaλ.本节将介绍使用维特比算法(Viterbi)处理解码问题(De ...

  5. 马尔可夫网络,(马尔可夫随机场、无向图模型)(Markov Random Field)

    转载自: http://blog.sina.com.cn/s/blog_54d222750101dgz2.html 马尔可夫网络,(马尔可夫随机场.无向图模型)是关于一组有马尔可夫性质随机变量的全联合 ...

  6. 马尔可夫网络和贝叶斯网络的一些总结

    马尔可夫网络和贝叶斯网络的一些总结 最近学习了一些关于概率逻辑的知识图谱推理方法,主要就是贝叶斯网络和马尔可夫网络,在此总结一下,内容都来自网络资料,这里加入了一下个人的理解,尽量为大家避雷! 这篇文 ...

  7. 一次性弄懂马尔可夫模型、隐马尔可夫模型、马尔可夫网络和条件随机场!

    1. 马尔可夫网络.马尔可夫模型.马尔可夫过程.贝叶斯网络的区别 相信大家都看过上一节我讲得贝叶斯网络,都明白了概率图模型是怎样构造的,如果现在还没明白,请看我上一节的总结: 贝叶斯网络 这一节我们重 ...

  8. 一次性弄懂马尔可夫模型、隐马尔可夫模型、马尔可夫网络和条件随机场!(词性标注代码实现)

    文章目录 1. 马尔可夫网络.马尔可夫模型.马尔可夫过程.贝叶斯网络的区别 2. 马尔可夫模型 2.1 马尔可夫过程 3. 隐马尔可夫模型(HMM) 3.1 隐马尔可夫三大问题 3.1.1 第一个问题 ...

  9. 贝叶斯网络( Bayesian network)和马尔科夫网络(Markov networks)

    概率图模型(PGM)(或简称图模型)在形式上是由图结构组成的.图的每个节点(node)都关联了一个随机变量,而图的边(edge)则被用于编码这些随机变量之间的关系. 根据图是有向的还是无向的,我们可以 ...

最新文章

  1. centOS怎样强制卸载PHP以及自定义安装PHP
  2. GHOST_XP详细制作过程
  3. 网联靴子将落地,银行将关闭第三方支付直接代扣通道
  4. .NET平台微服务项目汇集
  5. Linux tcpdump命令用法详解
  6. 结果显示窗口如何缩小_Proe草绘时提示“截面再生失败。不合适的尺寸”如何处理?...
  7. 梅林安装opkg后安装iperf3_阳台到底有没有必要安装推拉门?利与弊告诉你,不要等安装后后悔...
  8. struts2学习笔记(二) 初识Struts2
  9. Educational Codeforces Round 51: F. The Shortest Statement(最短路+LCA)
  10. java mongodb-crud
  11. 解决SVN Cleanup错误: Failed to run the WC DB work queue associated with
  12. Java设计模式:简单工厂模式(附实例代码)每天一学设计模式
  13. 搭建机器人电控系统——PWM原理——舵机和TMOTOR电机
  14. 对于rpx的理解和使用
  15. 如何使用并且使用过滤器
  16. 华中科技计算机第七次作业,电路理论(黑皮版) 华中科技大学陈明辉第7章
  17. h3c端口聚合实现服务器增加带宽,交换机配置,如何实现端口聚合,链路聚合?提高冗余,增加带宽...
  18. FPGA--(基于Quartus的FPAG程序下载与固化教程)VGA显示实验之上板测试
  19. 铁道部新规:列车空闲卧铺票可打折至50%
  20. wow盗号木马事件前后

热门文章

  1. 阿里副总裁凌晨4 点“逃离上海”?贾扬清回应是前往美国看病,网友:双面人!...
  2. 王道考研操作系统完结篇
  3. Windows CMD 黑客常用命令
  4. c语言中为什么有时候输入一个数字之后要再输入一个才输出结果
  5. 鸿蒙智能家居市场,荣耀智慧屏杀入彩电市场 重在智能家居 不把红海做成血海...
  6. 考研——史上计算机类最全辅导书推荐
  7. ExecutorService里的shutdown 和 isTerminated
  8. 在WPF中加载gif动态图片
  9. moon服务器 zerotier_使用ZeroTier组建虚拟内网/如何搭建MOON转发服务器
  10. eSIM终端的生产流程的思考