概率图表示之马尔可夫随机场

文章目录

  • 马尔可夫随机场
    • 正式定义
    • 与贝叶斯网络的比较
    • 马尔可夫随机场中的独立性
  • 条件随机场
    • 示例
    • 正式定义
    • 示例(续)
    • CRF特性
  • 因子图

贝叶斯网络可以以一种紧凑的方式表示许多概率分布。然而,我们在前一章中已经看到,一些分布可能具有独立性假设,无法用贝叶斯网络完美地表示。

在这种情况下,除非我们想在模型的变量之间引入虚假的独立性,否则我们必须回到一种不太紧凑的表示法(可以看作是一个带有额外不必要边的图)。这会导致模型中出现额外的、不必要的参数,并使学习这些参数和进行预测变得更加困难。

然而,还有另一种基于无向图的紧凑表示和可视化概率分布的技术,我们称之为马尔可夫随机场或MRF。这类模型可以简洁地表示有向模型无法表示的独立性假设。在本章中,我们将探讨这类模型的优点和缺点。

马尔可夫随机场

举个能激发大家兴趣的例子,假设我们正在模拟 A,B,C,DA,B,C,DA,B,C,D 4人的投票偏好,设(A,B)(A,B)(A,B), (B,C)(B,C)(B,C), (C,D)(C,D)(C,D), (D,A)(D,A)(D,A) 是朋友,且朋友往往有相似的投票偏好。这些影响可以自然地用无向图表示。

四人投票偏好联合概率的无向图表达。右图说明了模型中存在的成对因素。

定义 A,B,C,DA,B,C,DA,B,C,D 投票决策的联合概率的一种方法是将分数分配给这些变量的每一个赋值,然后将概率定义为标准化分数。分数可以是任何函数,但在我们的例子中,我们将其定义为以下形式:

p~(A,B,C,D)=ϕ(A,B)ϕ(B,C)ϕ(C,D)ϕ(D,A)\tilde p(A,B,C,D) = \phi(A,B)\phi(B,C)\phi(C,D)\phi(D,A) p~​(A,B,C,D)=ϕ(A,B)ϕ(B,C)ϕ(C,D)ϕ(D,A)
其中 ϕ(X,Y)\phi(X,Y)ϕ(X,Y) 是一个为朋友 X,YX,YX,Y 之间的一致投票赋予更高权重的因子。例如:

ϕ(X,Y)={10如果 X=Y=15如果 X=Y=01其他情况\begin{align*} \phi(X,Y) = \begin{cases} 10 & \text{如果 } X = Y = 1 \\ 5 & \text{如果 } X = Y = 0 \\ 1 & \text{其他情况} \end{cases} \end{align*} ϕ(X,Y)=⎩⎨⎧​1051​如果 X=Y=1如果 X=Y=0其他情况​​

非正态分布中的因子通常称为因子。最终概率定义为:

p(A,B,C,D)=1Zp~(A,B,C,D)p(A,B,C,D) = \frac{1}{Z} \tilde p(A,B,C,D) p(A,B,C,D)=Z1​p~​(A,B,C,D)
其中 Z=∑A,B,C,Dp~(A,B,C,D)Z = \sum_{A,B,C,D} \tilde p(A,B,C,D)Z=∑A,B,C,D​p~​(A,B,C,D) 是一个规范化常数,用于确保分布和为1。

当规范化时,我们将 ϕ(A,B)\phi(A,B)ϕ(A,B) 视作一个交互,推动 BBB 的投票接近 AAA。ϕ(B,C)\phi(B,C)ϕ(B,C) 推动 BBB 的投票接近C,而最有可能的投票需要调和这些相互冲突的影响。

注意,与有向图不同,我们并没有说一个变量是如何从另一组变量中生成的(正如条件概率分布所做的那样)。我们只是简单地表示图中因变量之间的耦合程度。某种意义上,这里需要较少的先验知识,因为我们不再需要详细说明 BBB 的投票是如何从 AAA 的投票中构建的(如果我们有P(B∣A)P(B \mid A)P(B∣A),我们就需要详细说明),相反,我们只需要识别因变量并定义其相互作用强度即可;这反过来定义了可能分配空间上的能量分布,我们通过归一化常数将能量转换为概率。

正式定义

马尔可夫随机场是无向图GGG中定义的随机变量x1,x2,…,xnx_1, x_2, \dots, x_nx1​,x2​,…,xn​的概率分布 ppp。图GGG中每一个节点表示一个变量xix_ixi​,该概率 ppp 可以表述为如下形式:
p(x1,…,xn)=1Z∏c∈Cϕc(xc)p(x_1,\dots, x_n) = \frac{1}{Z}\prod_{c \in C}\phi_c(x_c) p(x1​,…,xn​)=Z1​c∈C∏​ϕc​(xc​)
其中CCC表示图GGG中的(例如全联通子图)集合,且每个因子ϕc\phi_cϕc​是团中变量的非负函数。配分函数
Z=∑x1,…,xn∏c∈Cϕc(xc)Z = \sum_{x_1,\dots, x_n}\prod_{c \in C}\phi_c(x_c) Z=x1​,…,xn​∑​c∈C∏​ϕc​(xc​)
是一个标准化常数,确保分布总和为1。

因此,给定图GGG,概率分布可能包含GGG中任何团的因子,这些团可以是单个节点、边、三角形等。注意,我们不需要为每个团指定一个因子。上面的例子中,我们为每个边定义了一个因子(这是两个节点的团)。然而,我们选择不指定任何一元因子,即单个节点的团。

与贝叶斯网络的比较

前面举的投票的例子中,A,B,C,DA, B, C, DA,B,C,D上的概率满足A⊥C∣{B,D},B⊥D∣{A,C}A \perp C \mid \{B, D\}, B \perp D \mid \{A, C\}A⊥C∣{B,D},B⊥D∣{A,C}(因为只有朋友会直接影响投票)。我们可以很容易地通过反例检验,这些独立性不能用贝叶斯网络完美地表示。然后马尔可夫随机场可以完美地描述这种分布。

四变量投票示例的有向模型示例。没有一个能够准确地表达我们对变量之间依赖结构的先验知识。

更一般地说,马尔可夫随机场比有向模型有如下几个优点:

  • 它们可以应用于更广泛的问题,在这些问题中,不存在与变量相关性相关的自然方向性。
  • 无向图可以简洁地表达贝叶斯网络难以描述的某些依赖关系(尽管反过来也是如此)。

当然,马尔可夫随机场也具有几个重要缺点:

  • 计算归一化常数ZZZ需要对潜在的指数数量的赋值求和。在一般情况下,这是个NP问题;因此,许多无向模型难以精确处理,需要使用近似技术。
  • 无向模型可能难以解释。
  • 从贝叶斯网络生成数据要容易得多,这在某些应用中很重要。

不难看出,贝叶斯网络是马尔可夫随机场的一种特殊情况,它具有特定类型的团因子(对应于条件概率分布,并在图中蕴含有向无环结构)和归一化常数1。特别是,如果我们取一个有向图GGG,并将边添加到给定节点的所有父节点(并移除它们的方向性),那么条件概率分布(被视为变量及其祖先上的因子)在生成的无向图上进行了因子分解。由此产生的过程称为道德化

贝叶斯网络总是可以转换为归一化常数为1的无向网络。反过来也是可以的,但可能在计算上很难处理,并且可能产生非常大的(例如,完全连通的)有向图。

因此,马尔可夫随机场比贝叶斯网络更强大,但在计算上更难处理。一般的经验法则是尽可能使用贝叶斯网络,只有在无法自然地用有向图建模问题时才切换到马尔可夫速激长(如我们的投票示例)。

马尔可夫随机场中的独立性

回想一下,在贝叶斯网络的情况下,我们定义了一组由有向图GGG描述的独立性I(G)I(G)I(G),并展示了它们如何描述蕴含在有向图因子分解得到的分布ppp的真实独立性,例如I(G)⊆I(p)I(G) \subseteq I(p)I(G)⊆I(p)。

那么,无向马尔可夫随机场可以描述哪些独立性?答案非常简单直观:如果变量x,yx, yx,y通过未观测变量的路径连接,则它们是相关的。然而,如果xxx的邻居都被观察到,那么xxx与所有其他变量无关,因为它们仅通过其邻居影响xxx。

在马尔可夫随机场中,给定节点X的邻居(称为X的马尔可夫毯),节点X独立于图的其余部分。

特别是,如果一组观察到的变量在图的两半之间形成割集,那么一半中的变量与另一半中的独立。

形式上,我们将变量XXX的马尔可夫毯UUU定义为最小节点集,如果观察到UUU,则XXX独立于图的其余部分,例如:X⊥(X−{X}−U)∣UX \perp (\mathcal{X}-\{X\}-U) \mid UX⊥(X−{X}−U)∣U。这一概念适用于有向和无向模型,但在无向模型下,马尔可夫毯仅等于节点的邻居。

在有向情况下,我们发现I(G)⊆I(p)I(G) \subseteq I(p)I(G)⊆I(p),但有一些分布ppp的独立性不能用GGG来描述。无向的情况,也是如此。例如,考虑由有向v结构描述的概率,无向模型不能描述独立性假设 X⊥YX \perp YX⊥Y。

具有完美有向图表示但没有无向表示的概率分布的示例,反之亦然。

条件随机场

当将马尔可夫随机场应用于建模条件概率分布p(y∣x)p(y \mid x)p(y∣x)时(其中x∈X,y∈Yx \in \mathcal{X}, y \in \mathcal{Y}x∈X,y∈Y都是向量变量),出现了马尔可夫随机场的一个重要特例。这些分布在有监督学习环境中很常见,在这种环境中,我们已知xxx,并希望预测yyy。这类任务也称为结构化预测。

示例

我们先来看个例子,给定若干以像素矩阵形式提供的黑白字符图像序列xi∈[0,1]d×dx_i \in [0, 1]^{d \times d}xi​∈[0,1]d×d,我们要从中识别出单词。预测结果是一系列字母yi∈{a,b,…,z}y_i \in \{a, b, \dots, z\}yi​∈{a,b,…,z}。

用于OCR的链式结构条件随机场。

原则上,我们可以训练一个分类器,从xix_ixi​中分别预测每个yiy_iyi​。然而,由于这些字母一起构成了一个单词,因此不同的预测应该相互通知。在上面的例子中,第二个字母本身可以是“U”或“V”;然而,由于我们可以很有信心地判断它的邻居是“Q”和“E”,我们可以推断“U”是最有可能的真实结果。条件随机场可以让我们实施此类预测。

正式定义

条件随机场是变量X∪Y\mathcal{X} \cup \mathcal{Y}X∪Y上的马尔可夫网络,它指定了条件分布
P(y∣x)=1Z(x)∏c∈Cϕc(xc,yc)P(y \mid x) = \frac{1}{Z(x)}\prod_{c \in C}\phi_c(x_c, y_c) P(y∣x)=Z(x)1​c∈C∏​ϕc​(xc​,yc​)
其配分函数为:
Z(x)=∑y∈Y∏c∈Cϕc(xc,yc)Z(x) = \sum_{y \in \mathcal{Y}}\prod_{c \in C}\phi_c(x_c, y_c) Z(x)=y∈Y∑​c∈C∏​ϕc​(xc​,yc​)
注意,在这种情况下,分区常数取决于xxx(因此,我们说它是一个函数),这并不奇怪:p(y∣x)p(y \mid x)p(y∣x)是yyy上由xxx参数化的概率,即,它为每个xxx编码不同的概率函数。在这个意义上,条件随机场导致每个输入xxx的新马尔可夫随机场的实例化。

示例(续)

更正式地说,假设p(y∣x)p(y \mid x)p(y∣x)是具有两种因素的链式条件随机场:因子ϕ(xi,yi)\phi(x_i, y_i)ϕ(xi​,yi​)将与输入xix_ixi​一致的较高值分配给yiy_iyi​;以及因子ϕ(yi,yi+i)\phi(y_i, y_{i+i})ϕ(yi​,yi+i​)。我们也可以认为ϕ(xi,yi)\phi(x_i, y_i)ϕ(xi​,yi​)是由标准(非结构化)softmax回归给出的概率p(yi∣xi)p(y_i \mid x_i)p(yi​∣xi​),ϕ(yi,yi+i)\phi(y_i, y_{i+i})ϕ(yi​,yi+i​)可以看作是从大量英语文本中获得的字母共现的经验频率。

给定这种形式的模型,我们可以用MAP联合推断出结构化标签yyy:
arg⁡max⁡yϕ(x1,y1)∏i=2nϕ(yi−1,yi)ϕ(xi,yi)\arg \max_y \phi(x_1, y_1)\prod_{i=2}^{n}\phi(y_{i-1}, y_i)\phi(x_i, y_i) argymax​ϕ(x1​,y1​)i=2∏n​ϕ(yi−1​,yi​)ϕ(xi​,yi​)

CRF特性

在大多数实际应用中,我们进一步假设因子ϕc(xc,yc)\phi_c(x_c,y_c)ϕc​(xc​,yc​)的形式为:
ϕc(xc,yc)=exp⁡(wcTfc(xc,yc))\phi_c(x_c,y_c) = \exp(w_c^T f_c(x_c, y_c)) ϕc​(xc​,yc​)=exp(wcT​fc​(xc​,yc​))
其中fc(xc,yc)f_c(x_c, y_c)fc​(xc​,yc​)可以是描述xcx_cxc​和ycy_cyc​之间兼容性的任意一组特性。

在我们的OCR示例中,我们可以引入对字母yiy_iyi​与像素xix_ixi​的兼容性进行编码的特征f(xi,yi)f(x_i, y_i)f(xi​,yi​)。例如f(xi,yi)f(x_i, y_i)f(xi​,yi​)可能是逻辑回归(或深度神经网络)根据像素xix_ixi​产生的字母yiy_iyi​的概率。此外,我们在相邻字母之间引入了特征f(yi,yi+1)f(y_i, y_{i+1})f(yi​,yi+1​)。可以形式化地表述为f(yi,yi+1)=II(yi=ℓ1,yi+1=ℓ2)f(y_i, y_{i+1}) = II(y_i = \ell_1, y_{i+1} = \ell_2)f(yi​,yi+1​)=II(yi​=ℓ1​,yi+1​=ℓ2​),其中ℓ1,ℓ2\ell_1, \ell_2ℓ1​,ℓ2​是字母表中的2个字母。然后,条件随机场会学习权重www,这将为更常见的连续字母(ℓ1,ℓ2)(\ell_1, \ell_2)(ℓ1​,ℓ2​)概率分配更多的权重,同时确保预测的yiy_iyi​与输入的xix_ixi​一致。这个过程可以让我们在xix_ixi​不明确的情况下确定yiy_iyi​,就像上面的例子一样。

关于CRF特征最重要的认知是它们可以任意复杂。事实上,我们可以用因子ϕ(x,yi)=exp⁡(wiTf(x,yi))\phi(x,y_i) = \exp(w_i^T f(x, y_i))ϕ(x,yi​)=exp(wiT​f(x,yi​))定义OCR模型,这样将完全依赖输入xxx。这完全不会影响计算性能,因为在推断时,xxx总是被观察到的,而我们的解码问题涉及最大化
ϕ(x,y1)∏i=2nϕ(yi−1,yi)ϕ(x,yi)=ϕ′(y1)∏i=2nϕ(yi−1,yi)ϕ′(yi),\phi(x, y_1) \prod_{i=2}^n \phi(y_{i-1}, y_i) \phi(x, y_i) = \phi'(y_1) \prod_{i=2}^n \phi(y_{i-1}, y_i) \phi'(y_i), ϕ(x,y1​)i=2∏n​ϕ(yi−1​,yi​)ϕ(x,yi​)=ϕ′(y1​)i=2∏n​ϕ(yi−1​,yi​)ϕ′(yi​),
其中ϕ′(yi)=ϕ(x,yi)\phi'(y_i) = \phi(x,y_i)ϕ′(yi​)=ϕ(x,yi​)。使用全局特征只会改变因子的值,而不会改变它们的范围,因为它们具有相同类型的链结构。我们将在下一节中看到,这种结构是确保我们能够轻松解决这个优化问题所需的全部。

这一观察结果可以用更加一般的形式来解释。如果我们使用马尔可夫随机场对p(x,y)p(x, y)p(x,y)进行建模(视为x,yx,yx,y上的单一模型,具有标准化常数Z=∑x,yp~(x,y)Z = \sum_{x,y} \tilde{p}(x,y)Z=∑x,y​p~​(x,y)),那么我们需要将两个分布拟合到数据中:p(y∣x)p(y\mid x)p(y∣x) 和 p(x)p(x)p(x)。然而,如果我们感兴趣的是预测给定xxx的yyy,那么建模p(x)p(x)p(x)就没有必要了。事实上,在统计上这样做可能是不利的(例如:我们可能没有足够的数据来拟合p(y∣x)p(y\mid x)p(y∣x)和p(x)p(x)p(x);由于模型具有共享参数,因此拟合其中一个可能不会得到另一个的最佳参数),并且在计算上这可能也不可行(我们需要在分布中作出简化假设,这样p(x)p(x)p(x)就可以容易地处理)。CRF放弃了这一假设,通常在预测任务中表现更好。

因子图

在展示马尔可夫随机场时,经常使用因子和变量明确分离的方式来表示。因子图就是常用的表示方法。因子图由两部分组成,其中一部分是用于建模分布的变量,另一部分是在这些变量上定义的因子。边位于因子和因子所依赖的变量之间。

具有三个变量和四个因子的因子图示例。

这个视图使我们能够更容易地看到变量之间的因子依赖关系,稍后我们将看到它使我们能够更加容易地计算一些概率分布。

【05】概率图表示之马尔可夫随机场相关推荐

  1. 西瓜书+实战+吴恩达机器学习(二二)概率图模型之马尔可夫随机场

    文章目录 0. 前言 1. 马尔可夫随机场结构 2. 近似推断 2.1. Metropolis-Hastings 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 ...

  2. 概率图模型(PGM)/马尔可夫随机场(MRF)/条件随机场基本概念(CRF)

    概率图模型: 1:为什么引入图模型:一般的问题我们都可以用概率模型去很好的解决,那么为什么又要在概率的基础上加一个图呢?在这里我们引入图结构其实是因为图结构可以将概率模型的结构可视化,应用图这是一种直 ...

  3. 概率图模型(6)马尔科夫随机场

    文章目录 概率图模型的综合叙述: 马尔科夫随机场综述: 马尔科夫随机场定义: MRF的因式分解: 一个简单的例子: 概率图模型的综合叙述: 特征函数便是图中的conditional.对图简单的说明,综 ...

  4. 机器学习-白板推导-系列(九)笔记:概率图模型: 贝叶斯网络/马尔可夫随机场/推断/道德图/因子图

    文章目录 0 笔记说明 1 背景介绍 1.1 概率公式 1.2 概率图简介 1.2.1 表示 1.2.2 推断 1.2.3 学习 1.2.4 决策 1.3 图 2 贝叶斯网络 2.1 条件独立性 2. ...

  5. 概率图之马尔可夫随机场(Markov Random Field,MRF)

    现实生活中,许多任务涉及多个因素(变量),并且因素之间存在依赖关系.概率图模型(Probabilistic Graphical Model,PGM)为表示.学习这种依赖关系提供了一个强大的框架,概率图 ...

  6. kl散度度量分布_概率图简要模型笔记(二)马尔可夫随机场与KL散度、最大熵、指数族分布、高斯分布、极大似然分布...

    这一篇文章主要是想捋一捋KL散度.最大熵.指数族分布这些东西之间的关系,这是一些非常基本的知识点,刚入门机器学习的时候,傻傻分不清楚,现在回过头来看,其实很多东西都可以串起来,不得不感叹数学真是一个很 ...

  7. 深入理解机器学习——概率图模型(Probabilistic Graphical Model):马尔可夫随机场(Markov Random Field,MRF)

    分类目录:<深入理解机器学习>总目录 马尔可夫随机场(Markov Random Field,MRF)是典型的马尔可夫网,这是一种著名的无向图模型,图中每个结点表示一个或一组变量,结点之间 ...

  8. 马尔科夫随机场之图像去燥【Matlab实现,PRML例子】

    马尔科夫随机场,本质上是一种概率无向图模型.分类:概率图模型大致上分为两种,一种是有向图,又叫贝叶斯网络,链接节点之间的边是有方向的,用来描述变量之间的因果关系(下图左侧):另一种是无向图,又叫马尔科 ...

  9. 机器学习强基计划6-2:详细推导马尔科夫随机场(MRF)及其应用(附例题)

    目录 0 写在前面 1 无向概率图 2 马尔科夫随机场 3 马尔科夫独立性 4 例题分析 0 写在前面 机器学习强基计划聚焦深度和广度,加深对机器学习模型的理解与应用."深"在详细 ...

最新文章

  1. 原生ajax表单交互
  2. WorldWind Java 版学习:8、事件响应
  3. CSDDN特约专稿:个性化推荐技术漫谈
  4. 成都理工大学计算机报告,[2017年整理]成都理工大学通信工程计算机网络综合课程设计报告.doc...
  5. LeetCode: Convert Sorted Array to Binary Search Tree 解题报告
  6. springboot封装统一查询对象进行多条件查询案例(mybatis和mybatis-plus+反射两种版本)
  7. matlab在一个坐标系画不同三维图,怎么用多个色标
  8. XX System Test Plan
  9. 7-5 公路村村通 (30 分)(C语言实现)
  10. 从零开始学前端:作用域、执行顺序 --- 今天你学习了吗?(JS:Day9)
  11. C++ 你想要的C++面经都在这(附答案 | 持续更新)
  12. 系统架构师成长之路(二)
  13. Dropping tests
  14. 抓包,反抓包,反反抓包
  15. mysql期中考试题及答案_mysql 查询 练习题及答案
  16. 1405 奶牛的旅行
  17. 赵伟国回应华为“平衡者”标签:做个老二、老三也可以
  18. QT常用控件——QComboBox控件
  19. 增加平均订单价值 – 交叉销售VS.升级销售
  20. HTML+JS 前端雪花飘落

热门文章

  1. 【项目实战案例分享】DMZ区防御体系技战法
  2. lua版本base64加密和解密
  3. 如何用Tableau绘制涂色地图
  4. SpringBoot性能指标
  5. 科技代表未来发展方向 人工智能等四类67只科技蓝筹股值得长线布局
  6. Egret 性能优化
  7. 初学CAD,该如何正确查看CAD图纸呢?
  8. 专利说明书的发明/实用新型内容与具体实施方式的差异
  9. 生信技能树课程记录笔记(三)20220526
  10. C# (初入江湖)-几行代码也可以写个电脑屏保