有任何的书写错误、排版错误、概念错误等,希望大家包含指正。

部分推导和定义相关的佐证资料比较少,供参考。讨论的过程中我会加入自己的理解,难免存在错误,欢迎大家讨论。

在阅读本篇之前建议先学习:
隐马尔可夫模型系列
最大熵马尔可夫模型

由于字数限制,分成五篇博客。
【自然语言处理】条件随机场【Ⅰ】马尔可夫随机场
【自然语言处理】条件随机场【Ⅱ】条件随机场概述
【自然语言处理】条件随机场【Ⅲ】条件随机场估计问题
【自然语言处理】条件随机场【Ⅳ】条件随机场学习问题
【自然语言处理】条件随机场【Ⅴ】条件随机场解码问题

1. 随机场

随机变量、随机过程、随机场的定义或概念比较抽象,但其实我们还是比较容易理解的。

随机变量:随机变量表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。简单地说,随机变量是指随机事件的数量表现。离散型随机变量即在一定区间内变量取值为有限个或可数个;连续型随机变量即在一定区间内变量取值有无限个,或数值无法一一列举出来。

随机过程:随机过程 X(t)X(t)X(t) 是一组依赖于实参数 ttt 的随机变量,ttt 一般具有时间的含义。随机过程 {X(t),t∈T}\{ X(t), t∈T \}{X(t),t∈T} 可能取值的全体所构成的集合称为此随机过程的状态空间,记作 SSS。 比如某商店在从时间 t0t_0t0​ 到时间 tKt_KtK​ 这段时间内接待顾客的人数,就是依赖于时间 ttt 的一组随机变量,即随机过程。

随机场:随机场更像是随机过程的推广。随机场不再局限于标量的概念,而是可以采用高维向量作为所依赖的随机变量。一个简单的例子,二维网格上的四个点 (0,0)(0,0)(0,0)、(0,2)(0,2)(0,2)、(2,0)(2,0)(2,0) 和 (2,2)(2,2)(2,2),对应随机变量 X1X_1X1​、X2X_2X2​、X3X_3X3​ 和 X4X_4X4​,每个随机变量取值的概率依赖于其相邻位置的取值。在理解上不妨认为随机场与随机过程为同义词。

2. 马尔可夫随机场

概率无向图模型(probabilistic undirected graphical model),又称为马尔可夫随机场(Markov Random Field,MRF)或马尔可夫网(Markov Network),是一组有马尔可夫性质的随机变量的联合概率分布模型。

无论是有向概率图模型还是无向概率图模型,都表示将⼀组变量上的联合概率分布分解为局部条件概率分布的乘积的⼀种分解⽅式。两类模型也都会定义一组条件独立性质,根据图进⾏分解的任何概率分布都必须满⾜这些条件独⽴性质。在这里,我们考虑使用无向图描述的概率图模型,即概率无向图模型,它表示一个分解方式,也表示一组条件独立关系。

马尔可夫随机场由一个无向图和定义于无向图上的势函数(poential functions)组成。图中的每个结点表示一个或一组随机变量,结点之间的边表示两个变量之间的依赖关系。势函数亦称“因子”(factor),是定义在变量子集上的非负实函数,主要用于定义概率分布函数。

2.1. 团与最大团

团与最大团的定义:无向图 GGG 中任何两个结点均有边连接的结点子集称为团(clique)。若 CCC 是无向图 GGG 的一个团,并且不能再加进任何一个 GGG 的结点使其成为一个更大的团,则称此 CCC 为最大团(maximal clique)。

通俗来说,对于图中结点的一个子集,若其中任意两结点间都有边连接,则称该结点子集为一个团。若在一个团中加入另外任何一个结点都不再形成团,则称该团为最大团;换言之,最大团就是不能被其他团所包含的团。例如,在图 111 中,{x1,x2}\{x_1, x_2\}{x1​,x2​},{x1,x3}\{x_1,x_3\}{x1​,x3​},{x2,x4}\{x_2, x_4\}{x2​,x4​},{x2,x5}\{x_2, x_5\}{x2​,x5​},{x2,x6}\{x_2, x_6\}{x2​,x6​}, {x3,x5}\{x_3, x_5\}{x3​,x5​},{x5,x6}\{x_5,x_6\}{x5​,x6​} 和 {x2,x5,x6}\{x_2, x_5, x_6\}{x2​,x5​,x6​} 都是团,并且除了 {x2,x5}\{x_2,x_5\}{x2​,x5​},{x2,x6}\{x_2,x_6\}{x2​,x6​} 和 {x5,x6}\{x_5,x_6\}{x5​,x6​} 之外都是最大团;但是,因为 x2x_2x2​ 和 x3x_3x3​ 之间缺乏连接,{x1,x2,x3}\{x_1,x_2,x_3\}{x1​,x2​,x3​} 并不构成团。显然,每个结点至少出现在一个最大团中。

图 1    一个简单的马尔可夫随机场

2.2. 联合概率函数

将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,称为概率无向图模型的因子分解(factorization)。

具体来说,对于 nnn 个变量 x={x1,x2,…,xn}{\rm x} = \{x_1, x_2,\dots, x_n\}x={x1​,x2​,…,xn​},所有最大团构成的集合为 C\mathcal CC,与最大团 C∈CC∈\mathcal CC∈C 对应的变量集合记为 xC{\rm x}^{C}xC,则联合概率 P(x)P({\rm x})P(x) 定义为
P(x)=1Z∏C∈CψC(xC)(1)P({\rm x}) = \frac{1}{Z} \prod_{C\in \mathcal C} \psi_C({\rm x}_C) \tag{1} P(x)=Z1​C∈C∏​ψC​(xC​)(1)
其中,ZZZ 是规范化因子(normalization factor) ,由式
Z=∑x∏C∈CψC(xC)=∑x1,…,xn∏C∈CψC(xC)(2)Z = \sum_{\rm x} \prod_{C\in \mathcal C} \psi_C({\rm x}_C) = \sum_{x_1,\dots,x_n} \prod_{C\in \mathcal C} \psi_C({\rm x}_C) \tag{2} Z=x∑​C∈C∏​ψC​(xC​)=x1​,…,xn​∑​C∈C∏​ψC​(xC​)(2)
给出。规范化因子保证 P(x)P(\rm x)P(x) 是一个概率分布。函数 ψC(xC)\psi_C({\rm x_C})ψC​(xC​) 为势函数,通常定义为指数函数:
ψC(xC)=exp⁡(−EC(xC))(3)\psi_C({\rm x}_C) = \exp(-E_C({\rm x}_C)) \tag{3} ψC​(xC​)=exp(−EC​(xC​))(3)
其中,EC(xC)E_C({\rm x}_C)EC​(xC​) 称为能量函数(energy function)。

对于图 111 的马尔可夫随机场,联合概率分布 P(x)P(\rm x)P(x) 定义为
P(x)=1Zψ12(x1,x2)ψ13(x1,x3)ψ24(x2,x4)ψ35(x3,x5)ψ256(x2,x5,x6)P({\rm x}) = \frac{1}{Z} \psi_{12}(x_1,x_2)\psi_{13}(x_1,x_3)\psi_{24}(x_2,x_4)\psi_{35}(x_3,x_5)\psi_{256}(x_2,x_5,x_6) P(x)=Z1​ψ12​(x1​,x2​)ψ13​(x1​,x3​)ψ24​(x2​,x4​)ψ35​(x3​,x5​)ψ256​(x2​,x5​,x6​)
关于马尔可夫随机场中的势函数,我们不把势函数的选择限制为具有具体概率含义(例如边缘概率分布或者条件概率分布)的函数。这与有向图的情形相反。在有向图的情形中,每个因⼦表示对应变量以它的父结点为条件的条件概率分布。当然,如果无向图是通过有向图去方向来构建的,那么势函数可能有具体意义。势函数的这一通用性导致它们的乘积无法直接表示概率分布,所以需要显式地引入规范化因子。

势函数 ψC(xC)\psi_C({\rm x}_C)ψC​(xC​) 的作用是定量刻画变量集合 xC{\rm x}_CxC​ 中变量之间的相关关系,它应该是非负函数,且在所偏好的变量取值上有较大函数值。例如,假定图 111 中的变量均为二值变量,若部分势函数为
ψ12(x1,x2)={1.5ifx1=x20.1otherwiseψ13(x1,x3)={0.2ifx1=x31.3otherwise\psi_{12}(x_1,x_2) = \left\{ \begin{matrix} 1.5 & {\rm if} \space x_1= x_2 \\ 0.1 & {\rm otherwise} \end{matrix} \right.\\ \psi_{13}(x_1,x_3) = \left\{ \begin{matrix} 0.2 & {\rm if} \space x_1= x_3 \\ 1.3 & {\rm otherwise} \end{matrix} \right. ψ12​(x1​,x2​)={1.50.1​if x1​=x2​otherwise​ψ13​(x1​,x3​)={0.21.3​if x1​=x3​otherwise​
则说明该模型偏好变量 x1x_1x1​ 与 x2x_2x2​ 拥有相同的取值,x1x_1x1​ 与 x3x_3x3​ 拥有不同的取值;换言之,在该模型中 x1x_1x1​ 与 x2x_2x2​ 正相关,x1x_1x1​ 与 x3x_3x3​ 负相关。结合式 (1)(1)(1) 可知,令 x1x_1x1​ 与 x2x_2x2​ 相同且 x1x_1x1​ 与 x3x_3x3​ 不同的变量值指派将取得较高的联合概率。

能量函数 EC(xC)E_C({\rm x}_C)EC​(xC​) 是一个定义在变量 xC{\rm x}_CxC​ 上的实值函数,常见形式为
EC(xC)=∑i,j∈C,i≠jαijxixj+∑i∈QβixiE_C({\rm x}_C) = \sum_{i,j\in C,i\ne j} \alpha_{ij}x_ix_j+\sum_{i\in Q} \beta_i x_i EC​(xC​)=i,j∈C,i=j∑​αij​xi​xj​+i∈Q∑​βi​xi​
其中 αij\alpha_{ij}αij​ 和 βi\beta_iβi​ 是参数。上式中第一项考虑每一对结点的关系,第二项仅考虑单节点。

联合概率分布被定义为势函数的乘积,因此总能量 E(x)E(\rm x)E(x) 可以通过将每个最大团的能量相加的方法得到:
E(x)=∑C∈CEC(xC)(4)E({\rm x}) = \sum_{C\in \mathcal C} E_C({\rm x}_C)\tag{4} E(x)=C∈C∑​EC​(xC​)(4)
用总能量 E(x)E(\rm x)E(x) 表示联合概率分布
P(x)=1Zexp⁡(−E(x))(5)P({\rm x}) = \frac{1}{Z}\exp(-E(\rm x))\tag{5} P(x)=Z1​exp(−E(x))(5)
另外,还需要注意一点,规范化因子的存在使得无向图模型出现了一个严重的缺点。假设模型中的 nnn 个离散结点,每个结点有 mmm 个状态,根据 ZZZ 的表达式可知,ZZZ 的计算需要枚举全部结点的全部状态,即涉及到 mnm^nmn 个状态求和,因此(在最坏的情况下),计算量是模型大小的指数形式。对于参数学习来说,规范化因子是不可忽略的,因为规范化因子包含全部的势函数参数。但是,对于局部条件概率分布的计算,规范化因子是忽略的,因为条件概率可以通过两个边缘概率的比值计算出来,分子和分母的规范化因子可以被抵消。对于计算局部边缘概率,如果只涉及少量的变量,那么规范化因子的计算是可行的,比如计算 P({x1,x2,x3})P(\{x_1,x_2,x_3\})P({x1​,x2​,x3​}),假设每个结点有 222 个状态,根据规范化因子表达式可知,计算量为 23=82^3=823=8,这个计算量是非常小的。

举个例子来说明马尔可夫随机场的应用以及实践中如何定义势函数(或能量函数)。

以二值图像去噪为例,令观测的噪声图像通过⼀个⼆值像素值 yi∈{−1,+1}y_i\in \{-1,+1\}yi​∈{−1,+1} 组成的数组来描述,其中下标 i=1,2,…,Di=1,2,\dots, Di=1,2,…,D 覆盖了所有像素。我们假设图像通过下⾯的⽅式获得:取⼀张未知的⽆噪声图像,这幅图像由⼆值像素值 xi∈{−1,+1}x_i\in \{-1,+1\}xi​∈{−1,+1} 描述,然后以⼀个较小的概率随机翻转像素值的符号,噪声图像中像素值发⽣符号翻转的概率为 10%10\%10%。给定带有噪声的图像,我们的目标是恢复原始的⽆噪声的图像。

由于噪声等级比较小,因此我们知道 xix_ixi​ 和 yiy_iyi​ 之间有着强烈的相关性。我们还知道图像中相邻像素 xix_ixi​ 和 xjx_jxj​ 的相关性很强。这种先验知识可以使用马尔科夫随机场模型进行描述,它的无向图如图 222 所示。

图 2    对应的无向图模型,灰色表示观测到的噪声图像中的像素,白色表示像素未知无噪声图像中的状态

图中的团数非常多,但是就两种类型,且均仅包含两个变量,这两类团分别为 {xi,yi}\{x_i,y_i\}{xi​,yi​} 和 {xi,xj}\{x_i,x_j\}{xi​,xj​},其中 iii 和 jjj 为相邻像素下标。对于第一类团 {xi,yi}\{x_i,y_i\}{xi​,yi​},我们为这些团定义相同能量函数 −αxiyi-\alpha x_iy_i−αxi​yi​ 来表达变量间的相关性,其中 α\alphaα 为正数。该能量函数的效果是:当 xix_ixi​ 和 yiy_iyi​ 符号相同时,能量函数会给出一个较低的能量值,对应的势函数值较高;而当 xix_ixi​ 和 yiy_iyi​ 符号相反时,能量函数会给出较高的能量值。另一类团 {xi,xj}\{x_i,x_j\}{xi​,xj​} 与第一类团一样,我们希望当两个像素符号相同时能量值较低,当两个像素符号相反时能量值较高,因此选择能量函数 −βxixj-\beta x_ix_j−βxi​xj​,其中 β\betaβ 为正数。另外,由于势函数是最大团上的一个任意的非负函数,所以我们可以将势函数与团的子集上的任意非负函数相乘,或者等价地,我们可以加上对应的能量。在这个例子中,这使得我们可以为无噪声图像的每个像素 iii 加上一个额外的项 γxi\gamma x_iγxi​,作用是使模型对于每个像素倾向于选择一个特定符号,而不选择另一个符号。于是,完整的总能量函数形式为
E(x,y)=γ∑ixi−α∑ixiyi−β∑{i,j}xixjE({\rm x},{\rm y}) = \gamma \sum_{i} x_i - \alpha \sum_{i} x_iy_i - \beta\sum_{\{i,j\}}x_ix_j E(x,y)=γi∑​xi​−αi∑​xi​yi​−β{i,j}∑​xi​xj​

【自然语言处理】条件随机场【Ⅰ】马尔可夫随机场相关推荐

  1. 马尔科夫链和马尔科夫随机场

    From:http://blog.csdn.net/j123kaishichufa/article/details/7638181 1.什么是随机过程? 在当代科学与社会的广阔天地里,人们都可以看到一 ...

  2. 马尔可夫网络,(马尔可夫随机场、无向图模型)(Markov Random Field)

    转载自: http://blog.sina.com.cn/s/blog_54d222750101dgz2.html 马尔可夫网络,(马尔可夫随机场.无向图模型)是关于一组有马尔可夫性质随机变量的全联合 ...

  3. 关于马尔科夫随机场MRF的思考

    转载自:http://www.cnblogs.com/yysblog/archive/2012/09/17/2689318.html Markov Random Fields(MRF)是undirec ...

  4. 马尔科夫随机场和马尔科夫链

    1.什么是随机过程? 在当代科学与社会的广阔天地里,人们都可以看到一种叫作随机过程的数学模型:从银河亮度的起伏到星系空间的物质分布.从分子的布朗运动到原子的蜕变过程,从化学反应动力学到电话通讯理论.从 ...

  5. 马尔可夫随机场(Markov Random Field)与马尔可夫链

    1.什么是随机过程? 在当代科学与社会的广阔天地里,人们都可以看到一种叫作随机过程的数学模型:从银河亮度的起伏到星系空间的物质分布.从分子的布朗运动到原子的蜕变过程,从化学反应动力学到电话通讯理论.从 ...

  6. 机器学习-白板推导-系列(九)笔记:概率图模型: 贝叶斯网络/马尔可夫随机场/推断/道德图/因子图

    文章目录 0 笔记说明 1 背景介绍 1.1 概率公式 1.2 概率图简介 1.2.1 表示 1.2.2 推断 1.2.3 学习 1.2.4 决策 1.3 图 2 贝叶斯网络 2.1 条件独立性 2. ...

  7. 概率图模型(PGM)/马尔可夫随机场(MRF)/条件随机场基本概念(CRF)

    概率图模型: 1:为什么引入图模型:一般的问题我们都可以用概率模型去很好的解决,那么为什么又要在概率的基础上加一个图呢?在这里我们引入图结构其实是因为图结构可以将概率模型的结构可视化,应用图这是一种直 ...

  8. 马尔科夫随机场的基本概念

    1.随机过程: 描写叙述某个空间上粒子的随机运动过程的一种方法. 它是一连串随机事件动态关系的定量描写叙述. 随机过程与其他数学分支,如微分方程.复变函数等有密切联系.是自然科学.project科学及 ...

  9. 从贝叶斯理论到马尔可夫随机场(MRF)--以图像分割为例

    从贝叶斯理论到马尔可夫随机场--以图像分割为例 马尔可夫随机场(CRF) 图像分割过程 Matlab代码实现 Python实现代码 参考文献 本文主要介绍马尔可夫随机场及其在图像分割中的应用.基于马尔 ...

最新文章

  1. linux虚拟机tomcat上部署web项目的常用命令
  2. HashMap 为什么会导致 CPU 100%?文章看不懂?来看这个视频吧!——面试突击 006 期...
  3. 不安装oracle使用exp命令
  4. bzoj 1664 (贪心)
  5. 美国散户从90%降到6%,他们是如何被“消灭”的?
  6. mysql左连接查询慢
  7. word打开文档很久很慢_word打开慢,详细教您怎么解决word打开慢
  8. 58同城自动登录。。分享给大家
  9. 是如何通过阿里面试的?
  10. 1375. 二进制字符串前缀一致的次数-前序遍历法
  11. 系统登录页面短信验证码方式登录实现
  12. 统计学习导论之R语言应用(三):线性回归R语言代码实战
  13. RuoYi-Vue——裁剪区域头像回显的跨域问题
  14. java8 时间类API
  15. 开发与测试常见问题总结与建议
  16. 普元EOS中, 子系统和portal不在同一个域中,使用jquery的jsonp来解决portal跨域访问
  17. matlab工具箱中英对照,MATLABa工具包中英对照
  18. hdu——4540威威猫系列故事——打地鼠
  19. Nat Methods|一个快速搜索工具能让所有人都能进行蛋白质结构预测
  20. 在ppt中加入python_python实现向ppt文件里插入新幻灯片页面的方法

热门文章

  1. FME进阶视频教程:第8节 正则表达式的简介及应用示范
  2. Python实现停车场管理系统
  3. Excel多人同时共享编辑同一个表格
  4. qt 错误:request for member 'show' in 'showlist_ui', which is of non-class type 'ShowList*'
  5. OC 基础 UIControl
  6. 好用的linux终端工具,推荐7款好用的终端工具
  7. 《麦肯锡方法》读书笔记14
  8. 网安基础学习之“文件上传漏洞原理与实现”
  9. 基于jsp+sevlet+mysql实现留言板
  10. 【java8新特性】兰姆达表达式-2