https://blog.csdn.net/shijing_0214/article/details/51169048

1、概率模型
机器学习中的很多模型可以根据概率分布形式分为生成模型和判别模型,其中生成模型以输入输出的联合分布P(X,Y)为基础建模,如朴素贝叶斯、隐马尔可夫模型;判别模型以条件概率分布P(Y|X)为基础建模,如最大熵模型、条件随机场等。这几个模型之间有一定的关系,它们的关系如下:

其中,NB表示朴素贝叶斯,ME表示最大熵,HMM表示隐马尔科夫,CRF表示条件随机场。joint联合分布,conditional条件分布。single class输出单一类别,sequence输出序列。例如,朴素贝叶斯将输出y扩展成序列(y 1 ,y 2 ,...,y n ) (y1,y2,...,yn) ,就可以以此为基础构造HMM;在满足输入条件下的HMM可以扩展成CRF。

这里面,朴素贝叶斯假设最强 ,因为它要求所有输入特征之间条件独立,如P(y|x 1 ,x 2 ,...,x n )=∏ i=1 n P(y|x i ) P(y|x1,x2,...,xn)=∏i=1nP(y|xi) ;这是一种为计算方便而做的近似假设,然而现实中基本不会有模型符合输入特征间的独立,因此以朴素贝叶斯建模一般会有精度损失。
隐马尔科夫模型进了一步,它考虑一定的变量相关性,如马尔科夫假设状态序列中,当前状态只与其前一个状态有关,如:

P(X,Y)=∏ i=0 n P(y i |y i−1 P(x i |y i ) P(X,Y)=∏i=0nP(yi|yi−1P(xi|yi)

但是HMM只考虑了状态之间的邻接关系,没有考虑观测序列间的关系,条件随机场刚好弥补了这个缺陷。所以条件随机场是一个相对比较完善的模型,但代价是计算复杂性的提高。

2、概率图模型
上面讲到的概率模型可以用图的形式表示出来,称为概率图模型。概率图模型用图中结点表示随机变量,结点之间的边表示变量间的概率相关关系。

在概率图中,两结点没有边相连,说明两节点是条件独立的,比如P(a,b|c)=P(a|c)⋅P(b|c) P(a,b|c)=P(a|c)⋅P(b|c) 。在概率图中,结点间全连接是不包含任何概率分布信息的,所以我们更关注的是哪些边是缺失的,这些缺失的边表示边连接的结点条件独立。

下图中的两个图是概率图的两种表示形式,一个是独立图,一个是因子图。通过条件独立的条件,可以将一个复杂的概率分布分解成简单的概率分布乘积,如下图中(a),联合概率分布P(x 1 ,x 2 ,y)=P(x 1 )⋅P(x 2 )⋅P(y|x 1 ,x 2 ) P(x1,x2,y)=P(x1)⋅P(x2)⋅P(y|x1,x2) 。
若定义因子,也称势函数Ψ s  Ψs 为概率分布的分解因子,对任意概率图G=(V,E),有:

p(V)=∏ s Ψ s (V s ) p(V)=∏sΨs(Vs)

其中,s表示随机变量构成的集合,V s  Vs 表示该集合中包含的变量。
则可以将P(x 1 ,x 2 ,y) P(x1,x2,y) 写成P(x 1 ,x 2 ,y)=Ψ 1 ⋅Ψ 2 ⋅Ψ 3  P(x1,x2,y)=Ψ1⋅Ψ2⋅Ψ3 ,这里的Ψ i  Ψi 分别与独立图中的概率对应。

概率图模型可大致分为两类:一类是有向图模型,表示变量间的依赖关系,也称为贝叶斯网;一类是无向图模型,表示变量间的相关关系,也称为马尔科夫网或马尔科夫随机场。
2.1 有向图模型
在有向图中,边表示了变量之间的一种依赖关系。联合分布概率可以写作是所有变量在在父节点条件下的概率乘积:

P(V)=∏ i=1 K P(v k |v n k ) P(V)=∏i=1KP(vk|vkn)

如下图所示的隐马尔可夫有向图,联合概率可以写作:

P(x 1 ,x 2 ,x 3 ,y 1 ,y 2 ,y 3 )=Ψ 1 (y 1 )⋅Ψ 2 (x 1 ,y 1 )⋅Ψ 3 (x 2 ,y 2 )⋅Ψ 4 (x 3 ,y 3 )⋅Ψ 5 (y 1 ,y 2 )⋅Ψ 6 (y 2 ,y 3 ) P(x1,x2,x3,y1,y2,y3)=Ψ1(y1)⋅Ψ2(x1,y1)⋅Ψ3(x2,y2)⋅Ψ4(x3,y3)⋅Ψ5(y1,y2)⋅Ψ6(y2,y3)

2.2 无向图模型
在无向图模型中,有个团和最大团的概念,表示了变量之间的关系。团的意思是一些随机变量结点构成的子集中,两两结点都有边相连,如下图中(1,2)、(1,2,5)等;最大团表示结点构成的团中再添加任何一个新结点后都不会构成团,如(1,4,5)。在一些线性链结构的无向图,如线性链条件随机场中,最大团只考虑(y j−1 ,y j ,x yj−1,yj,x )。

像有向图的分解一样,无向图也可以分解,无向图是基于最大团进行分解,如下:

P(V)=1Z ∏ C∈C Ψ C (V C ) P(V)=1Z∏C∈CΨC(VC)

其中每个最大团对应一个势函数Ψ C  ΨC 。是不是跟最大熵模型的形式很相似?因为最大熵模型也是一个无向图模型。像在最大熵模型中一样,Z是一个归一化因子,如下:

Z=∑ V ∏ C∈C Ψ C (V C ) Z=∑V∏C∈CΨC(VC)

一般,势函数要求严格非负,所以在使用中会选择指数函数作为势函数。如下图的一个最大熵模型,可以写作:

P(y|x)=1Z λ (xe λ 1 f 1  ⋅e λ 2 f 2  ⋅e λ 3 f 3   P(y|x)=1Zλ(x)eλ1f1⋅eλ2f2⋅eλ3f3


有向图与无向图的一个主要区别在于概率分布的分解不同,在概率有向图中,分解因子是条件概率分布;在无向图中,分解因子可以是任意函数,无向图不需要说明变量间是如何关联的,而是将在一个团中的变量作为一个整体来看。
**3、条件随机场**
在前面,我们说可以把隐马尔科夫模型看作是对贝叶斯模型的序列化;类似地,我们可以把条件随机场看作是对最大熵模型的序列化。条件随机场并不要求线性序列,即它可以是任意结构的,通常我们使用较多的是线性链随机场,它可以看作是有条件的HMM(即加入了观测序列x的条件)。
条件随机场属于判别模型,即它要求出在观测序列x的条件下得到可能输出序列y的概率P(y|x) P(y|x) 。
由上面的无向图分解公式

P(V)=1Z ∏ C∈C Ψ C (V C ) P(V)=1Z∏C∈CΨC(VC)

条件概率P(y|x) P(y|x) 可以写作:

p(y|x)=p(x,y)p(x)  p(y|x)=p(x,y)p(x)
=p(x,y)∑ y  ′   p(y  ′  ,x)  =p(x,y)∑y′p(y′,x)
=1Z ∏ C∈C Ψ C (x C ,y C )1Z ∑ y  ′   ∏ C∈C Ψ C (x C ,y C )  =1Z∏C∈CΨC(xC,yC)1Z∑y′∏C∈CΨC(xC,yC)
=1Z(x) ∏ C∈C Ψ C (x C ,y C ) =1Z(x)∏C∈CΨC(xC,yC)

其中,

Z(x)=∑ y  ′   ∏ C∈C Ψ C (x C ,y C ) Z(x)=∑y′∏C∈CΨC(xC,yC)

下面介绍一下常用的线性链条件随机场,
线性链CRFs是条件随机场中的一种特殊结构,与隐马尔科夫一样,输出形成一个线性序列,如下图:

根据上面的公式,其条件概率可以写作,

p(y|x)=1Z(x) ∏ j=1 n Ψ j (x,y) p(y|x)=1Z(x)∏j=1nΨj(x,y)

其中,n+1表示输出状态序列长度,n为势函数个数。
由图可知,状态y j  yj 与输入x x 和y j−1  yj−1 有关,特征函数可以写作:

f(y j−1 ,y j ,x,j) f(yj−1,yj,x,j)

势函数:

Ψ j (x,y)=exp(∑ i=1 m λ i f i (y j−1 ,y j ,x,j)) Ψj(x,y)=exp(∑i=1mλifi(yj−1,yj,x,j))

进而,线性链CRFs的条件概率分布可以写作,

p λ (y|x)=1Z λ (xexp(∑ n j=1 ∑ i=1 m λ i f i (y j−1 ,y j ,x,j)) pλ(y|x)=1Zλ(x)exp(∑j=1n∑i=1mλifi(yj−1,yj,x,j))

其中,Z λ (x) Zλ(x) 是归一化因子,

Z λ (x)=∑ y∈Y exp(∑ n j=1 ∑ i=1 m λ i f i (y j−1 ,y j ,x,j))

概率模型与条件随机场相关推荐

  1. 「NLP」用于序列标注问题的条件随机场

    https://www.toutiao.com/a6714045004102238734/ 上一篇介绍了隐马尔科夫模型,隐马尔科夫模型引入了马尔科夫假设,即当前时刻的状态只与其前一时刻的状态有关.但是 ...

  2. 马尔科夫、最大熵、条件随机场

    https://www.toutiao.com/a6687531170395062792/ 马尔科夫模型 对于某个系统包含了n个有限状态,某个状态随着时刻推移而转移到另一个状态.如果t时刻状态与前面m ...

  3. 【NLP】用于序列标注问题的条件随机场(Conditional Random Field, CRF)

    上一篇介绍了隐马尔科夫模型,隐马尔科夫模型引入了马尔科夫假设,即当前时刻的状态只与其前一时刻的状态有关.但是,在序列标注任务中,当前时刻的状态,应该同该时刻的前后的状态均相关.于是,在很多序列标注任务 ...

  4. 条件随机场(CRF)和隐马尔科夫模型(HMM)最大区别在哪里?CRF的全局最优体现在哪里?

    作者:尔总的马甲 链接:https://www.zhihu.com/question/53458773/answer/554436625 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商 ...

  5. 经典算法复现!(条件随机场)CRF原理及实现代码

    Datawhale 作者:丁媛媛,Datawhale优秀学习者 寄语:本文先对马尔可夫过程及隐马尔可夫算法进行了简单的介绍:然后,对条件随机场的定义及其三种形式进行了详细推导:最后,介绍了条件随机场的 ...

  6. 简明条件随机场CRF介绍 | 附带纯Keras实现

    作者丨苏剑林 单位丨广州火焰信息科技有限公司 研究方向丨NLP,神经网络 个人主页丨kexue.fm 笔者去年曾写过文章<果壳中的条件随机场(CRF In A Nutshell)>[1], ...

  7. 机器学习理论《统计学习方法》学习笔记:第十一章 条件随机场(CRF)

    第十一章 条件随机场(CRF) 摘要 1 概率无向图模型 1.1 概率无向图模型定义 1.2 概率无向图模型的因子分解 1.3 D-划分 1.4 马尔可夫随机场在图像中的应用 2 条件随机场的定义与形 ...

  8. 全连接条件随机场_CRF条件随机场

    概念   条件随机场(Conditional Random Fields, 以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,在自然语言处理中得到了广泛应用. 引入   假设我 ...

  9. 概率图模型(PGM)/马尔可夫随机场(MRF)/条件随机场基本概念(CRF)

    概率图模型: 1:为什么引入图模型:一般的问题我们都可以用概率模型去很好的解决,那么为什么又要在概率的基础上加一个图呢?在这里我们引入图结构其实是因为图结构可以将概率模型的结构可视化,应用图这是一种直 ...

最新文章

  1. notepad如何新建php,notepad新手怎么使用教程
  2. android 设置控件的透明度
  3. ALV Checkbox 单行灰显
  4. 一个女程序员的第七年工作总结
  5. 生产上oracle扩展表空间,oracle基于裸设备(raw device)扩充表空间
  6. linux重新开始学习
  7. 【leetcode】复写零
  8. vmware10中开启Intel VT-x
  9. 三菱M70M700数控系统简明调试手册 PLC编程手册 设定手册
  10. 计算机上键盘无法输入法,电脑中输入法设置窗口提示检测到不兼容的键盘驱动的解决方法...
  11. 计算机专业英语第六版考试试卷,计算机专业英语试题及答案(A卷)
  12. FS2120双节锂电池保护 IC
  13. PHP 面试总结(持续更新) --小丑
  14. Conway’s Game of Life介绍及实现
  15. Gitlab 设置页面语言为简体中文
  16. opacity和rgba()的区别
  17. 高清会议录播系统是什么,跟普通会议录播系统有什么区别?
  18. [TPAMI-2023] Towards Improved and Interpretable Deep Metric Learning via Attentive Grouping
  19. osg+shader光照半透明
  20. List 去重的 6 种方法

热门文章

  1. Yann LeCun:发现智能原理是AI的终极问题 | 独家对话
  2. 《预训练周刊》第27期:谷歌发布最新看图说话模型、GitHub:平台上30%的新代码受益于AI助手Copilot...
  3. Sebastian Ruder 发文:Benchmark 的挑战与机遇!
  4. 《预训练周刊》第7期:傅立叶图像变换器解析、阿里达摩院发布最大中文预训练语言模型PLUG
  5. 不焦虑、不内卷能拿图灵奖吗?来自智源研究院的灵魂拷问
  6. 实现一个队列,使得push_rear(), pop_front() 和get_min()的时间复杂度为O(1)
  7. CVPR 2021 顶会冠军图像分割算法全解密
  8. 研究学者、医师与产业投资者齐聚一堂,将碰撞出何种火花?
  9. ICLR 2022论文列表公布,接收率高达32%
  10. 医学与人工智能交叉融合,打开眼科理疗新窗