深入理解机器学习——概率图模型(Probabilistic Graphical Model):条件随机场(Conditional Random Field,CRF)
分类目录:《深入理解机器学习》总目录
条件随机场(Conditional Random Field,CRF)是一种判别式无向图模型,在《概率图模型(Probabilistic Graphical Model):隐马尔可夫模型(Hidden Markov Model,HMM)》中提到过,生成式模型是直接对联合分布进行建模,而判别式模型则是对条件分布进行建模,《概率图模型(Probabilistic Graphical Model):隐马尔可夫模型(Hidden Markov Model,HMM)》和《概率图模型(Probabilistic Graphical Model):马尔可夫随机场(Markov Random Field,MRF)》介绍的隐马尔可夫模型和马尔可夫随机场都是生成式模型,而条件随机场则是判别式模型。
条件随机场试图对多个变量在给定观测值后的条件概率进行建模。具体来说,若令x={x1,x2,⋯,xn}x=\{x_1, x_2, \cdots, x_n\}x={x1,x2,⋯,xn}为观测序列,y={y1,y2,⋯,yn}y=\{y_1, y_2, \cdots, y_n\}y={y1,y2,⋯,yn}为与之相应的标记序列,则条件随机场的目标是构建条件概率模型P(y∣x)P(y|x)P(y∣x)。需注意的是,标记变量yyy可以是结构型变量,即其分量之间具有某种相关性。例如在自然语言处理的词性标注任务中,观测数据为语句(即单词序列),标记为相应的词性序列,具有线性序列结构,如下左图所示;在语法分析任务中,输出标记则是语法树,具有树形结构,如下右图所示。
令G=(V,E)G=(V, E)G=(V,E)表示结点与标记变量yyy中元素一一对应的无向图,yvy_vyv表示与结点vvv对应的标记变量,n(v)n(v)n(v)表示结点的邻接结点,若图GGG的每个变量yvy_vyv功都满足马尔可夫性,即:
P(yv∣x,yv\{v})=P(yv∣x,yn(v))P(y_v|x,y_{v\backslash\{v\}})=P(y_v|x, y_{n(v)})P(yv∣x,yv\{v})=P(yv∣x,yn(v))
则(y,x)(y, x)(y,x)构成一个条件随机场。
理论上来说,图GGG可具有任意结构,只要能表示标记变量之间的条件独立性关系即可。但在现实应用中,尤其是对标记序列建模时,最常用的仍是下图所示的链式结构,即“链式条件随机场”(Chain-structured CRF)。下面我们主要讨论这种条件随机场。
与马尔可夫随机场定义联合概率的方式类似,条件随机场使用势函数和图结构上的团来定义条件概率P(y∣x)P(y|x)P(y∣x)。给定观测序列xxx,上图所示的链式条件随机场主要包含两种关于标记变量的团,即单个标记变量{yi}\{y_i\}{yi}以及相邻的标记变量{yi−1,yi}\{y_{i-1}, y_i\}{yi−1,yi}。选择合适的势函数,即可得到条件概率定义,在条件随机场中,通过选用指数势函数并引入特征函数(Feature Function),条件概率被定义为:
P(y∣x)=1Zexp(∑j∑i=1n−1λjtj(yi+1,yi,x,i)+∑k∑i=1nμksk(yi,x,i))P(y|x)=\frac{1}{Z}\exp(\sum_j\sum_{i=1}^{n-1}\lambda_jt_j(y_{i+1}, y_i, x, i)+\sum_k\sum_{i=1}^{n}\mu_ks_k(y_i, x, i))P(y∣x)=Z1exp(j∑i=1∑n−1λjtj(yi+1,yi,x,i)+k∑i=1∑nμksk(yi,x,i))
其中tj(yi+1,yi,x,i)t_j(y_{i+1}, y_i, x, i)tj(yi+1,yi,x,i)是定义在观测序列的两个相邻标记位置上的转移特征函数(Transition Feature Function),用于刻画相邻标记变量之间的相关关系以及观测序列对它们的影响,sk(yi,x,i)s_k(y_i, x, i)sk(yi,x,i)是定义在观测序列的标记位置上的状态特征函数(Status Feature Function),用于刻画观测序列对标记变量的影响,λj\lambda_jλj和μk\mu_kμk为参数,ZZZ为规范化因子,用于确保上式是正确定义的概率。
显然,要使用条件随机场,还需定义合适的特征函数。特征函数通常是实值函数,以刻画数据的一些很可能成立或期望成立的经验特性,以词性标注任务为例,若采用转移特征函数:
tj(yi+1,yi,x,i)={1,if yi+1=[P],yi=[V],xi="learning"0,otherwiset_j(y_{i+1}, y_i, x, i)=\left\{ \begin{aligned} 1 &,\text{if} \ y_{i+1}=[P], y_i=[V], x_i=\text{"learning"}\\ 0 &,\text{otherwise} \end{aligned} \right. tj(yi+1,yi,x,i)={10,if yi+1=[P],yi=[V],xi="learning",otherwise
则表示第iii个观测值xxx为单词“learning”时,相应的标记yiy_iyi和yi+1y_{i+1}yi+1很可能分别为VVV和PPP。若采用状态特征函数:
sk(yi,x,i)={1,if yi=[V],xi="learning"0,otherwises_k(y_i, x, i)=\left\{ \begin{aligned} 1 &,\text{if} \ y_i=[V], x_i=\text{"learning"}\\ 0 &,\text{otherwise} \end{aligned} \right. sk(yi,x,i)={10,if yi=[V],xi="learning",otherwise
则表示观测值xix_ixi为单词learning时,它所对应的标记很可能为VVV。
对比上面两个特征函数可以看出,条件随机场和马尔可夫随机场均使用团上的势函数定义概率,两者在形式上没有显著区别;但条件随机场处理的是条件概率,而马尔可夫随机场处理的是联合概率。
参考文献:
[1] 周志华. 机器学习[M]. 清华大学出版社, 2016.
深入理解机器学习——概率图模型(Probabilistic Graphical Model):条件随机场(Conditional Random Field,CRF)相关推荐
- 深入理解机器学习——概率图模型(Probabilistic Graphical Model):马尔可夫随机场(Markov Random Field,MRF)
分类目录:<深入理解机器学习>总目录 马尔可夫随机场(Markov Random Field,MRF)是典型的马尔可夫网,这是一种著名的无向图模型,图中每个结点表示一个或一组变量,结点之间 ...
- Probabilistic Graphical Model (PGM) 概率图模型框架详解
往期文章链接目录 文章目录 往期文章链接目录 Probabilistic Graphical Model (PGM) Why we need probabilistic graphical model ...
- 【李宏毅机器学习】05:概率生成模型Probabilistic Generative Model
李宏毅机器学习05:概率生成模型 Probabilistic Generative Model 文章目录 李宏毅机器学习05:概率生成模型 Probabilistic Generative Model ...
- R语言caret包构建机器学习回归模型(regression model)、使用DALEX包进行模型解释分析、特征重要度、偏依赖分析等
R语言caret包构建机器学习回归模型(regression model).使用DALEX包进行模型解释分析.特征重要度.偏依赖分析等 目录
- 机器学习——概率图模型
机器学习--概率图模型 有向图-贝叶斯网络 无向图-马尔科夫网络(马尔科夫随机场) 两种图的转换-道德图 更精细的分解-因子图 推断 推断-变量消除(VE) 推断-信念传播(BP) 推断-Max-Pr ...
- 概率图模型家族(HMM、MaxEnt、MEMM和CRF)
目录 概率图(Probabilistic Graphical) 有向概率图 无向概率图 隐马尔科夫模型(HMM) 最大熵模型(MaxEnt)
- 机器学习 —— 概率图模型(学习:CRF与MRF)
在概率图模型中,有一类很重要的模型称为条件随机场.这种模型广泛的应用于标签-样本(特征)对应问题.与MRF不同,CRF计算的是"条件概率".故其表达式与MRF在分母上是不一样的. ...
- 机器学习 —— 概率图模型(Homework: CRF Learning)
概率图模型的作业越往后变得越来越有趣了.当然,难度也是指数级别的上涨啊,以至于我用了两个周末才完成秋名山神秘车牌的寻找,啊不,CRF模型的训练. 条件随机场是一种强大的PGM,其可以对各种特征进行建模 ...
- 【ML】【GM】【转】图模型(graphical model, GM)的表示
转自:http://blog.csdn.net/xianlingmao/article/details/5774435 图模型(graphical model)是一类用图来表示概率分布的一类技术的总称 ...
最新文章
- 软件开发人员的“七重苦”(2)
- matlab 图像语义分割,笔记︱图像语义分割(FCN、CRF、MRF)、论文延伸(Pixel Objectness、)...
- linux 安装swoole
- windows qt 使用openssl API
- linux版Nacos安装、集群配置
- JLink的JTag和SWD模式引脚定义
- bili弹幕姬_bilibili弹幕姬怎么用 - 卡饭网
- 用python判断素数_python判断素数
- js之好看的鼠标点击-光标特效
- MATLAB立体椭球,matlab拟合三维椭球
- (爆笑)国产电视剧的电脑高手
- CSS中如何实现背景图片透明并且固定和文字不透明效果
- 2017-09-27 ~ 2017-10-02 稻城亚丁旅行笔记
- latex 论文致谢
- 计算机机房管理员需要学什么,机房管理员工作内容
- 宽带运行商服务器,家用宽带200兆,300兆,500兆与1000兆有什么区别吗?
- Logisticregression学习
- 网络营销推广效果在于流量精准度!你做到了吗?
- java中a= b_Java中a+=b和a=a+b的区别
- P94-好玩游戏的物品清单升级-列表到字典的函数