文章目录

  • 一、条件随机场相关基本概念
    • 1.1 条件随机场
    • 1.2 马尔科夫随机场
      • 1.2.1 马尔科夫
      • 1.2.2 随机场
    • 1.3 概率无向图模型
      • 1.3.1 图(graph)
      • 1.3.2 无向图
      • 1.3.3 概率图模型(probablilistic graphical model)
      • 1.3.4 概率无向图模型
    • 1.4 成对马尔科夫性、局部马尔科夫性、全局马尔科夫性
      • 1.4.1 成对马尔科夫性
      • 1.4.2 局部马尔科夫性
      • 1.4.3 全局马尔科夫性
    • 1.5 图模型的概率分布
      • 1.5.1 有向图模型的联合概率分布
      • 1.5.2 团与最大团
      • 1.5.3 无向图模型的联合概率分布
  • 二、条件随机场的定义与形式
    • 2.1 条件随机场的定义
    • 2.2 条件随机场的参数化形式
    • 2.3 条件随机场的简化形式
      • 2.3.1 统一表示特征函数和其权值
      • 2.3.2 内积形式
    • 2.4 条件随机场的矩阵形式
  • 三、条件随机场的概率计算问题
  • 四、条件随机场的学习算法
  • 五、条件随机场的预测算法
  • 六、HMM与线性链条件随机场的比较

条件随机场内容较多,方便阅读,分成2个部分
下接:11_条件随机场CRF2_统计学习方法

一、条件随机场相关基本概念

1.1 条件随机场

条件随机场(conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场

1.2 马尔科夫随机场

1.2.1 马尔科夫

一般指马尔科夫性,即成对马尔科夫性、局部马尔科夫性、全局马尔科夫性。下面在介绍概率无向图是详细说明马尔科夫性。

马尔科夫独立性假设:指的是一个随机变量序列按时间先后关系依次排开的时候,第N+1时刻的分布特性,只依赖于之前的k个时刻,这个过程被称为一个k阶的模型。最简单的马尔科夫链就是一阶过程,第N+1时刻的分布特性只与N时刻的取值有关。拿天气来打个比方。如果假定天气是一阶马尔可夫过程,其意思就是假设今天的天气仅仅与昨天的天气存在概率上的关联,而与前天及前天以前的天气没有关系。下面没有特别说明阶数都是指一阶马尔科夫过程。

1.2.2 随机场

随机场包含两个要素:位置(site),相空间(phase space)。当给每一个位置按照某种分布随机赋予相空间的一个值之后,其全体就叫做随机场

我们不妨拿种地来打个比方。“位置”好比是一亩亩农田; “相空间”好比是种的各种庄稼。我们可以给不同的地种上不同的庄稼,这就好比给随机场的每个“位置”,赋予相空间里不同的值。所以,俗气点说,随机场就是在哪块地里种什么庄稼的事情。

马尔科夫随机场,描述了具有某种特性(马尔可夫性)的集合

拿种地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其它地方的庄稼的种类无关,那么这些地里种的庄稼的集合,就是一个马尔可夫随机场。

1.3 概率无向图模型

按李航统计学习方法,概率无向图模型与马尔科夫随机场是同一个概念的两种名称。

1.3.1 图(graph)

图(graph)由结点(node)及连接结点的边(edge)组成的集合。结点和边分别记作vv\,v和ee\,e,结点和边的集合分别记作VV\,V和EE\,E,图记作G=(V,E)G=(V,E)G=(V,E)。

1.3.2 无向图

边没有方向的图。前面一节讲的隐马尔科夫模型就属于有方向的图模型。

1.3.3 概率图模型(probablilistic graphical model)

由图表示的概率分布。设有联合概率分布P(Y),Y∈YP(Y),Y\in \bf{Y}P(Y),Y∈Y是一组随机变量。

  • 无向图G=(V,E)G=(V,E)G=(V,E)表示概率分布P(Y)P(Y)P(Y);
  • 在图GGG中,结点v∈Vv\in Vv∈V表示一个随机变量Yv,Y=(Yv)v∈VY_v,Y = (Y_v)_{v\in V}Yv​,Y=(Yv​)v∈V​;
  • 边e∈Ee\in Ee∈E表示随机变量之间的概率依赖关系。

1.3.4 概率无向图模型

设有联合概率分布P(Y)P(Y)P(Y),由无向图G=(V,E)G = (V,E)G=(V,E)表示,在图GGG中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布P(Y)P(Y)P(Y)满足成对、局部或全局马尔科夫性,就称此联合概率分布为概率无向图模型或马尔科夫随机场。马尔科夫性是判断概率图是否为概率无向图的条件

1.4 成对马尔科夫性、局部马尔科夫性、全局马尔科夫性

1.4.1 成对马尔科夫性

图片来自博客。

设uu\,u和vv\,v是无向图GGG中任意两个没有边连接的结点,结点uu\,u和vv\,v分别对随机变量YuY_uYu​和YvY_vYv​。其他所有结点为OOO,对应的随机变量组是YOY_OYO​。成对马尔可夫性是指给定随机变量组YOY_OYO​的条件下随机变量YuY_uYu​和YvY_vYv​是条件独立的,即
P(Yu,Yv∣YO)=P(Yu∣YO)P(Yv∣YO)(1)P(Y_u,Y_v|Y_O) = P(Y_u|Y_O)P(Y_v|Y_O) \tag{1}P(Yu​,Yv​∣YO​)=P(Yu​∣YO​)P(Yv​∣YO​)(1)

1.4.2 局部马尔科夫性


设v∈Vv\in Vv∈V是无向图GGG中任意一个结点,W是与vv\,v有边连接的所有结点,OOO是v,Wv,Wv,W以外的其他所有节点。vv\,v表示的随机变量是Yv,WY_v,WYv​,W表示的随机变量组是Yw,OY_w,OYw​,O表示的随机变量组是YOY_OYO​。局部马尔可夫性是指在给定随机变量组YWY_WYW​的条件下随机变量YvY_vYv​与随机变量组YOY_OYO​是独立的,即
P(Yv,YO∣YW)=P(Yv∣YW)P(YO∣YW)(2)P(Y_v,Y_O|Y_W) = P(Y_v|Y_W)P(Y_O|Y_W) \tag{2}P(Yv​,YO​∣YW​)=P(Yv​∣YW​)P(YO​∣YW​)(2)
在P(YO∣YW)>0P(Y_O|Y_W) >0P(YO​∣YW​)>0时,等价地,
P(Yv∣YW)=P(Yv,YO∣YW)P(YO∣YW)=P(Yv∣YO,YW)(3)P(Y_v|Y_W) = \dfrac{P(Y_v,Y_O|Y_W)}{P(Y_O|Y_W)} = P(Y_v|Y_O,Y_W) \tag{3}P(Yv​∣YW​)=P(YO​∣YW​)P(Yv​,YO​∣YW​)​=P(Yv​∣YO​,YW​)(3)

1.4.3 全局马尔科夫性


设结点集合A,BA,BA,B是在无向图GGG中被结点集合CCC分开的任意结点集合,如上图所示。结点集合A,BA,BA,B和CCC所对应的随机变量组分别是YA,YBY_A,Y_BYA​,YB​和YCY_CYC​。全局马尔可夫性是指给定随机变量组YCY_CYC​条件下随机变量组YAY_AYA​和YBY_BYB​是条件独立的,即
P(YA,YB∣YC)=P(YA∣YC)P(YB∣YC)(4)P(Y_A,Y_B|Y_C) = P(Y_A|Y_C)P(Y_B|Y_C)\tag{4}P(YA​,YB​∣YC​)=P(YA​∣YC​)P(YB​∣YC​)(4)

上述成对的、局部的、全局的马尔科夫性定义是等价的。

通过上面的概念引入可以理解清楚条件随机场的定义了。实际上,我们更关心的是如何求序列的联合概率分布,对于线性链条件随机场来说就是求条件概率序列的联合概率分布。所以还得引入下面的几个概念。

1.5 图模型的概率分布

这部分内容主要来自NLP —— 图模型(二)条件随机场。

1.5.1 有向图模型的联合概率分布

考虑一个有向图Gd=(Vd,Ed)G^d = (V^d,E^d)Gd=(Vd,Ed),随机变量间的联合概率分布可以利用条件概率来表示为
P(v1d,v2d,⋯,vnd)=∏i=1NP(vid∣vπid)P(v_1^d,v_2^d,\cdots,v_n^d) = \prod_{i=1}^N P(v_i^d|v_{\pi i}^d) P(v1d​,v2d​,⋯,vnd​)=i=1∏N​P(vid​∣vπid​)

  • 其中vπidv_{\pi i}^dvπid​表示节点vidv_i^dvid​的父节点的集合。

1.5.2 团与最大团

无向图GGG中任何两个结点均有边连接的结点子集称为团(clique),若CCC是无向图GGG的一个团,并且不能再加进任何一个GGG的结点使其称为一个更大的团,则称此CCC为最大的团(max clique)。

下图表示由4个结点组成的无向图。图中由2个结点组成的团有5个:{Y1,Y2},{Y1,Y3},{Y2,Y3},{Y2,Y4},{Y3,Y4}\{Y_1,Y_2\},\{Y_1,Y_3\},\{Y_2,Y_3\},\{Y_2,Y_4\},\{Y_3,Y_4\}{Y1​,Y2​},{Y1​,Y3​},{Y2​,Y3​},{Y2​,Y4​},{Y3​,Y4​}。有2个最大团:{Y1,Y2,Y3},{Y2,Y3,Y4}\{Y_1,Y_2,Y_3\},\{Y_2,Y_3,Y_4\}{Y1​,Y2​,Y3​},{Y2​,Y3​,Y4​}。而{Y1,Y2,Y3,Y4}\{Y_1,Y_2,Y_3,Y_4\}{Y1​,Y2​,Y3​,Y4​}不是一个团,因为Y1Y_1Y1​和Y4Y_4Y4​没有边连接。

1.5.3 无向图模型的联合概率分布

不同于有向图模型,无向图模型的无向性很难确保每个节点在给定它的邻节点的条件下的条件概率和以图中其他节点为条件的条件概率一致,即不能保证式(3)P(Yv∣YW)=P(Yv∣YO,YW)P(Y_v|Y_W) = P(Y_v|Y_O,Y_W)P(Yv​∣YW​)=P(Yv​∣YO​,YW​)成立。由于这个原因,无向图模型的联合概率并不是用条件概率参数化表示的,而是定义为由一组条件独立的局部函数的乘积形式。因子分解就是说将无向图所描述的联合概率分布表达为若干个子联合概率的乘积,从而便于模型的学习和计算。

概率无向图模型的因子分解:将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作。

给定概率无向图模型,设其无向图为G,CG,CG,C为GGG上的最大团,YCY_CYC​表示CCC对应的随机变量。那么概率无向图模型的联合概率分布P(Y)P(Y)P(Y)可写作图中所有最大团CCC上的函数ΨC(YC)\Psi_C(Y_C)ΨC​(YC​)的乘积形式,即
P(Y)=1Z∏CΨC(YC)(5)P(Y) = \dfrac{1}{Z}\prod_{C}\Psi_C(Y_C) \tag{5}P(Y)=Z1​C∏​ΨC​(YC​)(5)
其中,ZZZ是规范化因子,由式
Z=∑Y∏CΨC(YC)(6)Z = \sum_Y \prod_C \Psi_C(Y_C) \tag{6}Z=Y∑​C∏​ΨC​(YC​)(6)
给出。规范化因子保证P(Y)P(Y)P(Y)构成一个概率分布。函数ΨC(YC)\Psi_C(Y_C)ΨC​(YC​)称为势函数(potential function)。这里要求势函数ΨC(YC)\Psi_C(Y_C)ΨC​(YC​)是严格正的,通常定义为指数函数:
ΨC(YC)=exp{−E(YC)}(7)\Psi_C(Y_C) = exp\{-E(Y_C)\} \tag{7}ΨC​(YC​)=exp{−E(YC​)}(7)
上面的因子分解过程就是 Hammersley-Clifford 定理。

经过上面概念的引入,可以理解条件随机场了。下面再引用一张图了解条件随机场具体处于什么位置。

图片来自博客。

二、条件随机场的定义与形式

条件随机场是给定随机变量XXX条件下,随机变量YYY的马尔科夫随机场。这里主要介绍定义在线性链上的特殊的条件随机场,称为线性链条件随机场,下文说的条件随机场都是指线性链条件随机场

2.1 条件随机场的定义

条件随机场:设XXX与YYY是随机变量,P(Y∣X)P(Y|X)P(Y∣X)是在给定XXX的条件下YYY的条件概率分布。若随机变量YYY构成一个由无向图G=(V,E)G=(V,E)G=(V,E)表示的马尔科夫随机场,即
P(Yv∣X,Yw,w≠v)=P(Yv∣X,Yw,w-v)(8)P(Y_v|X,Y_w,w\not= v) = P(Y_v|X,Y_w,w \text{-} v) \tag{8}P(Yv​∣X,Yw​,w​=v)=P(Yv​∣X,Yw​,w-v)(8)
对任意结点vvv成立,则称条件概率分布P(Y∣X)P(Y|X)P(Y∣X)为条件随机场。

  • w-vw \text{-} vw-v表示在图G=(V,E)G = (V,E)G=(V,E)中与结点vvv有边连接的所有结点www;
  • w≠vw\not=vw​=v表示结点vvv以外的所有结点,Yv,YuY_v,Y_uYv​,Yu​与YwY_wYw​为结点v,uv,uv,u与www对应的随机变量。

上述定义中并没有要求XXX和YYY具有相同的结构。现实中,一般假设XXX和YYY有相同的图结构。本节主要考虑无向图为如下图所示的线性链的情况,即
G=(V={1,2,⋯,n},E={(i,i+1}),i=1,2,⋯,n−1G = (V = \{1,2,\cdots,n\},E = \{(i,i+1\}),\,i=1,2,\cdots,n-1G=(V={1,2,⋯,n},E={(i,i+1}),i=1,2,⋯,n−1
在此情况下,X=(X1,X2,⋯,Xn),Y=(Y1,Y2,⋯,Yn)X = (X_1,X_2,\cdots,X_n),Y = (Y_1,Y_2,\cdots,Y_n)X=(X1​,X2​,⋯,Xn​),Y=(Y1​,Y2​,⋯,Yn​),最大团是相邻两个结点的集合。

线性条件随机场:设X=(X1,X2,⋯,Xn),Y=(Y1,Y2,⋯,Yn)X = (X_1,X_2,\cdots,X_n),Y = (Y_1,Y_2,\cdots,Y_n)X=(X1​,X2​,⋯,Xn​),Y=(Y1​,Y2​,⋯,Yn​)均为线性链表示的随机变量序列,若在给定随机变量序列XXX的条件下,随机变量序列YYY的条件概率分布P(Y∣X)P(Y|X)P(Y∣X)构成条件随机场,即满足马尔科夫性
P(Yi∣X,Y1,⋯,Yi−1,Yi+1,⋯,Yn)=P(Yi∣X,Yi−1,Yi+1),i=1,2,⋯,n(在i=1和n时只考虑单边)(9)P(Y_i|X,Y_1,\cdots,Y_{i-1},Y_{i+1},\cdots,Y_n) = P(Y_i|X,Y_{i-1},Y_{i+1}) ,\;i =1,2,\cdots,n(在i=1和n时只考虑单边) \tag{9}P(Yi​∣X,Y1​,⋯,Yi−1​,Yi+1​,⋯,Yn​)=P(Yi​∣X,Yi−1​,Yi+1​),i=1,2,⋯,n(在i=1和n时只考虑单边)(9)
则称P(Y∣X)P(Y|X)P(Y∣X)为线性链条件随机场。

在标注问题中,XXX表示输入观测序列,YYY表示对应的输出标记序列或状态序列。

2.2 条件随机场的参数化形式

线性链条件随机场的参数化形式 设P(Y∣X)P(Y|X)P(Y∣X)为线性链条件随机场,则在随机变量XXX取值为xx\,x的条件下,随机变量YYY取值为yy\,y的条件概率具有如下形式:
P(y∣x)=1Z(x)exp(∑i,kλktk(yi−1,yi,x,i)+∑i,lμlsl(yi,x,i))(10)P(y|x) = \dfrac{1}{Z(x)}exp\left( \sum_{i,k}\lambda_k t_k(y_{i-1},y_i,x,i) + \sum_{i,l}\mu_l s_l(y_i,x,i)\right) \tag{10}P(y∣x)=Z(x)1​exp⎝⎛​i,k∑​λk​tk​(yi−1​,yi​,x,i)+i,l∑​μl​sl​(yi​,x,i)⎠⎞​(10)
其中,
Z(x)=∑yexp(∑i,kλktk(yi−1,yi,x,i)+∑i,lμlsl(yi,x,i))(11)Z(x) = \sum_y exp\left( \sum_{i,k}\lambda_k t_k(y_{i-1},y_i,x,i) + \sum_{i,l}\mu_l s_l(y_i,x,i)\right) \tag{11}Z(x)=y∑​exp⎝⎛​i,k∑​λk​tk​(yi−1​,yi​,x,i)+i,l∑​μl​sl​(yi​,x,i)⎠⎞​(11)

  • tk和slt_k和s_ltk​和sl​是特征函数;
  • λk和μl\lambda_k和\mu_lλk​和μl​是特征函数tk和slt_k和s_ltk​和sl​对应的权值;
  • Z(x)Z(x)Z(x)是规范化因子;
  • 求和是在所有可能的输出序列上进行的。

式(10)和式(11)是线性链条件随机场模型的基本形式,表示给定输入序列xx\,x,对输出序列yy\,y预测的条件概率。

  • 式(10)和式(11)中tkt_ktk​是定义在边上的特征函数,称为转移特征,依赖于当前和前一个位置;
  • sls_lsl​是定义在结点上的特征函数,称为状态特征,依赖于当前位置。
  • tk和slt_k和s_ltk​和sl​都依赖于位置,是局部特征函数;
  • 通常,特征函数tk和slt_k和s_ltk​和sl​取值为1或者0;当满足特征条件时取值为1,否则为0;
  • 条件随机场完全由特征函数tk,slt_k,s_ltk​,sl​和对应的权值λk,μl\lambda_k,\mu_lλk​,μl​确定。

线性链条件随机场也是对数线性模型

2.3 条件随机场的简化形式

条件随机场式(10)中同一特征在各个位置都有定义,可以对同一个特征在各个位置求和,将局部特征函数转化为一个全局特征函数,这样就可以将条件随机场写成权值向量和特征向量的内积形式

2.3.1 统一表示特征函数和其权值

为了简便起见,首先将转移特征和状态特征及其权值用统一的符号表示。设有K1K_1K1​个转移特征,K2K_2K2​个状态特征,K=K1+K2K=K_1 + K_2K=K1​+K2​,记
fk(yi−1,yi,x,i)={tk(yi−1,yi,x,i),k=1,2,⋯,K1sl(yi,x,i),k=K1+l;l=1,2,⋯,K2(12)f_k(y_{i-1},y_i,x,i) = \begin{cases} t_k(y_{i-1},y_i,x,i), & k=1,2,\cdots,K_1 \\[2ex] s_l(y_i,x,i), & k=K_1 + l;l=1,2,\cdots,K_2 \tag{12} \end{cases} fk​(yi−1​,yi​,x,i)=⎩⎨⎧​tk​(yi−1​,yi​,x,i),sl​(yi​,x,i),​k=1,2,⋯,K1​k=K1​+l;l=1,2,⋯,K2​​(12)
然后,对转移与状态特征在各个位置ii\,i求和,记作
fk(y,x)=∑i=1nfk(yi−1,yi,x,i),k=1,2,⋯,K(13)f_k(y,x) = \sum_{i=1}^n f_k(y_{i-1},y_i,x,i),\,k=1,2,\cdots,K \tag{13}fk​(y,x)=i=1∑n​fk​(yi−1​,yi​,x,i),k=1,2,⋯,K(13)
用wkw_kwk​表示特征fk(y,x)f_k(y,x)fk​(y,x)的权值,即
wk={λk,k=1,2,⋯,K1μl,k=K1+l;l=1,2,⋯,K2(14)w_k = \begin{cases} \lambda_k, & k=1,2,\cdots,K_1 \\[2ex] \mu_l, & k=K_1 + l;l=1,2,\cdots,K_2 \tag{14} \end{cases} wk​=⎩⎨⎧​λk​,μl​,​k=1,2,⋯,K1​k=K1​+l;l=1,2,⋯,K2​​(14)
于是,条件随机场式(10)、(11)可表示为
P(y∣x)=1Z(x)exp(∑k=1Kwkfk(y,x))=1Z(x)exp(∑k=1Kwk∑i=1nfk(yi−1,yi,x,i))=1Z(x)∏iexp(∑k=1Kwkfk(yi−1,yi,x,i))(15)P(y|x) = \dfrac{1}{Z(x)}exp(\sum_{k=1}^K w_k f_k(y,x)) = \dfrac{1}{Z(x)}exp\left(\sum_{k=1}^K w_k \sum_{i=1}^n f_k(y_{i-1},y_i,x,i)\right) = \dfrac{1}{Z(x)}\prod_{i}exp\left(\sum_{k=1}^K w_k f_k(y_{i-1},y_i,x,i)\right) \tag{15}P(y∣x)=Z(x)1​exp(k=1∑K​wk​fk​(y,x))=Z(x)1​exp(k=1∑K​wk​i=1∑n​fk​(yi−1​,yi​,x,i))=Z(x)1​i∏​exp(k=1∑K​wk​fk​(yi−1​,yi​,x,i))(15)

Z(x)=∑yexp(∑k=1Kwkfk(y,x))=∑yexp(∑k=1Kwk∑i=1nfk(yi−1,yi,x,i))=∑y∏iexp(∑k=1Kwkfk(yi−1,yi,x,i))(16)Z(x) = \sum_y exp(\sum_{k=1}^K w_k f_k(y,x)) = \sum_y exp\left(\sum_{k=1}^K w_k \sum_{i=1}^n f_k(y_{i-1},y_i,x,i)\right)= \sum_y \prod_{i}exp\left(\sum_{k=1}^K w_k f_k(y_{i-1},y_i,x,i)\right) \tag{16}Z(x)=y∑​exp(k=1∑K​wk​fk​(y,x))=y∑​exp(k=1∑K​wk​i=1∑n​fk​(yi−1​,yi​,x,i))=y∑​i∏​exp(k=1∑K​wk​fk​(yi−1​,yi​,x,i))(16)
如前面图中两种类型的线性链条件随机场,每一对(yi−1,yi)(y_{i-1},y_i)(yi−1​,yi​)即为模型中的最大团,xx\,x为条件,所以有线性链条件随机场的因子分解如式(15)、(16)。此时势函数ΨC(YC)=exp(∑k=1Kwkfk(yi−1,yi,x,i))\Psi_C(Y_C) = exp\left(\sum_{k=1}^K w_k f_k(y_{i-1},y_i,x,i)\right) ΨC​(YC​)=exp(k=1∑K​wk​fk​(yi−1​,yi​,x,i))

2.3.2 内积形式

若以www表示权值向量,即
w=(w1,w2,⋯,wK)T(17)w = (w_1,w_2,\cdots,w_K)^T \tag{17}w=(w1​,w2​,⋯,wK​)T(17)
以F(y,x)F(y,x)F(y,x)表示全局特征向量,即
F(y,x)=(f1(y,x),f2(y,x),⋯,fK(y,x))T(18)F(y,x) = (f_1(y,x),f_2(y,x),\cdots,f_K(y,x))^T \tag{18}F(y,x)=(f1​(y,x),f2​(y,x),⋯,fK​(y,x))T(18)
则条件随机场可以写成向量www与F(y,x)F(y,x)F(y,x)的内积的形式:
Pw(y∣x)=exp(w⋅F(y,x))Zw(x)(19)P_w(y|x) = \dfrac{exp(w\cdot F(y,x))}{Z_w(x)} \tag{19}Pw​(y∣x)=Zw​(x)exp(w⋅F(y,x))​(19)
其中,
Zw(x)=∑yexp(w⋅F(y,x))(20)Z_w(x) = \sum_{y} exp(w\cdot F(y,x)) \tag{20}Zw​(x)=y∑​exp(w⋅F(y,x))(20)

2.4 条件随机场的矩阵形式

条件随机场还可以由矩阵表示。假设Pw(y∣x)P_w(y|x)Pw​(y∣x)是由式(15)、(16)给出的线性链条件随机场,表示对给定观测序列xx\,x,相应的标记序列yy\,y的条件概率。引进特殊的起点和终点状态标记y0=start,yn+1=stopy_0 = start,y_{n+1} = stopy0​=start,yn+1​=stop,这时Pw(y∣x)P_w(y|x)Pw​(y∣x)可以通过矩阵形式表示。

对观测序列xx\,x的每一个位置i=1,2,⋯,n+1i=1,2,\cdots,n+1i=1,2,⋯,n+1,定义一个mm\,m阶矩阵(mm\,m是标记yiy_iyi​取值的个数)
Mi(x)=[Mi(yi−1,yi∣x)]m×m(21)M_i(x) = \left[M_i(y_{i-1},y_i|x) \right]_{m\times m} \tag{21}Mi​(x)=[Mi​(yi−1​,yi​∣x)]m×m​(21)
Mi(yi−1,yi∣x)=exp(∑k=1Kwkfk(yi−1,yi,x,i))(22)M_i(y_{i-1},y_i|x) = exp\left(\sum_{k=1}^K w_k f_k(y_{i-1},y_i,x,i)\right) \tag{22}Mi​(yi−1​,yi​∣x)=exp(k=1∑K​wk​fk​(yi−1​,yi​,x,i))(22)
上式书中求和是i=1i=1i=1应该是写错了,应该为k=1k=1k=1。这样,给定观测序列xx\,x,标记序列yy\,y的非规范化概率可以通过n+1n+1n+1个矩阵的乘积∏i+1n+1Mi(yi−1,yi∣x)\prod_{i+1}^{n+1}M_i(y_{i-1},y_i|x)∏i+1n+1​Mi​(yi−1​,yi​∣x)表示,于是,条件概率Pw(y∣x)P_w(y|x)Pw​(y∣x)是
Pw(y∣x)=1Zw(x)∏i+1n+1Mi(yi−1,yi∣x)(23)P_w(y|x) = \dfrac{1}{Z_w(x)}\prod_{i+1}^{n+1}M_i(y_{i-1},y_i|x) \tag{23}Pw​(y∣x)=Zw​(x)1​i+1∏n+1​Mi​(yi−1​,yi​∣x)(23)
注意上式与式(15)的对比,也就是加了一层马甲Mi(yi−1,yi∣x)M_i(y_{i-1},y_i|x)Mi​(yi−1​,yi​∣x)。其中,Zw(x)Z_w(x)Zw​(x)为规范化因子,是n+1n+1n+1个矩阵的乘积的(start,stop)元素:
Zw(x)=∑y∏i=1n+1Mi(yi−1,yi∣x)=(M1(x)M2(x)⋯Mn+1(x))start,stop(24)Z_w(x) = \sum_y \prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x) = \left(M_1(x)M_2(x)\cdots M_{n+1}(x)\right)_{start,stop}\tag{24}Zw​(x)=y∑​i=1∏n+1​Mi​(yi−1​,yi​∣x)=(M1​(x)M2​(x)⋯Mn+1​(x))start,stop​(24)

  • y0=start与yn+1=stopy_0 = start 与y_{n+1} = stopy0​=start与yn+1​=stop表示开始状态与终止状态
  • 规范化因子Zw(x)Z_w(x)Zw​(x)是以start为起点stop为终点通过状态的所有路径y1y2⋯yny_1y_2\cdots y_ny1​y2​⋯yn​的非规范化概率∏i=1n+1Mi(yi−1,yi∣x)\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)∏i=1n+1​Mi​(yi−1​,yi​∣x)之和;
  • 规范化里面∑y\sum_{y}∑y​从式(21)可以看出其意义,如果每一步标记yiy_iyi​取值的个数为mm\,m,有nn\,n步,那么所有可能的yy\,y序列有mnm^nmn种情况,∑y\sum_{y}∑y​即对这mnm^nmn种情况求和,采用矩阵形式如式(23)、(24)可以加快计算速度

下面借用统计学习方法里面一个实例形象说明下矩阵形式计算的便捷性。


了解完条件随机场,也有了条件随机场的各种形式,要应用条件随机场解决问题时会遇到与HMM一样的三个问题:

  • 概率计算问题:给定参数,计算隐藏位置出现的概率,如P(Yi=yi∣x),P(Yi−1=yi−1,Yi=yi∣x)P(Y_i=y_i|x),P(Y_{i-1}=y_{i-1},Y_i=y_i|x)P(Yi​=yi​∣x),P(Yi−1​=yi−1​,Yi​=yi​∣x)等为后面做准备;
  • 学习问题:极大化训练数据的对数函数lnP(y∣x)lnP(y|x)lnP(y∣x),求满足lnP(y∣x)lnP(y|x)lnP(y∣x)的参数;
  • 预测问题:不用说肯定是输出最大的隐藏序列(标注序列)。

三、条件随机场的概率计算问题

四、条件随机场的学习算法

五、条件随机场的预测算法

六、HMM与线性链条件随机场的比较

参考资料:

  • 李航 统计学习方法
  • NLP —— 图模型(二)条件随机场
  • 随机场(Random field)
  • 条件随机场的简单理解
  • 条件随机场(Conditional random field)
  • 如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别?

11_条件随机场CRF1_统计学习方法相关推荐

  1. 11_条件随机场CRF2_统计学习方法

    文章目录 三.条件随机场的概率计算问题 3.1 前向-后向算法 3.1.1 前向向量 3.1.2 后向向量 3.2 一些概率与期望值的计算 3.2.1 单个状态概率 3.2.2 两个状态的联合概率 3 ...

  2. 条件随机场(CRF) - 4 - 学习方法和预测算法(维特比算法)

    声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了 ...

  3. 复现经典:《统计学习方法》​第 11 章 条件随机场

    本文是李航老师的<统计学习方法>[1]一书的代码复现. 作者:黄海广[2] 备注:代码都可以在github[3]中下载. 我将陆续将代码发布在公众号"机器学习初学者", ...

  4. 机器学习理论《统计学习方法》学习笔记:第十一章 条件随机场(CRF)

    第十一章 条件随机场(CRF) 摘要 1 概率无向图模型 1.1 概率无向图模型定义 1.2 概率无向图模型的因子分解 1.3 D-划分 1.4 马尔可夫随机场在图像中的应用 2 条件随机场的定义与形 ...

  5. 小白学习:李航《统计学习方法》第二版第11章 条件随机场

    小白学习:李航<统计学习方法>第二版第11章 条件随机场 小白学习:李航<统计学习方法>第二版第11章 条件随机场(一)----马尔科夫随机场 马尔科夫随机场(Markov r ...

  6. 《统计学习方法》啃书辅助:第11章 条件随机场

    11.1 概率无向图模型 [补充解释]成对马尔可夫性可以概括为:概率无向图模型中,任意两个没有边连接的结点是相互独立的. [补充解释]局部马尔可夫性可以概括为:概率无向图模型中,任意两个没有边直接相连 ...

  7. 《统计学习方法》读书笔记——第十一章 条件随机场

    写在前面 本系列博客是自己对于<统计学习方法>这本书的读书笔记,在读过每个章节以后根据自己的理解写下这一章的知识框架以及补充一些延伸知识点. 目录 写在前面 本章框架 概率无向图模型(马尔 ...

  8. 《统计学习方法》代码全解析——第十一部分条件随机场

    1.概率无向图模型是由无向图表示的联合概率分布.无向图上的结点之间的连接关系表示了联合分布的随机变量集合之间的条件独立性,即马尔可夫性.因此,概率无向图模型也称为马尔可夫随机场. 概率无向图模型或马尔 ...

  9. 【机器学习】【条件随机场CRF-3】条件随机场的参数化形式详解 + 画出对应的状态路径图 + 给出对应的矩阵表示...

    1.条件随机场概念 CRF,Conditional Random Field,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模式,其特点是假设输出随机变量构成马尔可夫随机场. 条件随机场 ...

最新文章

  1. mongodb报错:E QUERY [thread1] SyntaxError: missing ; before statement @(shell):1:4
  2. Spring Security 匿名认证
  3. 图片懒加载原理-实例二
  4. package ‘catkin‘ depends on non-existent package ‘python3-catkin-pkg‘
  5. MyBaits动态sql语句
  6. Office 2007无法卸载也无法安装的解决
  7. 181205每日一句
  8. MD5加密解密工具类
  9. linux如何从 命令行 将普通文件打印到 pdf
  10. vulhub-靶场实战-安装
  11. Python学习笔记—— 面向对象5.异常
  12. 一个野生程序员的真实自述:我是如何从数学专业学渣入坑程序员的
  13. python打开qq并登录_python爬虫入门之qq登陆初探
  14. 前端开发找实习宝贵经验总结
  15. IceSword 1.12
  16. C/C++ 如何构造出强悍的宏
  17. java购物车设计_Java简单购物车设计
  18. 三、python调用打印机,打印文字
  19. 计算机基础——无处不网络(2)
  20. Spring系列 官方文档(中文翻译)

热门文章

  1. 【Django】ImportError: cannot import name 'execute_manager'
  2. windows上安装使用mySql
  3. NET分页实现及代码
  4. HDOJ---1267 下沙的沙子2[DP或卡特兰数]
  5. CSS 轮廓(outline)
  6. android 后退按钮,如何在android中处理Search View的后退按钮
  7. linux故障转移集群,部署AlwaysOn第一步:搭建Windows服务器故障转移集群
  8. python分享文件_使用简单的python http服务共享文件
  9. 显示2位小数 python3_自动化常用语言python,版本3和2有何变化?
  10. 微擎写Android接口json,【微擎教程】getLocation需要在app.json中声明permission字段