第十一章 条件随机场(CRF)

  • 摘要
  • 1 概率无向图模型
    • 1.1 概率无向图模型定义
    • 1.2 概率无向图模型的因子分解
    • 1.3 D-划分
    • 1.4 马尔可夫随机场在图像中的应用
  • 2 条件随机场的定义与形式
    • 2.1 条件随机场的定义
    • 2.2 条件随机场的参数化形式
    • 2.3 条件随机场的简化形式
    • 2.4 条件随机场的矩阵形式
  • 3 条件随机场的概率计算问题
    • 前向-后向算法
  • 总结
  • 参考文献

摘要

  • 条件随机场(CRF)是给定一组输入随机变量条件下,另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。
  • 条件随机场可以用于不同的预测问题,本文仅讨论在标注问题的应用。主要讲述线性链(Linear Chain)条件随机场,此时问题为由输入序列对输出序列预测的判别模型,形成对数线性模型,其学习方法通常是极大似然估计或正则化的极大似然估计。

1 概率无向图模型

概率无向图模型(Probabilistic Undirected Graphical Model),又称马尔可夫随机场(Markov Random Field)是一个可以由无向图表示的联合概率分布。

1.1 概率无向图模型定义

  • 图(Graph)是由结点(Node)及连接结点的边(Edge)组成的集合。结点和边的集合分别记作V和E,图记作G=(V,E)G=(V,E)G=(V,E).
  • 概率图模型是由图表示的概率分布。设有联合概率分布P(Y)P(Y)P(Y),无向图G=(V,E)G=(V,E)G=(V,E)表示概率分布P(Y)P(Y)P(Y),即在图G中,结点v∈Vv\in Vv∈V表示一个随机变量YvY_vYv​;边e∈Ee\in Ee∈E表示随机变量之间的概率依赖关系。
  • 给定一个联合概率分布P(Y)P(Y)P(Y)和表示它的无向图GGG。首先定义无向图表示的随机变量之间存在的成对马尔可夫性、局部马尔可夫性、全局马尔可夫性。

(1)成对马尔可夫性:设uuu和vvv是无向图GGG中任意两个没有边连接的结点,结点uuu和vvv分别对应随机变量YuY_uYu​和YvY_vYv​,其他所有结点为OOO对应的随机变量为YOY_OYO​。成对马尔可夫性是指给定随机变量组YOY_OYO​的条件下,随机变量YuY_uYu​和YvY_vYv​是条件独立的,即
P(Yu,Yv∣YO)=P(Yu∣YO)P(Yv∣YO)P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)P(Y_v|Y_O)P(Yu​,Yv​∣YO​)=P(Yu​∣YO​)P(Yv​∣YO​)

(2)局部马尔可夫性:设v∈Vv\in Vv∈V是无向图GGG中任意一个结点,WWW是与vvv有边连接的所有结点,OOO是vvv和WWW以外的其他所有结点。局部马尔可夫性是指在给定随机变量组YWY_WYW​的条件下,随机变量YvY_vYv​与随机变量组YOY_OYO​是独立的,即
P(Yv,YO∣YW)=P(Yv∣YW)P(YO∣YW)P(Y_v,Y_O|Y_W)=P(Y_v|Y_W)P(Y_O|Y_W)P(Yv​,YO​∣YW​)=P(Yv​∣YW​)P(YO​∣YW​)
在P(YO∣YW)>0P(Y_O|Y_W)>0P(YO​∣YW​)>0时,等价地,
P(Yv∣YW)=P(Yv∣YW,YO)P(Y_v|Y_W)=P(Y_v|Y_W,Y_O)P(Yv​∣YW​)=P(Yv​∣YW​,YO​)


(3)全局马尔可夫性:设结点集合A,B是在无向图G中被结点集合C分开的任意结点集合。全局马尔可夫性是指给定随机变量组YCY_CYC​条件下,随机变量组YAY_AYA​和YBY_BYB​是条件独立的。
P(YA,YB∣YC)=P(YA∣YC)P(YB∣YC)P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_C)P(YA​,YB​∣YC​)=P(YA​∣YC​)P(YB​∣YC​)

概率无向图模型
设有联合概率分布P(Y)P(Y)P(Y),由无向图G=(V,E)G=(V,E)G=(V,E)表示,在图GGG中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布P(Y)P(Y)P(Y)满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型,或马尔可夫随机场。

1.2 概率无向图模型的因子分解

团与最大团
无向图GGG中任何两个结点均有边连接的结点子集称为团(clique)若C是无向图G的一个团,并且不能再加进任何一个G的结点使其成为一个更大的团,则称此C为最大团。


由两个结点组成的团有5个:{y1,y2},{y1,y3},{y2,y3},{y2,y4},{y3,y4}\{y_1, y_2\},\{y_1, y_3\},\{y_2, y_3\},\{y_2, y_4\},\{y_3, y_4\}{y1​,y2​},{y1​,y3​},{y2​,y3​},{y2​,y4​},{y3​,y4​};
由三个结点组成的团有2个(最大团):{y1,y2,y3},{y4,y2,y3}\{y_1,y_2,y_3\},\{y_4,y_2,y_3\}{y1​,y2​,y3​},{y4​,y2​,y3​}
{y1,y2,y3,y4}\{y_1,y_2,y_3,y_4\}{y1​,y2​,y3​,y4​}不是一个团,因为y1y_1y1​和y4y_4y4​没有边连接。

将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,成为概率无向图的因子分解。

给定概率无向图模型,设其无向图为G,C为G上的最大团,YCY_CYC​表示C对应的随机变量。那么概率无向图模型的概率分布P(Y)P(Y)P(Y)可写作图中所有最大团C上的函数,即:
P(Y)=1Z∏CΨC(YC)P(Y)={1\over Z}\prod_C \Psi_C(Y_C)P(Y)=Z1​C∏​ΨC​(YC​)
其中,Z是规范化因子(Normalization Factor),由式
Z=∑Y∏CΨC(YC)Z=\sum_Y\prod_C\Psi_C(Y_C)Z=Y∑​C∏​ΨC​(YC​)
给出。
规范化因子保证P(Y)构成一个概率分布。函数ΨC(YC)\Psi_C(Y_C)ΨC​(YC​)称为势函数(potential function)这里要求势函数是严格正的,通常定义为指数函数。
ΨC(YC)=exp{−E(YC)}\Psi_C(Y_C)=exp\{-E(Y_C)\}ΨC​(YC​)=exp{−E(YC​)}
概率无向图模型的因子分解的因子分解由下面定理来保证。

Hammersley-Clifford定理
概率无向图模型的联合概率分布YCY_CYC​可以表示为如下形式:
P(Y)=1Z∏CΨC(YC)P(Y)={1\over Z}\prod_C \Psi_C(Y_C)P(Y)=Z1​C∏​ΨC​(YC​)
Z=∑Y∏CΨC(YC)Z=\sum_Y\prod_C\Psi_C(Y_C)Z=Y∑​C∏​ΨC​(YC​)
其中,C是无向图的最大团,YCY_CYC​是C的结点对应的随机变量,ΨC(YC)\Psi_C(Y_C)ΨC​(YC​)是C上定义的严格正函数,乘积是在无向图所有的最大团上进行的。

1.3 D-划分

在模式识别中,使用概率模型时,条件独立性起着重要的作用。条件独立性简化了模型的结构,降低了模型的训练和推断的计算量。在有向图中,判断一个图是否条件独立的方法是D-划分。

在一个有向图中,A,B,C是任意无交集的结点集合。从A中任意结点到B中任意结点的所有可能的路径,如果存在以下两种情况,则表示A到B的路径被阻断:

  • 路径上的箭头以头到尾或者尾到尾的方式交汇于这个结点,且这个结点在集合C中。
  • 箭头以头到头的方式交汇于这个结点,且这个结点和它的所有后继都不在集合C中。

如果所有的路径都被“阻隔”,那么我们说C把A从B中d-划分开,且图中所有变量上的联合概率分布将会满足A ⊥B | C(其中⊥表示独立,式子表达为在给定C的条件下是否满足A独立于B)。


我们定义以下这个箭头“→”为“tail→head”,以上图为例,因为结点与两个箭头的尾部相连,所以该图为“tail-tail”也就是概念中的尾到尾的方式,这样的⼀个连接,结点A和结点B的路径的存在使得结点相互依赖。然而,当我们以结点C为条件时,被用作条件的结点“阻隔”了从A到B的路径,使得A和B变得(条件)独⽴了。根据D-划分的概念,若C被观测,则路径被堵塞。也就是说,A ⊥B | C,给定条件C的情况下,A和B条件独立。D划分的概念并不是通过假定或猜想得到的,它得出是有理论依据的,主要依据贝叶斯网络和因子分解进行计算,具体的推导呢,在这里就不再多赘述。

1.4 马尔可夫随机场在图像中的应用

在实际图像应用中,马尔科夫随机场应用十分广泛,在图像降噪、图像分割、纹理合成等领域都有涉及。下面我们举一个图像分割的栗子,来说明图像分割中MRF的应用。

图像其实就是一个典型的马尔科夫随机场,因为在图像中每个像素点和周围的点都有或多或少的联系,和距离远的点没有关系,与周围像素点的关系最大。正如下图所示,该图中的每个像素对应一个结点,每个结点之间存在关联。当我们进行图像分割时,我们只需要知道每个像素点的分类标签,当然就可以很好地对图片进行分割了。从聚类角度讲,就是一个图像聚类问题,把具有相同性质的像素点设置为一类。也就是一个标签分类问题,比如把一副图像分割成4类,那么每一个像素点必定属于这四类中的某一类,假设四类为1,2,3,4类,L=4,那么分割就是给每个像素点找一个标签类。


根据贝叶斯公式P(Y∣X)=P(X∣Y)P(Y)P(X)P(Y|X)={{P(X|Y)P(Y)}\over{P(X)}}P(Y∣X)=P(X)P(X∣Y)P(Y)​.
假设待分割图像是S,其大小是m×nm\times nm×n,图像中的像素点为p∈Sp \in Sp∈S,W为分割的结果,假设图像分为四类:W1,W2,W3,W4W_1,W_2,W_3,W_4W1​,W2​,W3​,W4​,可以得出:
P(W∣S)=P(S∣W)P(W)P(S)P(W|S)={{P(S|W)P(W)}\over{P(S)}}P(W∣S)=P(S)P(S∣W)P(W)​
其中P(W)P(W)P(W)为先验概率,P(S∣W)P(S|W)P(S∣W)为条件概率,P(S∣W)P(S|W)P(S∣W)为给定WWW条件下得到SSS的概率,W为观察值,S就是隐马尔可夫随机场中包含的概率转移链。

同时P(S∣W)P(S|W)P(S∣W)是P(W∣S)P(W|S)P(W∣S)的似然函数,似然函数用来描述已知随机变量输出结果时,未知参数的可能取值。例如,对于一枚正反对称的硬币上抛10次这样的事件,我们可以问硬币落地时十次都是正面向上的概率是多少;而对于一枚硬币上抛10次,落地都是正面向上这样的事件,我们可以问,这枚硬币正反面对称的似然程度是多少?我们的任务是求P(W∣S)P(W|S)P(W∣S),根据输入图像得到分类信息,而P(S∣W)P(S|W)P(S∣W)则是知道了分类信息去求这个分类信息表示的像素点的概率,表示我们分好类的各个像素点和真实的像素点分布是否匹配的关系。

P(S)P(S)P(S)是我们输入图像的分布,是一个确定的值,不需要再进行计算和求解。问题就转化为

  • P(S∣W)P(S|W)P(S∣W)是我们要求P(W∣S)P(W|S)P(W∣S)的似然函数。
  • P(W)P(W)P(W)是这个模型的先验概率。
    通过计算以上两点来计算我们所要求的P(W∣S)P(W|S)P(W∣S)

首先,我们给每个像素点设定类别标签,然后求每个像素点是标签L的概率,初始标签是可以随机给定的,也可以使用聚类算法进行预处理,那么如何体现马尔可夫随机场呢?

马尔可夫随机场告诉我们像素之间的关联性,也就是说究竟这个像素跟周围那些像素相关,关联度为多少?我们可以根据像素点之间的领域分类情况得出该像素点是否需要更新。但在实际计算中往往只是计算这个像素点周围标记信息的次数来判断这个像素点属于哪个分类标记,通过Hammersley-cilfford定理我们可以看出,吉布斯分布和马尔可夫随机场是等价的,也就是说可以用求图像Gibbons随机场的概率P代替P(W)P(W)P(W)。吉布斯分布的公式如下:
P(W)=z−1exp(−1TU2(W))P(W)=z^{-1}exp(-{1\over T}U_2(W))P(W)=z−1exp(−T1​U2​(W))

所以只要吉布斯分布的能量函数确定了,那么马尔可夫随机场也就确定了。所以P(W)P(W)P(W)可以通过吉布斯分布的势能函数去计算。而求P(S∣W)P(S|W)P(S∣W)即利用标记信息去估计这个像素点的值,假设某个类的标记分类中的像素点分布满足高斯分布,就可以根据某一像素点的值判断它在哪个分类中。

P(S∣W)P(S|W)P(S∣W)就是已知分类标签,那么它的像素值(灰度)是S的概率,现在就假设W=1,某个像素点灰度为S,表示的意思就是在第一类里面像素灰度为S的概率。因为分类标签在前面说到,每次迭代的时候有一个分类标签,可以把属于第一类的所有点都挑出来,考虑每个点都是独立的,并且认为每一类里面的所有点服从高斯分布,那么在每一类里面可以根据这一类里面的这些点建立一个属于这一类的高斯密度函数。


为此可以得到每一个点的P(s∣W1),P(s∣W2),P(s∣W3),P(s∣W4)P(s|W_1),P(s|W_2),P(s|W_3),P(s|W_4)P(s∣W1​),P(s∣W2​),P(s∣W3​),P(s∣W4​)分布,通过计算每一个点属于4类的概率,得到最大似然函数,然后通过乘以P(W)P(W)P(W)得到的概率越大,所属的类别的可能性越高。这样就完成了以此迭代,所有的点属于的类别更新一遍,在这个新的类标签下进行下一次迭代。

2 条件随机场的定义与形式

2.1 条件随机场的定义

条件随机场是给定随机变量X条件下,随机变量Y的马尔可夫随机场。本文主要介绍定义在线性链上的特殊的条件随机场,称为线性链条件随机场。线性条件随机场可以用于标注等问题。在条件概率模型P(Y∣X)P(Y|X)P(Y∣X)中,Y是输出变量,表示标记序列,X是输入变量,表示需要标注的观测序列,也把标记序列称为状态序列。

条件随机场
设XXX与YYY是随机变量,P(Y∣X)P(Y|X)P(Y∣X)是在给定X的条件下Y的条件概率分布。若随机变量Y构成一个由无向图G=(V,E)G=(V,E)G=(V,E)表示的马尔可夫随机场,即
P(Yv∣X,Yw,w≠v)=P(Yv∣X,Yw,w∼v)P(Y_v|X,Y_w,w\neq v)=P(Y_v|X,Y_w,w \sim v)P(Yv​∣X,Yw​,w​=v)=P(Yv​∣X,Yw​,w∼v)
对任意结点v成立,则称条件概率分布P(Y∣X)P(Y|X)P(Y∣X)为条件随机场。式中w∼vw \sim vw∼v表示在图G=(V,E)G=(V,E)G=(V,E)中与结点v有边连接的所有结点w,w≠vw \neq vw​=v表示结点v以外的所有结点,Yv,Yu,YwY_v,Y_u,Y_wYv​,Yu​,Yw​为结点v,u,wv,u,wv,u,w对应的随机变量。

在定义中,并没有要求X和Y具有相同的结构。现实中,一般假设X和Y有相同的图结构。

线性链条件随机场

X=(X1,X2,⋯,Xn),Y=(Y1,Y2,⋯,Yn)X=(X_1,X_2,\cdots,X_n),Y=(Y_1,Y_2,\cdots,Y_n)X=(X1​,X2​,⋯,Xn​),Y=(Y1​,Y2​,⋯,Yn​)
均为线性链表示的随机变量序列,若在给定随机变量序列X的条件下,随机变量序列Y的条件概率分布P(Y∣X)P(Y|X)P(Y∣X)构成条件随机场,即满足马尔可夫性:
P(Yi∣X,Y1,⋯,Yi−1,Yi+1,⋯,Yn)=P(Yi∣X,Yi−1,Yi+1)P(Y_i|X,Y_1,\cdots,Y_{i-1},Y_{i+1},\cdots,Y_{n})=P(Y_i|X,Y_{i-1},Y_{i+1})P(Yi​∣X,Y1​,⋯,Yi−1​,Yi+1​,⋯,Yn​)=P(Yi​∣X,Yi−1​,Yi+1​)
i=1,2,⋯,n(在i=1和n时只考虑单边)i=1,2,\cdots,n(在i=1和n时只考虑单边)i=1,2,⋯,n(在i=1和n时只考虑单边)
则称P(Y∣X)P(Y|X)P(Y∣X)为线性链条件随机场。在标注问题中,X表示输入观测序列,Y表示对应的输出标记序列或状态序列。

2.2 条件随机场的参数化形式

线性链条件随机场的参数化形式
设P(Y∣X)P(Y|X)P(Y∣X)为线性链条件随机场,则在随机变量X取值为x的条件下,随机变量Y取值为y的概率的条件概率具有如下形式:
P(y∣x)=1Z(x)exp(∑i,kλktk(yi−1,yi,x,i)+∑i,lμlsl(yi,x,i))P(y|x)={1\over{Z(x)}}exp(\sum_{i,k}\lambda_k t_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_l s_l(y_i,x,i))P(y∣x)=Z(x)1​exp(i,k∑​λk​tk​(yi−1​,yi​,x,i)+i,l∑​μl​sl​(yi​,x,i))
Z(x)=∑yexp(∑i,kλktk(yi−1,yi,x,i)+∑i,lμlsl(yi,x,i))Z(x)=\sum_yexp(\sum_{i,k}\lambda_k t_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_l s_l(y_i,x,i))Z(x)=y∑​exp(i,k∑​λk​tk​(yi−1​,yi​,x,i)+i,l∑​μl​sl​(yi​,x,i))
式子中,tkt_ktk​和sls_lsl​是特征函数,λk\lambda_kλk​和μl\mu_lμl​是对应的权值,Z(x)Z(x)Z(x)是规范化因子,求和是在所有可能的输出序列上进行的。

2.3 条件随机场的简化形式

条件随机场式中同一特征在各个位置都有定义,可以对同一特征在各个位置求和,将局部特征函数转化为一个全局特征函数,这样就可以将条件随机场写成权值向量和特征向量的内积形式,即条件随机场的简化形式。

若以www表示权值向量,即w=(w1,w2,⋯,wk)Tw=(w_1,w_2,\cdots,w_k)^Tw=(w1​,w2​,⋯,wk​)T
以F(y,x)F(y,x)F(y,x)表示全局特征向量,即F(y,x)=(f1(y,x),f2(y,x),⋯,fK(y,x))TF(y,x)=(f_1(y,x),f_2(y,x),\cdots,f_K(y,x))^TF(y,x)=(f1​(y,x),f2​(y,x),⋯,fK​(y,x))T
则条件随机场可以写成向量www与F(y,x)F(y,x)F(y,x)内积的形式:Pw(y∣x)=exp(w⋅F(y,x))Zw(x)P_w(y|x)={{exp(w\cdot F(y,x))}\over{Z_w(x)}}Pw​(y∣x)=Zw​(x)exp(w⋅F(y,x))​
其中,Zw(x)=∑yexp(w⋅F(y,x))Z_w(x)=\sum_yexp(w\cdot F(y,x))Zw​(x)=y∑​exp(w⋅F(y,x))

2.4 条件随机场的矩阵形式

3 条件随机场的概率计算问题

条件随机场的概率计算问题是给定条件随机场P(Y∣X)P(Y|X)P(Y∣X),输入序列x和输出序列y,计算条件概率P(Yi=yi∣x),P(Yi−1=yi−1,Yi=yi∣x)P(Y_i=y_i|x),P(Y_{i-1}=y_{i-1},Y_i=y_i|x)P(Yi​=yi​∣x),P(Yi−1​=yi−1​,Yi​=yi​∣x)以及相应的数学期望的问题。为了方便起见,像隐马尔可夫模型那样,引入前向-后向向量,递归地计算以上概率及期望值。这样的算法称为前向-后向算法。

前向-后向算法

对每个指标i=0,1,⋯,n+1i=0,1,\cdots,n+1i=0,1,⋯,n+1,定义前向向量αi(x)\alpha_i(x)αi​(x)
α0(y∣x)={1,y=start0,otherwise\alpha_0(y|x)= \begin{cases} 1,& y=start\\ 0,& otherwise \end{cases} α0​(y∣x)={1,0,​y=startotherwise​
递推公式为αiT(x)=αi−1T(x)Mi(x)\alpha_i^T(x)=\alpha_{i-1}^T(x)M_i(x)αiT​(x)=αi−1T​(x)Mi​(x)

αi(yi∣x)\alpha_i(y_i|x)αi​(yi​∣x)表示在位置i的标记是yiy_iyi​并且从1到i的前部分标记序列的非规范化概率,yiy_iyi​可取的值有m个,所以αi(x)\alpha_i(x)αi​(x)是m维列向量。

对每个指标i=0,1,⋯,n+1i=0,1,\cdots,n+1i=0,1,⋯,n+1,定义前向向量βi(x)\beta_i(x)βi​(x)
βn+1(yn+1∣x)={1,yn+1=stop0,otherwise\beta_{n+1}(y_{n+1}|x)= \begin{cases} 1,& y_{n+1}=stop\\ 0,& otherwise \end{cases} βn+1​(yn+1​∣x)={1,0,​yn+1​=stopotherwise​
递推公式为βi(x)=Mi+1(x)βi+1(x)\beta_i(x)=M_{i+1}(x)\beta_{i+1}(x)βi​(x)=Mi+1​(x)βi+1​(x)

βi(yi∣x)\beta_i(y_i|x)βi​(yi​∣x)表示在位置i的标记是yiy_iyi​,并且从i+1到n的后部分标记序列的非规范化概率。

总结

  • 概率无向图模型是由无向图表示的联合概率分布。无向图上的结点之间的连接关系表示了联合分布的随机变量集合之间的条件独立性,即马尔可夫性。因此,概率无向图模型也称为马尔可夫随机场。概率无向图模型或马尔可夫随机场的联合概率分布,可以分解为无向图最大团上的正值函数的乘积的形式。
  • 条件随机场是给定输入随机变量X条件下,输出随机变量Y的条件概率分布模型,其形式为参数化的对数线性模型。条件随机场的最大特点是假设输出变量之间的联合概率分布构成概率无向图模型,即马尔可夫随机场。条件随机场是判别模型。
  • 线性链条件随机场是定义在观测序列与标记序列上的条件随机场。线性链条件随机场一般表示为给定观测序列条件下的标记序列的条件概率分布,由参数化的对数线性模型表示。模型包含特征及相应的权值,特征是定义在线性链的边与结点上的。线性链条件随机场模型的参数形式是最基本的形式,其他形式是其简化与变形,参数形式的数学表达式是
    P(y∣x)=1Z(x)exp(∑i,kλktk(yi−1,yi,x,i)+∑i,lulsl(yi,x,i))P(y|x)={1\over Z(x)}exp(\sum_{i,k}\lambda_k t_k(y_i-1,y_i,x,i)+\sum_{i,l}u_l s_l(y_i,x,i))P(y∣x)=Z(x)1​exp(i,k∑​λk​tk​(yi​−1,yi​,x,i)+i,l∑​ul​sl​(yi​,x,i))
    其中,
    Z(x)=∑yexp(∑i,kλktk(yi−1,yi,x,i)+∑i,lulsl(yi,x,i))Z(x)=\sum_y exp(\sum_{i,k}\lambda_k t_k(y_{i-1},y_i,x,i)+\sum_{i,l}u_l s_l(y_i,x,i))Z(x)=y∑​exp(i,k∑​λk​tk​(yi−1​,yi​,x,i)+i,l∑​ul​sl​(yi​,x,i))
  • 线性链条件随机场的概率计算通常利用前向-后向算法。
  • 条件随机场的学习方法通常是极大似然估计或正则化的极大似然估计法。即在给定训练数据下,通过极大化训练数据的对数似然函数估计模型参数,具体算法有改进的迭代尺度算法、梯度下降算法、拟牛顿法。
  • 线性链条件随机场的一个重要应用是标注。维比特算法是给定观测序列求条件概率最大的标记序列的方法。

参考文献

  1. 李航《统计学习方法》第二版
  2. https://blog.csdn.net/weixin_44193282/article/details/108276221

机器学习理论《统计学习方法》学习笔记:第十一章 条件随机场(CRF)相关推荐

  1. 《统计学习方法》读书笔记——第十一章 条件随机场

    写在前面 本系列博客是自己对于<统计学习方法>这本书的读书笔记,在读过每个章节以后根据自己的理解写下这一章的知识框架以及补充一些延伸知识点. 目录 写在前面 本章框架 概率无向图模型(马尔 ...

  2. 《Go语言圣经》学习笔记 第十一章 测试

    <Go语言圣经>学习笔记 第十一章 测试 目录 go test 测试函数 测试覆盖率 基准测试 剖析 示例函数 注:学习<Go语言圣经>笔记,PDF点击下载,建议看书. Go语 ...

  3. [go学习笔记.第十一章.项目案例] 2.客户信息管理系统

    一.基本介绍 1.需求说明 项目需求分析 1.模拟实现基于文本界面的 < 客户信息管理软件 > 2.该软件实现对客户对象的插入.修改和删除(用切片实现),并能够打印客户明细表 2.界面设计 ...

  4. [go学习笔记.第十一章.项目案例] 1.家庭收支记账软件项目

    一.基本介绍 1.项目开发流程说明 2.项目需求说明 目标: 模拟实现一个基于文本界面的<<家庭记账软件>> 掌握初步的编程技巧和调试技巧 主要涉及以下知识点 : (1).局部 ...

  5. 统计学习方法 学习笔记(1)统计学习方法及监督学习理论

    统计学习方法及监督学习理论 1.1.统计学习 1.1.1.统计学习的特点 1.1.2.统计学习的对象 1.1.3.统计学习的目的 1.1.4.统计学习的方法 1.1.5.统计学习的研究 1.1.6.统 ...

  6. 《统计学习方法》学习笔记 第二十一章 PageRank算法

    目录 1 PageRank的定义 1.1 基本想法 1.2 有向图和随机游走模型 1 有向图(directed graph) 2 随机游走模型 3 PageRank的基本定义 4 PageRank的一 ...

  7. 逻辑斯蒂回归_逻辑斯蒂回归详细解析 | 统计学习方法学习笔记 | 数据分析 | 机器学习...

    本文包括: 重要概念 逻辑斯蒂回归和线性回归 二项逻辑斯谛回归模型 逻辑斯蒂回顾与几率 模型参数估计 多项逻辑斯谛回归 其它有关数据分析,机器学习的文章及社群 1.重要概念: 在正式介绍逻辑斯蒂回归模 ...

  8. 统计学习方法 学习笔记(十):决策树

    这一个学习笔记将要了解决策树,在研一上机器学习这门课的时候,老师在讲到这一节的时候,举了一个例子我现在还能记得:你们坐在这里上课,就像这个决策树一样,在你人生中的每一个重要结点,你都做出了选择,经过多 ...

  9. 统计学习方法 学习笔记(五):支持向量机(下)

    通过支持向量机(上)和支持向量机(中)的介绍,对支持向量机应该有点感性的认识啦!在这个学习笔记中,来继续探寻带核函数的支持向量机(解决如下图所示的问题) 对解线性分类问题,线性分类支持向量机是一种非常 ...

最新文章

  1. 71 说出常用的类、包、接口各5个
  2. hdu 4109 Instrction Arrangement 拓扑排序 关键路径
  3. Android随机生成四则运算
  4. Zabbix监控系统安装与使用
  5. 对CORS OPTIONS预检请求的一些思考
  6. XShell技巧收集
  7. WebRequestDataBinder实现将请求参数映射为POJO对象
  8. MySQL (一)(未完成)
  9. go list指针_「GCTT 出品」Go 语言机制之内存剖析
  10. 分享一套帮助你优化开发web应用的jQuery插件集 - Vanity Toolset
  11. readelf命令使用
  12. C#编写串口监控软件的详细教程
  13. linux制作img镜像文件,制作img镜像文件的5种方法 .
  14. wordpress创建_您可以使用WordPress创建的19种网站类型
  15. 浏览器有新消息之后,图标在电脑任务栏闪烁提示
  16. QSqlQueryModel搭配QTableView使用卡死问题
  17. 华为笔试题2020(3月11日)
  18. NVIDIA Jetson tx2 cuda和cudnn安装_刷机失败,手动离线安装
  19. 美团后端面试大全【附答案】
  20. 万字干货:当了5次韭菜总结出来的抖音运营指南

热门文章

  1. [Lua]弱引用table
  2. 对于es6的小小理解之generator函数
  3. Nodejs扩展,实现消息弹窗
  4. 构建高可用ZooKeeper集群
  5. BZOJ 4448 主席树+树链剖分(在线)
  6. |NOIOJ|动态规划|3532:最大上升子序列和
  7. MySQL主从复制(Centos6.3MySQL5.6)
  8. linux 更改mysql的数据库目录
  9. windows phone 学习之页面导航和数据传递
  10. J2EE Architecture(4)