1.CRF简化表示

先回顾一下线性链CRF参数化形式

都可以表示为随机变量的函数,因此,可以将统一成

其中,是转移特征的个数,是状态特征的个数。特征函数所代表的特征集合一共有K个值,
来表示特征的权重,的集合,k=1,2,3,…,K。
所以,CRF的形式可简化为

对转移特征和状态特征在各位置i求和

将权重集合组合成向量w,将特征函数包含的所有特征表示为全局向量 可表示为w和F(y,x)的内积w∙F(y,x)

其中

这里,刚开始有点懵的是,前一篇举例计算条件概率时,Y序列有5个节点,2个取值,转移特征一共有16个,状态特征有9个,条件概率的分子一共有9项相加(转移特征5-1项,状态特征5项),而这里,w∙F(y,x)一共有K项,相当于例子中的16+9项,这就对不上了呀!
后来终于注意到



不满足条件的项就是0,而对于,那种和当前状态不满足的,可能权重会变得接近于0.这样一来,两个计算方式就不冲突了。

2. CRF矩阵表示

CRF计算公式也可表示为








表示序列第i-1,i位置的所有可能可能标注的概率矩阵,如果Y有m个取值,那么是m阶方阵。
CRF可表示为

这里序列取n+1个,实际上是给序列添加了start和stop标志后,序列结点个数实际上上n+2,从0到n+1。

Z(x)表示从start到stop整个序列的所有路径的概率和,p(y│x)表示从start到stop某条路径的概率(看到这里才理解p(y│x)所表示的含义)。Z(x)为规范化因子。

依然用上一篇的例子,

图1
的取值为y={S,O},那么添加start和stop之后,start到stop的全部路径为下图中所有路径

图2
表示红色路径的概率。

3.概率的计算方式



由于序列的递推关系,从前往后推,到位置i,i位置为关于位置i-1为的条件概率为

同时,从图1可以看出,Y的各节点之间是无向的,也就是不仅依赖,同时也依赖,要确定,那么也需要确定(个人理解)。
因此,引入前向后-后向算法,前向算法计算的依赖,后面算法计算的依赖。

以标注序列为例,p(y|x)是整个序列的概率,而实际标注过程中,每个位置上Y的可能取值的概率才是决定每个位置该标注为哪一个值的关键。我们的计算目标更多在于
而根据前面的依赖关系,要计算位置i为的概率,需要先计算位置i-1和i+1各可能标注值的概率,所以,还需要计算(将此公式中i替换为i+1就是

在前向算法中,定义
对每个指标i=0,1,2,…,n+1定义前向向量

递推公式

又可表示为

表示在位置i的标记为并且i前面的位置确定的非规范概率, 表示位置i上Y的所有可能取值的概率,可看做是一个矩阵,如果Y的取值个数为m,那么它是m维向量。

同样,定义后向向量为


又可表示为

根据土递推关系,start和stop之间所有路径的概率和,实际上就是从start往stop推,第n位置的所有取值的概率和,因为序列最后一个包含全部可能取值,那么前面位置的所有可能全部包含在内,同理,也等同于从stop往后推,推到start,位置1的所有可能取值的概率和等同于start和stop之间的所有路径概率和。因此

计算位置i-1和i的条件概率为

4.期望计算

在学习参数时,需要用到转移特征的期望和状态特征的期望,前面已经把转移和状态两特征函数统一成特征函数,所以,除了计算概率,还得计算特征函数的期望。
特征函数f_k关于条件分布P(Y|X)的数学期望是

假设经验分布为 ,特征函数关于联合分布P(Y,X)的数学期望是

其中

最重要的计算公式是第i和i-1位置的条件概率计算和特征函数的两个期望计算,前者在学习和预测时都要用到,后者主要用在学习参数。在学习参数,计算梯度时,需用实际的来替换


参考资料
《统计学习方法》
《统计自然语言处理》

条件随机场(2)——概率计算相关推荐

  1. 经典算法复现!(条件随机场)CRF原理及实现代码

    Datawhale 作者:丁媛媛,Datawhale优秀学习者 寄语:本文先对马尔可夫过程及隐马尔可夫算法进行了简单的介绍:然后,对条件随机场的定义及其三种形式进行了详细推导:最后,介绍了条件随机场的 ...

  2. 机器学习理论《统计学习方法》学习笔记:第十一章 条件随机场(CRF)

    第十一章 条件随机场(CRF) 摘要 1 概率无向图模型 1.1 概率无向图模型定义 1.2 概率无向图模型的因子分解 1.3 D-划分 1.4 马尔可夫随机场在图像中的应用 2 条件随机场的定义与形 ...

  3. 11_条件随机场CRF2_统计学习方法

    文章目录 三.条件随机场的概率计算问题 3.1 前向-后向算法 3.1.1 前向向量 3.1.2 后向向量 3.2 一些概率与期望值的计算 3.2.1 单个状态概率 3.2.2 两个状态的联合概率 3 ...

  4. 11_条件随机场CRF1_统计学习方法

    文章目录 一.条件随机场相关基本概念 1.1 条件随机场 1.2 马尔科夫随机场 1.2.1 马尔科夫 1.2.2 随机场 1.3 概率无向图模型 1.3.1 图(graph) 1.3.2 无向图 1 ...

  5. 《统计学习方法》啃书辅助:第11章 条件随机场

    11.1 概率无向图模型 [补充解释]成对马尔可夫性可以概括为:概率无向图模型中,任意两个没有边连接的结点是相互独立的. [补充解释]局部马尔可夫性可以概括为:概率无向图模型中,任意两个没有边直接相连 ...

  6. 条件随机场的简单理解

    目录 什么是条件随机场 条件随机场长怎么样 如何构建特征函数 前向-后向算法 条件随机场的概率计算问题 条件随机场的预测问题 什么是条件随机场 条件随机场的定义 条件随机场总的来说就是只要满足&quo ...

  7. 复现经典:《统计学习方法》​第 11 章 条件随机场

    本文是李航老师的<统计学习方法>[1]一书的代码复现. 作者:黄海广[2] 备注:代码都可以在github[3]中下载. 我将陆续将代码发布在公众号"机器学习初学者", ...

  8. NLP --- 条件随机场CRF(概率计算问题)

    上一节详解的阐述了条件随机场的定义和简单的学习算法推倒,这里不懂的前翻看前两节的博客,这里不再赘述,本节将主要求期望的问题,为什么要求解期望?本节主要参考的内容是一篇论文和李航的书,论文是<Co ...

  9. 【数据挖掘】高斯混合模型 ( 与 K-Means 每个步骤对比 | 初始参数设置 | 计算概率 | 计算平均值参数 | 计算方差参数 | 计算高斯分布概率参数 | 算法终止条件 )

    文章目录 I . 高斯混合模型 ( 样本 -> 模型 ) II . 高斯混合模型 ( 模型 -> 样本 ) III . 高斯混合模型 与 K-Means 迭代过程对比 IV . 高斯混合模 ...

最新文章

  1. 【iCore2双核心板】SRAM 读写实验(基于Verilog语言)
  2. Select和SelectMany之间的区别
  3. Oracle 数据库利用sql语句杀掉用户session进程,“ORA-01940: 无法删除当前连接的用户“问题解决办法
  4. hibernate的HQL查询语言总结
  5. linux java javac版本_linux下java 和 javac version 不一致问题
  6. 无锁HashMap的原理与实现
  7. spyder开多个程序_【程序源代码】基于Vue+ElementUI web开发框架
  8. SQL Serve 查询所有可用的数据库语句
  9. H5上传文件又双叒叕开测了!
  10. 三个火一个木组成的燊怎么读,燊是什么意思?
  11. C语言 文件操作5--文件的常用函数
  12. CATIA二次开发VBA:(一)宏的录制、修改及回放
  13. python笔记-find()函数的用法
  14. aiml简介+源代码解析+中文分词(java)
  15. linux远程连接命令
  16. 瑞星客户端卸载操作手册
  17. 【报告分享】快手私域经营白皮书-磁力引擎(附下载)
  18. 使用react-split-pane简单记录
  19. 给VB.NET开发者的46个忠告
  20. 云计算发展前景好不好 学了后能胜任哪些岗位

热门文章

  1. 2020-06 前端技术汇总
  2. Python模块查找路径
  3. 如何利用CRM来维护客户关系?
  4. 皮卡丘(pikachu)文件包含
  5. Pytorch中的detach用法
  6. 矩形连乘问题c语言,矩阵连乘问题
  7. 案例:学生版增删改查
  8. 高斯RBF核函数中Sigma取值和SVM分离面的影响
  9. Deepspeed:让大规模深度学习更快更省资源的神器
  10. 使用国产KT148A语音芯片sop8封装,用户可以自己更换声音,低成本,高秒数