基础知识

概率图是一类用图的形式表示随机变量之间条件依赖关系的概率模型, 是概率论与图论的结合。图中的节点表示随机变量,缺少边表示条件独立假设。根据图中边的有向、无向性,模型可分为两类:有向图、无向图。

G(V,E):变量关系图

V:顶点or节点,表示随机变量
E:边or弧
两个节点邻接:两个节点之间存在边,记为X~Xj ,不存在边,表示条件独立。
路径:若对每个i,都有Xi-1 Xi ,则称序列(X1, X... X)是一条路径。
几种概率图模型:
  1. 朴素贝叶斯分类器(NBs:Naive Bayes)
  2. 最大熵模型(MEM:Maximum Entropy Model)
  3. 隐马尔可夫模型(HMM:Hidden Markov Models)
  4. 最大熵马尔可夫模型(MEMM:Maximum Entropy Markov Model)
  5. 马尔可夫随机场(MRF:Markov Random Fields)
  6. 条件随机场(CRF:Conditional Random Fields)
1.NBs
贝叶斯定理

一般来说,x已给出,P(x)也是一个定值(虽然不知道准确的数据,但因为是恒值,可以忽略),只需关注分子P(x|yi)P(yi)。P(yi)是类别yi的先验概率,P(x|yi)是x对类别yi的条件概率。

贝叶斯定理说明了可以用先验概率P(yi)来估算后验概率P(x|yi)。
贝叶斯分类器
    设x∈Ω是一个类别未知的数据样本,Y为类别集合,若数据样本x属于一个特定的类别,那么分类问题就是决定P(yi|x),即在获得数据样本x时,确定x的最佳分类。所谓最佳分类,一种办法是把它定义为在给定数据集中不同类别yi先验概率的条件下最可能的分类。贝叶斯理论提供了计算这种可能性的一种直接方法。

    举一个简单的例子:
    y是一个包含了整数的数据集合yi=(1,1,1,2,2,5,...,86),每个yi中的数据数量不一定相同,一共有N个这样的yi数据集合,最终组成了一个拥有整数集合的数组。把这个数组当成已经划分好的不同类别。现在给出一个整数,比如1,问这个1属于哪一个集合或者说由某个类别yi产生该整数的可能性是多少?!
    利用以上的贝叶斯定理可知,给定整数1的条件下,问属于yi类别,就等同于求解先验概率P(yi)与P(x|yi)的概率乘积大小。P(yi)表示类别yi的分布概率,在这里可以简单地定义为"每个类别yi的数据量/总数据量"(这种定义是有意义的,某个类别包含数据量越大,那么产生这个数据的可能性就越大)。另外,除了这个先验概率P(yi)之外,还要考虑条件概率P(x|yi)。在这个例子中,不同的yi类别可能都包含了1这个整数,但是每个类别中1出现的概率不一样。所以,最后1属于yi类别的概率=类别yi发生的概率×1在类别yi中的出现概率。
贝叶斯网络(Bayesian Network)
    贝叶斯网络是最基本的有向图,是类条件概率的建模方法。贝叶斯网络包括两部分:网络拓扑图和概率表。贝叶斯拓扑图的有向边指定了样本之间的关联。
概率图示意
每个节点的条件概率分布表示为:P(当前节点|它的父节点)。
联合分布为:
举例:
联合分布为
2.MEM
    最大熵模型主要是在已有的一些限制条件下估计未知的概率分布。最大熵的原理认为,从不完整的信息(例如有限数量的训练数据)推导出的唯一合理的概率分布应该在满足这些信息提供的约束条件下拥有最大熵值。求解这样的分布是一个典型的约束优化问题。
概率图示意
最大熵推导过程省略,直接给出最后的模型公式——指数形式

其中是归一化因子

最大熵模型公式中的 表示特征函数;表示特征函数的权重 ,可由训练样本估计得到, 大的非负数值表示了优先选择的特征,大的负值对应不太可能生的特征。

3.HMM
    状态集合Y,观察值集合X,两个状态转移概率:从yi-1到yi的条件概率分布P(yi | yi-1),状态yi的输出观察值概率P(xi | yi-1),初始概率P0(y)。
概率示意图
状态序列和观察序列的联合概率
4.MEMM
    用一个分布P(yi | yi-1,xi)来替代HMM中的两个条件概率分布,它表示从先前状态yi-1,在观察值xi下得到当前状态的概率,即根据前一状态和当前观察预测当前状态。每个这样的分布函数都是一个服从最大熵的指数模型。
概率图示意
状态y的条件概率公式(每个i 的状态输出都服从最大熵的指数模型)

5.MRF

    随机场可以看成是一组随机变量(y1, y2, …, yn)的集合(这组随机变量对应同一个样本空间)。当然,这些随机变量之间可能有依赖关系,一般来说,也只有当这些变量之间有依赖关系的时候,我们将其单独拿出来看成一个随机场才有实际意义。
    马尔可夫随机场是加了马尔可夫性限制的随机场,一个Markov随机场对应一个无向图。定义无向图G=(V,E),V为顶点/节点, E为边,每一个节点对应一个随机变量,节点之间的边表示节点对应的随机变量之间有概率依赖关系。
    马尔可夫性:对Markov随机场中的任何一个随机变量,给定场中其他所有变量下该变量的分布,等同于给定场中该变量的邻居节点下该变量的分布。即:
其中表示与yi有边相连的节点。
    Markov随机场的结构本质上反应了我们的先验知识——哪些变量之间有依赖关系需要考虑,而哪些可以忽略。
    马尔可夫性可以看成是马尔科夫随机场的微观属性,而宏观属性就是联合分布。假设MRF的变量集合为Y={y1, y2,…, yn}, CG有是所有团Yc的集合。
其中表示一个团(clique)Yc的势能,以上公式也可以具体写成
其中Z是归一化因子,是对分子的所有y= y1, y2,…, yn求和得到。T是个温度常数(一般取1)。U(y1, y2,…, yn)一般称为能量函数(energy function),定义为在MRF上所有团势(clique-potential)之和。
    在MRF对应的图中,每一个团(clique)对应一个函数,称为团势(clique-potential)。这个联合概率形式又叫做Gibbs分布(Gibbs distribution)。
    Hammersley-Clifford定理给出了Gibbs分布与MRF等价的条件:一个随机场是关于邻域系统的MRF,当且仅当这个随机场是关于邻域系统的Gibbs分布。关于邻域系统δ(s)的MRFX与Gibbs分布等价形式表示为

    在图像处理中,对先验模型的研究往往转换为对能量函数的研究。C表示邻域系统δ 所包含基团的集合,Vc(·)是定义在基团c上的势函数(potential),它只依赖于δ(s),s∈c的值。δ={δ(s)|s∈S}是定义在S上的通用的邻域系统的集合。

    上式解决了求MRF中概率分布的难题,使对MRF的研究转化为对势函数Vc(x)的研究,使Gibbs分布与能量函数建立了等价关系,是研究邻域系统 δ(s) MRF的一个重要里程碑。
6.CRF
    如果给定的MRF中每个随机变量下面还有观察值,我们要确定的是给定观察集合下MRF的分布,也就是条件分布,那么这个MRF就称为CRF(Conditional Random Field)。它的条件分布形式完全类似于MRF的分布形式,只不过多了一个观察集合X=(x1, x2,…, xn),即
    条件随机场可以看成是一个无向图模型或马尔可夫随机场,它是一种用来标记和切分序列化数据的统计模型。
    理论上,图G的结构可以任意,但实际上,在构造模型时,CRFs采用了最简单和最重要的一阶链式结构。
一阶链式CRF示意图(不同于隐马尔科夫链,条件随机场中的x除了依赖于当前状态,还可能与其他状态有关)
令 X=(x1, x2,…, xn)表示观察序列, Y=(y1, y2,…, yn)是有限状态的集合。根据随机场的基本理论,无向图中关于顶点的标记条件概率

其中归一化因子

    
以上的是状态函数和转移函数的统一表达形式。
几种比较
条件随机场和隐马尔科夫链的关系和比较
    条件随机场是隐马尔科夫链的一种扩展。
  1. 不同点:观察值xi不单纯地依赖于当前状态yi,可能还与前后状态有关;
  2. 相同点:条件随机场保留了状态序列的马尔科夫链属性——状态序列中的某一个状态只与之前的状态有关,而与其他状态无关。(比如句法分析中的句子成分)

MRF和CRF的关系和比较
    条件随机场和马尔科夫随机场很相似,但又说不同,很容易弄混淆。最通用角度来看,CRF本质上是给定了观察值 (observations)集合的MRF。
    在图像处理中,MRF的密度概率 p(x=labels, y=image) 是一些随机变量定义在团上的函数因子分解。而CRF是根据特征产生的一个特殊MRF。因此一个MRF是由图和参数(可以无数个)定义的,如果这些参数是输入图像的一个函数(比如特征函数),则我们就拥有了一个CRF。
    图像去噪处理中,P(去噪像素|所有像素)是一个CRF,而P(所有像素)是一个MRF。

概率图几种模型的简介和比较相关推荐

  1. 一种基于CUDA标准的异构并行编程模型开发简介

    一种基于CUDA标准的异构并行编程模型开发简介 目录 一.绪论 1.1研究背景及意义 1.2目标平台体系结构简介 二.HPPA基本组成结构 三.编译工具链开发 3.1 拆分工具HPCufe开发 3.2 ...

  2. Pytorch两种模型保存方式

    以字典方式保存,更容易解析和可视化 Pytorch两种模型保存方式 大黑_7e1b关注 2019.02.12 17:49:35字数 13阅读 5,907 只保存模型参数 # 保存 torch.save ...

  3. 文本深度表示模型Word2Vec 简介 Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简

    文本深度表示模型Word2Vec 简介 Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 ...

  4. AI:人工智能的多模态融合模型的简介、发展以及未来趋势

    AI:人工智能的多模态融合模型的简介.发展以及未来趋势 目录 人工智能的多模态融合模型的简介.发展以及未来趋势 多模态融合模型的简介 多模态融合模型的发展趋势 多模态常见应用分类 1.按照模态分类 2 ...

  5. Javascript事件模型系列(一)事件及事件的三种模型

    一.开篇 在学习javascript之初,就在网上看过不少介绍javascript事件的文章,毕竟是js基础中的基础,文章零零散散有不少,但遗憾的是没有看到比较全面的系列文章.犹记得去年这个时候,参加 ...

  6. 旅行商问题(TSP)的两种模型

    TSP简介 一个商人从一点出发,经过所有点后返回原点.它需要满足:除起点和终点外,所有点当且仅当经过一次:起点与终点重合:所有点构成一个连通图.要求:得到这个商人经过所有点的最短路程. TSP模型表示 ...

  7. 模型量化(1):模型量化简介

    转自AI Studio,原文链接:模型量化(1):模型量化简介 - 飞桨AI Studio 引入 在 AI 模型训练时,通常使用浮点数(Float32 等)进行计算,这样能够确保更好的精度表现 当然浮 ...

  8. 2. 彤哥说netty系列之IO的五种模型

    你好,我是彤哥,本篇是netty系列的第二篇. 欢迎来我的公从号彤哥读源码系统地学习源码&架构的知识. 简介 本文将介绍linux中的五种IO模型,同时也会介绍阻塞/非阻塞与同步/异步的区别. ...

  9. 二元置信椭圆r语言_一般加性模型的简介、应用举例及R语言操作

    一般加性模型的简介.应用及R语言操作举例前文在"平滑回归举例"中,提到当未知自变量和响应变量间的关系,难以选择合适的参数模型描述二者间的响应状态,或者期望探索二者可能的响应曲线形式 ...

最新文章

  1. struts2 action重定向
  2. rocketmq 消息指定_详解RocketMQ不同类型的消费者
  3. Android 中intent传递序列化信息(传递类)
  4. 下载MySQL并创建桌面数据库_sql桌面数据库
  5. CSS——基础选择器
  6. 嵌入式linux系统运行程序,嵌入式Linux系统启动过程
  7. Linux最小化安装
  8. go有没有php的array,实现类似php的array_column方法
  9. TransCAD完整视频教程简介
  10. HU6285A升压输出12V,电流1A芯片
  11. Laravel5.5前后台分离
  12. 自定义View实践:指南针的实现
  13. PostGIS教程七:几何图形(Geometry)
  14. Electron 自定义托盘实战——桌面计算器
  15. 蓝牙杂散超标_蓝牙产品型号核准认证检测内容是什么 需要SRRC认证杂散功率测试...
  16. 现代人遇到鸿蒙碎片,原来我是盖世奶爸-第126章 虚空之门是鸿蒙鼎碎片?
  17. 如何区分物联网卡与手机SIM卡
  18. shell和bash
  19. 4月4日网站变灰色的效果是怎么实现的?
  20. img图片加载前显示load图片

热门文章

  1. Prim算法java实现
  2. 一个嵌入式牛人学习经历
  3. HSV色彩空间和颜色分量范围
  4. 【机器学习】评价指标PSI
  5. libxml2常用库函数详解
  6. Python - 各类赋值语句
  7. Linux计划任务要怎么弄?
  8. [学习记录]浅谈Android硬件加速
  9. opencv 去除背景算法的比较
  10. 优秀的JavaScript模块是怎样炼成的