本文就高斯混合模型(GMM,Gaussian Mixture Model)参数如何确立这个问题,详细讲解期望最大化(EM,Expectation Maximization)算法的实施过程。

单高斯分布模型GSM

多维变量X服从高斯分布时,它的概率密度函数PDF为:

x是维度为d的列向量,u是模型期望,Σ是模型方差。在实际应用中u通常用样本均值来代替,Σ通常用样本方差来代替。很容易判断一个样x本是否属于类别C。因为每个类别都有自己的u和Σ,把x代入(1)式,当概率大于一定阈值时我们就认为x属于C类。

从几何上讲,单高斯分布模型在二维空间应该近似于椭圆,在三维空间上近似于椭球。遗憾的是在很多分类问题中,属于同一类别的样本点并不满足“椭圆”分布的特性。这就引入了高斯混合模型。

单高斯模型 http://www.baike.com/wiki/%E5%8D%95%E9%AB%98%E6%96%AF%E6%A8%A1%E5%9E%8B

高斯混合模型GMM

GMM认为数据是从几个GSM中生成出来的,即

K需要事先确定好,就像K-means中的K一样。πk是权值因子。其中的任意一个高斯分布N(x;ukk)叫作这个模型的一个component。这里有个问题,为什么我们要假设数据是由若干个高斯分布组合而成的,而不假设是其他分布呢?实际上不管是什么分布,只K取得足够大,这个XX Mixture Model就会变得足够复杂,就可以用来逼近任意连续的概率密度分布。只是因为高斯函数具有良好的计算性能,所GMM被广泛地应用。

GMM是一种聚类算法,每个component就是一个聚类中心。即在只有样本点,不知道样本分类(含有隐含变量)的情况下,计算出模型参数(π,u和Σ)----这显然可以用EM算法来求解。

再用训练好的模型去差别样本所属的分类,方法是:

step1随机选择K个component中的一个(被选中的概率是πk);

step2把样本代入刚选好的component,判断是否属于这个类别,如果不属于则回到step1。

样本分类已知情况下的GMM

当每个样本所属分类已知时,GMM的参数非常好确定,直接利用Maximum Likelihood。设样本容量为N,属于K个分类的样本数量分别是N1,N2,...,Nk,属于第k个分类的样本集合是L(k)。

样本分类未知情况下的GMM

有N个数据点,服从某种分布Pr(x;θ),我们想找到一组参数θ,使得生成这些数据点的概率最大,这个概率就是

称为似然函数(Lilelihood Function)。通常单个点的概率很小,连乘之后数据会更小,容易造成浮点数下溢,所以一般取其对数,变成

称为log-likelihood function(对数似然函数)。

GMM的log-likelihood function就是:

这里每个样本xi所属的类别zk是不知道的。Z是隐含变量。

我们就是要找到最佳的模型参数,使得(6)式所示的期望最大,“期望最大化算法”名字由此而来。

EM法求解

EM要求解的问题一般形式是

Y是隐含变量。

我们已经知道如果数据点的分类标签Y是已知的,那么求解模型参数直接利用Maximum Likelihood就可以了。EM算法的基本思路是:随机初始化一组参数θ(0),根据后验概率Pr(Y|X;θ)来更新Y的期望E(Y),然后用E(Y)代替Y求出新的模型参数θ(1)。如此迭代直到θ趋于稳定。

E-Step E就是Expectation的意思,就是假设模型参数已知的情况下求隐含变量Z分别取z1,z2,...的期望,亦即Z分别取z1,z2,...的概率。在GMM中就是求数据点由各个 component生成的概率。

注意到我们在Z的后验概率前面乘以了一个权值因子αk它表示在训练集中数据点属于类别zk的频率,在GMM中它就是πk

 M-Step M就是Maximization的意思,就是用最大似然的方法求出模型参数

现在我们认为上一步求出的r(i,k)就是“数据点xi由component k生成的概率”。根据公式(3),(4),(5)可以推出:

与K-means比较

相同点:都是可用于聚类的算法;都需要指定K值。

不同点:GMM可以给出一个样本属于某类的概率是多少。

单高斯分布模型GSM,高斯混合模型GMM相关推荐

  1. 高斯混合模型--GMM(Gaussian Mixture Model)

    参考:http://blog.sina.com.cn/s/blog_54d460e40101ec00.html 概率指事件随机发生的机率,对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率 ...

  2. 高斯混合模型GMM的理解

    高斯混合模型(Gaussian Mixture Model,简称GMM)是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型.通俗点 ...

  3. 基础学习:高斯混合模型GMM

    高斯混合模型(Gaussian Mixture Model) 首先看一个图直观理解: 包含三个高斯分量的一个维度的GMM是如何由其高斯分量叠加而成 基本原理: ==>混合模型+高斯模型 组成 1 ...

  4. 一维(多维)高斯模型(One(Multi)-dimensional Gaussian Model) 高斯混合模型GMM(Gaussian Mixture Model)

    一维高斯模型(One-dimensional Gaussian Model) 若随机变量X服从一个数学期望为,标准方差为的高斯分布,记为: x~N(,). 则概率密度函数为: 高斯分布的期望值决定了其 ...

  5. 高斯混合模型GMM、核心参数、高斯混合模型GMM的数学形式

    高斯混合模型GMM.核心参数.高斯混合模型GMM的数学形式 高斯混合模型GMM 混合模型是一个可以用来表示在总体分布(distribution)中含有 K 个子分布的概率模型,换句话说,混合模型表示了 ...

  6. 高斯混合模型 GMM 的详细解释

    高斯混合模型(后面本文中将使用他的缩写 GMM)听起来很复杂,其实他的工作原理和 KMeans 非常相似,你甚至可以认为它是 KMeans 的概率版本. 这种概率特征使 GMM 可以应用于 KMean ...

  7. 高斯混合模型--GMM

    原文:http://blog.sina.com.cn/s/blog_54d460e40101ec00.html   高斯混合模型--GMM(Gaussian Mixture Model)     统计 ...

  8. EM算法应用:k均值聚类(k-means)和高斯混合模型(GMM)

    文章目录 k-means聚类 EM角度的理解 算法流程 特点 k值选择 局限性 高斯混合模型 GMM的问题描述 1,明确隐变量 2.EM算法的E步:确定Q函数 3. EM算法的E步 4. 停止条件 上 ...

  9. 混合高斯模型_大数据小白入门高斯混合模型(GMM)聚类算法

    导读 高斯混合模型(Gaussian Mixture Model)通常简称GMM,是一种业界广泛使用的聚类算法,属于生成式模型,它假设所有的数据样本都是由某一个给定参数的 多元高斯分布 所生成的.从中 ...

最新文章

  1. 人工智能领域最重要的10大里程碑:AlphaGo征服世人
  2. Java后端简历模板,转疯了!
  3. 零基础python入门书籍-零基础如何学好python?推荐6本入门书籍,帮你打基础
  4. 如何在pycharm添加扩张工具
  5. jQuery表单校验jquery.validate.js的使用
  6. vue 下拉框筛选列表_vue下拉菜单选择输入框_带有下拉菜单的Vue搜索输入可提供更多过滤条件...
  7. Java校招面试经验汇总,最终入职阿里
  8. FPGA 状态机设计
  9. C语言:存储类型,内存管理
  10. JQuery之事件冒泡
  11. 电子秤称东西用计算机怎么算,电子秤怎么连接电脑?
  12. Centos搭建socks5代理服务器
  13. Oracle (03)分组子句.where条件 与 having条件的区别.子查询.DDL.DML.数据的增删改.TCL
  14. Laravel填充数据Seeder出现 Target class [xxx] does not exist 错误
  15. 51单片机——红绿灯系统
  16. 企立方-拼多多采集注意的点有哪些
  17. host映射主机名和端口
  18. Appserver的安装
  19. 五步搞定Android开发环境部署,值得收藏!
  20. Windows10下VTR.7中VPR项目的运行

热门文章

  1. 什么是线程池,连接池,线程池和连接池之间的区别
  2. Java 设计模式(一)之单例模式 理论代码相结合
  3. oracle删除表空间中的表,ORACLE删除表空间中的所有表
  4. oracle 安装及工具简介,oracle安装及简介
  5. ftp shell lcd不起作用
  6. access超过255列数据_Access的数据类型,与Excel虽类似,数据库+sql更适合大量数据管理...
  7. mysql opaq数据库_MySql数据库
  8. android 手机关机代码非root,怎么用代码判断android手机是否开启了ROOT 权限知道...
  9. mysql的hash分区_MySQL中的分区(五)HASH分区
  10. python狗狗年龄换算_Python之美——一只数据狗的笔记[长期更新]