一维高斯模型(One-dimensional Gaussian Model)

若随机变量X服从一个数学期望为,标准方差为的高斯分布,记为:

x~N()。

则概率密度函数为:


高斯分布的期望值决定了其位置,标准方差决定了其幅度。

         

高斯分布的概率分布函数

高斯分布标准差在概率分布的数据意义

高斯分布重要量的性质

  • 密度函数关于平均值对称
  • 平均值是它的众数(statistical mode)以及中位数(median)
  • 函数曲线下68.268949%的面积在平均值左右的一个标准差范围内
  • 95.449974%的面积在平均值左右两个标准差2σ的范围内
  • 99.730020%的面积在平均值左右三个标准差3σ的范围

标准正态分布是μ=0,=1。如下图所示:

x

注:机器学习中对于方差我们通常只除以m而非统计学中的m−1(因为均值进去一个点)。这里顺便提一下,在实际使用中,到底是选择使用1/m还是1/(m−1)其实区别很小,只要你有一个还算大的训练集,在机器学习领域大部分人更习惯使用这个版本的公式。这两个版本的公式在理论特性和数学特性上稍有不同,但是在实际使用中,他们的区别甚小,几乎可以忽略不计。

中心极限定理

正态分布有一个非常重要的性质:在特定条件下,大量统计独立的随机变量的平均值的分布趋于正态分布,这就是中心极限定理。中心极限定理的重要意义在于,根据这一定理的结论,其他概率分布可以用正态分布作为近似。中心极限定理阐明了随着有限方差的随机变量数量增长,它们的和的分布趋向正态分布。

1、参数为n和p的二项分布,在n相当大而且p接近0.5时近似于正态分布。 
(有的参考书建议仅在np与n(1−p)至少为5时才能使用这一近似)。近似正态分布平均数为μ=np且方差为σ^2=np(1−p)(见下图)正态分布的概率密度函数,参数为μ = 12,σ = 3,趋近于n = 48、p = 1/4的二项分布的概率质量函数。 

2、一泊松分布带有参数λ当取样样本数很大时将近似正态分布λ. 
近似正态分布平均数为μ=λ且方差为σ^2=λ.,这些近似值是否完全充分正确取决于使用者的使用需求。

其他一些相关分布介绍

多维高斯模型(Multil-dimensional Gaussian Model)

多维单高斯是如何由一维单高斯发展而来的呢? 

同理,高维情形相同!


举个栗子:

再比如:

以下是几种高斯模型:

上面几个图很好理解,只是在改变协方差矩阵对角线上的数改的越大,图形就越尖!

这上面几个图其实就是高斯模型在平面上的投影,等高线上的(x,y)概率是相等的。

1. 针对二维高斯分布,若随机变量中的两个维度不相关,协方差矩阵对对角阵,则如下图所示

构成一个圆形。

2.若两个维度数据相关,协方差矩阵为对称矩阵,则如下图所示

构成一个椭圆形

3.针对二维高斯分布,协方差矩阵的对角线元素为轴的方差,反斜对角线上的两个值为协方差,表明与X2X2的线性相关程度,(正值时:增大,也随之增大;负值时:增大,随之减小)。

能够看出,图形的形状跟方向跟协方差矩阵相关,所在轴的方差越大则该方向越长,协方差矩阵最大特征值对应的特征向量的方向为椭圆的朝向。

高斯混合模型GMM(Gaussian Mixture Model)

统计学习的模型有两种,一种是概率模型,一种是非概率模型。 
所谓概率模型,是指训练模型的形式是P(Y|X)。输入是X,输出是Y,训练后模型得到的输出不是一个具体的值,而是一系列的概率值(对应于分类问题来说,就是输入X对应于各个不同Y(类)的概率),然后我们选取概率最大的那个类作为判决对象(软分类–soft assignment)。所谓非概率模型,是指训练模型是一个决策函数Y=f(X),输入数据X是多少就可以投影得到唯一的Y,即判决结果(硬分类–hard assignment)。 
所谓混合高斯模型(GMM)就是指对样本的概率密度分布进行估计,而估计采用的模型(训练模型)是几个高斯模型的加权和(具体是几个要在模型训练前建立好)。每个高斯模型就代表了一个类(一个Cluster)。对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。 
从中心极限定理的角度上看,把混合模型假设为高斯的是比较合理的,当然,也可以根据实际数据定义成任何分布的Mixture Model,不过定义为高斯的在计算上有一些方便之处,另外,理论上可以通过增加Model的个数,用GMM近似任何概率分布。 
混合高斯模型的定义为:

其中K为模型的个数;为第k个高斯的权重;p(x|k)则为第k个高斯概率密度,其均值为,方差为。对此概率密度的估计就是要求出各个变量。当求出p(x)的表达式后,求和式的各项的结果就分别代表样本x属于各个类的概率。

如下是李航老师《统计学习方法》中给出的GMM定义:

附上一个大佬写的GSM,深入浅出值得一看漫谈 Clustering (3): Gaussian Mixture Model

一维(多维)高斯模型(One(Multi)-dimensional Gaussian Model) 高斯混合模型GMM(Gaussian Mixture Model)相关推荐

  1. PHP 多维数组搜索 PHP multi dimensional array search

    array_column() 返回input数组中键值为column_key的列, 如果指定了可选参数index_key,那么input数组中的这一列的值将作为返回数组中对应值的键. 参数 input ...

  2. 混合高斯模型_大数据小白入门高斯混合模型(GMM)聚类算法

    导读 高斯混合模型(Gaussian Mixture Model)通常简称GMM,是一种业界广泛使用的聚类算法,属于生成式模型,它假设所有的数据样本都是由某一个给定参数的 多元高斯分布 所生成的.从中 ...

  3. 混合高斯模型介绍以及应用

    混合高斯模型 1. 单一的高斯模型(Gaussian single model, GSM) 2. 混合高斯模型(GMM模型) 2.1 混合高斯模型直观上的理解和描述 2.2 极大似然估计(Maximu ...

  4. 详解EM算法与混合高斯模型(Gaussian mixture model, GMM)

    最近在看晓川老(shi)师(shu)的博士论文,接触了混合高斯模型(Gaussian mixture model, GMM)和EM(Expectation Maximization)算法,不禁被论文中 ...

  5. 图像处理中的高斯模型

    https://blog.csdn.net/lin_limin/article/details/81048411 https://blog.csdn.net/farmwang/article/deta ...

  6. 混合高斯模型 http://www.cnblogs.com/CBDoctor/archive/2011/11/06/2236286.html

    混合高斯模型算法 下面介绍一下几种典型的机器算法 首先第一种是高斯混合模型算法: 高斯模型有单高斯模型(SGM)和混合高斯模型(GMM)两种. (1)单高斯模型: 为简单起见,阈值t的选取一般靠经验值 ...

  7. 朴素贝叶斯的三个常用模型:高斯(GaussianNB)、多项式(multinomial model)、伯努利(Bernoulli model)

    文本分类 在文本分类中,假设我们有一个文档d∈X,X是文档向量空间(document space),和一个固定的类集合C={c1,c2,-,cj},类别又称为标签.显然,文档向量空间是一个高维度空间. ...

  8. opencv背景建模(混合高斯模型)

    背景建模 帧差法 由于场景中的目标在运动,目标的影像在不同图像帧中的位置不同.该类算法对时间上连续的两帧图像进行差分运算,不同帧对应的像素点相减,判断灰度差的绝对值,当绝对值超过一定阈值时,即可判断为 ...

  9. python opencv 背景建模 混合高斯模型

    本文转载自别人博客 混合高斯模型:在进行前景检测前,先对背景进行训练,对图像中每个背景采用一个混合高斯模型进行模拟,每个背景的混合高斯的个数可以自适应.然后在测试阶段,对新来的像素进行GMM匹配,如果 ...

最新文章

  1. 从源码分析DEARGUI之背变换
  2. 使用python实现knn算法_使用python实现knn算法
  3. vue 生命周期详解
  4. 三维重建6:绑架问题/SensorFusion/IMU+CV-小尺度SLAM
  5. [XML-Jsoup]Jsoup_解析_快速入门
  6. python形式参数和实际参数_python学习笔记3:函数和参数
  7. 【渝粤教育】国家开放大学2018年春季 0603-22T建筑工程管理与实务 参考试题
  8. 软件工程期中作业-阅读和提问
  9. 如何导出久其报表所有数据_久其报表软件基本操作流程..docx
  10. flutter中状态栏高度等信息
  11. 记录阿里云增加二级域名步骤[同三级]
  12. 【初识 JQMobile 小小总结】
  13. 计算机主机域名是,主机域名究竟是什么
  14. 单身程序员上班路上二三事(一)
  15. centos虚拟机桥接网络配置服务器,CentOS7虚拟机桥接网络配置
  16. Linux操作文档——分析和排查系统故障(日志)
  17. thinkPHP 接口访问限制
  18. python3根据excel表数据自动生成word格式数据报告
  19. linux I2C设备驱动
  20. jQuery是什么?和它的优缺点

热门文章

  1. 光传输-ROADM技术总结
  2. CSDN博客排名第1名
  3. 通过JS计算一个月有多少天
  4. 自动控制原理中matlab的应用
  5. java.net.UnknownHostException: www.terracotta.org
  6. 怀孕女性十个月分别需注意的事项
  7. 华为云FusionInsight连续三次获得第一 加速释放数据要素价值
  8. 32位Exe程序突破系统内存限制
  9. 科研实习 | 阿联酋MBZUAI林智仁教授招聘文本分类方向研究助理/实习生
  10. View.setBackgroundColor(int color)