一维(多维)高斯模型(One(Multi)-dimensional Gaussian Model) 高斯混合模型GMM(Gaussian Mixture Model)
一维高斯模型(One-dimensional Gaussian Model)
若随机变量X服从一个数学期望为,标准方差为的高斯分布,记为:
x~N(,)。
则概率密度函数为:
高斯分布的期望值决定了其位置,标准方差决定了其幅度。
高斯分布的概率分布函数
高斯分布标准差在概率分布的数据意义
高斯分布重要量的性质
- 密度函数关于平均值对称
- 平均值是它的众数(statistical mode)以及中位数(median)
- 函数曲线下68.268949%的面积在平均值左右的一个标准差范围内
- 95.449974%的面积在平均值左右两个标准差2σ的范围内
- 99.730020%的面积在平均值左右三个标准差3σ的范围
标准正态分布是μ=0,=1。如下图所示:
,x
注:机器学习中对于方差我们通常只除以m而非统计学中的m−1(因为均值进去一个点)。这里顺便提一下,在实际使用中,到底是选择使用1/m还是1/(m−1)其实区别很小,只要你有一个还算大的训练集,在机器学习领域大部分人更习惯使用这个版本的公式。这两个版本的公式在理论特性和数学特性上稍有不同,但是在实际使用中,他们的区别甚小,几乎可以忽略不计。
中心极限定理
正态分布有一个非常重要的性质:在特定条件下,大量统计独立的随机变量的平均值的分布趋于正态分布,这就是中心极限定理。中心极限定理的重要意义在于,根据这一定理的结论,其他概率分布可以用正态分布作为近似。中心极限定理阐明了随着有限方差的随机变量数量增长,它们的和的分布趋向正态分布。
1、参数为n和p的二项分布,在n相当大而且p接近0.5时近似于正态分布。
(有的参考书建议仅在np与n(1−p)至少为5时才能使用这一近似)。近似正态分布平均数为μ=np且方差为σ^2=np(1−p)(见下图)正态分布的概率密度函数,参数为μ = 12,σ = 3,趋近于n = 48、p = 1/4的二项分布的概率质量函数。
2、一泊松分布带有参数λ当取样样本数很大时将近似正态分布λ.
近似正态分布平均数为μ=λ且方差为σ^2=λ.,这些近似值是否完全充分正确取决于使用者的使用需求。
其他一些相关分布介绍
多维高斯模型(Multil-dimensional Gaussian Model)
多维单高斯是如何由一维单高斯发展而来的呢?
同理,高维情形相同!
举个栗子:
再比如:
以下是几种高斯模型:
上面几个图很好理解,只是在改变协方差矩阵对角线上的数改的越大,图形就越尖!
这上面几个图其实就是高斯模型在平面上的投影,等高线上的(x,y)概率是相等的。
1. 针对二维高斯分布,若随机变量中的两个维度不相关,协方差矩阵对对角阵,则如下图所示
构成一个圆形。
2.若两个维度数据相关,协方差矩阵为对称矩阵,则如下图所示
构成一个椭圆形
3.针对二维高斯分布,协方差矩阵的对角线元素为与轴的方差,反斜对角线上的两个值为协方差,表明与X2X2的线性相关程度,(正值时:增大,也随之增大;负值时:增大,随之减小)。
能够看出,图形的形状跟方向跟协方差矩阵相关,所在轴的方差越大则该方向越长,协方差矩阵最大特征值对应的特征向量的方向为椭圆的朝向。
高斯混合模型GMM(Gaussian Mixture Model)
统计学习的模型有两种,一种是概率模型,一种是非概率模型。
所谓概率模型,是指训练模型的形式是P(Y|X)。输入是X,输出是Y,训练后模型得到的输出不是一个具体的值,而是一系列的概率值(对应于分类问题来说,就是输入X对应于各个不同Y(类)的概率),然后我们选取概率最大的那个类作为判决对象(软分类–soft assignment)。所谓非概率模型,是指训练模型是一个决策函数Y=f(X),输入数据X是多少就可以投影得到唯一的Y,即判决结果(硬分类–hard assignment)。
所谓混合高斯模型(GMM)就是指对样本的概率密度分布进行估计,而估计采用的模型(训练模型)是几个高斯模型的加权和(具体是几个要在模型训练前建立好)。每个高斯模型就代表了一个类(一个Cluster)。对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。
从中心极限定理的角度上看,把混合模型假设为高斯的是比较合理的,当然,也可以根据实际数据定义成任何分布的Mixture Model,不过定义为高斯的在计算上有一些方便之处,另外,理论上可以通过增加Model的个数,用GMM近似任何概率分布。
混合高斯模型的定义为:
其中K为模型的个数;为第k个高斯的权重;p(x|k)则为第k个高斯概率密度,其均值为,方差为。对此概率密度的估计就是要求出 、和各个变量。当求出p(x)的表达式后,求和式的各项的结果就分别代表样本x属于各个类的概率。
如下是李航老师《统计学习方法》中给出的GMM定义:
附上一个大佬写的GSM,深入浅出值得一看漫谈 Clustering (3): Gaussian Mixture Model
一维(多维)高斯模型(One(Multi)-dimensional Gaussian Model) 高斯混合模型GMM(Gaussian Mixture Model)相关推荐
- PHP 多维数组搜索 PHP multi dimensional array search
array_column() 返回input数组中键值为column_key的列, 如果指定了可选参数index_key,那么input数组中的这一列的值将作为返回数组中对应值的键. 参数 input ...
- 混合高斯模型_大数据小白入门高斯混合模型(GMM)聚类算法
导读 高斯混合模型(Gaussian Mixture Model)通常简称GMM,是一种业界广泛使用的聚类算法,属于生成式模型,它假设所有的数据样本都是由某一个给定参数的 多元高斯分布 所生成的.从中 ...
- 混合高斯模型介绍以及应用
混合高斯模型 1. 单一的高斯模型(Gaussian single model, GSM) 2. 混合高斯模型(GMM模型) 2.1 混合高斯模型直观上的理解和描述 2.2 极大似然估计(Maximu ...
- 详解EM算法与混合高斯模型(Gaussian mixture model, GMM)
最近在看晓川老(shi)师(shu)的博士论文,接触了混合高斯模型(Gaussian mixture model, GMM)和EM(Expectation Maximization)算法,不禁被论文中 ...
- 图像处理中的高斯模型
https://blog.csdn.net/lin_limin/article/details/81048411 https://blog.csdn.net/farmwang/article/deta ...
- 混合高斯模型 http://www.cnblogs.com/CBDoctor/archive/2011/11/06/2236286.html
混合高斯模型算法 下面介绍一下几种典型的机器算法 首先第一种是高斯混合模型算法: 高斯模型有单高斯模型(SGM)和混合高斯模型(GMM)两种. (1)单高斯模型: 为简单起见,阈值t的选取一般靠经验值 ...
- 朴素贝叶斯的三个常用模型:高斯(GaussianNB)、多项式(multinomial model)、伯努利(Bernoulli model)
文本分类 在文本分类中,假设我们有一个文档d∈X,X是文档向量空间(document space),和一个固定的类集合C={c1,c2,-,cj},类别又称为标签.显然,文档向量空间是一个高维度空间. ...
- opencv背景建模(混合高斯模型)
背景建模 帧差法 由于场景中的目标在运动,目标的影像在不同图像帧中的位置不同.该类算法对时间上连续的两帧图像进行差分运算,不同帧对应的像素点相减,判断灰度差的绝对值,当绝对值超过一定阈值时,即可判断为 ...
- python opencv 背景建模 混合高斯模型
本文转载自别人博客 混合高斯模型:在进行前景检测前,先对背景进行训练,对图像中每个背景采用一个混合高斯模型进行模拟,每个背景的混合高斯的个数可以自适应.然后在测试阶段,对新来的像素进行GMM匹配,如果 ...
最新文章
- 从源码分析DEARGUI之背变换
- 使用python实现knn算法_使用python实现knn算法
- vue 生命周期详解
- 三维重建6:绑架问题/SensorFusion/IMU+CV-小尺度SLAM
- [XML-Jsoup]Jsoup_解析_快速入门
- python形式参数和实际参数_python学习笔记3:函数和参数
- 【渝粤教育】国家开放大学2018年春季 0603-22T建筑工程管理与实务 参考试题
- 软件工程期中作业-阅读和提问
- 如何导出久其报表所有数据_久其报表软件基本操作流程..docx
- flutter中状态栏高度等信息
- 记录阿里云增加二级域名步骤[同三级]
- 【初识 JQMobile 小小总结】
- 计算机主机域名是,主机域名究竟是什么
- 单身程序员上班路上二三事(一)
- centos虚拟机桥接网络配置服务器,CentOS7虚拟机桥接网络配置
- Linux操作文档——分析和排查系统故障(日志)
- thinkPHP 接口访问限制
- python3根据excel表数据自动生成word格式数据报告
- linux I2C设备驱动
- jQuery是什么?和它的优缺点
热门文章
- 光传输-ROADM技术总结
- CSDN博客排名第1名
- 通过JS计算一个月有多少天
- 自动控制原理中matlab的应用
- java.net.UnknownHostException: www.terracotta.org
- 怀孕女性十个月分别需注意的事项
- 华为云FusionInsight连续三次获得第一 加速释放数据要素价值
- 32位Exe程序突破系统内存限制
- 科研实习 | 阿联酋MBZUAI林智仁教授招聘文本分类方向研究助理/实习生
- View.setBackgroundColor(int color)