原文链接 :http://tecdat.cn/?p=3433

原文出处:拓端数据部落公众号

本文我们讨论期望最大化理论,应用和评估基于期望最大化的聚类。

软件包

数据

我们将使用mclust软件包附带的“糖尿病”数据。

data(diabetes)summary(diabetes)## class glucose insulin sspg## Chemical:36 Min. : 70 Min. : 45.0 Min. : 10.0## Normal :76 1st Qu.: 90 1st Qu.: 352.0 1st Qu.:118.0## Overt :33 Median : 97 Median : 403.0 Median :156.0## Mean :122 Mean : 540.8 Mean :186.1## 3rd Qu.:112 3rd Qu.: 558.0 3rd Qu.:221.0## Max. :353 Max. :1568.0 Max. :748.0

期望最大化(EM)

期望最大化(EM)算法是用于找到最大似然的或在统计模型参数,其中该模型依赖于未观察到的潜变量最大后验(MAP)估计的迭代方法。期望最大化(EM)可能是无监督学习最常用的算法。

似然函数

似然函数找到给定数据的最佳模型。

期望最大化(EM)算法

假设我们翻转硬币并得到以下内容 - 0,1,1,0,0,1,1,0,0,1。我们可以选择伯努利分布

或者,如果我们有以厘米为单位的人的身高(男性和女性)的数据。高度遵循正常的分布,但男性(平均)比女性高,因此这表明两个高斯分布的混合模型。

贝叶斯信息准则(BIC)

以糖尿病数据为例

EM集群与糖尿病数据使用mclust。log.likelihood:这是BIC值的对数似然值n:这是X点的数量df:这是自由度BIC:这是贝叶斯信息标准; 低是好的ICL:综合完整X可能性 - BIC的分类版本。clPairs(X,class.d)

EM的绘图命令会生成以下四个绘图:

BIC值用于选择簇的数量

聚类图

分类不确定性的图表

簇的轨道图

 


参考文献

1.R语言k-Shape算法股票价格时间序列聚类

2.R语言中不同类型的聚类方法比较

3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的层次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本挖掘聚类

7.用于NLP的Python:使用Keras的多标签文本LSTM神经网络

8.R语言对MNIST数据集分析 探索手写数字分类数据

9.R语言基于Keras的小数据集深度学习图像分类

拓端tecdat|R语言:EM算法和高斯混合模型的实现相关推荐

  1. 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险

    最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...

  2. 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测

    最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...

  3. 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系

    最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...

  4. 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例

    最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...

  5. 论文R语言复现 | 基于 EM 算法的高斯混合模型参数估计

    高斯混合概率在众多领域都有重要应用,依据已知观测数据估计高斯模型中未知参数就显得尤为重要,由于观测值具体来自于高斯分布的哪个分模型是未知的,那么利用传统的极大似然( MLE) 方法进行参数估计就变得十 ...

  6. EM算法在高斯混合模型学习中的应用

    本篇文章是之前期望极大算法(EM算法)文章的后续,有需要可以先看看那篇文章关于EM算法的推导. 高斯混合模型 高斯混合模型是研究算法的人避不开的一个东西,其在非深度学习的远古时代经常被用到,比如图像处 ...

  7. 百面机器学习—7.K均值算法、EM算法与高斯混合模型要点总结

    文章目录 一.总结K均值算法步骤 二.如何合理选择K值? 三.K均值算法的优缺点是什么? 四.如何对K均值算法进行调优? 五.EM算法解决什么问题? 六.EM算法流程是什么? 六.EM算法能保证收敛嘛 ...

  8. 机器学习教程 之 EM算法 :高斯混合模型聚类算法 (python基于《统计学习方法》实现,附数据集和代码)

    之前写过一篇博客讲述极大似然方法, 这一方法通常适用于知道观测数据 Y Y Y,求解模型参数 θ \theta θ的场合,即 P ( Y ∣ θ ) P(Y|\theta) P(Y∣θ). 但是,在更 ...

  9. 基于EM算法的高斯混合模型参数估计

    一 算法思想 对于样本数据集所含变量都是可观测的,我们一般应用极大似然估计法或者贝叶斯估计法估计模型参数.但若样本数据集中存在不可观测的变量(隐变量),那么单纯的极大似然估计法是不可用的:EM算法(e ...

  10. 采用EM算法对高斯混合模型(GMM)进行参数估计

    介绍一个EM算法的应用例子:高斯混合模型参数估计. 高斯混合模型 高斯混合模型(Gaussian Mixture Model, GMM)是由多个高斯分布组成的模型,其密度函数为多个高斯密度函数的加权组 ...

最新文章

  1. opencv使用cvFindContours提取联通域
  2. Jquery怎样返回上一页
  3. m227fdw恢复出厂设置_惠普M227fdw使用说明
  4. version robot
  5. C语言 数据结构 栈的数组实现 realloc函数
  6. Windows XP系统安装SQL Server 2005(开发版)图解
  7. CDH6报错解决全记录
  8. 【OpenStack】【Nova】安装与配置详解 (1)
  9. [转载] NumPy 基本操作(ndarray通用函数 / 常用函数)
  10. 1.4_12 Axure RP 9 for mac 高保真原型图 - 案例11 【动态面板-滚动条1】
  11. C# “配置系统未能初始化”
  12. GitHub项目之12306抢票软件
  13. 40亿!神州收购宝沃汽车67%股权
  14. Debian 10安装教程
  15. 小程序华为手机canvas不显示问题
  16. MySQL再叙(体系结构、存储引擎、索引、SQL执行过程)
  17. [xdm+ip]ubuntu下载数据慢或者不通
  18. 2020年6月六级真题翻译:青藏铁路
  19. python批量剪辑音频pydub
  20. 神经网络翻译是什么意思,神经网络用英文怎么说

热门文章

  1. hadoop包含哪些技术?
  2. Pytorch和caffe对maxpool模式ceil比较
  3. django相关操作
  4. Java基础6:代码块与代码加载顺序
  5. 智能家居如何让消费者心甘情愿地买单
  6. Codeforces 768B - Code For 1(分治思想)
  7. webpack打包非模块化js
  8. 多线程下不反复读取SQL Server 表的数据
  9. C++ - 派生类访问模板基类(templatized base class)命名
  10. java中4种修饰符访问权限的区别