文章目录

  • I . 高斯混合模型方法 ( GMM )
  • II . 硬聚类 与 软聚类
  • III . GMM 聚类结果概率的作用
  • IV . 高斯混合分布
  • V . 概率密度函数
  • VI . 高斯分布 曲线 ( 仅做参考 )
  • VII . 高斯混合模型 参数简介

I . 高斯混合模型方法 ( GMM )


1 . 高斯混合模型 与 K-Means 相同点 : 高斯混合模型方法 与 K-Means 方法 , 都是通过多次迭代 , 每次迭代都对聚类结果进行改进 , 最终达到算法收敛 , 聚类分组结果达到最优 ;

2 . 高斯混合模型 与 K-Means 不同点 :

① K-Means 方法 : 使用 K-Means 方法的 聚类结果是 某个样本 被指定到 某个聚类分组中 ;

② 高斯混合模型 : 高斯混合模型的聚类分析结果是 , 某个样本 被分到了 某个聚类分组 中 , 但是除此之外还给出了 该样本 属于 该聚类概率 , 意思是 该样本 并不是 一定属于该聚类 , 而是有一定几率属于 ;

③ 高斯混合模型 应用场景 : 高斯混合模型 需要训练学习出 概率密度函数 , 该方法除了用于 聚类分析 外 , 还可以用于 密度估计 等用途 ;

II . 硬聚类 与 软聚类


硬聚类 与 软聚类 :

① 硬聚类 (硬指派 ) : K-Means 方法中 , 每个数据集样本 , 都被指派了一个聚类分组 ;

② 软聚类 ( 软指派 ) : 高斯混合模型方法中 , 每个数据集样本 , 也都被指派了一个聚类分组 , 此外还指定了该样本属于该聚类分组的概率 , 即该样本不一定属于该聚类分组 , 有一定几率属于其他聚类分组 ;

③ 硬指派概率 : 硬指派中 , 样本如果属于某个聚类分组 , 就是 100% 属于 , 如果不属于某聚类 , 就是 0% 属于 , 没有概率的概念 ;

III . GMM 聚类结果概率的作用


1 . 概率信息 : 高斯混合模型 方法 的 聚类结果 附带 样本 属于 聚类 的 概率 , 其包含的信息量 远远高于 K-Means 方法的 单纯的样本聚类分组 ;

2 . 聚类概率 : 聚类算法并不是万能的 , 不能保证 100% 准确 , 这里可以将 高斯混合模型 样本 的 聚类分组 概率值 , 转为一个评分 , 用该评分表示 聚类结果 的准确性 ;

3 . 评分作用 : 同一个聚类分析 , 使用不同的方法 , 得到 多个结果 , 每个结果都有 聚类概率 转化的一个评分 , 可以将 聚类结果评分 最高的那个结果 当做 最终结果 ;

4 . 示例 : 疾病诊断场景 , 为病人样本进行聚类分组 , 最终结果是 49%49\%49% 的概率分到得病的聚类分组 , 51%51\%51% 分到不得病的聚类分组 , 如果靠机器判定该病人样本是否得病 , 风险太大了 , 这里保守的方法是计算机给出意见 , 但是不能下决定 , 让医生根据这个 聚类 和 概率 进行后续的诊断治疗工作 ;

IV . 高斯混合分布


高斯混合分布 概念 : 高斯混合模型 数据集样本 服从 高斯混合分布 ;

① 高斯分布 : 又叫 正态分布 , 常态分布 ; 高斯分布曲线两头低 , 中间高 , 呈钟形 , 又叫钟形曲线 ;

② 高斯混合分布 : kkk 个高斯分布 生成 高斯混合分布 , 这里的 kkk 是聚类分组的个数 ;

V . 概率密度函数


概率密度函数 :

① 组件 ( 高斯分布 ) :每个高斯分布 , 都是一个组件 , 代表一个聚类分组中的样本分布 ;

② 组件叠加 ( 高斯混合分布 ) : kkk 个组件 ( 高斯分布 ) 线性叠加 , 组成了 高斯混合模型的 概率密度函数 ;

p(x)=∑i=1kωig(x∣μi,Σi)p(x) = \sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )p(x)=i=1∑k​ωi​g(x∣μi​,Σi​)

xxx 表示数据集样本中的 单个样本数据对象 ;

ωi\omega_iωi​ 是权重系数 , 表示某个 高斯模型 的重要程度, 重要的分布 , ωi\omega_iωi​ 值大 , 不重要的分布 , ωi\omega_iωi​ 权重小 ;

ωi\omega_iωi​ 表示该 xxx 样本由第 iii 个 高斯分布 ( 组件 ) 生成的概率 , 也就是 该样本被指派到某个聚类的概率 ; iii 代表了高斯分布的序号 , 聚类分组的序号 , 组件的序号, 其取值范围是 0≤i≤k0 \, \leq i \leq \, k0≤i≤k ;

kkk 表示 高斯分布 ( 正态分布 / 组件 ) 的个数 , 也是聚类分组的个数 , 每个聚类分组的样本都是 高斯分布 ( 正态分布 ) 的 ;

g(x∣μi,Σi)g ( x | \mu_i , \Sigma_i )g(x∣μi​,Σi​) 是高斯模型 的概率密度函数 ;

μi\mu_iμi​ 是 高斯模型 的 均值 ;

Σi\Sigma_iΣi​ 是高斯模型的 方差 ;

均值和方差唯一决定一个高斯模型 ( 正态分布 ) ;

VI . 高斯分布 曲线 ( 仅做参考 )


高斯分布 : 高斯分布曲线是钟形曲线 , 中间的 μ\muμ 是其 样本分布的 均值 , 该值位置处的样本数最多 , σ\sigmaσ 是其样本的方差 , 这是 111 个标准的高斯分布的模型 ;

高斯混合模型 : 下图是 多个 高斯分布 线性叠加后的 曲线表示图 , 仅做参考 ;

VII . 高斯混合模型 参数简介


1 . 模型 与 参数 : 高斯混合模型 概率密度函数 :

p(x)=∑i=1kωig(x∣μi,Σi)p(x) = \sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )p(x)=i=1∑k​ωi​g(x∣μi​,Σi​)

模型结构已知 , 即 高斯混合模型 , 需要根据已知的数据样本 , 学习出模型的参数 ;

2 . 高斯混合模型 参数个数 :

① 聚类个数 ( 高斯模型个数 ) : 每个高斯混合模型 都由 kkk 个高斯模型 ( 组件 ) 线性叠加组成的 ;

② 高斯模型参数 : 每个高斯模型 都有两个参数 , 即 均值 μi\mu_iμi​ , 方差 Σi\Sigma_iΣi​ ;

③ 样本属于聚类分组概率 ( 系数 ) : 每个高斯模型 还有一个系数参数 , ωi\omega_iωi​ 表示该 xxx 样本由第 iii 个 高斯分布 ( 组件 ) 生成的概率 , 也就是 该样本被指派到某个聚类的概率 ;

④ 每个高斯模型相关参数个数 : kkk 个 高斯模型 , 每个高斯模型有 均值 μi\mu_iμi​ , 方差 Σi\Sigma_iΣi​ , 生成概率 ωi\omega_iωi​ 等 333个参数 ;

⑤ 高斯混合模型参数个数 : 整个 高斯混合模型 有 3×k3 \times k3×k 个参数 , kkk 是聚类分组个数 , 也是高斯模型个数 , 正态分布个数 ;

Σi\Sigma_iΣi​ 此处方差表示 , 是大写的希腊字母 sigma σ\sigmaσ , 注意与加和符号 ∑\sum∑ 区分 ;

K-Means 方法中 , 有 kkk 个参数 , 每个聚类分组 , 只有一个参数 , 即中心点样本参数 ;

【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )相关推荐

  1. 基于模型的聚类和R语言中的高斯混合模型

    介绍 四种最常见的聚类方法模型是层次聚类,k均值聚类,基于模型的聚类和基于密度的聚类 . 最近我们被客户要求撰写关于聚类的研究报告,包括一些图形和统计输出. 可以基于两个主要目标评估良好的聚类算法: ...

  2. 高斯混合模型聚类_GMM: Gaussian Mixed Model(高斯混合模型)

    0. 简介 GMM和Kmeans一样也属于聚类,其算法训练流程也十分相似,Kmeans可认为是"硬聚类",GMM是"软聚类". 给定数据集X,Kmeans算法流 ...

  3. 机器学习与数据挖掘,机器学习算法简介

    ​什么是数据挖掘 数据挖掘就是从大量的数据中去发现有用的信息,然后根据这些信息来辅助决策.听起来是不是跟传统的数据分析很像呢?实际上,数据挖掘就是智能化的数据分析,它们的目标都是一样的.但是,又有很大 ...

  4. LDA主题模型简介及Python实现

    一.LDA主题模型简介 LDA主题模型主要用于推测文档的主题分布,可以将文档集中每篇文档的主题以概率分布的形式给出根据主题进行主题聚类或文本分类. LDA主题模型不关心文档中单词的顺序,通常使用词袋特 ...

  5. 【论文速览】深度模型-降维与聚类

    [论文速览]深度模型-降维与聚类 [文章一]InfoGAN: Interpretable Representation Learning by Information Maximizing Gener ...

  6. 信用评分卡(A卡/B卡/C卡)模型简介

    如今在银行.消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判.但是不是所有人都知道信用评分卡还分A,B,C卡三类! A卡(Application sc ...

  7. 信用评分卡(A卡/B卡/C卡)的模型简介及开发流程|干货

    本文转自:https://blog.csdn.net/varyall/article/details/81173326 零.什么是信用评分卡 如今在银行.消费金融公司等各种贷款业务机构,普遍使用信用评 ...

  8. 机器学习之原型聚类算法(K均值和高斯混合)

    "原型"是指样本空间中具有代表性的点. 原型聚类算法是假设聚类结构能通过一组原型进行刻画,在现实聚类任务中极为常用. 通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解 ...

  9. 数据挖掘常用的模型,具体有哪些?

    机器学习和数据挖掘是紧密相关的,要进行数据挖掘需要掌握一些机器学习所用的方法和模型知识,通过模型的训练可以得到处理数据的最优的模型.数据挖掘常用的模型如下: 3.1 监督学习模型 就是人们常说的分类, ...

最新文章

  1. 从粗放到精细,如何用AI技术实现信息流广告投放的降本增效
  2. python新特性赋值_变量与赋值_Python入门视频课程_Python视频-51CTO学院
  3. Qt控制中控考勤SDK
  4. hdu4768 非常规的二分
  5. 炫酷实用的jQuery插件 涵盖菜单、按钮、图片
  6. linux/windows上STM32固件烧写工具的开发demo
  7. 计算机网络中为什么引入IP地址?
  8. 暴风影音3 Build version : 3.7.11.13 漏洞
  9. 必看!100道Java程序员面试题(含答案)!
  10. 偶极子天线参数优化记录
  11. 量化投资03---小市值轮动因子---准备工作01
  12. 2015移动互联网行业趋势盘点(PPT)
  13. 打印机复印身份证方法
  14. 一图看懂中国AI战场局势:只有百度和华为真的在做AI
  15. CDN边缘智能助力5G
  16. 161、锐捷交换机如何配置ssh管理
  17. 联想MIIX520笔记本电脑屏幕亮度无法调节问题
  18. 系列学习分布式任务调度 XXL-JOB 之第 2 篇 —— 调度中心集群
  19. AMQ的一些简单实战
  20. ipad2/3分辨率

热门文章

  1. JavaScript 返回多个值
  2. 实践周java基础软件开发app之五子棋
  3. PHP下的Oauth2.0尝试 - OpenID Connect
  4. 0.11内核rd_load@ramdisk.c中memcpy函数好像有bug
  5. vs中调试中的命令行参数
  6. 在进入新版本 的时候,进行推送引导
  7. Opera 扩展文章目录
  8. 管理文库]我喜欢的10个经典管理学定律点评
  9. stm32断言的使用
  10. 将GB28181国标流转成RTSP流