参考:https://blog.csdn.net/eternity1118_/article/details/51516497

一、简介

  • 之前介绍过K-Means聚类,尽管这个算法很常用,但可能会遇到像聚类重叠,或聚类的形状不是圆形等问题。今天来学习一个新的聚类算法,叫EM聚类,这个算法本质上来说跟K-Means很像,但比K-Means全面更深入的描述一个聚类,因为除了利用均值(质心),还有方差(为了得到椭圆聚类),以及权重(聚类的size)。

  • 为了更好地学习EM,先来举个例子:假设我们从一所高中里随机抽取了500个同学的鞋码数据,现在我们要在不知道任何信息的情况下对这500个数据进行分类,哪个是来自男生,哪个是来自女生;对于任何一堆数据我们都可以用高斯分布来拟合,基于这样一个假设,我们假定男生和女生的鞋码均满足不同参数下的高斯分布,并且给定一个初始的参数值(均值和方差),根据这个已知参数的高斯分布可以粗略地将每一个数据都划分到指定类(属于男生或女生);另外由于男生的鞋码普遍比女生大,一般在39到44之间,那么均值大略就是42左右,所以如果有一个数据是41,那么我们就更大可能地将其分到男生,基于此判别,我们就得到了500个数据的初始分类,然后根据极大似然的求解方法,利用这些属于男生分类的鞋码数据重新估计男生鞋码的高斯分布的参数,同样的方法重新估计出女生鞋码的高斯分布的参数;接着在男生和女生的鞋码分布被重新估计之后,归属于这两个分布的概率也随之会发生变化,那么我们就继续更新,这样多次迭代,直到两类的分布参数变化甚小停止迭代更新。

二、EM中用到的相关概念

2.1 边缘概率分布


2.2 Jensen(詹森)不等式


三、EM(期望最大化)基本原理

  • 设样本数据(x1,x2,…,xn)间互相独立,每个样本对应的类别zi未知,我们的目的是确定样本所属类别使得p(xi;zi)最大化,则其似然函数为:

    取对数:
    (1)
  • 定义类别变量zi满足某一分布Qi,并且该分布(离散分布)满足以下条件:
    (2)
  • 因此,利用上述提到的詹森不等式对公式(1)变形得到:
  • 因为:

    其实就是

    的期望,所以由詹森不等式可推导出如下:
    (3)
  • 到这里,可能会有人疑惑了,詹森不等式里明明是≤,为什么这里却变成了≥呢?很简单,这是因为詹森不等式是对凸函数而言的,但是我们这里的对数函数很明显它是一个凹函数啊,所以不等式符号要颠倒。
  • 至此,通过公式(3)的求解我们得到了似然函数l(theta)的下界,如果theta已知,那么似然函数l(theta)的值就取决于两个概率Qi(zi)、p(xi;zi),因此可以通过调整Qi(zi)\、p(xi;zi)的值,使公式(3)由不等式变成等式,这样来逼近似然函数l(theta)的值。根据詹森不等式可以知道,当且仅当X为常量时,不等式取等号,于是有:
    (4)
    其中C是常量,对于一系列不同的zi值,进行求和得到:
  • 又因为分母上为1(根据公式(2)),所以有:

    代入公式(4),并且引入条件概率公式可得:
  • 上式给出了关于类别的分布,剩下的工作就是对似然函数l(theta)进行最大化了:

四、小结

  • 与K-Means不同的是,EM(期望最大化)聚类并不计算距离,而是计算概率(并且明显要比K-Means复杂的多),用一个给定的多元高斯概率分布模型来估计出一个数据点属于一个聚类的概率,即将每一个聚类看作是一个高斯模型

    同样主要由两步交替进行:

    E-step对于每一个数据点,我们要计算其属于其中每个聚类的概率作为权重:如果一个点很大可能属于一个聚类,就将对应的概率设置为接近1的值,对于那种可能会出现一个点属于2个或多个聚类的情况,就需要建立一个对聚类的概率分布,所以EM算法有一个特性,就是没有严格要求一个点必须要属于一个聚类,这一特性被称为“软聚类(soft clustering)”。

    M-step:这一步骤主要是利用上一步计算的权重来估计每个聚类的有关参数(均值、方差):每一个数据点以E-step中的概率作权重,然后与K-means一样计算每一个聚类的均值和方差,进而求取聚类的总体概率或极大似然。

  • 这样通过E-step和M-step的不断交替来增加总的对数似然直到收敛,而且最大值也有可能陷入局部最优,所以需要多次迭代。

EM(期望最大化)聚类算法详解相关推荐

  1. 图解机器学习算法(13) | 聚类算法详解(机器学习通关指南·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/34 本文地址:https://www.showmeai.tech/article-d ...

  2. 聚类 python_python中实现k-means聚类算法详解

    算法优缺点: 优点:容易实现 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢 使用数据类型:数值型数据 算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他们的相近关系的,相近 ...

  3. 谱聚类算法详解及代码实现

    谱聚类算法详解及代码实现 文章目录 谱聚类算法详解及代码实现 参考 关于谱聚类介绍 谱聚类概述 谱聚类前置知识 无向权重图 邻接矩阵 度矩阵 拉普拉斯矩阵 相似度矩阵 确定目标函数 初始化目标函数(最 ...

  4. kmeans聚类算法matlab_KMeans聚类算法详解

    "如果把人工智能比作一块大蛋糕,监督学习只是上面的一层奶油". 日常生活中,从人脸识别.语音识别到搜索引擎,我们看到越来越多人工智能领域的算法逐渐走向落地.尽管全球每日新增数据量以 ...

  5. FCM聚类算法详解(Python实现iris数据集)

    参考:https://blog.csdn.net/on2way/article/details/47087201 模糊C均值(Fuzzy C-means)算法简称FCM算法,是一种基于目标函数的模糊聚 ...

  6. K-means聚类算法详解

    K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般.最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用.看了Andrew Ng的这个讲义后才有些明白K- ...

  7. Kmeans聚类算法详解

    1. 前言 作为无监督聚类算法中的代表--K均值聚类(Kmeans)算法,该算法的主要作用是将相似的样本自动归到一个类别中.所谓的监督算法,就是输入样本没有对应的输出或标签.聚类(clustering ...

  8. 聚类算法详解——深度AI科普团队

    聚类是一种无监督的学习,它将相似的对象归到同一个簇中.它有点像全自动分类.聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好. K-均值聚类算法 基本概念: 簇:假定有一些数据,现在将相 ...

  9. spectral-cluster聚类算法详解

    欢迎关注"生信修炼手册"! spectral clustering,称之为谱聚类算法,和近邻传播AP算法一样,也是基于图论的算法,都是将样本点两两相连,构成图这一数据结构,不同的是 ...

最新文章

  1. 惠普中国前总裁孙振耀:离开时心痛得哭了出来
  2. 数据科学研究院第四届“院长接待日”成功举办
  3. 【Linux入门到精通系列讲解】Nginx详细介绍和安装使用(这一篇就够了)
  4. 网页设计中的默认字体样式详解
  5. 【Windows8系统控制面板和电脑设置在哪个位置】
  6. 如何保证用户登陆时提交密码已经加密
  7. TensorFlow系列(一):TensorFlow是什么
  8. 【Flink】IncompatibleClassChangeError: Found class org.apache.flink.streaming.runtime.tasks.Processing
  9. 《剑指offer》面试题23——从上往下打印二叉树
  10. Atitit Atitit 零食erp数据管理---世界著名零食系列数据.docx世界著名零食
  11. java clear new_Java基础之Map的clear和new的区别
  12. 工程系列 计算机中级职称,工程类中级职称有哪些
  13. 决策树first task之框架搭建和提出问题
  14. java构造块与静态块
  15. 浅谈如何做好项目管理
  16. Python PDF文件合并,提取
  17. 使用python 绘制统计图,(折线图,条形统计图,扇形统计图)
  18. 重回华语乐坛神仙打架的时代——飞利浦S302圈铁耳机评测
  19. C - 鬼吹灯之龙岭迷窟
  20. 五金制品厂物料产品编码方案(2)

热门文章

  1. Ubuntu16.04 在ROS中配置RealSence D435 并标定深度相机与rplidar外参
  2. 基于python编写一个名片管理系统
  3. 页面应用访问统计 - GA [Google Analytics]
  4. 计算机网络的基本组成包括哪些,计算机网络系统一般由哪些部分组成?
  5. 回环地址--Loopback
  6. java 初始化从句_java中if从句
  7. 毕业设计-基于微信小程序的在线考试系统
  8. H.266帧内预测:位置决定的帧内预测组合(PDPC)
  9. 周计划周记录:2022年6月13日-2022年6月19日
  10. 灵眸action_大疆 Osmo Action 灵眸运动相机评测:GoPro 终于有了像样的对手