图聚类算法研究现状

聚类分析是一种常用的机器学习技术,它的目的是将一个数据点划分为几个类。同一个类的数据之间具有较高的相似性,不同的类之间的相似度较低。

很多研究已表明图聚类是一种极具竞争力的聚类算法,图聚类是一种基于图划分理论的算法。与其他聚类算法相比,图聚类算法有些明显的优势。该方法可识别任意形状的聚类,使其在现实生活中得到广泛的应用。目前,在许多领域都成功地运用了图聚类算法,比如文本挖掘,网页划分,图像分割,视频分割,语音识别等

对图聚类算法仍处于初始阶段,还存在一些值得进一步研究的问题。尤其是以下方面:

  • 如何选择合适的相似度矩阵,相似度矩阵的差异会对图聚类的性能有影响
  • 真实数据的大部分数据是无标签数据,只有少部分数据是存在标签的,如何利用少量标签引导聚类
  • 图聚类的计算时间复杂度比较高
  • 如何自动确定聚类个数k,减少调参数的困扰

图聚类源于图划分理论,是近年来较为流行的聚类算法,图聚类算法的核心是将聚类问题看成图分割问题,并将图分割这个NP难问题,通过连续松弛化求解。本章研究涉及图聚类算法的三个相关技术:图划分理论,双随机矩阵,乘性更新。

图划分理论

图的$Laplacian$矩阵

对于邻接矩A,定义图G中子图a与子图b之间所有权的权值之和如下:

其中A_{i j}定义数据点i,j之间的权重。定义与数据点i相连的所有边权值之和为度d_{i},全部度构成度向量D:

构建拉普拉斯矩阵 L=D-A

别着急,下面我们来举个例子,看下拉普拉斯矩阵构建的过程。假设现在有6个数据点,如下图分布(可以是二维原始数据,也可以是基于某种相似规则计算了数据间的相似度量后所呈现的关联)

无向图连接

将此图转换为邻接矩阵的形式,记为矩阵A:

,度矩阵D为对角矩阵:

构造的拉普拉斯矩阵L=D-A:

一般常用的构造拉普拉斯矩阵的方法有如下几种:

其中S为相似矩阵,D为度矩阵,I为单位矩阵。

矩阵L有如下性质:

  • L是对称半正定矩阵
  • L最小的特征值是0,所对应的特征向量是
  • 对于任意向量

,满足:

证明:

通常,对于2-way划分准则,我们可以求取拉普拉斯矩阵特征值的第二小的特征向量即Fiedler向量,Fiedler向量也是图划分的势函数,用来进行聚类。势函数是表示样本归属于某个子集的指示型向量,势函数表示为:

通俗的说,就是如果样本势函数为1,那么此样本归属为a划分。如果是0,那么此样本归属为b划分。

图划分准则

图聚类问题的实质是图划分问题,聚类的过程其实就是对图划分过程的优化。优化的目的是使子图间的相似度变小,子图内的相似度变大。一般地,通过切割图G的边,将图划分为a,b两个不相交子图,子图a与子图b之间共边的权重值之和称之为割(cut),A代表连通图的邻接矩阵,其中

,则子图划分的目标函数为:

最小割

最小割是由wu等人1993年提出,原理是最小化该目标函数: cut(a,b),它将连通图A划分成两个子图a和b,使得子图间的公共连接权重值最小。但是最小割由于没有对类规模进行限制而仅考虑了聚类的外部连接,从而使得最小割容易使得子图划分出现歪斜分割不均匀现象(将原图分割后,某个子图含有样本量特别小,其他的子图含有样本量特别大,分割的子图不均衡)。为了解决这个问题,后来的标准都是引入了不同的平衡条件,以此获得更优的聚类准则。

正则割

正则割是由Shi和Malik在2000年提出:

其中,assoc(a , V)表示a中所有点与图中所有点相连的权重

正则割不单单加入了所有与节点相关的边权值进行计算,而且还考虑连接每个子图部分后的权值和。正则割为了考虑类间互相连接,从而引入容量的概念来规范类间相关。并针对正则割进行优化,提出了与之相关的规范关联目标函数:

其中,assoc(a , a)表示划分a部分中所有的节点之间的边权总和,assoc(a , b)表示划分后a,b两部分的连接边的权值总和。

最小最大割

CHQ Ding等在2001年提出最小最大割集准则为:

最小最大割能够同时最小化类间相似度,最大化类内相似度。

平均割

Soundararajian等在2001年提出平均割集的准则函数为:

比例割

Hagen和Kahng在2002年提出了比例割集准则函数为:

比例割可以最小化类间相似性,主要依赖在目标函数中引入类平衡项。在式中|a|,|b|分别表示子图a,b的顶点数目,比例割能够在一定程度上避免分割不均匀的问题。

上述多个准则划分都是将图划分为两个部分,一般记作2-way划分,为了将图划分为k个子图,引入了多路规范割(MNcut),我们有以下目标函数:

当k=2时,MNcut等价于NCut。

当类与类之间容易分开时,上述多种准则都能给出不错的聚类结果;当类与类不容易分开时,正则割能相对给出不错的聚类结果;当类与类严重重叠时,可以使用最小最大割给出子图相对平衡的聚类效果。很多实验表明正则割相对于其他准则具有相对稳定的性能,故一般图聚类首选正则割。

本章就介绍到这,计算最优图分割的公式推导,会在下一章给出。

文本聚类分析算法_集成聚类系列(三)图聚类算法详解相关推荐

  1. mysql服务器级别角色_服务器数据库系列 - MySQL事务隔离级别详解

    作者:xm_king SQL标准定义了4类隔离级别,包括了一些具体规则,用来限定事务内外的哪些改变是可见的,哪些是不可见的.低级别的隔离级一般支持更高的并发处理,并拥有更低的系统开销. Read Un ...

  2. python文件之间的相互调用_「Python 系列」 Python 生成器函数详解

    Python的生成器函数提供了一种强大的机制来管理数据和计算资源,但是对于Python的新手来说,它们不一定直观.在本文中,我将分解生成器的机制,同时还介绍我希望是一个有启发性的示例:用于管理和流传输 ...

  3. mongo 唯一约束索引_快速掌握mongoDB(三)——mongoDB的索引详解

    1 mongoDB索引的管理 本节介绍mongoDB中的索引,熟悉mysql/sqlserver等关系型数据库的小伙伴应该都知道索引对优化数据查询的重要性.我们先简单了解一下索引:索引的本质就是一个排 ...

  4. 图像分割UNet系列------UNet3+(UNet3plus)详解

    图像分割unet系列------UNet3+(UNet3plus)详解 1.UNet3+结构 2.UNet3+主要部分说明 3.总结     UNet3+发表于2020年的ICASSP,它是对UNet ...

  5. 集成式单片机外部模块驱动编写详解——AD5689为例

    集成式单片机外部模块驱动编写详解--AD5689为例 集成式驱动原理 AD5689基本介绍 AD5689驱动抽象及源码解释 源码 参考资料 具体的代码和例程请参照以下GitHub仓库,记得给我star ...

  6. Spring Cloud Eureka 入门 (三)服务消费者详解

    2019独角兽企业重金招聘Python工程师标准>>> 摘要: 原创出处:www.bysocket.com 泥瓦匠BYSocket 希望转载,保留摘要,谢谢! "真正的进步 ...

  7. JavaWeb --第三章 HTTP协议详解

    JavaWeb --第三章 HTTP协议详解 Http 什么是HTTP HTTP: 超文本传输协议(Hypertext Transfer Protocol,HTTP)是一个简单的请求-响应协议,它通常 ...

  8. flutter图片点击跳转_Flutter系列之Platform Channel使用详解

    PS:逐渐体会到关键少数原则的重要性,接下来就是付诸实践了,另外科创50ETF明天开始限额销售,可以适当关注或入手一点. 前面几篇文章介绍了 Navigator 组件.Flex 布局.图片加载.Wid ...

  9. kubernetes系列11—PV和PVC详解

    kubernetes系列11-PV和PVC详解 原文:kubernetes系列11-PV和PVC详解 本文收录在容器技术学习系列文章总目录 1.认识PV/PVC/StorageClass 1.1 介绍 ...

  10. 32.深度解密三十二:详解影响QQ群整体排名的那些秘密

    网络营销推广技术.技巧深度解密(三十二)指南: 1.本文档适合零基础以及互联网营销推广人员,主要讲解营销QQ群排名的一些问题. 2.原创版权文档,任何抄袭或者全部.部分模仿都是侵权行为. 3.敬畏法律 ...

最新文章

  1. 源码阅读心得11-13
  2. asp.net2.0学习历程 菜鸟到中级程序员的飞跃
  3. 《深入理解Nginx:模块开发与架构解析》一1.2 为什么选择Nginx
  4. OpenCV图像修补
  5. opencv训练样本分类器
  6. dubbo源码-服务发现
  7. gateway动态路由_微服务中的网关技术:Gateway
  8. 计算机信息安全管理大作业,《信息安全大作业》.doc
  9. 博客园鼠标点击烟花特效
  10. 拓端tecdat|R语言泊松回归对保险定价建模中的应用:风险敞口作为可能的解释变量
  11. 数据结构与算法 php pdf,数据结构与算法之美(完结)云盘分享_IT教程网
  12. OneNote使用教程
  13. 路由器桥接设置(扩大wifi信号)
  14. 一键实现证件照背景的替换,Python 制作可视化GUI界面真香啊
  15. 速学Sql Server从基础到进阶
  16. PS图层模式详细讲解
  17. 送分了QAQ(前缀和)
  18. mysql导vertica_vertica从其他表迁移数据到新表(insertinto语句用法实例)
  19. typora免费版,无需破解,安装直接使用
  20. 河南省哪所技校学计算机软件工程,河南技校排名前十有哪些?都有什么专业

热门文章

  1. 国内知名的java商城系统排名
  2. 哔哩哔哩2019秋招技术岗(前端、运维、后端、移动端)第一套笔试题
  3. Python安装pandas模块
  4. “智”在这里,图扑软件解码智慧选煤厂
  5. echarts官网的使用方法
  6. 解释PBR纹理贴图(texture-maps)
  7. java过滤空号了停机号_手机空号、停机、注销,空号检测为你去除无效号码
  8. SMA、SPI、LTE
  9. 雷赛acc68c说明书_深圳雷赛科技有限公司官网 雷赛智能公司怎么样 雷赛运动控制卡教程 雷赛步进电机说明书 雷赛m542c说明书 雷赛智能官网...
  10. 拯救者 linux 无线网卡驱动下载,联想y7000无线网卡驱动下载-联想拯救者y7000无线网卡驱动v19.51.22.2 官方版 - 极光下载站...