之前介绍了06年KDD会议上进化聚类的开创性论文,今天要介绍的就是借鉴其思想的优秀算法中的代表之一《结合时间平滑性的进化谱聚类》。作者Yun Chi等人发布在07年的KDD会议上。

论文题目:《Evolutionary Spectral Clustering by Incorporating Temporal Smoothness》

摘要:进化聚类是一个新兴研究领域,他是比如在Web网页动态聚类和博客内容和聚类数据流等应用的重要基础。在进化聚类中,一个好的聚类结果既要与当前数据很好的拟合,同时又不能与最近的历史有太大的偏差。为了同时实现这两个目标,在聚类质量的度量中集成了时间平滑度度量。在这片论文中,我们提出了两种将时间平滑性纳入进化谱聚类的框架。对于两个框架来说,我们都是从已知的k-means聚类问题中得到的直觉(intuitions)出发,然后针对进化谱聚类问题提出并求解相应的代价函数。我们对进化谱聚类问题的解决方案提供了更稳定、更一致的聚类聚类结果,这些结果对短期噪声不敏感,同时对长期聚类漂移(cluster drifts)具有自适应能力。除此之外,我们证明了我们的方法为相应的进化k-means聚类问题的放松版(relaxed versions)提供了最优解。在一系列的真实和生成数据集上的性能实验表明了我们的进化谱聚类方法提供了对噪声不敏感且适应数据漂移(data drifts)的更健壮的聚类结果(clustering)。

分类:Database Applications——Data mining,Information Search and Retrieval——Information filtering

关键词:Evolutionary Spectral Clustering,Temporal Smoothness,Preserving Cluster Quality,Preserving Cluster Membership,Mining Data Streams

简介:在许多聚类应用中,要聚类的对象特征会随着时间而变化。通常,这些特征变化既包含概念漂移(concept drift)引起的长期趋势,也包含噪声引起的短期变化。比如,在聚类博客站点的博客空间中(例如,用于社区检测),博主的兴趣和友谊网络可能会随着时间缓慢漂移,同时,外部事件可能会触发短期变化。另一个例子是,在一个无处不在的计算环境中,装有GPS和无线连接的运动物体被聚类(例如,用于交通拥堵预测或动物迁移分析)。运动物体的坐标在长期内可以沿一定的路线运动,但由于带宽和传感器精度的限制,其在给定时间的估计坐标可能会发生变化。

在这些应用场景中,待聚类的对象会随着时间演化,这对传统的聚类算法提出了新的挑战。一方面,当前的聚类主要依赖于当前的数据的特征——在非平稳的场景(nonstationary scenarios)中,聚合所有的历史数据特征几乎没有意义。另一方面,当前的聚类结果不应该与历史偏差较大。这是因为在大多数动态应用(dynamic applications)中,我们不希望数据变化太快,因此,我们希望在连续的时间步骤中的聚类结果之间具有一定程度的时间平滑性(temporal smoothness)。

我们用下面的例子来说明这一点。假设我们要将5个博客分为两个集群。图1展示了5个博客在时间t-1和t上的关系图,图上每个顶点代表一个博客,节点之间边上的数字代表相似性(如,连接的数目)。显然,t-1时刻的博客应该用CutⅠ 进行聚类。t时刻的聚类不是很清晰。CutⅡ和CutⅢ对博客进行均等划分。但根据时间平滑性原则,CutⅢ更符合近期历史(t-1时刻)。同样的思想被用于时间序列分析中,移动均线(moving average)经常被用来平滑短期波动。因为类似的短期方差也存在剧聚类应用中,要么是由于数据噪声,要么是因为聚类算法的非鲁棒(non-robust)行为(如,收敛到不同的局部次优模式(locally suboptimal modes)),因此需要新的聚类技术来处理演化对象并获得稳定一致的聚类结果。

本文提出了两种进化谱聚类算法,其中聚类代价函数包含了正则化时间平滑的项。进化聚类首次由Chakrabarti提出,他们提出类进化层次聚类问题和进化k-means聚类问题的启发式解决方案。在本文中,我们将重点研究在更严格的框架下的进化谱聚类算发放。谱聚类算法有着坚实的理论基础并且有着不错的表现。它被成功应用于文档聚类、图像分割、Web/blog聚类等多个领域。谱聚类算法可以看作是解决特定图划分问题,需要对不同的基于图的测度(measures)进行优化。在此基础上,我们利用基于图的度量方法定义了进化谱聚类算法中的代价函数,并得到了相应的(松弛的relaxed)最优解。同时,研究表明,这些图划分问题与k-means聚类问题的不同变化有着密切联系。通过这些联系,我们证明了进化谱聚类作为特例为相应的进化k-means聚类问题提供了解决方案。

总的来说,我们的论文有下面几个主要的贡献:

1.我们提出了两种进化谱聚类的框架,其中时间平滑性被纳入整体聚类质量。据我们所知,我们的框架是谱聚类算法的第一个进化版本。

2.我们得到了放松版本(relaxed)进化谱聚类框架的最优解。因为不放松版本(unrelaxed)是NP-hard问题,我们的解决方案提供了获得最终聚类的实用方法和算法性能的上界。

3.我们还对算法进行了扩展,以处理聚类数量随时间改变和新数据点插入,旧数据点被移除的问题。

Evolutionary Spectral Clustering by Incorporating Temporal Smoothness论文整理相关推荐

  1. 【论文阅读和实现】On Spectral Clustering: Analysis and an algorithm【Python实现】

    On Spectral Clustering: Analysis and an algorithm https://github.com/Sean16SYSU/MachineLearningImple ...

  2. spectral clustering谱聚类论文解读(上)

    关于A Tutorial on Spectral Clustering的解读 1.介绍 2.相似图 2.1 图的标号 2.2 不同的相似图 3.拉普拉斯图与它的基础参数 3.1未归一化的拉普拉斯矩阵 ...

  3. 【论文笔记】:《Lifelong Spectral Clustering》

    论文笔记:Lifelong Spectral Clustering 论文信息 个人总结 谱聚类 论文做了什么(Abstract) 公式解读 The Proposed L2SC Model 提出模型 M ...

  4. Spectral clustering 谱聚类讲解及实现

    简述 https://github.com/Sean16SYSU/MachineLearningImplement 这篇是在网上看了wiki之后写出来的代码. 附上一篇看过论文之后根据论文实现的版本: ...

  5. 【机器学习】谱聚类(Spectral Clustering)

    疑问 谱聚类的概念 谱聚类是一种针对图结构的聚类方法,将每个点都看作是一个图结构上的点,所以,判断两个点是否属于同一类的依据就是,两个点在图结构上是否有边相连,可以是直接相连也可以是间接相连.本质上就 ...

  6. Spectral Clustering

    Spectral Clustering(转) 如果说 K-means 和 GMM 这些聚类的方法是古代流行的算法的话,那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了 ...

  7. Large Scale Spectral Clustering with Landmark-Based Representation

    论文:AAAI 2011 代码:Julia 基于锚点的谱聚类 核心: 选取一个较小的anchor集[通常为原始数据点的子集],计算所有数据点和anchor集之间的相似度,减少相似度矩阵维度 or 使得 ...

  8. Fast spectral clustering learning with hierarchical bipartite graph for large-scale data

    Fast spectral clustering learning with hierarchical bipartite graph for large-scale data 基于层次二分图的大规模 ...

  9. 谱聚类(spectral clustering)及其实现详解

    Preface 开了很多题,手稿都是写好一直思考如何放到CSDN上来,一方面由于公司技术隐私,一方面由于面向对象不同,要大改,所以一直没贴出完整,希望日后可以把开的题都补充全. 先把大纲列出来: 一. ...

最新文章

  1. unity 关闭自己脚本_Unity3D 挂载的脚本取消勾选居然还会运行!!
  2. 如何将自己写的verilog模块封装成IP核(一)
  3. 听说蒂姆·库克来了?这和我们有什么关系!
  4. OpenGL-坐标系概念
  5. html悬浮窗口退出,网页中可关闭的漂浮窗口实现
  6. Web前端工作笔记012---IE8兼容_WebSocket
  7. 云原生就一定安全吗?
  8. 中数据逆序输出_C语言 | 建立链表,输出各结点中的数据
  9. python核心编程第13章答案
  10. Lisp真的是屠龙之技吗?
  11. 用数字电路和模拟电路搭建出循迹小车(一)
  12. 软件系统质量属性可用性-稳定性-可靠性-连续性辨析-架构权衡分析方法
  13. python简易版成绩管理系统_Python学生成绩管理系统简洁版
  14. [POJ3683]Priest John's Busiest Day
  15. JavaSE学习笔记_20:Java网络编程
  16. 淘宝直播火爆的背后,阿里做了什么?
  17. HTML5期末大作业:电影网站设计——漫威电影(2页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 web学生网页设计作业源码...
  18. 开发者 发展 5 热情
  19. KeyError: ‘/home/xxx/anaconda3/lib/python3.8/site-packages/parso/python/grammar38.txt‘
  20. MindSpore【数据集功能】无法查看数据集

热门文章

  1. 如何根据SIM卡背面的10位序列号判断运营商,国家,地区,卡商
  2. 关于SearchView设置字体颜色,提示字体及背景的解决方法
  3. html5图片中加入文字,HTML肿么在图片上添加文字,也就是图片作为背景,代码和图像显示如下...
  4. python学习-进阶
  5. 测试还是国外的香?走进海外测试开发工程师
  6. python:计划持有基金n年,求n年的每年复利_利率
  7. Android 读取本地txt文件中的内容
  8. java如何生成api文档_api文档自动生成工具
  9. 小猫排队 (思维 模拟
  10. 前端知识之angular组件库之NG-ZORRO-ANTD结构窥探(一)components