Fast spectral clustering learning with hierarchical bipartite graph for large-scale data

基于层次二分图的大规模数据快速谱聚类学习

abstract

传统方法:不适用大规模问题 高斯核函数

提出了一种新的基于层次二分图(SCHBG)的光谱聚类方法,该方法通过探索具有金字塔结构的多层锚来实现。

该算法首先构造一个层次二分图,然后对该图进行谱分析。因此,计算复杂度可以大大降低。此外,我们采用了一种无参数但有效的邻居分配策略来构造相似度矩阵,从而避免了对热核参数的调整。最后,该算法能够处理大规模数据的样本外问题,其计算复杂度显著降低。

introduction

为了便于建立有效的邻接关系,锚需要足够密集,否则无法获得合理的精度。因此,当处理超大规模数据集时,现有的基于锚定图的方法的计算成本将急剧增加,甚至变得难以解决。另一方面,如果锚太稀疏,性能将下降。

核函数带来超参数。

最后,大多数SC方法没有考虑样本外问题。这些方法通过训练所有原始样本来处理样本外问题。在我们的方法中,基于最后一层锚点建立了层内邻接关系。由于最后一层锚点可以设置在更小的范围内,因此,样本外的计算复杂度急剧下降

为了解决这些问题,受半监督学习、大规模谱聚类和大规模基于谱的降维以及基于二分图的谱聚类的最新进展的启发

提出……

算法主要分为两步:

  1. 第一步是构造具有金字塔结构的多层锚
  2. 第二步是使用原始数据点和最后一层锚点构造二部图

贡献:

  1. 首先,使用具有金字塔样式结构的多层锚来构造分层图。我们直接计算最后一层锚点和数据点之间的邻接矩阵,而不是使用大规模锚点。因此,SCHBG在聚类精度和时间开销方面表现出更好的性能。
  2. 采用无参数方法构造原始点与锚定点之间的相似矩阵。与基于锚图的SC方法不同,我们的方法可以避免调整热核参数σ。
  3. 通过融合原始点和最后一层锚点,我们扩展了层次图方法来处理大规模数据集的样本外问题。结果表明,该方法不仅获得了满意的聚类精度,而且节省了大量的时间

background

基于图谱聚类

锚图构造

使用kmeans

然而,为了建立有效的邻接关系,锚需要足够密集。否则,无法获得合理的准确度。因此,当处理超大规模的数据集时,现有基于锚图的方法的计算成本将显著增加,甚至变得难以解决。

基于层次二部图的谱聚类

为了获得合理的精确度,锚需要足够密集,以便建立有效的邻接。因此,SCAG的计算成本将急剧增加,以至于在超大规模的数据集中变得难以解决。解决此问题的一种可能方法是使用较少数量的锚,但是,如果锚太稀疏,性能会下降[25]。因此,在本节中,将介绍基于分层二分图(SCHBG)的谱聚类来解决此问题。此外,将展示SCHBG在处理样本外问题方面的优点。

层次二部图构造

受半监督学习中使用分层锚图的启发,我们在此构造了一个用于无监督学习的分层二部图。基于该图,提出了一种新的基于层次二分图方法(SCHBG)的谱聚类方法。SCHBG方法不仅处理大规模数据,而且在样本外具有更好的性能。

为了构造二分层次图,首先介绍了受半监督学习启发的基于层次锚的图的定义。

G=X,U,ζG = {X,U,\zeta}G=X,U,ζ 表示基于锚的层次图 X是数据矩阵 U是锚点集 ζ\zetaζ是相邻层之间的层间边缘的邻接矩阵

假设底层(H0)表示原始数据点X∈ R n×d 剩余层(Ha,a=1,…,H)由多个锚定U组成

UaU_aUa​的大小逐渐减小(Ua∈Rma×d,a=1,…,hU_a \in R^{m_a \times d},a=1,\dots,hUa​∈Rma​×d,a=1,…,h)也就是说 m 1 > …… > m h , ma是Ha中点的个数

ζ={Z0,1,…,Zh−1,h}∈Rn×m1,…,mh−1×mh\zeta = \{Z_{0,1},\dots,Z_{h-1,h }\} \in \mathbb{R}^{n \times m_1 ,\dots,m_{h-1} \times m_h}ζ={Z0,1​,…,Zh−1,h​}∈Rn×m1​,…,mh−1​×mh​

其中Za−1,aZ_{a-1,a}Za−1,a​是Ha−1H_{a-1}Ha−1​和HaH_aHa​中的点之间的邻接。

为了提供清晰的印象,基于层次锚的图的示例如图所示

该结构建立在由H0=50 0 0数据点组成的三环合成数据上。我们采用k-means方法,分别选择H1=10 0、H2=50 0、H3=250和H4=10 0的基于层次锚的层。二分层次图可以由底部层H0和最后一层Hh构成。因此,二分图的亲和矩阵可以写成:

​ W∈R(n+mh)(mh+n)W \in R^{(n+m_h)(m_h+n)}W∈R(n+mh​)(mh​+n) ZH∈R(n×mh)Z_H \in R^{(n \times m_h)}ZH​∈R(n×mh​) 测量原始数据H0和最后锚点Hh之间的邻接度。

因此,可以降低计算复杂度。此外,还可以获得原始数据和最后锚点的指标矩阵,这意味着该算法在处理样本外时性能更好。

Dr∈Rn×nD_r \in R^{n \times n}Dr​∈Rn×n是对角矩阵 元素是Z矩阵的行和

Λ∈Rmh×mh\Lambda \in R^{m_h \times m_h}Λ∈Rmh​×mh​是对角矩阵 元素是Z矩阵的列和 所以Λii=∑j=1nzij\Lambda_{ii} = \sum_{j=1}^{n} z_{ij}Λii​=∑j=1n​zij​


因此,为了构建二分层次图,必须解决以下两点。

(1) 用于指标推理的层间邻接关系,使聚类更有效,降低了计算复杂度;(2) 层间的邻接性,即建立有效的正则化,保证学习适应性

首先考虑前一点。设Z H表示估计从H 0到H H的累积层间关系的邻接矩阵。Z H可写成:

将G表示为HhH_hHh​中锚点数据集的类指示符矩阵,将F表示为H 0中原始数据点的类指示矩阵。使用上述累积矩阵,我们可以从H 0到H H以密集到稀疏的方式获得类指示符阵,如下所示:

接下来,我们考虑从HhH_hHh​到Hh−1H_{h-1}Hh−1​的层间邻接Zh,h−1Z_{h,h−1}Zh,h−1​.使用第2.2节中的分析,基于核的方法可以计算Z,但是这些方法总是必须使用额外的参数

根据Nie等人[22],由于z i是稀疏的,并且正好有k个非零值,因此学习的z是稀疏的并且因此可以大大减轻后续处理的计算负担

一旦我们得到矩阵Zh,h−1Z_{h,h−1}Zh,h−1​邻接ZHZ_HZH​可以通过等式(10)获得

W也可以通过9获得

通过等式12中归一化行的定义Dr=In,InD_r = I_n,I_nDr​=In​,In​是n*n的对角矩阵

D可以重写为:

层次二部图的谱分析

谱聚类的目标函数:


对B进行奇异值分解:

其中V∈Rmh×mh,∑∈Rn×mh,U∈Rn×nV∈ R ^{m_h×m_h},\sum \in R^{n×m_h},U∈ R^{n×n}V∈Rmh​×mh​,∑∈Rn×mh​,U∈Rn×n分别是右奇异向量矩阵、奇异值矩阵和左奇异向量矩阵

很容易验证列向量[UV]\begin{bmatrix} U \\ V \\ \end{bmatrix}[UV​]是L的特征向量(把下面图片中的D_u看成本文中的I)

上图来源于论文:

Learning A Structured Optimal Bipartite Graph for Co-Clustering

随后,通过k均值聚类,可以计算离散类指标[YxYu]\begin{bmatrix} Y_x \\ Y_u \\ \end{bmatrix}[Yx​Yu​​]

其中Yx∈Rn×1Y_x∈ R^{n×1}Yx​∈Rn×1表示为数据点X的类,Yu∈Rmh×1Y_u \in R^{m_{h}×1}Yu​∈Rmh​×1表示为最后一层锚点Uh的类别。此外,Yu可用于确定样本外点的类别指标矩阵,这将在后面讨论。

一般来说,大多数谱聚类方法只对训练数据有效,不处理样本外点。通过对比,SCHBG方法可以很容易地扩展到处理测试数据。在对训练数据进行聚类时,我们可以获得最后一层锚点的特征向量和聚类标签。因此,我们只需在锚定点中找到样本外的k个最近邻居,并将标签传播到样本外。对于每个数据点,k-NN算法可以在O(mhd)O(m_h d)O(mh​d)的计算成本下使用,其中mhm_hmh​是最后一层上的锚点数量。当样本中有q个点时,计算成本为O(qmhd)O(qm_h d)O(qmh​d)。如果我们直接对原始数据进行k-NN,计算成本为O(pnd)。从上面的分析中,我们知道mh<<n,如果使用锚点来预测样本外的类,计算成本会迅速下降。

这些生成的点在捕捉原始视图的流形方面起着重要作用。然后使用局部流形融合方法将视图图组合在一起。最后,我们对得到的融合图进行谱聚类。

本为O(qmhd)O(qm_h d)O(qmh​d)。如果我们直接对原始数据进行k-NN,计算成本为O(pnd)。从上面的分析中,我们知道mh<<nm_h<<nmh​<<n,如果使用锚点来预测样本外的类,计算成本会迅速下降。

这些生成的点在捕捉原始视图的流形方面起着重要作用。然后使用局部流形融合方法将视图图组合在一起。最后,我们对得到的融合图进行谱聚类。

Fast spectral clustering learning with hierarchical bipartite graph for large-scale data相关推荐

  1. Bipartite Graph多视图学习聚类文章总结

    看了一些anchor graph和bipartite graph 的文章始终不知道他们的区别在哪里.今天总结一下这类文章. 1.能看到最早的这类关于多视图学习的文章 Large-Scale Multi ...

  2. Graph Signal Processing——Part I: Graphs, Graph Spectra, and Spectral Clustering (文献翻译)

    目录 目录 0.Abstract 1.Introduction 2.图形定义和属性 2.1 基本定义 2.2 一些常用的图拓扑 2.3 图及其相关矩阵的性质 3.图矩阵的谱分解(特征分解) 3.1 邻 ...

  3. Bipartite Graph Based Multi-View Clustering

    Bipartite Graph Based Multi-View Clustering 基于二部图的多视图聚类 abstract 对于基于图的多视图聚类,一个关键问题是通过两阶段学习方案捕获共识聚类结 ...

  4. 论文阅读 [TPAMI-2022] Multiview Clustering: A Scalable and Parameter-Free Bipartite Graph Fusion Method

    论文阅读 [TPAMI-2022] Multiview Clustering: A Scalable and Parameter-Free Bipartite Graph Fusion Method ...

  5. Fast Fuzzy Clustering Based on Anchor Graph

    Fast Fuzzy Clustering Based on Anchor Graph 基于锚图的快速模糊聚类 FFCAG 模糊聚类十分流行: 大规模问题复杂度高,限制发挥 对噪声敏感 FFCAG算法 ...

  6. 聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut .

    聚类算法是ML中一个重要分支,一般采用unsupervised learning进行学习,本文根据常见聚类算法分类讲解K-Means, K-Medoids, GMM, Spectral cluster ...

  7. 谱聚类算法(Spectral Clustering)优化与扩展

    谱聚类算法(Spectral Clustering)优化与扩展 谱聚类(Spectral Clustering, SC)在前面的博文中已经详述,是一种基于图论的聚类方法,简单形象且理论基础充分,在社交 ...

  8. 聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut

    聚类算法是ML中一个重要分支,一般采用unsupervised learning进行学习,本文根据常见聚类算法分类讲解K-Means, K-Medoids, GMM, Spectral cluster ...

  9. CS224W-图神经网络 笔记5.2:Spectral Clustering - 谱聚类主要思想及关键结论的证明

    CS224W-图神经网络 笔记5.2:Spectral Clustering - 谱聚类主要思想及关键结论的证明 本文总结之日CS224W Winter 2021只更新到了第四节,所以下文会参考202 ...

最新文章

  1. java代码操作git_JGit--实现Git命令操作的Java API
  2. boost::allocator_max_size的实例
  3. k8s之pod管理(控制器)
  4. MAVEN集成测试环境搭建
  5. swap,交换,第三随笔
  6. XPath解析网页学习笔记
  7. [HNOI 2018]道路
  8. WEB2.0 XHTML代码规范
  9. 万能打印之Delphi 2010实现(完结)
  10. 【题目记录】——2021 年百度之星·程序设计大赛 - 初赛二
  11. 联想小新打印机M7268W配置步骤
  12. 笔记本电脑自带键盘禁用与恢复
  13. 8.1 段子中“酷毙”了的IT行业——《逆袭大学》连载
  14. Get Server Down when retrieve the channel list in sopcast, how to solve it?
  15. Incompatible magic value xxxxxx in class file
  16. PHP处理微信昵称emoji表情符号和特殊颜文字符
  17. 子域名收集 -- teemo
  18. Linux监控平台搭建
  19. Linux强制修改超级用户root密码
  20. 2020最后一天 || 时间相关单光子计数技术的原理和优点

热门文章

  1. 调试omnet几个BUG(未完待续)
  2. 国外注册的域名dns服务器换回国内dns服务器的详细教程!
  3. Delphi 控制摄像头 AVICAP32.DLL
  4. 中南大学计算机网.doc,中南大学计算机的网络课复习要点.doc
  5. 访问xp系统提示目前没有可登陆的服务器,winxp另一台xp的共享:访问登陆失败:禁用当前的账户...
  6. 中标麒麟6安装Qt 4.8.4+QtCreator 2.7.0 NeoKylin Linux Desktop Release 6+Qt4.8.4+QtCreator2.7.0
  7. Qt 之 设置窗口边框的圆角
  8. 用flash制作简单拼图游戏
  9. 友善之臂S70B改成四线触摸
  10. Markdown转PDF→利用 Markdown 制作电子书|非常简单