文章目录

  • 0.摘要
  • 1.introduction
  • 2.Related Work
    • 2.1聚类集成相关定义
    • 2.2Self-paced Learning自步学习
  • 3.自步聚类集成
    • 目标函数
    • 优化

0.摘要

  • 现有的聚类集成方法大多利用所有的数据来学习一致的聚类结果,没有充分考虑一些困难实例所带来的不利影响。
  • 为了解决这个问题,提出Self-Paced Clustering Ensemble(SPCE)方法。逐步将例子从简单到困难的纳入到集成学习中。
    • 将实例的难易度评价和集成学习集成在一个框架
    • 联合学习算法获得最终的一致的聚类结果

1.introduction

  • 传统聚类的问题

    • 在给定的数据集中,不同的目标函数会有非常不同的结构。
    • 没有ground truth
    • 比如k-means,高度依赖初始化
  • clustering ensemble定义

    • Clustering ensemble provides an elegant framework for combining multiple weak base clusterings of a data set to generate a consensus clustering.
  • 之前的clustering ensemble方法

    • information theoretic based clustering ensemble methods 基于信息论的集成聚类方法

    [3] A. Strehl and J. Ghosh, “Cluster ensembles — a knowledge reuse framework for combining multiple partitions,” Journal of Machine Learning Research, vol. 3, no. 3, pp. 583–617, 2003.

    [4] A. Topchy, A. K. Jain, and W. F. Punch, “Combining multiple weak clusterings,” in ICDM, 2003, pp. 331–338.

  • an alignment method to combine multiple k-means clustering results 一种组合多个k均值聚类结果的对齐方法

    [5] Z. Zhou and W. Tang, “Clusterer ensemble,” Knowledge Based Systems, vol. 19, no. 1, pp. 77–83, 2006.

  • extended graph cut method into clustering ensemble 扩展图切割的方法到集成聚类

    [8]X. Z. Fern and C. E. Brodley, “Solving cluster ensemble problems by bipartite graph partitioning,” in ICML, 2004, p. 36

  • spectral clustering based ensemble method 基于谱聚类的集成方法

    [9] H. Liu, T. Liu, J. Wu, D. Tao, and Y. Fu, “Spectral ensemble clustering,” in SIGKDD, 2015, pp. 715–724.

    [10] Z. Tao, H. Liu, and Y. Fu, “Simultaneous clustering and ensemble.” in AAAI, 2017, pp. 1546–1552.

  • utilized non-negative matrix factorization (NMF) to learn a consensus clustering result 利用非负矩阵分解来学习一致的聚类结果

    [11] T. Li, C. H. Q. Ding, and M. I. Jordan, “Solving consensus and semisupervised clustering problems using nonnegative matrix factorization,” in ICDM, 2007, pp. 577–582.

    [12] T. Li and C. H. Q. Ding, “Weighted consensus clustering.” in SDM, 2008, pp. 798–809.

  • introduced probabilistic graphical model into clustering ensemble 将概率图模型引入集成聚类

    [13] H. Wang, H. Shan, and A. Banerjee, “Bayesian cluster ensembles,” in SDM, 2009, pp. 211–222.

    [14] D. Huang, J. Lai, and C. Wang, “Ensemble clustering using factor graph,” Pattern Recognition, vol. 50, pp. 131–142, 2016.


  • Besides these work which ensemble all base clustering results, some work tried to select some informative and non-redundant base clustering results for ensemble. 除了这些集合所有基本聚类结果的工作之外,还有的工作致力于为集成学习选择一些信息性和非冗余的基本聚类结果。

  • adaptive clustering ensemble selection method to select the base results 自适应聚类集成选择方法选择基础结果

    [15] J. Azimi and X. Fern, “Adaptive cluster ensemble selection,” in Twenty-First International Joint Conference on Artificial Intelligence, 2009.

  • transferred the clustering selection to feature selection and designed a hybrid strategy to select base results 将聚类选择转移到特征选择并设计混合策略以选择基础结果

    [16] Z. Yu, L. Li, Y. Gao, J. You, J. Liu, H. Wong, and G. Han, “Hybrid clustering solution selection strategy,” Pattern Recognition, vol. 47,no. 10, pp. 3362–3375, 2014.

  • Zhao et al. proposed internal validity indices for clustering ensemble selection 提出内部有效性指标来进行集成聚类选择

    [17] X. Zhao, J. Liang, and C. Dang, “Clustering ensemble selection for categorical data based on internal validity indices,” Pattern Recognition, vol. 69, pp. 150–168, 2017.

  • 存在问题

    • 使用所有的数据进行聚类集成,可能有些样本很难聚类,甚至有些是异常值,可能会导致聚类性能差。
  • 改进

    • 将基础的聚类集成到课程学习(Curriculum Learning)框架中。

      • 课程学习关键思想是,在早期,模型相对较弱,需要一些简单的实例进行训练;随着时间的推移,模型的能力越来越强,可以处理越来越多的困难实例;最后,它足够强大,可以处理几乎所有的实例。
    • 将权重矩阵学习和一致连接矩阵学习集成在一个目标函数中。

2.Related Work

2.1聚类集成相关定义

  • 给定数据集,对数据集做m次聚类可以得到m个聚类结果 Ci={C1,C2,…,Cm}C^i = \{C^1, C^2, …,C^m\}Ci={C1,C2,…,Cm},每一个聚类结果CiC^iCi包含簇的集合{π1i,π2i,…,πki}\{\pi_1^i,\pi_2^i,…,\pi_k^i\}{π1i​,π2i​,…,πki​},kkk是CiC^iCi中的簇的数目。
  • 根据聚类结果可以得到实例之间的关系,根据CiC^iCi可以构建连接矩阵S(i)∈Rn∗nS^{(i)} \in R^{n*n}S(i)∈Rn∗n
  • 聚类集成的目标就是从S(1),S(2),…,S(m)S^{(1)},S^{(2)},…,S^{(m)}S(1),S(2),…,S(m)中学习一个一致矩阵SSS,最后的聚类结果就可以直接从SSS中获得。

2.2Self-paced Learning自步学习

f(ωi,λ)f(\omega_i, \lambda)f(ωi​,λ)是自步正则化项,最优的ωi∗\omega_i^*ωi∗​随着λ\lambdaλ的增加而增加,随着lil_ili​的增加而减小。也就是说损失越小,越简单,权重越大,越先学习。λ\lambdaλ随着学习的过程的进行而增加,越来越多的实例被采用。

3.自步聚类集成

目标函数

  • (1)S是一致矩阵,我们希望使得它与所有连接矩阵之间的差异性越小越好,既 ∑i=1m∥S−S(i)∥F2\sum_{i=1}^m\Vert S-S^{(i)}\Vert_F^2∑i=1m​∥S−S(i)∥F2​
  • (2)但是不能每种结果都是相同的权重,加个权重:∑i=1mαi∥S−S(i)∥F2\sum_{i=1}^m\alpha_i\Vert S-S^{(i)}\Vert_F^2∑i=1m​αi​∥S−S(i)∥F2​
  • (3)α\alphaα的取值采用auto-weighted的方法,定义αi=1∥S−S(i)∥F\alpha_i=\frac{1}{\Vert S-S^(i)\Vert_F}αi​=∥S−S(i)∥F​1​,也就是说越相似,权重越大。objective function:
  • (4)添加自步学习框架:添加自步函数 f(W,λ)=−λ∥W∥1f(W, \lambda)=-\lambda\Vert W\Vert_1f(W,λ)=−λ∥W∥1​
  • (5)Theorem 1 说明如果S的拉普拉斯矩阵的秩为 n-c,就可以直接得到一致矩阵有c个连通分量,也就是c个簇。所以添加约束rank(L)=n−crank(L)=n-crank(L)=n−c。
  • (6)又希望一致矩阵S尽可能的稀疏,这样得到的聚类结果会更加清晰,会占喜出更加清晰的图结构、聚类结构。所以对S添加一个一范约束。γ\gammaγ是调节S稀疏程度的超参数。

优化

[PED08]Self-paced Clustering Ensemble自步聚类集成论文笔记相关推荐

  1. 机器学习笔记: 聚类 模糊聚类与模糊层次聚类(论文笔记 Fuzzy Agglomerative Clustering :ICAISC 2015)

    前言:模糊层次聚类是参考了论文"A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forec ...

  2. CVPR 2018 DEDT:《Efficient Diverse Ensemble for Discriminative Co-Tracking》论文笔记

    理解出错之处望不吝指正. 本文模型叫做DEDT,是一个集成判别器.作者提到,以往的集成判别器中,每个判别器之间学到的东西之间存在过多的冗余信息,本文提出一种online ensemble tracke ...

  3. 《CoCoNuT: Combining Context-Aware Neural Translation Models using Ensemble for Program Repair》论文笔记

    CoCoNuT:使用集成方法结合上下文感知神经翻译模型进行程序修复 论文思维导图 1. 摘要 ​ 自动生成和验证 (G&V) 程序修复技术 (APR) 通常依赖于硬编码规则,因此只能修复遵循特 ...

  4. 两步聚类算法+Two Step

    两步聚类算法+Two Step 两步聚类算法是在SPSS Modeler中使用的一种聚类算法,是BIRCH层次聚类算法的改进版本.可以应用于混合属性数据集的聚类,同时加入了自动确定最佳簇数量的机制,使 ...

  5. python 两阶段聚类_挑子学习笔记:两步聚类算法(TwoStep Cluster Algorithm)——改进的BIRCH算法...

    转载请标明出处:http://www.cnblogs.com/tiaozistudy/p/twostep_cluster_algorithm.html 两步聚类算法是在SPSS Modeler中使用的 ...

  6. 文献学习(part6)--Clustering ensemble based on sample’s stability

    学习笔记,仅供参考,有错必纠 文章目录 Clustering ensemble based on sample's stability 1.Introduction 2.Clustering ense ...

  7. java基于聚类的离群点检测_挑子学习笔记:基于两步聚类的离群点检测

    转载请标明出处:http://www.cnblogs.com/tiaozistudy/p/anomaly_detection.html 本文主要针对IBM SPSS Modeler 18.0中离群点检 ...

  8. java基于聚类的离群点检测_基于两步聚类的离群点检测

    转载请标明出处:http://www.cnblogs.com/tiaozistudy/p/anomaly_detection.html 本文主要针对IBM SPSS Modeler 18.0中离群点检 ...

  9. 层次聚类定义、层次聚类过程可视化、簇间距离度量、BIRCH、两步聚类、BIRCH算法优缺点

    层次聚类定义.层次聚类过程可视化.簇间距离度量.BIRCH.两步聚类.BIRCH算法优缺点 目录

  10. ML之Hierarchical clustering:利用层次聚类算法来把100张图片自动分成红绿蓝三种色调

    ML之Hierarchical clustering:利用层次聚类算法来把100张图片自动分成红绿蓝三种色调 目录 输出结果 实现代码 输出结果 实现代码 #!/usr/bin/python # co ...

最新文章

  1. SAP Link Between Material Document and Accounting Document Table
  2. PHP验证码相关函数
  3. 大量开发者会将访问token和API密钥硬编码至Android应用
  4. docker push到私有仓库、pull
  5. Python学习记录——持续更新
  6. VC2010 MFC文档类菜单快捷键无法加载问题
  7. 边缘检测算法_机器视觉怎样检测产品边缘
  8. Git生成SSH共钥
  9. toString和valueOf使得对象访问时显示一个特定格式的字符串,但是可以进行数字运算...
  10. Adobe Flash CS6 下载与安装教程
  11. Pytorch GAN实战 MINIST手写数字识别分布解析
  12. 《封神演义》中的阐截二教之争 zz
  13. 计算机系统死机,为何电脑一进入系统就死机?
  14. 表格数据横向转纵向并在el-table中渲染
  15. 【Soul网关探秘】微内核架构及实现
  16. Windows常用快捷键及结束explorer.exe出现蓝屏的办法
  17. 计算机视觉工程师收入高吗?月薪有多少?
  18. Hyper-V相关Powershell cmdlets
  19. 【Linux】linux 查看服务器配置:核数和内存
  20. 天空之城简谱用计算机,原神天空之城曲谱是什么_天空之城琴谱简谱分享_3DM单机...

热门文章

  1. Error response from daemon: Container XXX is restarting, wait until the container is running
  2. luogu P1195 口袋的天空
  3. [计算机网络】【网络设备】虚拟局域网
  4. 《Learning Scheduling Algorithms for Data Processing Clusters》
  5. sigmoid代码实现
  6. MeanTeacher论文学习笔记
  7. siri中文语音助理_针对“语音助手”类产品,浅谈对话式交互设计
  8. [原创][Java]一个简单高效的线程安全队列的JAVA实现
  9. 路径导航与启发式搜索
  10. 微信小程序自定义顶部导航栏