【Abstract】

聚类是科学数据分析的基本步骤。它被广泛应用于科学领域。尽管经过了几十年的研究,现有的聚类算法在高维方面的有效性有限,并且常常需要针对不同的域和数据集调整参数。提出了一种跨领域的聚类算法,该算法具有较高的精度,可有效地扩展到高维、大数据集。该算法以鲁棒统计为基础,优化了平滑连续的目标,并解决了大量混合的聚类问题。目标的连续性也允许集群作为模块集成到端到端的特性学习管道中。我们通过扩展算法来实现联合聚类和通过有效地优化一个连续的全局目标来降低维数来证明这一点。所提出的方法是通过大数据集来评估的,这些数据集包括人脸、手写数字、物体、新闻专线文章、来自航天飞机的传感器读数和蛋白质表达水平。我们的方法在所有数据集上都达到了很高的精度,平均排名比最好的先验算法高出3倍。

【Introduction】

我们提出了一种快速、简便、高效的高维聚类算法。该算法使用标准的数值方法来优化一个清晰的连续目标。不需要预先知道集群的数量。

我们的公式是基于最近的凸松弛聚类(25,26)。然而,我们的目标是故意不凸出。我们使用降阶的鲁棒估计器,通过优化单个连续目标,即使是高度混合的集群也可以被解开。尽管目标具有非凸性,但仍然可以使用标准的线性最小二乘解算器进行优化,该解算器具有很高的效率和可伸缩性。由于该算法将聚类表示为基于鲁棒估计的连续目标优化,因此我们将其称为鲁棒连续聚类(RCC)。

该方法的一个特点是将聚类问题简化为连续目标的优化问题。这支持在端到端特性学习管道中集成集群。我们通过扩展RCC来执行联合聚类和降维来证明这一点。这种扩展的算法称为RCC-DR,它学习将数据嵌入到一个低维空间中,并将数据聚集在这个低维空间中。嵌入和聚类是通过优化一个明确的全局目标的算法来共同完成的。

【正文】

RCC是一种聚类方法,聚类的数量不用事先预知,通过优化下面的式子来实现聚类:

X=[x1,x2,...,xn]是输入的数据,U=[u1,u2,...,un]是这些点集的表示,对U进行优化,得到聚类的结果。ε是一个图的边所组成的集合,这个图是由m-kNN方法生成的。权重wp,q平衡每一个数据点成对的贡献,λ平衡不同项之间的权重。ρ是一个正则项,它用来起到惩罚作用。上式中,第二项与均值漂移目标(9)相关。RCC目标的不同之处在于,它包含一个额外的数据项,使用一个稀疏(而不是完全连接)连接结构,并基于稳健估计。

为了便于优化,作者在随后构建了一个目标函数,并且证明了他们之间等价,

给每个连接(p,q)引入了一个辅助变量lp.q。L={lp,q},作者联合优化U和L。

Ψ(lp,q)是当忽略连接(p,q)时产生的惩罚。当有连接时,Ψ(lp,q)->1;当没有连接时,(lp,q)->0.

各种各样的鲁棒估计量ρ(.)都有相应的罚函数Ψ(.),可以使式子(1)和(2)等价,就是说优化(1)或者(2)最后得到的U都是一样的。因为优化式子(2)方便,作者优化式子(2)。

当(1)采用Geman–McClure估计量ρ(.) 和 (2) 采用以下的Ψ(.)惩罚函数时,式子(1)和(2)等价。

目标2对于(U,L)都是凸函数,优化时采用先固定一个变量,优化另一个变量的方法,两个变量轮流交替优化。

当U固定时,没有个lp,q的最优值为:

当L固定时,优化问题变成:

ei是一个向量指示器,表明U的第i个元素是1。

上面是一个最小线性二乘问题。

I是一个n*n的方阵,我们可以得到

式子(7)中的每一行U可以独立并行求解。根据式子(7),我们可以将lambda设置为

在RCC算法前,作者先用mutual-kNN算法获取连接每个点的图,然后根据该图执行RCC算法。这两种算法总结如下:

Robust continuous clustering相关推荐

  1. 论文阅读“Robust multi-view clustering with incomplete information”

    论文标题 Robust multi-view clustering with incomplete information 论文作者.链接 作者:Yang, Mouxing and Li, Yunfa ...

  2. 文献学习(part94)--Robust Subspace Clustering via Thresholding Ridge Regression

    学习笔记,仅供参考,有错必纠 期刊:AAAI-2015 作者:Xi Peng; Zhang Yi; Huajin Tang 文章目录 Robust Subspace Clustering via Th ...

  3. 【Paper】Graph Convolutional Subspace Clustering: A Robust Subspace Clustering Framework for HSI

    现状 传统的子空间聚类方法虽然在HSI聚类中取得了显著的效果,但往往忽略了数据之间固有的结构信息. 本文贡献 本文对基于图卷积的子空间聚类进行了研究,提出了一种新的子空间聚类框架:图卷积子空间聚类 G ...

  4. DCC:Deep continuous clustering

    文章:NIPS'17 代码:TensorFlow实现:Pytorch实现 经典的聚类算法具有离散结构:需要重新计算质心和数据点之间的关联,或者需要合并假定的聚类. 在任何一种情况下,优化过程都会被离散 ...

  5. 聚类算法Clustering-KMeans/DBSCAN/DenPeak/NormalizeCut/RCC

    本文结构安排 经典聚类算法:线性聚类 Kmeans 经典聚类算法:非线性聚类 DBSCAN.谱聚类 新兴聚类算法:DenPeak,RCC K-means K-means clustering is a ...

  6. Iterative Deep Graph Learning for Graph Neural Networks: Better and Robust Node Embeddings

    摘要:在本文中,我们提出了一个端到端的图学习框架,即迭代深度图学习(IDGL),用于联合和迭代地学习图结构和图嵌入.IDGL的关键理论是基于更好的节点嵌入来学习更好的图结构,反之亦然(即基于更好的图结 ...

  7. Reproducible Research in Computational Science

    Reproducible Research in Computational Science from: http://www.csee.wvu.edu/~xinl/source.html " ...

  8. 【CVPR2019】论文完整列表一

    CVPR 2019 Paper list No.1-1000 ?CVPR2019 完整列表二 论文题目与链接 Finding Task-Relevant Features for Few-Shot L ...

  9. CVPR2019论文题目中文列表

    英文题目 中文题目   Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 少镜头学习中用类别遍历法寻 ...

  10. 图像、视觉处理的相关代码

    原文:http://blog.csdn.net/huangwen199002/article/details/49850137 Reproducible Research in Computation ...

最新文章

  1. 383. Ransom Note/691. Stickers to Spell Word-- String, Map, back tracking-- 未完待续
  2. 使用poi进行excel导入并解析插入数据库
  3. 工作375-input readonly
  4. 【SpringBoot 2】(十一)单元测试JUnit 5 指标监控
  5. PostgreSQL创建只读用户之后创建的表不能读问题解决
  6. vbox设置剪切板共享
  7. 我的docker随笔29:oracle数据库部署
  8. 入门级XML学习(三)
  9. java对接微信公众号
  10. 【开小灶】如何网盘批量转存?
  11. 迈信EP100伺服驱动器方案
  12. 【面试】2019工商银行软件开发中心(上海)笔面试记录
  13. 深入理解操作系统实验——bomb lab(phase_5)
  14. torch.randn用法以及小案例
  15. excel文件下载下来损坏 js_java – React excel文件下载损坏
  16. 护眼体验新升级,引领2023护眼风潮,南卡Pro护眼台灯评测报告
  17. svn提交报错Unexpected HTTP status 413 'Request Entity Too Large' on
  18. il和idl区别_MinoxidilMax出品 Dualgen 15% Minoxil脫髮治療的用藥心得
  19. 安卓中Paint类和Canvas类的方法汇总
  20. 微信公众号服务器配置但没有回调,微信公众号 “服务器配置” 踩坑记

热门文章

  1. 赛扬n5095处理器怎么样 英特尔n5095核显相当于什么水平
  2. timeline java_Java Timeline.stop方法代码示例
  3. CoffeeScript基础
  4. ethtool如何让接口闪灯_如何使用ethtool命令操作以太网卡
  5. 一些触动人心的动效设计欣赏
  6. 几何光学学习笔记(28)-6.3光照度和光出射度
  7. scroll-view
  8. 华为机试:统计射击比赛成绩
  9. 从键盘上输入以下的数据:TOM:89|JERRY:90|TONY:95,数据格式为“姓名:成绩|姓名:成绩|姓名:成绩”,对输入的内容按成绩进行排序,并将结果按成绩由高到低排序。
  10. JavaScript中的随机数--随机点名器