A Fuzzy Subspace Algorithm for Clustering High Dimensional Data

一、 针对问题
高位数据聚类存在两个问题:

  1. 高纬数据在距离计算上,任意两点的距离都可能极为相近,导致难以将相似点和不相似点区分出来;
  2. 高纬数据集的簇可能存在于不同的维度集合里。

二、 文章的灵感

  1. 维数约减现状:PCA、以及相关的特征选择算法,本文主要讲的是其中的子空间部分;
  2. 子空间聚类的推进
    维数约减和特征选择背后的思路是:裁剪掉不重要的维度,实现从高维向低维空间的改变,以利于往后的聚类等工作。这样的维度裁剪过程,极可能导致信息的缺失;正是这个问题促进了子空间聚类的发展,如:
    (1) 任意定向子空间聚类(arbitrary oriented subspace),比如ORCLUS和投影k均值聚类;特点为所产生的维度都是初始维度的线性组合。
    (2) 常规子空间聚类,比如PART和SUBCAD;做法是在初始维度中选择若干维度成子空间组,再进行聚类。
  3. 子空间聚类的缺陷:统一为簇所在的子空间的各个维度分配相等的非零权值,为其他维度(non-cluster dimensions)赋权值为0。均匀赋权值导致了一个问题:如何选择恰当的维度?举个例子,比如有一个100维的数据集,已知各个簇嵌入在其中的50维子空间中,然而不同维度实际上对聚类的贡献程度不见得完全相同,各维度之间甚至可能是相互关联的,为子空间各个维度赋相同的权值是否合适?进一步说,而在未知子空间维数的情况下,我们如何知道合适的子空间是多少维?
  4. 为了解决以上的问题,在子空间聚类中引入模糊聚类和LAC的思想,形成软子空间的聚类FSC。通过密度稀疏来为各个维度分配不同的权值,解决了子空间维度的不够灵活的维度选择问题、并为所有维度分配合适的贡献值,而不是均匀的权值。

三、 FSC模型

  1. 模型定义
    (1) 数据集

    (2) d是原始数据集维度数
    (3) k为聚类簇数
    (4) 给定k个中心点 (最初随机,往后通过EM迭代更新的)

    (5) k个d维的权重向量

    (6) alpha是维度权重的模糊系数,同FCM里的m一致要求取值大于1。
    (7) 在数据集D中找出点x作为Cj,要求符合(注意Cj所含点的数量可能不为1)

    (8) 目标函数:

    限制条件为:

  2. 解析
    (1) 求导,得到对中心点的更新:


    (2) 拉格朗日乘子更新权重:



    那么得到权重:

  3. 防除零处理,增加偏差项


  4. 通过解析过程,可以发现实际上FSC结构和FCM十分相似,实际上可以和FCM的相关理论相互联系,做更多的分析。

四、 实验细节
不赘述。

五、 附
FSC模型比较基础,文章论述的深度不是很深,没有指出FSC的缺陷,这可能是这篇文章的不足之处之一,本文没有指出FSC的缺陷,在后续一个月的算法比较实验中,会再补充关于模型表现的相关内容。

高维数据软子空间聚类FSC相关推荐

  1. 软子空间聚类_不平衡数据的软子空间聚类算法

    [1] DENG Z, CHOI K-S, JIANG Y, et al. A survey on soft subspace clustering [J]. Information Sciences ...

  2. 软子空间聚类_自适应的软子空间聚类算法

    自适应的软子空间聚类算法 陈黎飞 ; 郭躬德 ; 姜青山 [期刊名称] <软件学报> [年 ( 卷 ), 期] 2010(021)010 [摘要] 软子空间聚类是高维数据分析的一种重要手段 ...

  3. 文献记录(part15)--面向高维数据的聚类算法研究

    学习笔记,仅供参考,有错必究 面向高维数据的聚类算法研究 摘要 随着信息技术的发展,数据的维度在不断增加,传统的聚类算法将面临以下挑战和问题: 高维数据包含大量冗余的.不相干的信息,数据之间的差异性可 ...

  4. 论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强

    论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强 摘要 1 介绍 2 相关工作 带增强的聚类方法 具有一致 ...

  5. 论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering,SENet,用于大规模子空间聚类的自表达网络

    论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering. SENet--用于大规模子空间聚类的自表达网络 前言 摘要 ...

  6. 过完备深度子空间聚类网络:《Overcomplete Deep Subspace Clustering Networks》

    论文:<Overcomplete Deep Subspace Clustering Networks> 论文原文链接:有道云笔记 论文讲解链接:子空间聚类入门(一)overcomplete ...

  7. 对高维数据进行降维的算法

    解析: 维度灾难:在高维情况下出现的数据样本稀疏,距离计算困难等问题. 缓解维度灾难的一个重要途径就是降维,通过某种数学变换将原始高维属性空间转变成一个低维子空间,在这个子空间中样本密度大幅提高,距离 ...

  8. 高维数据降维 国家自然科学基金项目 2009-2013 NSFC Dimensionality Reduction

    2013 基于数据降维和压缩感知的图像哈希理论与方法 唐振军 广西师范大学 多元时间序列数据挖掘中的特征表示和相似性度量方法研究 李海林 华侨大学       基于标签和多特征融合的图像语义空间学习技 ...

  9. 多视图聚类与子空间聚类

    1.多视图聚类 从对事物的不同角度的理解生成多个特征描述视图,而非单个视图,就是多视图. 若对事物作单视图特征表示,则意味着,增加了特征空间的维度,且不同角度的特征合成同一视图,其特征可能失去原有的意 ...

  10. 论文阅读笔记(9):加权稀疏子空间表示——子空间聚类、约束聚类和主动学习的统一框架

    论文阅读笔记(9):WEIGHTED SPARSE SUBSPACE REPRESENTATION--A UNIFIED FRAMEWORK FOR SUBSPACE CLUSTERING, CONS ...

最新文章

  1. 用python画爱心的代码-Python一行代码画个爱心案例
  2. HDOJ1540 - Tunnel Warfare 线段树区间合并
  3. Mosquitto 0 15 开源MQTT v3 1 Broker
  4. 最简单的基于FFmpeg的移动端例子附件:SDL Android HelloWorld
  5. word转pdf公式乱码_MathType转换成pdf符号丢失或乱码怎么办
  6. 声鉴卡HTML5网页源码
  7. html如何算小于0判断错误,报错提示:直筋长度的计算结果小于0,计算公式为......
  8. 浅谈Android事件分发
  9. Linux运维养成记-磁盘管理LVM 逻辑卷
  10. Android 应用进程启动流程
  11. 在Windows中的“运行”对话框中调整历史记录
  12. 《Python编程从入门到实践 第二版》第十六章练习
  13. 给所有的Control加两个属性,实现回车键自动跳转到下一个控件
  14. 被人民日报点名的马保国,一年能挣多少钱?
  15. 什么是传递函数模型?
  16. zbb20180913 java thread volatile与synchronized区别
  17. 1_ARM Cortex-M处理器简介
  18. 何涛连忙叫请兄弟到 常用软件
  19. 2022.2.18二手苹果手机价格表图片
  20. Retrofit2.0初始化

热门文章

  1. SQL Server练习
  2. 字体 流光css,实例详解CSS3制作文字流光渐变特效
  3. SVN版本库备份和恢复
  4. 2017系统架构设计师的通过人数与通过率探秘
  5. 金蝶迷你版凭证导入工具_金蝶kis迷你版如何插入凭证?
  6. python 虚拟环境打包exe方法及路过的坑
  7. mac 升级ruby
  8. oracle诉讼_Oracle诉Google:Aaaaand诉讼又回来了! [更新]
  9. android开发教程!看懂这些帮你轻松解决就业问题!知乎上转疯了!
  10. 美区苹果id绑定QQ邮箱教程