定义:聚类分析聚类是对一组对象进行分组的任务,使得同一组(称为集群)中的对象(在某种意义上)彼此之间比其他组(集群)中的对象更相似(在某种意义上)。

应用领域:模式识别,图像分析,信息检索,生物信息学,数据压缩,计算机图形学和机器学习。

内涵:聚类分析并不是一种特定的算法,而是要解决的一般任务,这些算法在理解什么构成集群以及如何有效地找到它们存在的显著差异。

集群成员之间距离较小的组,数据空间的密集区域,间隔和特定的分布,如此依赖,聚类可以被表述为一个多目标优化问题。“集群”通常无法被精确定义,共同的特点是大家都是一组对象。典型的集群模型包括以下几个方面。


连通性模型:例如层次聚类基于距离联通性构建模型。

层次聚类是一种聚类分析方法,包括凝聚和分裂两种类型。通常拆分与合并是通过贪婪的方式实现的,结果通常以树状图的形式呈现。HAC时间复杂度为O(n^3),内存Ω(n^2)。为了决定拆分或者合并集群,需要测量观测集合之间的差异。通常利用适当的度量和链接标准实现。

公制:适当的度量将影响集群的形状。因为在一个度量下某些元素可能比另一个更近。例如,在二维中,曼哈顿距离度量下,(0,0)与(0.5,0.5)之间的距离和(0,0)与(0,1)之间的距离是相同的,而欧几里得距离度量下后者更大一点。通常的一些距离度量包括:

欧几里得距离
平方欧里得距离
曼哈顿距离
最大距离(切比雪夫距离)
马氏距离
汉明距离 两个字符编码对应位置不同的位数
Levenshtein距离 编辑距离

另外,存在其他几种差异度量。特别是基于相关的距离-Pearson,Eisen cosine,Spearman,Kendall相关距离。1-相关度作为距离不够严格,可以用平方根作为度量(满足勾股定理)。

联动标准:链接标准将观测值集之间的距离确定为观测值之间成对距离的函数。

最大或完全链接
最小或单链接
未加权平均链接
加权平均链接
质心链接
最小能量链接
集群内方差总和 -
被合并的集群的方差增加(ward)用Lance-Williams算法,是一个递归算法
候选集群从相同分布函数(vlinkage)产生的概率 -
K最近邻上的入度和出度的乘积 -

质心模型s:k-means算法用单个均值向量表示每个集群

K均值聚类是一种矢量化方法,最初来自信号处理,旨在将n个观察值划分为k个簇。其中每个观测值属于具有最近均值的簇,作为集群。这导致将数据空间划分为Voronoi单元。

k均值聚类最下滑聚类内方差。这个问题很困难(NP-hard),有效的启发式算法可以快速有脸到局部最优值。

说明:给定一组观测值(x1,x2,x3,...,xn),其中每个观测值都是d维向量。k均值旨在将n个观测值划分为k个集合,以最小化簇内平方和(WCSS)。


分布模型:集群使用统计分布建模,例如期望最大化算法使用的多元正太分布

在统计中,期望最大化(EM)算法是一种迭代方法,用于朝朝统计模型中参数的最大使然估计,其汇总模型依赖于为观察到的潜在变量。

EM迭代在执行期望E步骤和最大化M步骤之间交替,该步骤为使用当前参数估计的对数似然的期望创建函数,该步骤计算最大化预期对数的参数-发现的可能性E步。然后,使用这些参数来确定下一个E步骤的潜在变量分布。


密度模型:集群使用数据空间中链接的密集区域,例如DBSCAN和OPTICS

用于识别聚类结构的排序点(OPTICS)是一种用于在空间数据中查找基于密度的聚类算法。与DBSCAN算法思想接近,但解决了DBSCAN的弱点之一:在不同密度的数据中检测有意义的集群的问题。数据库的点是线性排序的,使得空间上的点成为排序中的邻居。此外,每个点存储一个特殊的距离,该距离表示一个集群必须接受的密度,以便两个点都属于同一个集群。


子空间模型:在双聚类中,聚类使用聚类成员和相关属性进行建模

对行和列同时进行聚类。


基于图的模型:一个clique,即图的子集,使得子集中的每个节点都由一条边连接,可以认为是集群的原型形式。完全联通性要求的松弛称为准团,如HCS聚类。

HCS是一种基于图连同性进行聚类分析的算法。它通过在相似图中表示相似的数据,然后找到所有高度连接的子图来工作的

神经模型:无监督神经网络是自组织映射,这些模型通常可以表征为类似于上述一个或多个模型,并且当神经网络实现一种主成分分析或独立成分分析。

聚类分析——经典方法梳理笔记相关推荐

  1. 综述向:强化学习经典方法梳理

    最近组内需要做强化学习相关研究,因为面对的是新项目,同事们对强化学习的原理都不太了解,我们就计划轮流在组内做一些不定期分享,补充相关的基础知识.于是我对强化学习的一些经典算法进行了梳理,并在此进行记录 ...

  2. 数据分析学习总结笔记03:数据降维经典方法

    数据分析学习总结笔记03:数据降维经典方法 1. 数据降维概述 2. 数据降维的应用 3. 数据降维经典方法 3.1 主成分分析(PCA) 3.1.1 PCA概述 3.1.2 PCA原理 3.1.3 ...

  3. 时间序列预测方法_让我们使用经典方法预测您的时间序列

    时间序列预测方法 时间序列预测 (Time Series Forecasting) 背景 (Background) We learned various data preparation techni ...

  4. 算法学习 (门徒计划)3-2 哈希表与布隆过滤器及经典问题 学习笔记

    算法学习 (门徒计划)3-2 哈希表与布隆过滤器及经典问题 学习笔记 前言 哈希表 哈希操作 冲突处理 开放定址法 再哈希法 公共溢出区 链式地址法 扩容哈希表 设计简易哈希表 总结 布隆过滤器 对比 ...

  5. [麦肯锡三部曲] 麦肯锡三部曲(1) - 麦肯锡方法读书笔记

    朋友推荐读读麦肯锡方法对了解咨询方法,有利于提升自己的"发现问题","分析问题"和"解决问题"的方法及能力. 咨询也是一直我比较期望的技能, ...

  6. 计算机视觉-深度学习图像检测方法梳理

    计算机视觉-深度学习图像检测方法梳理 由于之后要转方向啦,趁这段时间整理手中硕士研究方向的一些阅读笔记,这是一篇关于计算机视觉的基础知识梳理 先搞清一些小知识点 首先我们要弄清楚图像分类.目标定位.语 ...

  7. 算法学习 (门徒计划)2-1 二叉树(Binary-Tree)与经典问题 学习笔记

    算法学习 (门徒计划)2-1 二叉树(Binary-Tree)与经典问题 学习笔记 前言 树与二叉树 树的基本概念 链表是特殊的树 树是特殊的图 二叉树的基本概念 完全二叉树 完全二叉树的意义 完美二 ...

  8. 算法学习 (门徒计划)3-3 深搜(DFS)与广搜(BFS)及经典问题 学习笔记

    算法学习 (门徒计划)3-3 深搜(DFS)与广搜(BFS)及经典问题 学习笔记 前言 深搜与广搜 搜索的核心概念 问题求解树 搜索剪枝和优化 问题求解树的状态 对比深搜与广搜 DFS-深度(deep ...

  9. 算法学习 (门徒计划)4-1 单调队列及经典问题及经典例题 学习笔记

    算法学习 (门徒计划)4-1 单调队列及经典问题及经典例题 学习笔记 前言 单调队列 场景举例(RMQ) 应用-维护区间最值的方式 数据结构-自行设计单调队列 代码实现(java) 例题分析(略) 总 ...

最新文章

  1. Eclipse快捷键:最常用且高效的快捷键
  2. vue vue-cli3 修改elementui的date-picker源码 引入node_modules里的element-ui后报错exports is not defined...
  3. 三、IntellijIDEA开发工具,学习Java好利器
  4. Linux系统任务计划(at、crontab)的使用方法
  5. 04.Python基础_列表_元组_字典_集合
  6. Exchange 2010 DAG转载
  7. 编译原理(一)之词法分析
  8. GIS实战应用案例100篇(十五)-CASS插件应用:如何控制点属性与点名统一
  9. 关于异常nested exception is java.lang.NoClassDefFoundError: org/apache/commons/fileupload/FileItemFactor
  10. 力荐!计算机视觉开源工具中的瑞士军刀—Dlib最新高级特性教程
  11. ic 卡获取帐号apdu指令_《全球行动》携手京东校园送福利 1000元京东卡等你拿
  12. lua-获取当前时间
  13. intel fortran免费版安装
  14. SQL SERVER 添加字段说明语句
  15. Android中控件设置英文文本内容时区分大小写
  16. Android系统sdcard目录
  17. Arduino ESP32 深度睡眠与外部唤醒(EXT0)
  18. 第三方开源项目名称_开源名称中有什么?
  19. 离开微信直接打开APP指定的页面
  20. Wolfram 数学习题生成器——AI技术帮你爽到飞

热门文章

  1. 10.31 静态路由实验总结
  2. 列表:使用python去除列表a中所有列表b有的元素
  3. 当代大学生,千万别以辍学为荣!
  4. 百度地图生成器里的标注内容默认展开
  5. SurfaceFlinger中Layer的修改 - 安卓R
  6. 搜狗网址导航带学子享受美好假期
  7. 作为开发人员,无代码开发平台 iVX 你有必要了解一下
  8. python海龟漂亮图案代码大全_Python:海龟绘图(六)——来点颜色看看
  9. 淮安市哪个计算机培训机构好学习,淮安哪家电脑培训比较好啊??
  10. java中String与new String的区别