每篇一句:

You must strive to find your own voice. Because the longer you wait to begin, the less likely you are to find it at all.
–你必须努力去寻找自己的声音,因为你越迟开始寻找,找到的可能性越小。


层次聚类算法:

层次聚类算法 (Hierarchical Clustering Method)又称为系统聚类法、分级聚类法。

层次聚类算法又分为两种形式:

  • 凝聚层次聚类:

    首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。

  • 分裂层次聚类:

    首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。


凝聚层次聚类:

本文介绍的为第一种形式,即凝聚层次聚类:

思路:每个样本先自成一类,然后按距离准则逐步合并,减少类数。

  • 算法描述:

    1)N个初始模式样本自成一类,即建立N类:

    G1(0),G2(0),…,Gn(0) (G_Group)

    计算 各类之间(即各样本间)的距离(相似性、相关性),得一N*N维距离矩阵。“0”表示初始状态。

    2)假设已求得距离矩阵D(n)(n为逐次聚类合并的次数),找出D(n)中的最小元素,将其对应的两类合并为一类。由此建立新的分类:

    G1(n+1),G2(n+1),…

    3)计算合并后新类别之间的距离,得D(n+1)

    4)跳至第二步,重复计算及合并。


    • 结束条件:

      • 取距离阈值T,当D(n)的最小分量超过给定值T时,算法停止。所得即为聚类结果。

      • 或不设阈值T,一直将全部样本聚成一类为止,输出聚类的分级树。


问题讨论:——类间距离计算准则

在算法描述第一步中提到要计算每个聚类之间的距离,在层次聚类算法中,计算聚类距离间距的计算方法主要有以下五种:

  • 1)最短距离法: (常用)

    如H、K是两个聚类,则两类间的最短距离定义为:

    Dhk = min{D(Xh,Xk)} Xh∈H,Xk∈K

    Dhk: H类中所有样本与K类中所有样本之间的最小距离。

    D(Xh,Xk): H类中的某个样本Xh和K类中的某个样本Xk之间的欧式距离。

    如果K类由I和J两类合并而成,则:

    Dhi = min{D(Xh, Xi)} Xh∈H,Xi∈I
    Dhj = min{D(Xh, Xj)} Xh∈H,Xj∈J

    得到递推公式:

    Dhk = min{Dhi, Dhj}


  • 2) 最长距离法:


  • 3)中间距离法:

    介于最长与最短的距离之间。如果 K 类由 I 类和 J 类合并而成,则 H 和 K 类之间的距离为:


  • 4)重心法:

    将每类中包含的样本数考虑进去。若 I 类中有 n I 个样本, J 类中有 n J 个样本,则类与类之间的距离递推式为:


  • 5)类平均距离法:


    定义类间距离的方法不同,分类结果会不太一致。实际问题中常用几种不同的方法,比较分类结果,从而选择一个比较切合实际的分类。


Python 实现:

  • 解释说明见代码中注释
# coding=utf-8from max_min_cluster import get_distancedef hierarchical_cluster(data, t):# N个模式样本自成一类result = [[aData] for aData in data]step2(result, t)return resultdef step2(result, t):# 记录类间最小距离min_dis = min_distance(result[0], result[1])  # 初始为1,2类之间的距离# 即将合并的类index1 = 0index2 = 1# 遍历,寻找最小类间距离for i in range(len(result)):for j in range(i+1, len(result)):dis_temp = min_distance(result[i], result[j])if dis_temp < min_dis:min_dis = dis_temp# 记录即将合并的聚类位置下标index1 = iindex2 = j# 阈值判断if min_dis <= t:# 合并聚类index1, index2result[index1].extend(result[index2])result.pop(index2)# 迭代计算,直至min_dis>t为止step2(result, t)def min_distance(list1, list2):# 计算两个聚类之间的最小距离:# 遍历两个聚类的所有元素,计算距离(方法较为笨拙,有待改进)min_dis = get_distance(list1[0], list2[0])for i in range(len(list1)):for j in range(len(list2)):dis_temp = get_distance(list1[i], list2[j]) # get_distance()函数见另一篇博文《聚类算法——最大最小距离算法》if dis_temp < min_dis:min_dis = dis_tempreturn min_dis# 测试hierarchical_cluster
# data = [[0, 3, 1, 2, 0], [1, 3, 0, 1, 0], [3, 3, 0, 0, 1], [1, 1, 0, 2, 0],[3, 2, 1, 2, 1], [4, 1, 1, 1, 0]]
# t = math.sqrt(5.5)
# result = hierarchical_cluster(data, t)# for i in range(len(result)):
#     print "----------第" + str(i+1) + "个聚类----------"
#     print result[i]# 结果为:
# ----------第1个聚类----------
# [[0, 3, 1, 2, 0], [1, 3, 0, 1, 0], [1, 1, 0, 2, 0]]
# ----------第2个聚类----------
# [[3, 3, 0, 0, 1]]
# ----------第3个聚类----------
# [[3, 2, 1, 2, 1], [4, 1, 1, 1, 0]]

注:

  • 本次代码实现中采取的类间距离计算准则为最短距离法,但并未采取文中介绍的递推公式,而是采取的较为简单的遍历方式,数据量较大时,算法效率较低,读者有时间的话可以思考尝试所介绍的递推方式。

最后:

本文简单的介绍了 聚类算法——层次聚类算法凝聚层次聚类 的相关内容,以及相应的代码实现,如果有错误的或者可以改进的地方,欢迎大家指出。

代码地址:聚类算法——层次聚类算法(码云)

聚类算法——层次聚类算法相关推荐

  1. KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数...

    阅读全文:http://tecdat.cn/?p=24198 <世界幸福报告>是可持续发展解决方案网络的年度报告,该报告使用盖洛普世界民意调查的调查结果研究了150多个国家/地区的生活质量 ...

  2. 聚类之层次聚类、基于划分的聚类(…

    5.聚类之层次聚类.基于划分的聚类(k-means).基于密度的聚类.基于模型的聚类 目录(?)[-] 1.      一层次聚类 1.      层次聚类的原理及分类 2.      层次聚类的流程 ...

  3. 使用MATLAB进行K-means聚类和层次聚类

    1.分别使用k-means聚类和层次聚类,将以下八个点分为3个类簇.A1=(2,10),A2=(2,5),A3=(8,4),A4=(5,8),A5=(7,5), A6=(6,4), A7=(1,2), ...

  4. 聚类(2)——层次聚类 Hierarchical Clustering

    聚类系列: 聚类(序)----监督学习与无监督学习 聚类(1)----混合高斯模型 Gaussian Mixture Model 聚类(2)----层次聚类 Hierarchical Clusteri ...

  5. 【R】【密度聚类、层次聚类、期望最大化聚类】

    文章目录 1.对数据集进行加载.预处理集可视化 1.1 加载数据集 1.2 数据预处理 1.3 将样本点进行可视化 2.密度聚类(DBSCAN 算法) 2.1 加载程序包 2.2 设置聚类参数阈值并可 ...

  6. 说话人聚类--谱聚类和层次聚类

    谱聚类和层次聚类 在讯飞实习了一个月了,做了点说话人聚类的工作,现在总结一下主要用到的谱聚类和层次聚类. 层次聚类 在层次聚类这块,我主要学习了 凝聚型层次聚类和 BIRCH方法,主要参考的博客有 [ ...

  7. 聚类系列-层次聚类(Hierarchical Clustering)

    上篇k-means算法却是一种方便好用的聚类算法,但是始终有K值选择和初始聚类中心点选择的问题,而这些问题也会影响聚类的效果.为了避免这些问题,我们可以选择另外一种比较实用的聚类算法-层次聚类算法.顾 ...

  8. 【机器学习】聚类【Ⅴ】密度聚类与层次聚类

    主要来自周志华<机器学习>一书,数学推导主要来自简书博主"形式运算"的原创博客,包含自己的理解. 有任何的书写错误.排版错误.概念错误等,希望大家包含指正. 由于字数限 ...

  9. Python计算机视觉编程第六章——图像聚类(K-means聚类,DBSCAN聚类,层次聚类,谱聚类,PCA主成分分析)

    Python计算机视觉编程 图像聚类 (一)K-means 聚类 1.1 SciPy 聚类包 1.2 图像聚类 1.1 在主成分上可视化图像 1.1 像素聚类 (二)层次聚类 (三)谱聚类 图像聚类 ...

最新文章

  1. OpenCV4中的非典型深度学习模型
  2. 三关节机械臂控制命令修改
  3. 统计123出现次数_如何使用 count 统计词条出现次数?
  4. ASP.NET Core on K8S深入学习(10)K8S包管理器Helm-Part 2
  5. codevs 1052:地鼠游戏
  6. uniapp页面传参使用encodeURIComponent转义特殊符号
  7. Java SSM6——SSM整合
  8. PHP通过OpenSSL生成证书、密钥并且加密解密数据,以及公钥,私钥和数字签名的理解...
  9. 95-134-112-源码-维表-全量加载MySQL
  10. 《OpenGL编程指南》一第3章 OpenGL绘制方式
  11. python分数类_利用标准库fractions模块让Python支持分数类型的方法详解
  12. Dynamic CRM2013安装系列三、SQL及CRM2013安装
  13. linux下安装xgboost
  14. C语言:输入一个三位数,反向输出该三位数
  15. Dos命令 --复制文件(夹)
  16. 你装陈桥(五笔)啦吗,这是什么...!(qcssb19.exe)
  17. 最好的时光在路上,最美的风景在远方
  18. 强化学习《蘑菇书 EasyRL第一章 概览》
  19. python笔记图片_python-opencv笔记 图像的读取和简单几何图形绘制
  20. 【考研加油】所有上岸的考研人都有一个共同的特点,就是他们都参加考试了。2023考研加油。

热门文章

  1. 数据库开发-5-数据表的物理实现
  2. 配置submit运行php
  3. JS基础,从JS的组成到JS函数写法
  4. h5 利用getUserMedia 实现 只调用摄像头
  5. Navicat Premium 16 安装、卸载
  6. 利用文件链接更好地使用网络云盘
  7. 学习笔记——12306 检测余票(3)
  8. 软件项目管理工具-trac
  9. 2021年美容师(初级)考试内容及美容师(初级)最新解析
  10. 直接通过adb shell cmd直接打开android apk