摘要

系统聚类分为Q型聚类与R型聚类。前者对样品进行聚类,后者对变量进行聚类。在本文中,我们探讨对样品的分类。

文章目录

  • 摘要
  • 主要思想
  • 相似性的度量
  • 系统聚类
  • K均值聚类

主要思想

聚类,在样品没有给定历史分类信息的前提下,仅依靠样品之间的相似性进行分类。对于“相似”的样品,将其分为一类。而这种相似性,将要依靠“距离”进行度量。

相似性的度量

正如上述所说,根据样品间的相似性(靠近程度)进行聚类,样品间的靠近程度就利用距离进行衡量。
每个拥有p个变量观测值的样品可以看作p维空间中的一个点,若存在n个样品,即该空间就存在n个点。
利用距离来定义n个点中两两之间的距离,设有两点 x=(x1,x2,...,xp)Tx=(x_1,x_2,...,x_p)^Tx=(x1​,x2​,...,xp​)T与y=(y1,y2,...,yp)Ty=(y_1,y_2,...,y_p)^Ty=(y1​,y2​,...,yp​)T
下面介绍几种距离:

  1. 欧氏距离
    d2(x,y)=∑i=1p(xi−yi)2=(x−y)T(x−y)d^2(x,y)=\sum_{i=1}^p(x_i-y_i)^2=(x-y)^T(x-y) d2(x,y)=i=1∑p​(xi​−yi​)2=(x−y)T(x−y)
  2. 绝对距离
    d2(x,y)=∑i=1p∣xi−yi∣d^2(x,y)=\sum_{i=1}^p|x_i-y_i| d2(x,y)=i=1∑p​∣xi​−yi​∣
  3. 切氏距离
    d2(x,y)=max⁡i∣xi−yi∣d^2(x,y)=\max_{i}|x_i-y_i| d2(x,y)=imax​∣xi​−yi​∣
  4. 明氏距离
    d2(x,y)=∑i=1p∣xi−yi∣kkd^2(x,y)=\sqrt[k]{\sum_{i=1}^p|x_i-y_i|^k} d2(x,y)=ki=1∑p​∣xi​−yi​∣k​
    k=1,明氏距离就是绝对距离;k=2,就是欧氏距离;k=∞\infty∞,就是切氏距离
  5. 兰氏距离
    d2(x,y)=∑i=1p∣xi−yi∣∣xi+yi∣d^2(x,y)=\sum_{i=1}^p\frac{|x_i-y_i|}{|x_i+y_i|} d2(x,y)=i=1∑p​∣xi​+yi​∣∣xi​−yi​∣​
  6. 马氏距离
    d2(x,y)=(x−y)TΣ−1(x−y)d^2(x,y)=(x-y)^T\Sigma^{-1}(x-y) d2(x,y)=(x−y)TΣ−1(x−y)

度量两个类之间的距离:关于两个类之间的距离,度量方法不同,产生的聚类结果可能不同。
设G1、G2为两个类,dij为G1中第i个样品与第j个样品之间的距离G_1、G_2为两个类,d_{ij}为G_1中第i个样品与第j个样品之间的距离G1​、G2​为两个类,dij​为G1​中第i个样品与第j个样品之间的距离:

  1. 最小距离法
    D12=mindijD_{12}=min~d_{ij}D12​=min dij​
  2. 最大距离法
    D12=maxdijD_{12}=max~d_{ij}D12​=max dij​
  3. 中间距离法:G2=(G3,G4)G_2=(G_3,G_4)G2​=(G3​,G4​)
    D12=12D13+12D14−14D34(递推公式)D_{12}=\frac{1}{2}D_{13}+\frac{1}{2}D_{14}-\frac{1}{4}D_{34}~~~~(递推公式)D12​=21​D13​+21​D14​−41​D34​    (递推公式)
  4. 重心距离法:分别求出两个总体的重心点,两重心点的距离就是总体之间的距离。
    11.离差平方和法:遵循方差的思想,如果分类正确,那么类内的点离差平方和足够小,类和类之间的离差平方和足够大

系统聚类

主要思想: 有n个样品,初始状态为n类。首先找出最“相似”的两个样品归为一类,这时,总共有n-1类。再从n-1类中找到距离最近的两类,将其化为一类,重复此操作,不断迭代,直到所有样品归为一个大类。将上述过程可以画成一张树状图,按一定的原则将其分为几类。
例:


K均值聚类

主要思想:事先决定聚类结果的种类数,首先先粗略的将所有样本分为k类,然后根据某种最优准则对各类中的点判断该点的现有分类是否合理,修改不合理(例如G1内的A点到G1中心的距离比A点到其它类中心的距离还要长)的分类。直到所有点都合理(类内距离小,类间距离大),结束。

标准过程:

练习1:
五个一维样品点1,2,4,8,11做K均值聚类,初始分类为G1=(1,4,11),G2=(2,8)G_1=(1,4,11),G_2=(2,8)G1​=(1,4,11),G2​=(2,8),请完成后续的K均值聚类步骤。

练习2:
拟使用K均值聚类对下列四个样本点进行聚类:A=(5,4)T,B=(1,−2)T,C=(−1,1)T,D=(3,1)TA=(5,4)^T,B=(1,-2)^T,C=(-1,1)^T,D=(3,1)^TA=(5,4)T,B=(1,−2)T,C=(−1,1)T,D=(3,1)T设定初始聚类为{A,B}和{C,D},请写出K均值聚类完整迭代过程,并给出聚类结果。

多元统计分析--聚类分析(系统性聚类、K均值聚类)相关推荐

  1. 图像聚类-K均值聚类

    最近做的一个东西跟这个相关,本来希望是用深度学习对于没有标签的图像数据进行分类,但是通常情况下,深度学习是对有标签的数据进行学习,目的是用来自动提取特征,代替传统的手工提取特征.因此,比较容易想到,对 ...

  2. EM算法应用:k均值聚类(k-means)和高斯混合模型(GMM)

    文章目录 k-means聚类 EM角度的理解 算法流程 特点 k值选择 局限性 高斯混合模型 GMM的问题描述 1,明确隐变量 2.EM算法的E步:确定Q函数 3. EM算法的E步 4. 停止条件 上 ...

  3. 金融业信贷风控算法9-聚类场景之K均值聚类与K邻近聚类

    文章目录 一. K均值聚类:物以类聚.人以群分 1.1 距离的概念 1.2 闵可夫斯基距离 1.3 VDM距离 1.4 聚类模型中的基本概念 1.5 K-均值聚类(K-means) 1.6 K-均值算 ...

  4. Python,OpenCV中的K均值聚类——K-Means Cluster

    Python,OpenCV中的K均值聚类 1. 效果图 2. 原理 2.1 什么是K均值聚类? 2.2 K均值聚类过程 2.3 cv2.kmeans(z, 2, None, criteria, 10, ...

  5. 非监督学习: K 均值聚类(原理、步骤、优缺点、调优)

    支持向量机.逻辑回归.决策树等经典的机器学习算法主要用于分类问题,即根据一些己给定类别的样本, 训练某种分类器,使得它能够对类别未知的样本进行分类.与分类问题不同,聚类是在事先并不知道任何样本类别标签 ...

  6. spss聚类分析_SPSS聚类分析 I K均值聚类法案例实操

    - 点击上方"中国统计网"订阅我吧!- 文末领取医疗行业报告 今天想写一下聚类分析方法之一:K-Mean聚类法 01聚类分析模型简介 (1)聚类分析没有过多的统计理论支持,也没有统 ...

  7. 聚类分析 | MATLAB实现k-Means(k均值聚类)分析

    目录 聚类分析 | MATLAB实现k-Means(k均值聚类)分析 k-均值聚类简介 相关描述 程序设计 学习小结 参考资料 致谢 聚类分析 | MATLAB实现k-Means(k均值聚类)分析 k ...

  8. 基于K均值聚类的葡萄酒品种判别

    特别注意:主要思路.程序和分析过程来源于:https://www.kaggle.com/xvivancos/tutorial-clustering-wines-with-k-means.本文在此基础上 ...

  9. K均值聚类关于初始聚类中心的探讨

    摘要:进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注.数据挖掘是指从数据库中发现隐含在大量数据中的新颖的.潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现. ...

最新文章

  1. linux kernel 2.6.36 编译升级
  2. 简单程序计算无穷级数e^x
  3. vue中使用swiper,vue-awesome-swiper
  4. zstd安装_PHP: 安装 - Manual
  5. 前端开发面试题总结-代码篇
  6. ubuntu下的eclipse 3.3初用aptana报SWT错误
  7. ES6学习(四)—字符串的新增方法
  8. 安装完python怎么打开-python安装后怎么启用
  9. 区块链软件公司:供应链高本钱的运用区块链技能是否值得?
  10. SQL Server 两个时间段的差and时间截取到时分
  11. php颜色淡入代码,JavaScript_jquery 淡入淡出效果的简单实现,样式:复制代码 代码如下:nbsp - phpStudy...
  12. AXI3.0 AXI4.0 五大通道接口详细介绍
  13. 三层交换机dhcp服务器性能,CISCO三层交换机怎么配置DHCP服务?
  14. 食品和饮料销售预测分析
  15. 小甲鱼飞机大战(素材+代码)
  16. 脚本语言【JavaScript基础】JavaScript函数:声明+调用
  17. PlatoFarm推出正式版游戏经济模型的特点分析
  18. Windows 10 使用命令行格式化磁盘/U盘
  19. stata质别变量赋值_【STATA学习笔记】虚拟变量的生成
  20. win2003 启动报错c0000135 this application has failed to start because csrsrv.dll was not found

热门文章

  1. 智慧农业App开发部分文档
  2. 【JSP】JSP从基础到入门笔记完整一篇
  3. 客快物流大数据项目(八十九):ClickHouse的数据类型支持
  4. linux代码怎么运行gedit,Linux中gedit命令起什么作用呢?
  5. lut及3D LUT调色预设怎么导入Mac?fcpx/PR/AE/PS/LR/达芬奇lut预设导入教程!
  6. 安全多方计算之二:一文搞懂百万富翁问题
  7. 桌面便签程序的实现详解和源码 (上)
  8. 机房计算机安装的软件,关于2019-2020学年第二学期公共机房安装新软件的通知
  9. 开发游戏平台要多少钱?
  10. Android之间互相的录屏直播 --点对点传输(tcp长连接发送h264)(一)