聚类分析理论阐述

#理论参考
何晓群.多元统计分析(第五版)[M].北京:中国人民大学出版社


获取试卷:关注公众号回复:聚类分析试卷


1.聚类分析思想(简答)

聚类分析认为所研究的样品或指标之间存在不同程度的相似性,根据一批样品的多个观察指标,找到一些能够度量样品或指标之间的统计量,把这些统计量所谓划分类型的依据,把相似程度较大的样品聚合为一类,把相似程度较大的另外一类样品聚为另一类,关系密切的聚合到一个小的分类单位里,关系疏远的聚合到另一个大的分类单位里,直到把所有的样品或指标都聚合完毕,把不同类型的一一划分出来,形成一个有小到大的分类系统,最后把整个分类系统化成一张分群图,用它把样品或指标之间的亲疏关系表现出来。

对样品进行聚类分析时,要注意样品的数据类型,对定性的数据所做的分类常常分为Q型聚类分析,对变量的分类常称为R型聚类分析。

聚类分析的目的,是将相似的样品(研究对象)聚成类,使类内对象的同质性最大化和类与类之间的对象异质性最大化。

2.相似性度量

通过计算样本间的统计距离,进行相似度的度量。

3.统计距离的分类

衡量样品是否能分为同一类的指标,是样品之间的统计距离。统计距离分为明氏距离、马氏距离及欧氏距离。
明氏距离(明科夫斯基氏距离)
又称为绝对值距离,只需要将两者的坐标做简单相减,取绝对值数值就可以。设D为两个样本之间的明氏距离,则明氏距离的表达式为:

欧氏距离
欧式距离是我们最熟悉的距离之一,早在高中阶段,我们就学会了运用欧氏距离计算两点间的距离,将两点间的距离运用在立体几何中进行解题。但在数据分析中,由于欧氏距离对每个坐标之间的贡献值都是同等的,不能对指标进行合理的加权。而且在度量大小的时候,与指标的单位有关,在进行经济类指标的计算的时候,由于各类数据的单位不统一,导致研究的不准确,因此在统计计算中,不采用欧氏距离作为计算距离的方法。
计算公式:

马氏距离
利用坐标差平方除以方差,将数据转化为无量纲的数,可以消除数据量纲对聚类结果之间的影响。计算方法如下:

在多元的情况下,转化成矩阵,也是利用公式代入,得到矩阵。
马氏距离的计算在多元统计分析的期末考试中,是一个小的考点。考点主要考察的是逆矩阵的计算。如果逆矩阵的运算不存在问题,一般不会出错。

4.系统聚类法

系统聚类法说聚类分析中使用最多的方法,步骤如下:
计算n个样本两两之间的距离
构造n个类别,每个类别只包含一个样品
合并距离最近的两类为一个新的类别
计算新类与当前各类之间的距离
当类的个数不唯一时,循环第3、4步,直到类别数为1
画出聚类图
决定分类个数和类别
其中,最短距离法和最长距离法是系统聚类法的常用方法,最长距离法和最短距离法的距离所指的是上面计算的类与类之间统计距离,需要注意的是,无论是使用最短距离法进行聚类,还是最长距离法进行聚类,在聚成一个新类的时候,都需要选择两个最短距离的类别聚成一个新类,最短距离法的短,体现在聚成新类之后再次计算类与类之间的距离时,采用类别中与另一个类别中的变量距离最短的一个,而最长距离则是才去距离最长的一个。

5.K-means聚类和有序样品的聚类

在数据挖掘中,对商业信息进行挖掘时,时常用到K-means聚类,在R语言和Python中,K-means聚类都是被广泛使用的数据处理方法,在K-means聚类之前,需要对数据进行标准化。
K-means聚类定义:
L-means聚类又称为非谱系聚类法,将样品聚集成K个类的集合,类的个数K可以先预定,类的个数K可以先给定,或者在聚类过程中确定。在计算机计算过程中,无需确定距离(即相关系数矩阵),也无须储存数据,所以K-means聚类可以用于数据量较大的情况。
K-means一开始对元素分组,或者从一个构成各类核心的“种子”集合开始,选择好的初始构型能消除系统的偏差,一种方法是从所有项目中随机选择“种子”或随机的元素分成若干个初始类。
步骤如下:【当然通过软件是可以直接一步到位实现的,例如R或者Python都时候几行代码就可以了】
把样品粗略分为K个初始类
进行修改,逐个分派样品到最近均值类中(用标准化or非标准化数据计算欧氏距离)【个人倾向于将数据进行标准化后消除量纲对结果的影响的前提下再用K-means聚类】重新计算接受新样品的类和是取样品的类的形心(均值)
重复步骤2,直到各类无元素进出。
为了避免以下情况的出现,在实际操作中,导师一般建议我们事先确定分类个数。如果没有预先分类,则可能会出现以下情况:
(1)聚类结果难以区分。如果存在两个或多个“种子”跑到同一类中,则聚类结果将难以区分。
(2)局外干扰的存在将至少产生一个样品非常分散的类。
(3)即使一直总体由K个类别组成,抽样方法也可造成属于最稀疏类的数据不出现在样本中,强行把这些数据分成K个类会导致无意义的聚类。

有序样品的聚类

(1)可能的分类数目
假设用x1,x2,…xn,表示n个有顺序的样品,有序样品的分类结果要求每一类必须呈:

,增加了有序这个约束条件,相对于K-means算法,对分类结果,有序样品的分类就类似于高中排列组合题目的解法,进行插空,所以所有可能的分类有

种,
如果想要分成3类,就相当于插上两根棍子,因此可能分类就有

因此如果是分成k类,那可能分类就是

期末复习题:

(1)统计距离的计算【马氏距离的计算】

最长距离法/最短距离法进行聚类


【多元统计分析】聚类分析【期末复习】相关推荐

  1. 实用统计分析学期末复习

    应用统计期末复习 1. Matlab 矩阵寻访,剪裁,拼接 A = [1 2; 3 4] 取第二行 A(2, :) 取第二列 A(:, 2) 将第二行第二列元素赋值为 5 A(2, 2) = 5 右边 ...

  2. 【应用多元统计分析】期末简答题高频考题

    一.判别分析 1.判别分析的基本思想:设有n个样本,对每个样本的p项指标,已知每个样本属于k个类别中的某一类,找到一个最优性质判别函数,能把不同类别的样本点尽可能区别开,以最优的性质对p维空间构造一个 ...

  3. 多元统计分析——聚类分析——层次聚类

    聚类方法 适用场景 代表算法 优点 缺陷 延伸 层次聚类 小样本数据 - 可以形成类相似度层次图谱,便于直观的确定类之间的划分. 该方法可以得到较理想的分类 难以处理大量样本,计算复杂度高   基于划 ...

  4. 多元统计分析--聚类分析(系统性聚类、K均值聚类)

    摘要 系统聚类分为Q型聚类与R型聚类.前者对样品进行聚类,后者对变量进行聚类.在本文中,我们探讨对样品的分类. 文章目录 摘要 主要思想 相似性的度量 系统聚类 K均值聚类 主要思想 聚类,在样品没有 ...

  5. 多元统计分析matlab,MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法...

    MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法: 1.层次聚类hierarchical clustering 2.k-means聚类 这里用最简单的实例说明以下层次聚类原理和应用发 ...

  6. R语言期末复习资料----助力高绩点

    多元统计分析及R语言建模(第四版) R语言期末复习资料 第一章 多元统计分析概述 1.列出常用的统计软件,说明其使用范围和各自的优缺点 解: (1)SAS:组合软件系统,入门比较困难 (2)SPSS: ...

  7. 多元统计分析何晓群_多元统计分析第四章作业

    关注公众号,更多资源分享 回复关键词:多元统计分析 即可获取更多详细其他章节答案 <多元统计分析>课后答案||何晓群版(第二章) <多元统计分析>第一章课后答案(何晓群编第五版 ...

  8. 多元统计分析最短距离法_多元统计分析重点

    多元统计分析重点宿舍版 第一讲:多元统计方法及应用:多元统计 方法分类(按变量.模型.因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分 析, 因子 ...

  9. 数据挖掘期末复习01-02

    数据挖掘期末复习 题型 选择题:单选7 + 多选7(上课认真听课) 每道3分 解答 6道 概念性:什么是数据挖掘啊之类的 计算2道-3道(高分必备) 第二章 kk计算 第三章 aprio计算 第四章 ...

最新文章

  1. 设计模式----组合模式UML和实现代码
  2. pandas数据结构:Series/DataFrame;python函数:range/arange
  3. 算法-排序-归并排序
  4. KVC/KVO实现原理分析
  5. 自制hdmi线一头改vga图_东莞VGA数据线厂商价格
  6. VSCODE打开野火电机代码需要增加的配置 c_cpp_properties.json
  7. 也谈被严重高估的安全技术
  8. 【DRP】【SQL】-悲观锁-防止多用户同时操作时出现脏数据
  9. Django restframework 嵌套关系处理
  10. SQL:日期函数 year() month() day()
  11. java网络编程,HttpClient 应用~
  12. cad数字签名制作制作_电影制作部门按数字变化
  13. OSChina 周三乱弹 —— 你们的女神宣布结婚了
  14. 手把手教你用JSP完成登录注册插入数据库数据
  15. String的一些方法
  16. 王者s19服务器维护,王者S19丨4个必须知道的调整!最后一个不知没法玩!
  17. 新生儿办理户口(入户)
  18. linux fedora 内核,Fedora下使用yum更新Linux内核
  19. 苹果三星会谈16小时无果 专利案将进入庭审阶段
  20. iOS 13.0 至 13.7 平刷系统教程

热门文章

  1. 瑞萨E1仿真器(R0E000010KCE00)支持的MCU系列---78K Family
  2. iconfont字体图标下载
  3. Java验证对象的属性值是否都为空
  4. 写给大忙人看的 - Java中图片压缩上传至MinIO服务器(4)
  5. 系统之家 linux下载,深度系统deepin linux最新版ISO镜像下载 V15.4.1
  6. 【Window 入侵排查】
  7. windows安装pscp工具,通过命令行上传到linux服务器
  8. 禽畜养殖生产智慧管理系统方案
  9. java lang r,内存泄漏?为什么java.lang.ref.Finalizer吃了这么多内存
  10. 聊一聊关于Glide在面试中的那些事