《多元统计分析》学习笔记之聚类分析

鄙人学习笔记
PS:对不起，原本想简单写写，总结一下，不想截那么多图，但写着写着觉得都挺想写的，就越写越多，越截越多。。。。

文章目录

聚类分析
- 聚类分析的基本思想
- 相似性度量
- 类和类的特征
- 系统聚类法
- K-均值聚类
- 有序样本的聚类

聚类分析

聚类分析将个体或对象分类，使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。其目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。

聚类分析的基本思想

基本思想

所研究的样品或指标（变量）之间存在着程度不同的相似性（亲疏关系）。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间的相似程度的统计量，以这些统计量作为划分类型的依据，把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另外一类……关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有的样品（或指标）都聚合完毕，把不同的类型一一划分出来，形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图（又称谱系图），用它把所有的样品（或指标）间的亲疏关系表示出来。

Q型和R型聚类

聚类分析不仅可以用来对样品进行分类，也可以用来对变量进行分类。对样品的分类常称为 Q型聚类分析，对变量的分类常称为 R型聚类分析。

不同指标类型，聚类中处理方式不同

指标的类型有三种尺度：
（1）间隔尺度。变量用连续的量来表示
（2）有序尺度。指标用有序的等级来表示
（3）名义尺度。指标用一些类来表示，这些类之间既没有等级关系，也没有数量关系

不同类型的指标，在聚类分析中，处理的方式是大不一样的。总的来说，处理间隔尺度指标的方法较多，对另两种尺度的变量的处理方法不多。

聚类分析有多种方法

（1）系统聚类法。
首先，将 n个样品看成 n类（一类包含一个样品），然后将性质最接近的两类合并成一个新类，得到 n－1类，再从中找出最接近的两类加以合并变成 n－2类，如此下去，最后所有的样品均在一类，将上述并类过程画成一张图（称为聚类图）便可决定分多少类，每类各有哪些样品。
（2）模糊聚类法。
将模糊数学的思想观点用到聚类分析中产生的方法。该方法多用于定性变量的分类。
（3）K-均值法。
K-均值法是一种非谱系聚类法，它是把样品聚集成 k个类的集合。类的个数 k可以预先给定或者在聚类过程中确定。该方法可应用于比系统聚类法大得多的数据组。
（4）有序样品的聚类
n个样品按某种原因（时间、地层深度等）排成次序，必须是次序相邻的样品才能聚成一类。
（5）分解法
它的程序正好和系统聚类相反，首先所有的样品均在一类，然后用某种最优准则将它分为两类。再用同样准则将这两类各自试图分裂为两类，从中选一个使目标函数较好者，这样由两类变成三类。如此下去，一直分裂到每类只有一个样品为止（或用其他停止规则）

（6）加入法
将样品依次加入，每次加入后将它放到当前聚类图的应在位置上，全部加入后，即可得到聚类图。

相似性度量

从一组复杂数据产生一个相当简单的类结构，必然要求进行相关性或相似性度量。在相似性度量的选择中，常常包含许多主观上的考虑，但最重要的考虑是指标（包括离散的、连续的和二态的）性质或观测的尺度（名义的、次序的、间隔的和比率的）以及有关的知识。

p个指标为间隔尺度时的距离

最常见、最直接的距离：

d_ij（ q）在实际中应用很多，但是有一些缺点，例如距离的大小与各指标的观测单位有关，它就具有一定的人为性；另一方面，它又没有考虑指标之间的相关性。

通常的改进办法有以下几种：
（1）标准化

（2）兰氏距离

（3）马氏距离

一种改进的距离就是前面说过的马氏距离：

在聚类分析之前，我们事先对研究对象有多少个不同类型的情况一无所知，马氏距离公式中的 ∑值如何计算呢？如果用全部数据计算的均值和协方差阵来计算马氏距离，效果也不是很理想。因此，通常人们还是喜欢应用欧氏距离聚类。

p个指标为名义尺度时的距离

当 p个指标都是名义尺度时，例如 p＝ 5，有两个样品的取值为：

这两个样品的第一个指标都取 V，称为配合的；第二个指标一个取 Q，另一个取 M，称为不配合的。记配合的指标数为 m1，不配合的指标数为 m2，定义它们之间的距离为：

相似系数

在聚类分析中不仅需要将样品分类，也需要将指标分类。在指标之间也可以定义距离，更常用的是相似系数，用 C_ij表示指标 i和指标 j之间的相似系数。 C_ij的绝对值越接近于 1，表示指标 i和指标 j之间的关系越密切； C_ij的绝对值越接近于 0，表示指标 i和指标 j的关系越疏远。

常用的相似系数有：
（1）夹角余弦
（2）相似系数

实际上，距离和相似系数之间可以互相转化。若 d_ij是一个距离，则 C_ij＝ 1/（ 1＋ d_ij）为相似系数。若 C_ij为相似系数且非负，则d_ij = 1-C_ij²可以看成距离（不一定符合距离的定义），或把 d_ij＝［2（1－C_ij）］^{1/ 2}看成距离。

类和类的特征

类与类中之间的几种距离
（1）最短距离法
（2）最长距离法
（3）类平均法
（4）重心法
（5）离差平方和法

系统聚类法

系统聚类法的流程图：
最短距离法和最长距离法

最短距离法的主要缺点是它有链接聚合的趋势，因为类与类之间的距离为所有距离中的最短者，两类合并以后，它与其他类的距离缩小了，这样容易将大部分样品都被聚在一类中，所以最短距离法的距离效果并不好，实践中不提倡使用。

最长距离法克服了最短距离法链接聚合的缺陷，两类合并以后与其他类的距离是原来两个类中的距离最大者，加大了合并后的类与其他类的距离。

重心法和类平均法

从物理的观点看，一个类用它的重心（该类样品的均值）做代表比较合理，类与类之间的距离就用重心之间的距离来代表。

这就是重心法距离的递推公式。

重心法虽然有很好的代表性，但是未充分利用各样本信息。

有学者将两类之间的距离平方定义为这两类元素两两之间的平均平方距离，即：

上式也可记为：

这就是类平均法的递推公式。

类平均法是聚类效果较好、应用比较广泛的一种聚类方法。它有两种形式，一种是组间联结法（ between- groups linkage），另一种是组内联结法（ within- groups likage）。组间联结法在计算距离时只考虑两类之间样品之间距离的平均，组内联结法在计算距离时把两组所有个案之间的距离都考虑在内。

还有一种类平均法，它将类与类之间的距离定义为：

用类似的方法可导出这种定义下的距离递推公式如下：

在类平均法的递推公式中没有反映 D_pq的影响，有学者将递推公式改为：

式中， β＜ 1。对应于上式的聚类法称为可变类平均法。如果接近 1，一般分类效果不好，故 β常取负值。

离差平方和法(Ward法)

离差平方和方法是由沃德（Ward）提出的，许多文献中称为Ward法。他的思想源于方差分析，如果类分得正确，同类样品的离差平方和应当较小，类与类之间的离差平方和应当较大。

整个类内平方和是：

当k固定时，要选择使L达到极小的分类，n个样品分成k类，一切可能的分法有：

例如，当n＝21，k＝2时，R（21，2）＝221－1＝1048575。当n，k更大时，R（n，k）就达到了天文数字。要比较这么多分类来选择最小的 L，即使高速计算机也难以完成。于是，只好放弃在一切分类中求 L的极小值的要求，而是设计出某种规格：找到一个局部最优解， Ward法就是找局部最优解的一个方法。

若将某类G_p和G_q合并为G_r，则类G_k与新类G_r的距离递推公式为：

需要指出的是，离差平方和法只能得到局部最优解。

分类数的确定

因此，如何选择分类数成为各种聚类方法中的主要问题之一。
在K- 均值聚类法中聚类之前需要指定分类数，谱系聚类法（系统聚类法）中我们最终得到的只是一个树状结构图，从图中可以看出存在很多类，但问题是如何确定类的最佳个数。

在系统聚类过程中，首先把离得近的类合并，所以在并类过程中聚合系数（ agglomeration coefficients）呈增加趋势，聚合系数小，表示合并的两类的相似程度较大，两个差异很大的类合到一起，会使该系数很大。如果以 y轴为聚合系数， x轴表示分类数，画出聚合系数随分类数的变化曲线，会得到类似于因子分析中的碎石图，可以在曲线开始变得平缓的点选择合适的分类数。

系统聚类法的统一

上面介绍的五种系统聚类法，如果能将它们统一为一个公式，将大大有利于编制计算机程序。兰斯和威廉姆斯于 1967年给出了一个统一的公式：

式中， α_p， α_q， β， γ对于不同的方法有不同的取值，表 3— 6列出了不同方法中四参数的取值。

由于上述聚类方法得到的结果不完全相同，为了解决这个问题，需要研究系统聚类法的性质，现简要介绍如下：
（1）单调性
令D_r 为系统聚类法中第r 次并类时的距离。一个系统聚类法若能保证｛ D_r｝是严格单调上升的，则称它具有单调性。
显然，最短距离法和最长距离法具有并类距离的单调性。可以证明，类平均法、离差平方和法、可变法和可变类平均法都具有单调性，只有重心法和中间距离法不具有单调性。
（2）空间的浓缩与扩张
对同一问题做聚类图时，并类距离的范围相差很远。最短距离法的范围较小，最长距离法的范围较大，类平均法则介于二者之间。

设有 A， B两个系统聚类法，在第 k步的距离阵记作 A_k和 B_k（ k＝ 0， 1，…， n－1），若 A_k ≥ B_k（ k＝ 1， 2，…， n－1），则称 A比 B扩张或者 B比 A浓缩。

归纳起来说，与类平均法相比，最短距离法、重心法使空间浓缩；最长距离法、离差平方和法使空间扩张。太浓缩的方法不够灵敏，太扩张的方法在样本大时容易失真。类平均法比较适中，相比其他方法，类平均法不太浓缩也不太扩张，故许多书推荐这个方法。

K-均值聚类

非谱系聚类法

非谱系聚类法是把样品（而不是变量）聚集成 K个类的集合。类的个数 K可以预先给定，或者在聚类过程中确定。
非谱系聚类法或者一开始就对元素分组，或者从一个构成各类核心的“种子”集合开始。选择好的初始构形，将能消除系统的偏差。一种方法是从所有项目中随机地选择“种子”点或者随机地把元素分成若干个初始类。

k-均值法(快速聚类法)

麦克奎因（Macqueen）于1967 年提出了K- 均值法。这种聚类方法的思想是把每个样品聚集到其最近形心（均值）类中。
在它的最简单说明中，这个过程由下列三步所组成：
（1）把样品粗略分成K 个初始类。
（2）进行修改，逐个分派样品到其最近均值的类中（通常用标准化数据或非标准化数据计算欧氏距离）。重新计算接受新样品的类和失去样品的类的形心（均值）。
（3）重复第（2）步，直到各类无元素进出。若不在一开始就粗略地把样品分到K 个预先指定的类（第（1）步），也可以指定K 个最初形心（“种子”点），然后进行第（2）步。
样品的最终聚类在某种程度上依赖于最初的划分，或种子点的选择。

为了检验聚类的稳定性，可用一个新的初始分类重新检验整个聚类算法。如果最终分类与原来一样，则不必再行计算；否则，须另行考虑聚类算法。

关于k-均值法的几个评注

对于预先不固定类数 K这一点有很大的争论，其中包括下面几点：
（1）如果有两个或多个“种子”点无意中跑到一个类内，则其聚类结果将很难区分。
（2）局外干扰的存在将至少产生一个样品非常分散的类。
（3）即使已知总体由 K个类组成，抽样方法也可造成属于最稀疏类数据不出现在样本中。强行把这些数据分成 K个类会导致无意义的聚类。

有序样本的聚类

有序样本分类

对于这类有序样品的分类，实质上是需要找出一些分点，将它们划分成几个分段，每个分段看作一类，称这种分类为分割。显然，分点在不同位置可以得到不同的分割。这样就存在一个如何决定分点，使其达到所谓最优分割的问题。即要求一个分割能使各段内部样品间的差异最小，而各段之间样品的差异最大。