机器学习改进的层次聚类算法

http://www.cnblogs.com/wentingtu/archive/2012/01/04/2311533.html

基本工作原理
给定要聚类的N的对象以及N*N的距离矩阵(或者是相似性矩阵), 层次式聚类方法的基本步骤(参看S.C. Johnson in 1967)如下:
1. 将每个对象归为一类, 共得到N类, 每类仅包含一个对象. 类与类之间的距离就是它们所包含的对象之间的距离.

2.     找到最接近的两个类并合并成一类, 于是总的类数少了一个.
3.     重新计算新的类与所有旧类之间的距离.
4.     重复第2步和第3步, 直到最后合并成一个类为止(此类包含了N个对象).
根据步骤3的不同, 可将层次式聚类方法分为几类: single-linkage, complete-linkage 以及 average-linkage 聚类方法等.

single-linkage 聚类法(也称 connectedness 或 minimum 方法)：

类间距离等于两类对象之间的最小距离，若用相似度衡量，则是各类中的任一对象与另一类中任一对象的最大相似度。

complete-linkage 聚类法 (也称 diameter 或 maximum 方法)：

组间距离等于两组对象之间的最大距离。

average-linkage 聚类法：

组间距离等于两组对象之间的平均距离。

average-link 聚类的一个变种是R. D'Andrade (1978) 的UCLUS方法, 它使用的是median距离, 在受异常数据对象的影响方面, 它要比平均距离表现更佳一些.

这种层次聚类称为“凝聚"法，由于它迭代合并所有分类。也有一种“划分”层次聚类法，与“凝聚”相反，它先将所有对象放在同一类中，并不断划分成更小的类，划分法一般很少使用。

http://www.analytictech.com/networks/hiclus.htm

http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/hierarchical.html

这两个网页特别值得一看。讲的非常好。这些天研究了一下层次聚类，偶尔发现了这个网址。下面是其他网页的一些关于层次聚类的内容。参考一下

层次聚类方法是不可逆的，也就是说，当通过凝聚式的方法将两组合并后，无法通过分裂式的办法再将其分离到之前的状态，反之亦然。另外，层次聚类过程中调查者必须决定聚类在什么时候停止，以得到某个数量的分类。最后，必须记住，在不必要的情况下应该小心使用层次聚类方法。最好用于有潜在层次结构的数据上。

凝聚式方法是层次聚类中被广泛使用的方法。过程中，会产生一系列的分划：最初的是n个单成员的类，最后的划分是一个包含全部个体的单个类。凝聚式聚类有很多方法，但基本的操作是相似的，在每一步中，将距离最近的类或者个体融合成一个类。方法之间的差异只是由不同的个体和组之间，或组与组之间的距离的计算方法而带来的。下面介绍一些常用的方法。

单连锁(single linkage)，又称最近邻(nearest neighbour)方法。这个方法使用数据的相似度矩阵或距离矩阵，定义类间距离为两类之间数据的最小距离。这个方法不考虑类结构。可能产生散乱的分类，特别是在大数据集的情况下。因为它可以产生chaining现象，当两类之间出现中间点的时候，这两类很有可能会被这个方法合成一类。单连锁也可以用于分裂式聚类，用来分开最近邻距离最远的两组。

全连锁(complete linkage)，又称最远邻(furthest neightbour)方法。同样从相似度矩阵或距离矩阵出发，但定义距离为两类之间数据的最大距离。同样不考虑到类的结构。倾向于找到一些紧凑的分类。

（组）平均连锁(group average linkage)，又称为 UPGMA(Unweighted Pair-Group Methodusing the Average approach)。跟前两个方法一样，从相似度矩阵或距离矩阵出发，但定义距离为类间数据两两距离的平均值。这个方法倾向于合并差异小的两个类。（距离）介于单连锁和全连锁之间。它考虑到了类的结构，产生的分类具有相对的鲁棒性。

质心连锁(centroid linkage)，又称为UPGMC(Unweighted Paire-Group Method using Centroid approach)。不同于前面的方法，它从距离矩阵和原始数据出发，一般定义距离为平方欧几里得距离（可以使用其他距离测度方法，但是可能会对缺少原始数据的阐释，比如“质心”的概念），此距离为个体与组的质心（所有成员的原始数据均值），或组与组的质心距离。（待补充）

中值连锁(median linkage)，又称为WPGMC(Weighted Pair-Group Method using Centroid approach。跟前面的UPGMC不同的是，在计算组的质心时，将合成该组的两部分（组组，个体和组？）按照相同的权重计算，也就是说算出的质心实际上是组成该组的两部分的质心的均值。（待补充）

Ward′s method，又称离差平方和法(error sum of squares criterion)。这个方法倾向于在每一步使组内的离差平方和的增量最小。所谓的离差平方和定义为

E=sum_{m=1}^{g} E_{m}
Where
E_{m}=sum_{l=1}^{n_{m}}sum_{k=1}^{p}(x_{ml,k}- ar{x}_{m,k})^{2}
其中，
ar{x}_{m,k}＝(1/n_{m})sum_{l=1}^{n_{m}}x_{ml,k}
是第m组中第k个变量的均值，x_{ml,k}是原始数据中第m组(m=1,...,g)，第l个个体(l=1,...,n_{m}),第k个变量(k=1,...,p)的数值。具体描述见P61。

其他的方法包括，加权的平均值连锁(WPGMA)，相似于平均值连锁，但是在计算类间距的时候给距离加上了相当于类中成员个数倒数的权重。平方和法(sum of squares)是类似于Ward′s method的方法，但是它基于每个类的平方和而不是聚合的类的平方和的增值。

Lance和William给出了一个灵活的方法，定义了一个递归公式。公式中的参数变化对应前面常间的那些方法。这个公式给出类k和由类i类j合成的类(ij)之间的距离为：

d_{k(ij)}=alpha_{i}d_{ki}+alpha_{j}d_{kj}+ eta*d_{ij}+gamma|d_{ki}-d_{kj}|
其中d_{ij}是类i和类j之间的距离。Lance和William定义参数满足
alpha_{i}+alpha_{j}+ eta=1,alpha_{i}=alpha_{j}, eta<1,gamma=0
而前面的六种方法对应于不同的alpha, eta,和gamma取值。具体见P63表4.2 。

各种凝聚聚类方法有利有弊。比如连锁现象（chain）出现在两个明显分开的类间插入中间点时的情况，这种现象出现在单连锁情况下。虽然单连锁无法还原原来的类结构，但它在找出特例上可以起到作用。全连锁和平均连锁同样无法还原类结构，且倾向于产生球形的类。在凝聚聚类时，选择合适的类的个数和画出原始数据的图像尤为重要。

经验研究表明，当数据中潜在的类的成员数相似时，Ward′s method表现良好，但在成员数不同时表现不好，此时质心法或全连锁可以给出满意的结果。在聚类的稳定性方面，全连锁要强于单连锁，后者对数据中出现例外时的敏感度较高。在应用到实际问题上时，质心法和中值连锁由于产生的分类不符合层次体系所以被抛弃，而Ward′s method，全连锁，和平均值连锁值得推荐。没有一种方法是特别出色的，且这些方法都会给出不同的分类结果。有两点得记住，单连锁拥有很好的数学性质，易于编程，但是结果不佳；Ward′s method效果不错但是会产生不必要的球形的类。

分裂式方法跟凝聚式方法的方向相反，从一个整类出发，一步一步细化。由于每一步时对一个k元素的类，需要考虑2^{k}-1种分划情况，所以运算量非常大，而显得不实用。但是对于二进制数据来说，一些简化方法使得分裂式方法变得可行。比如单元分裂方法(monothetic divisive methods)在每一步基于一个变量进行划分，而多元方法(polythetic methods)则使用全部的变量。分裂式方法的有点在于研究者可以把注意力集中在数据的结构上面。

单元分裂方法在每一步选出一个变量对整个类进行细分，“拥有”这个值的归为一类，“没有”的为另一类。N其选取的标准可能是类的同质性，或是该变量与其他变量的关联性。前者常用信息量(information content)C作为量度。信息量的计算如下

C=pnlog{n}-sum_{k=1}^{p}[f_klog{f_k}-(n-f_k)log(n-f_k)]
其中n为个体数量，p为变量数，f_k是“拥有”第k个变量的个体数目。选取变量时倾向于选择使信息量降低最多的那个。

另外的标准则是变量之间的关联性。选择关联性最大的那个变量进行划分。关联性的计算是这样的：对于两个变量V_i和V_j，计同时为1时的频度为a，同时为零时为d，i为1而j为0时为c，i为0而j为1时为b，可以通过P68公式4.6-4.10来计算。单元方法有以下好处：1，对于新的成员容易聚类；2.可以解决数据缺失的问题，比如用关联性最高的那个变量来代替；3.每一步分类基于哪些变量都是可见的。但是缺点是如果数据中有不常见的变量，可能会使该数据归到错误的类中。

多元方法则同时考虑全部变量。它需要用到邻近度矩阵。它先找出类中距离其他成员最远的那个（距离其他成员的距离的平均），构成分离组 (splinter group)，然后计算余下所有的成员距离分离组的距离，和它距主组中其他成员的距离，如果前者更小，则其将被并入分离组，重复直到找不到这样的个体。

应用层次聚类方法时，需要考虑到以下几点：1，聚类过程的图像化表示；2 ，树状图的比较；3，方法的数学性质；4，分划的选择；5，计算算法。下面将分别讨论这几点。

1，树状图和其他树图（如无根树）。在树状图里，节点代表一个类，而茎长 (或高度)则代表（一般是两个）合并的类之间的距离。如果试图在树图中表现聚类的顺序，可以不需要将茎延伸至零高度线。茎上没有表明其他数学性质的树又称为无权或有序树。节点上的名字称为标记（label），内节点一般不标。用来代表内节点的类成员称为标本(exemplar)，或中心点（centrotype）。通常定义这个成员为类成员中拥有最大类内相似性（或最小的类内相异性）。Medoid是一种特别的例子，它定义为拥有最小类内绝对值距离的成员。要记住的是因为树状图可以有2^{n-1}种表示，如何优化树状图的样子是个需要考虑的问题。

在树状图的表示上人们作了不少扩展。比如树墙图（espalier），途中水平线上显示类之间的相对同质性和分离性；金字塔图（pyramid），允许出现重叠的类；累加树（additive or path length tree）则用节点之间的路径长度来表示两点之间的邻近度，其中一个例子就是phlip程序做出的nj树（ neighbour-joining)，这种树亦可做成无根树。

２，树图间的比较和衡量其失真度。常常用来做树图比对或树图与邻近度矩阵比对的方法是，cophenetic　correlation和Goodman and Kruskal′s gamma 。

前者利用cophenetic矩阵，矩阵元是两个样本被归为一类时，所在节点在树图中的高度。cophenetic　correlation是对应的cophenetic矩阵之间的积乘相关性（相关系数－－R:cor）。一般可以将矩阵展成向量再计算。

另外的非参数的关联性度量是Goodman and Kruskal′s gamma，定义为

(S_{+}-S_{-})/(S_{+}-S_{-})
其中，S_{+}和S_{-}分别是一致和不一致的个数。对于矩阵比较时的一致和不一致，定义为一对成对数据间的比较。

３，层级法的数学性质。首先是ultrametic性质，比较简单的描述是，对于任意三个点间的三个距离，其中最大的两个值相等。不符合这个性质的层级方法会在树状图里出现翻转。翻转并不一定带来坏处，比如调查者的目的不是完整的层级结构而是某个特定的划分，而且它可以提示那个地方没有清晰的结构。质心法和中值法都会产生翻转。这会给层级聚类的结果的解释带来麻烦。空间保守性质，单连锁会产生空间压缩(space contraction)，全连锁会产生空间膨胀（ space dilation），而像平均值连锁则符合空间保守(space conservation)。空间保守性质简言之就是说，到合并的类的距离介于到原先各组分的距离之间。 Fisher和Van Ness提出了一些容许性性质。比如(k-group)well-structured admissibility或称clump admissibility，是跟空间保守性及ultrametric性质相关的。Mirkin定义它为，存在一种分类，其中所有的类内距离都小于所有的类间距离。其他的性质包括，凸容许性（convex admissibility)，是说如果样本可以在欧几里得空间里表示，则各个分划的凸包没有交集；点比例容许性(point proportional admissibility)，是说复制样本点不会改变分划的边界；单调容许性（monotone admissibility），指对邻近度矩阵做单调变换不会改变聚类。各种层级聚类方法的性质见P63 Table4.2。

4，分划的选择。如果调查者关心的不是层级结构，而是想得到一个分类，那么就必须决定分类的数量。非正式的方法是从树状图入手，在某个特定的“高度 ”切割树状图得到分组。而正式的方法包括下一章讨论的优化方法，和专门基于层级聚类性质的方法。后者包括：

upper tail rule，基于树状图中不同融合级别的相对大小，具体的说，就是在选择第一个满足下面这个条件的分组j：
alpha_{j+1}> ar{alpha}+k*s_{alpha}
其中alpha_0，到alpha_{n-1}是对应于得到n,n-1,...,1个类的融合级别，。 ar{alpha} 和s_{alpha}是之前j融合级的平均和无偏标准差。k是一个常数。Mojena建议k取值在2.75-3.50，而Milligan建议1.25。
第二个方法是使用于QC（质量控制）中的方法，基于一个移动的平均过程。从得到j=r to j=n-2个分组的聚类阶段中，选择第一个满足下面条件的分组，
alpha_{j+1}> ar{alpha}+L_j+b_j+k*s_j
其中， ar{alpha} and s_j跟前面的方法一样，但是是基于t值的。L_j and b_j是向上的均值矫正。(L_j is the ′trend lag′ , in QC jargon, wual under certain simplifying assumptions to (r-1)b_j/2, where b_j is the moving least-squares slope of the fusion levels)。
第二个方法在融合级别不被取样统计考虑在内的时候比较有优势，但缺点是r值是人为确定的。对于选择合适的分划，需要记住Baxter说过的话，`informal and subjective criteria, based on subject expertise, are likely to remain the most common approach. In published studies practice could be improved by making such criteria more explict than is sometimes the case′。

5，层级算法。层级算法不同于层级方法，对于一种层级聚类方法，可以使用多种算法来得到相同的结果。一种全局算法是直接优化算法(direct optimizing algorithms)，比如吝啬树(parsimonious tree)，找一个层级树中级数最少的。在邻近度矩阵中有数据缺失时这种算法比较有用。另外像前面提到的Lance和 Williams的递归公式也可以用于算法,但其计算复杂度是n^2log(n),在它上面作的改进像最小支撑树拥有n^2的计算时间。其他一些可以使用最近邻方法凝聚的聚类方法都可以相当于大约n^2。Zahn发展了一些基于最小支撑树(minimum spanning tree)的图论聚类算法，这种方法适用于单连锁的情况。其他一些在计算时需要考虑的问题包括：非特异性，在单连锁和其他一些聚类方法中当非特异的情况出现时，比如有两对分组之间的距离都最小时，决定选择谁进行合并；如何引入案例权重（case weight)，比如在前面点比例容许性中提到的关于数据集中出现重复样本时的解决方法，举例来说，在网页关键词的自动监控上就会引入案例权重（词的出现次数）

层次聚类算法是实际应用中聚类分析的支柱。在各种软件包中都能找到它的身影，而且使用简单。调查者需要考虑：1，邻近度的量度方法；2，聚类方法； 3，类的数量。层次聚类在使用中遇到的困难是，没有一个聚类方法可以推荐，因为一些有着很好数学性质（像单连锁）的方法，常常不能产生可以按常识解释的结果。而且选定划分时最好的方法也不明确。当不需要探究层级结构时，当需要找到一个对数据合适的划分时，下一章的方法更值得推荐。而一些传统的层级聚类方法带来的问题可以被第六章里提到的基于模型的技术克服。

动态聚类算法使用CF（Cluster Feature）树保存聚类信息。

每个聚类都是由N条事务聚合而成，事务是一个K元向量TD = {T1，T2，……，Tn}组成。

CF是一个结构，其中保存了三组信息：{N，S，SS}，其中，N保存了本聚类是由多少条事务聚合而成；S是向量，是本聚类中所有事务的向量和，SS是一个数，是本类中所有事务各个分量的平方和。则：CF1 + CF2 = {N1+N2，S1+S2，SS1+SS2}。当每个CF中只有一条事务时，这个性质也成立，因此可以把一条事务当成一个CF，则此CF中{N=1，S={TD}，SS = TD2}（向量平方的意思是指每个分量平方相加）。

两个CF的距离定义为其中心向量之间的欧式距离，其中核心向量v0= S/N。

一个CF的半径R定义为Sqrt(CF中所有向量到v0的距离的平方和 / n)，推导得：R = Sqrt( (N×SS – S2) / N2)。

一棵CF树是一棵B叉树，其中B规定了此树每个非叶节点的子节点的最大数目。每个节点存有（1～B）个CF结构，非叶节点中对应于每个CF结构，还有指向子节点的指针，父节点CF = ∑ (所有子节点的CF)。

CF树中，B约束指定最多的叉数，T约束指定CF中R半径的最大值，M约束指定叶节点CF最大个数。

聚类过程：依次将正常事务插入树中，当CF插入时，首先找到离自己最近的CF，如果不是叶节点，则找此CF对应的子结点，递归下降，到达叶节点时，如果离自己最近的CF的距离小于T，且本CF与当前CF合并后R<=T，则合并，否则作为新的叶节点插入，插入后如果违反了B约束，则此叶节点分裂。

分裂过程：找到CF1、CF2，满足Distance(CF1, CF2)>任何其它Distance，则生成两个节点，分别将CF1、CF2插入，对于其它所有CF，如果离CF1近则插入CF1所属节点，否则插入CF2所属节点，删除原节点，插入新生成的两个节点。由于是递归过程，因此每插入一个节点都会自动检查插入路径上的所有节点是否满足约束并分裂。

当叶节点中CF总数>M时，放宽一点T约束，重建CF树，重建的过程只是清空CF树后在新的T的约束下将原树的CF叶节点依次插入一遍，如果仍然违反了M约束，则此过程继续，直到满足为止。

预测过程：新来一个CF，则递归查找，找到离自己最近的一个CF，如果两个CF距离<E*T，则正常，否则判为异常。其中E为某参数。

一个层次的聚类方法将数据对象组成一棵聚类的树。根据层次分解是自底向上的还是自顶向下形成的，层次的聚类方法可以进一步分为凝聚的（agglomerative）和分裂的（divisive）层次聚类。

（1）凝聚的层次聚类：这种自底向上的策略首先将每个对象作为单独的一个簇，然后和并这些原子簇为越来越大的簇，直到所有的对像都在一个簇中，或者达到某个终止条件。

（2）分裂的层次聚类：这种自顶向下的策略与凝聚的层次聚类相反，它首先将所有的对象置于一个簇中。然后逐渐细分为越来越小的簇，直到每个对象在单独的一个簇中，或者达到一个终止条件，例如打到了某个希望的簇数目后者两个簇之间的距离超过了某个阀值。

例2 图2－3描述了一个凝聚的层次聚类方法AGNES（Agglomerative NESting）和一个分裂的层次聚类方法DIANA（Divisive Analysis）在一个包含五个对象的数据集合{a,b,c,d,e}上的处理过程。最初,AGNES将每个对象作为一个簇，然后这些簇根据某些准则一步步合并。例如，如果簇C1中的一个对象和簇 C2中的一个对象之间的距离使所有属于不同簇的对象间欧式距离最小的，C1和C2可能被合并。其每个簇可以被簇中所有对象代表，两个簇间的相似度由两个不同簇中距离最近的数据点对的相似度来确定。聚类的合并过程反复进行直到所有对象最终合并为一个簇。

图2-3 在对象集合(a,b,c,d)上的凝聚与分裂层次聚类

在DIANA方法处理过程中，所有的对象都放在一个簇中。根据一些原则（如簇中最邻近的对象的最大欧氏距离），将该簇分裂。簇的分裂过程反复进行，直到最终每个新的簇只包含一个对象。

层次聚类方法尽管简单，但经常会遇到合并或分裂点选择的困难。这样的选择是非常关键的，因为一旦一组对象（合并或分裂）完成，它就不能被撤销，下一步的处理将在新完成的簇上进行。这个严格规定是有用的，由于不用担心组合数目的不同选择，计算代价会比较小。但是，已做的处理不能被撤消，聚类之间也不能交换对象。如果在某一步没有很好的选择合并或分裂的决定，可能会导致低质量的聚类结果。而且，这种聚类不具有很好的可伸缩性。因为合并或分裂的决定需要检查和估算大量的对象或结果。

改进层次方法的聚类质量的一个有希望的方向是将层次聚类和其他聚类技术集成。有两种方法可以改进层次聚类的结果：

（i）在每层划分中，仔细分析对象间的“联接”，例如CURE和Chameleon中的做法。

（ii）综合层次凝聚和迭代的重定位方法。首先用自底向上的层次算法，然后用迭代的重定位来改进结果。例如BIRCH中的方法。

(*) 当然，将所有n个对象都放在同一类中纯属扯淡，根本没用。实际上，一旦你得到了完整的层次树，如果你想进行k分类，需要做的仅仅是剪枝。
以下我们以single-linkage聚类算法为例说明Johnson算法的原理。
single-linkage算法一种agglomerative机制，即每次将两个旧类合并成一个新类，直到最终合并成一个类为止。每合并一次，则在距离矩阵中删除相对应的行与列。
先介绍一些符号：将待聚类的N个对象分别标号为0,1,......, (n-1),，D = [d(i,j)]表示对应的N*N距离矩阵。记号L(k)表示第k个类所处的层次，由对象m构成的类记为(m)，类(r)与类(s)的距离记为d [(r),(s)]。
single-linkage聚类算法过程如下：

1.      初始时共有N个类，每个类由一个对象类成。令顺序号m = 0, L(m) = 0.
2.      在D中寻找最小距离d[(r),(s)] = min d[(i),(j)].
3.      将两个类(r)和(s)合并成一个新类(r,s);令m = m 1, L(m) = d[(r),(s)]
4.      更新距离矩阵D: 将表示类(r)和类(s)的行列删除，同时加入表示新类(r,s)的行列；同时定义新类(r,s)与各旧类(k)的距离为　d[(k), (r,s)] = min d[(k),(r)], d[(k),(s)]
5.      反复步骤2-4，直到所有对象合并成一个类为止。
问题
该算法主要的缺点在于：
不是scable，至少 O(n2),复杂性，n是对象总数 ;
不能取消之前已经做完的工作.

MATLAB提供了两种方法进行聚类分析：

一种是利用 clusterdata函数对样本数据进行一次聚类，其缺点为可供用户选择的面较窄，不能更改距离的计算方法；

另一种是分步聚类：（1）找到数据集合中变量两两之间的相似性和非相似性，用pdist函数计算变量之间的距离；（2）用 linkage函数定义变量之间的连接；（3）用 cophenetic函数评价聚类信息；（4）用cluster函数创建聚类。

1．Matlab中相关函数介绍

1.1 pdist函数

调用格式：Y=pdist(X,’metric’)

说明：用 ‘metric’指定的方法计算 X 数据矩阵中对象之间的距离。’

X：一个m×n的矩阵，它是由m个对象组成的数据集，每个对象的大小为n。

metric’取值如下：

‘euclidean’：欧氏距离（默认）；‘seuclidean’：标准化欧氏距离；

‘mahalanobis’：马氏距离；‘cityblock’：布洛克距离；

‘minkowski’：明可夫斯基距离；‘cosine’：

‘correlation’： ‘hamming’：

‘jaccard’： ‘chebychev’：Chebychev距离。

1.2 squareform函数

调用格式：Z=squareform(Y,..)

说明：强制将距离矩阵从上三角形式转化为方阵形式，或从方阵形式转化为上三角形式。

1.3 linkage函数

调用格式：Z=linkage(Y,’method’)

说明：用‘method’参数指定的算法计算系统聚类树。

Y：pdist函数返回的距离向量；

method：可取值如下：

‘single’：最短距离法（默认）； ‘complete’：最长距离法；

‘average’：未加权平均距离法； ‘weighted’：加权平均法；

‘centroid’：质心距离法； ‘median’：加权质心距离法；

‘ward’：内平方距离法（最小方差算法）

返回：Z为一个包含聚类树信息的（m-1）×3的矩阵。

1.4 dendrogram函数

调用格式：[H，T，…]=dendrogram(Z,p，…)

说明：生成只有顶部p个节点的冰柱图（谱系图）。

1.5 cophenet函数

调用格式：c=cophenetic(Z,Y)

说明：利用pdist函数生成的Y和linkage函数生成的Z计算cophenet相关系数。

1.6 cluster 函数

调用格式：T=cluster(Z,…)

说明：根据linkage函数的输出Z 创建分类。

1.7 clusterdata函数

调用格式：T=clusterdata(X,…)

说明：根据数据创建分类。

T=clusterdata(X,cutoff)与下面的一组命令等价：

Y=pdist(X,’euclid’);

Z=linkage(Y,’single’);

T=cluster(Z,cutoff);

转载于:https://www.cnblogs.com/mmziscoming/p/5441532.html

机器学习改进的层次聚类算法相关推荐

【火炉炼AI】机器学习023-使用层次聚类算法构建模型
[火炉炼AI]机器学习023-使用层次聚类算法构建模型 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotli ...
机器学习-Hierarchical clustering 层次聚类算法
学习彭亮<深度学习基础介绍:机器学习>课程假设有N个待聚类的样本,对于层次聚类来说,步骤: (初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度: 寻找各个 ...
【机器学习】AGNES层次聚类算法
算法思想: 初始每个数据都是一个簇: 寻找每个簇之间的距离,获取距离列表: 合并距离最近的两个簇Ci,Cj,并删除Cj,更新距离列表,使簇个数减1: 重复第3步,直到簇个数等于所需个数k. 数据集来源 ...
机器学习实战——层次聚类算法
机器学习实战--层次聚类算法 1 层次聚类概述 2 sklearn中的实现 1 层次聚类概述层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构. 数据集的划分可采用"自底向上& ...
【机器学习算法】聚类分析-2 聚类算法的分类，层次聚类算法的选择
目录聚类算法的分类层次聚类的算法, 单一聚类法(single link) 完全链结法平均链结法中心链结法 Ward's法我的主页:晴天qt01的博客_CSDN博客-数据分析师领域博主目前进 ...
【机器学习】层次聚类算法 CURE算法
CURE算法是一种层次聚类算法. 层次聚类方法(Hierarchical Clustering Method) 是一种发展比较早.应用广泛的聚类方法,按采用"自顶向下(Top-Down)&q ...
机器学习技术-层次聚类算法(组平均)-综合层次聚类方法(BIRCH、CURE)
基于层次的聚类方法,是对给定的数据进行层次的分解,直到某种条件满足为止.首先将数据点组成一颗聚类树,根据层次,自底向上或是自顶向下分解.层次的方法可以分为凝聚的方法和分裂的方法. 凝聚的方法,也称为自 ...
python机器学习案例系列教程——聚类算法总结
全栈工程师开发手册 (作者:栾鹏) python教程全解一.什么是聚类? 聚类(Clustering):聚类是一个人们日常生活的常见行为,即所谓"物以类聚,人以群分",核心的思想 ...
层次聚类算法算法_聚类算法简介
层次聚类算法算法 Take a look at the image below. It's a collection of bugs and creepy-crawlies of different ...

机器学习改进的层次聚类算法

机器学习改进的层次聚类算法相关推荐

最新文章

热门文章

机器学习 改进的层次聚类算法

机器学习 改进的层次聚类算法相关推荐

最新文章

热门文章

机器学习改进的层次聚类算法

机器学习改进的层次聚类算法相关推荐