【matlab智能算法一函数学习】Matlab聚类分析(Cluster Analyses)

matlab提供系列函数用于聚类分析，归纳起来具体方法有如下：

方法一：直接聚类，利用clusterdata函数对样本数据进行一次聚类，其缺点为可供用户选择的面较窄，不能更改距离的计算方法，该方法的使用者无需了解聚类的原理和过程，但是聚类效果受限制。
方法二：层次聚类，该方法较为灵活，需要进行细节了解聚类原理，具体需要进行如下过程处理：
（1）找到数据集合中变量两两之间的相似性和非相似性，用pdist函数计算变量之间的距离；
（2）用 linkage函数定义变量之间的连接；
（3）用 cophenetic函数评价聚类信息；
（4）用cluster函数创建聚类。
方法三：划分聚类，包括K均值聚类和K中心聚类，同样需要系列步骤完成该过程，要求使用者对聚类原理和过程有较清晰的认识。

接下来介绍一下Matlab中的相关函数和相关聚类方法。

pdist函数
作用：计算任意两行向量间的距离
调用格式：Y=pdist(X,’metric’)
说明：用 ‘metric’指定的方法计算 X 数据矩阵中对象之间的距离。
X：一个m×n的矩阵, 它是由m个对象组成的数据集，每个对象的大小为n(即n个特征值)。
metric’取值如下：
‘euclidean’：欧氏距离（默认）；‘seuclidean’：标准化欧氏距离；
‘mahalanobis’：马氏距离；‘cityblock’：布洛克距离；
‘minkowski’：明可夫斯基距离；‘cosine’：
‘correlation’：
‘jaccard’： ‘chebychev’：Chebychev距离。
详细举例解释：
D = pidst(X)主要计算X的行向量与行向量间的距离，例如输入X为mn的矩阵，输出D为m(m-1)/2的向量，计算方法如下例子：

X=[1,2;3,4;5,1] 3*2的矩阵;

pdist(X)计算结果为[2.8284,4.1231,3.6056];

计算方法为：
第二行与第一行距离(3-1)(3-1)+(4-2)(4-2)得到的结果开平方为2.8284，
第三行与第一行距离(5-1)(5-1)+(1-2)(1-2)得到的结果开平方为4.1231，
第三行与第二行距离(5-3)(5-3)+(1-4)(1-4)得到的结果开平方为3.6056.
squareform 函数
作用：将各个行向量间（点）的距离用邻接矩阵的方式表达出来
调用格式：Z=squareform(Y,…)
对于M个点的数据集X，pdist之后的Y将是具有M*(M-1)/2个元素的行向量。
Y中存储各个点间的距离，这样的显示虽然节省了内存空间，但不易观察，且不好索引，因此引入图论中的邻接矩阵概念，将各个点（一个行向量代表一个点）间的距离清晰的表示出来
MATLAB中可以用squareform把Y转换成方阵形式（），方阵中<i，j>位置的数值就是X中第i行和第j行行向量之间的距离，显然这个方阵应该是个对角元素为0的对称阵。
linkage函数
作用：存储积累过程中的具体类别及其变化
调用格式：Z=linkage(Y,‘method’)
输入值说明：Y为pdist函数返回的M*(M-1)/2个元素的行向量，用‘method’参数指定的算法计算系统聚类树。–method用来计算组合数据点间（即已经合并过的数据点集所生成的新数据点）的距离
method：可取值如下：
‘single’：最短距离法（默认）；
‘complete’：最长距离法；
‘average’：未加权平均距离法；
‘weighted’：加权平均法；
‘centroid’：质心距离法；
‘median’：加权质心距离法；
‘ward’：内平方距离法（最小方差算法）
返回值说明：Z为一个包含聚类树信息的**（m-1）×3**的矩阵，为什么是m-1？因为m个数据点（行向量）最后在冰状图中生成一个完全聚类点，需要聚类m-1次，所以linkage实际上存储的是聚类过程中的类别信息，其中前两列为索引标识，表示哪两个序号的样本可以聚为同一类，第三列为这两个样本之间的距离。另外，除了M个样本以外，对于每次新产生的类，依次用M+1、M+2、…来标识。
具体实例解释：
Z=linkage(Y)
Z =
3.0000 4.0000 0.2228
2.0000 5.0000 0.5401
1.0000 7.0000 1.0267
6.0000 9.0000 1.0581
8.0000 10.0000 1.3717
对于M个元素的X，前面说了Y是1行M*(M-1)/2的行向量，Z则是(M-1)*3的矩阵。
Z数组的前两列是索引下标列，最后一列是距离列。
例如上例中表示在产生聚类树的计算过程中，第3和第4点先聚成一类，他们之间的距离是0.2228，以此类推。
要注意的是，为了标记每一个节点，需要给新产生的聚类也安排一个标识，MATLAB中会将新产生的聚类依次用M+1,M+2,…依次来标识。比如第3和第4点聚成的类以后就用7来标识，第2和第5点聚成的类用8来标识，依次类推。
dendrogram函数

调用格式：[H，T，…]=dendrogram(Z,p，…)
说明：生成只有底部p个节点的冰柱图（谱系图）。
为了表示Z矩阵，我们可以用更直观的聚类数来展示，方法为：dendrogram(Z), 产生的聚类数是一个n型树，最下边表示样本，然后一级一级往上聚类，最终成为最顶端的一类。纵轴高度代表距离列。
另外，还可以设置聚类数最下端的样本数，默认为30，可以根据修改dendrogram(Z,n)参数n来实现，1<n<M。dendrogram(Z,0)则表n=M的情况，显示所有叶节点。

cophenet函数

调用格式：c=cophenet(Z,Y)
说明：利用pdist函数生成的Y和linkage函数生成的Z计算cophenet相关系数。
cophene检验一定算法下产生的二叉聚类树和实际情况的相符程度,就是检测二叉聚类树中各元素间的距离和pdist计算产生的实际的距离之间有多大的相关性，另外也可以用inconsistent表示量化某个层次的聚类上的节点间的差异性。

cluster 函数

调用格式：T=cluster(Z,…)
说明：根据linkage函数的输出Z 创建分类。

T=clusterdata(X,cutoff)与下面的一组命令等价：
Y=pdist(X,’euclid’);
Z=linkage(Y,’single’);
T=cluster(Z,cutoff);

层次聚类具体计算实例：

BX=zscore(x);%标准化数据矩阵；
Y=pdist(x);%用欧氏距离计算两两行向量之间的距离；
D=squareform(Y);%欧氏距离矩阵
Z=linkage(Y);%最短距离法；
T=cluster(Z,4);%没有参数默认以种类的数目来分
[H,T]=dendrogram(Z,'colorthreshold','default');

分割方式由按距离分的，也有按种类数量分的。
7. clusterdata 函数

调用格式：T=clusterdata(X,…)
说明：根据数据创建分类。
CLUSTERDATA Construct clusters from data.
T = CLUSTERDATA(X, CUTOFF) constructs clusters from data X.
X is a matrix of size M by N, treated as M observations of N
variables. CUTOFF is a threshold for cutting the hierarchical
tree generated by LINKAGE into clusters. When 0 < CUTOFF < 2,
clusters are formed when inconsistent values are greater than
CUTOFF (see INCONSISTENT). When CUTOFF is an integer and CUTOFF >= 2,
then CUTOFF is considered as the maximum number of clusters to
keep in the hierarchical tree generated by LINKAGE. The output T is
a vector of size M containing a cluster number for each observation.

When 0 < CUTOFF < 2, T = CLUSTERDATA(X,CUTOFF) is equivalent to:Y = pdist(X, 'euclid');Z = linkage(Y, 'single');T = cluster(Z, 'cutoff', CUTOFF);When CUTOFF is an integer >= 2, T = CLUSTERDATA(X,CUTOFF) is equivalent
to:Y = pdist(X,'euclid');Z = linkage(Y,'single');T = cluster(Z,'maxclust',CUTOFF)

Inconsistent
INCONSISTENT Inconsistent values of a cluster tree.
Y = INCONSISTENT(Z) computes the inconsistent value of each non-leaf
node in the hierarchical cluster tree Z. Z is a (M-1)-by-3 matrix
generated by the function LINKAGE. Each inconsistent value is a
measure of separation between the two clusters whose merge is
represented by that node, compared to the separation between
subclusters merged within those clusters.

Y = INCONSISTENT(Z, DEPTH) computes inconsistent values by looking
to a depth DEPTH below each node.

Y is a (M-1)-by-4 matrix, with rows corresponding to each of the
non-leaf nodes represented in Z. INCONSISTENT computes the
inconsistent value for node (M+i) using S_i, the set of nodes less than
DEPTH branches below node (M+i), excluding any leaf nodes.
S_i是除了叶节点外，所有深度低于（M+i）不超过DEPTH的节点（包括M+i节点自身）
而Inconsistent计算的是S_i的距离的平均值。
Then
```
Y(i,1) = mean(Z(S_i,3)), the mean height of nodes in S_i
Y(i,2) = std(Z(S_i,3)), the standard deviation of node heights in S_i
Y(i,3) = length(S_i), the number of nodes in S_i
Y(i,4) = (Z(i,3) - Y(i,1))/Y(i,2), the inconsistent value
```
The default value for DEPTH is 2.
计算深度会影响不一致系数的计算结果，计算深度比较大时，不一致系数的增量能反映出当前步引入的新样品与该类中心（涉及该类中所有样品）的距离远近，计算深度比较小时，不一致系数的增量仅能反映出当前步引入的新样品与上几步聚类中涉及的样品的中心的距离远近。

具体实例详见博客：matlab聚类分析函数总汇

【matlab智能算法一函数学习】Matlab聚类分析(Cluster Analyses)相关推荐

matlab中存档算法代码,MATLAB 智能算法超级学习手册中程序代码
[实例简介] MATLAB 智能算法超级学习手册中程序代码 [实例截图] [核心代码] dc90ef43-7920-434e-bdb8-0636c31c0b44 └── MATLAB 智能算法超级学习 ...
matlab智能算法超级学习手册 pdf,MATLAB智能算法超级学习手册
[实例简介] 高飞作者书,MATLAB智能算法超级学习手册源码.通过此书的学习,加上对代码的阅读调试,能够更好的对算法理解. [实例截图] [核心代码] MATLAB智能算法超级学习手册-程序代码 └ ...
《MATLAB智能算法30个案例》：第27章无导师学习神经网络的分类——矿井突水水源判别
<MATLAB智能算法30个案例>:第27章无导师学习神经网络的分类--矿井突水水源判别 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MATLAB智能算法3 ...
《MATLAB智能算法30个案例》：第25章有导师学习神经网络的回归拟合——基于近红外光谱的汽油辛烷值预测
<MATLAB智能算法30个案例>:第25章有导师学习神经网络的回归拟合--基于近红外光谱的汽油辛烷值预测 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MA ...
《MATLAB智能算法30个案例》：第2章基于遗传算法和非线性规划的函数寻优算法
<MATLAB智能算法30个案例>:第2章基于遗传算法和非线性规划的函数寻优算法 1. 前言 2. MATLAB 仿真示例一 3. MATLAB 仿真示例二 4. MATLAB 仿真示例 ...
《MATLAB智能算法30个案例》：第17章基于PSO工具箱的函数寻优算法
<MATLAB智能算法30个案例>:第17章基于PSO工具箱的函数寻优算法 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MATLAB智能算法30个案例分析& ...
《MATLAB智能算法30个案例》：第8章基于量子遗传算法的函数寻优算法
<MATLAB智能算法30个案例>:第8章基于量子遗传算法的函数寻优算法 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MATLAB智能算法30个案例分析&g ...
《MATLAB智能算法30个案例》：第26章有导师学习神经网络的分类——鸢尾花种类识别
<MATLAB智能算法30个案例>:第26章有导师学习神经网络的分类--鸢尾花种类识别 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MATLAB智能算法30 ...
《MATLAB智能算法超级学习手册》一一2.2 种群竞争模型的讨论
本节书摘来自异步社区出版社<MATLAB智能算法超级学习手册>一书中的第2章,第2.2节,作者:MATLAB技术联盟 , 高飞 , 许玢更多章节内容可以访问云栖社区"异步社区&q ...
《MATLAB智能算法超级学习手册》一一1.3 符号变量的应用
本节书摘来自异步社区出版社<MATLAB智能算法超级学习手册>一书中的第1章,第1.3节,作者:MATLAB技术联盟 , 高飞 , 许玢更多章节内容可以访问云栖社区"异步社区&q ...

【matlab智能算法一函数学习】Matlab聚类分析(Cluster Analyses)

【matlab智能算法一函数学习】Matlab聚类分析(Cluster Analyses)相关推荐

最新文章

热门文章