matlab提供系列函数用于聚类分析,归纳起来具体方法有如下:

  • 方法一:直接聚类,利用clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法,该方法的使用者无需了解聚类的原理和过程,但是聚类效果受限制。

  • 方法二:层次聚类,该方法较为灵活,需要进行细节了解聚类原理,具体需要进行如下过程处理:
    (1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离;
    (2)用 linkage函数定义变量之间的连接;
    (3)用 cophenetic函数评价聚类信息;
    (4)用cluster函数创建聚类。

  • 方法三:划分聚类,包括K均值聚类和K中心聚类,同样需要系列步骤完成该过程,要求使用者对聚类原理和过程有较清晰的认识。

接下来介绍一下Matlab中的相关函数和相关聚类方法。

  1. pdist函数
    作用:计算任意两行向量间的距离
    调用格式:Y=pdist(X,’metric’)
    说明:用 ‘metric’指定的方法计算 X 数据矩阵中对象之间的距离。
    X:一个m×n的矩阵, 它是由m个对象组成的数据集,每个对象的大小为n(即n个特征值)。
    metric’取值如下:
    ‘euclidean’:欧氏距离(默认);‘seuclidean’:标准化欧氏距离;
    ‘mahalanobis’:马氏距离;‘cityblock’:布洛克距离;
    ‘minkowski’:明可夫斯基距离;‘cosine’:
    ‘correlation’:
    ‘jaccard’: ‘chebychev’:Chebychev距离。
    详细举例解释:
    D = pidst(X)主要计算X的行向量与行向量间的距离,例如输入X为mn的矩阵,输出D为m(m-1)/2的向量,计算方法如下例子:

    X=[1,2;3,4;5,1] 3*2的矩阵;

    pdist(X)计算结果为[2.8284,4.1231,3.6056];

    计算方法为:
    第二行与第一行距离(3-1)(3-1)+(4-2)(4-2)得到的结果开平方为2.8284,
    第三行与第一行距离(5-1)(5-1)+(1-2)(1-2)得到的结果开平方为4.1231,
    第三行与第二行距离(5-3)(5-3)+(1-4)(1-4)得到的结果开平方为3.6056.

  2. squareform 函数
    作用:将各个行向量间(点)的距离用邻接矩阵的方式表达出来
    调用格式:Z=squareform(Y,…)
    对于M个点的数据集X,pdist之后的Y将是具有M*(M-1)/2个元素的行向量
    Y中存储各个点间的距离,这样的显示虽然节省了内存空间,但不易观察,且不好索引,因此引入图论中的邻接矩阵概念,将各个点(一个行向量代表一个点)间的距离清晰的表示出来
    MATLAB中可以用squareform把Y转换成方阵形式(),方阵中<i,j>位置的数值就是X中第i行和第j行行向量之间的距离,显然这个方阵应该是个对角元素为0的对称阵。

  3. linkage函数
    作用:存储积累过程中的具体类别及其变化
    调用格式:Z=linkage(Y,‘method’)
    输入值说明:Y为pdist函数返回的M*(M-1)/2个元素的行向量,用‘method’参数指定的算法计算系统聚类树。–method用来计算组合数据点间(即已经合并过的数据点集所生成的新数据点)的距离
    method:可取值如下:
    ‘single’:最短距离法(默认);
    ‘complete’:最长距离法;
    ‘average’:未加权平均距离法;
    ‘weighted’: 加权平均法;
    ‘centroid’:质心距离法;
    ‘median’:加权质心距离法;
    ‘ward’:内平方距离法(最小方差算法)
    返回值说明:Z为一个包含聚类树信息的**(m-1)×3**的矩阵,为什么是m-1?因为m个数据点(行向量)最后在冰状图中生成一个完全聚类点,需要聚类m-1次,所以linkage实际上存储的是聚类过程中的类别信息,其中前两列为索引标识,表示哪两个序号的样本可以聚为同一类,第三列为这两个样本之间的距离。另外,除了M个样本以外,对于每次新产生的类,依次用M+1、M+2、…来标识。
    具体实例解释:
    Z=linkage(Y)
    Z =
    3.0000 4.0000 0.2228
    2.0000 5.0000 0.5401
    1.0000 7.0000 1.0267
    6.0000 9.0000 1.0581
    8.0000 10.0000 1.3717
    对于M个元素的X,前面说了Y是1行M*(M-1)/2的行向量,Z则是(M-1)*3的矩阵。
    Z数组的前两列是索引下标列,最后一列是距离列。
    例如上例中表示在产生聚类树的计算过程中,第3和第4点先聚成一类,他们之间的距离是0.2228,以此类推。
    要注意的是,为了标记每一个节点,需要给新产生的聚类也安排一个标识,MATLAB中会将新产生的聚类依次用M+1,M+2,…依次来标识。比如第3和第4点聚成的类以后就用7来标识,第2和第5点聚成的类用8来标识,依次类推。

  4. dendrogram函数

调用格式:[H,T,…]=dendrogram(Z,p,…)
说明:生成只有底部p个节点的冰柱图(谱系图)。
为了表示Z矩阵,我们可以用更直观的聚类数来展示,方法为:dendrogram(Z), 产生的聚类数是一个n型树,最下边表示样本,然后一级一级往上聚类,最终成为最顶端的一类。纵轴高度代表距离列。
另外,还可以设置聚类数最下端的样本数,默认为30,可以根据修改dendrogram(Z,n)参数n来实现,1<n<M。dendrogram(Z,0)则表n=M的情况,显示所有叶节点。

  1. cophenet函数

调用格式:c=cophenet(Z,Y)
说明:利用pdist函数生成的Y和linkage函数生成的Z计算cophenet相关系数。
cophene检验一定算法下产生的二叉聚类树和实际情况的相符程度,就是检测二叉聚类树中各元素间的距离和pdist计算产生的实际的距离之间有多大的相关性,另外也可以用inconsistent表示量化某个层次的聚类上的节点间的差异性。

  1. cluster 函数

调用格式:T=cluster(Z,…)
说明:根据linkage函数的输出Z 创建分类。

T=clusterdata(X,cutoff)与下面的一组命令等价:
Y=pdist(X,’euclid’);
Z=linkage(Y,’single’);
T=cluster(Z,cutoff);

层次聚类具体计算实例:

BX=zscore(x);%标准化数据矩阵;
Y=pdist(x);%用欧氏距离计算两两行向量之间的距离;
D=squareform(Y);%欧氏距离矩阵
Z=linkage(Y);%最短距离法;
T=cluster(Z,4);%没有参数默认以种类的数目来分
[H,T]=dendrogram(Z,'colorthreshold','default');


分割方式由按距离分的,也有按种类数量分的。
7. clusterdata 函数

调用格式:T=clusterdata(X,…)
说明:根据数据创建分类。
CLUSTERDATA Construct clusters from data.
T = CLUSTERDATA(X, CUTOFF) constructs clusters from data X.
X is a matrix of size M by N, treated as M observations of N
variables. CUTOFF is a threshold for cutting the hierarchical
tree generated by LINKAGE into clusters. When 0 < CUTOFF < 2,
clusters are formed when inconsistent values are greater than
CUTOFF (see INCONSISTENT). When CUTOFF is an integer and CUTOFF >= 2,
then CUTOFF is considered as the maximum number of clusters to
keep in the hierarchical tree generated by LINKAGE. The output T is
a vector of size M containing a cluster number for each observation.

When 0 < CUTOFF < 2, T = CLUSTERDATA(X,CUTOFF) is equivalent to:Y = pdist(X, 'euclid');Z = linkage(Y, 'single');T = cluster(Z, 'cutoff', CUTOFF);When CUTOFF is an integer >= 2, T = CLUSTERDATA(X,CUTOFF) is equivalent
to:Y = pdist(X,'euclid');Z = linkage(Y,'single');T = cluster(Z,'maxclust',CUTOFF)
  1. Inconsistent
    INCONSISTENT Inconsistent values of a cluster tree.
    Y = INCONSISTENT(Z) computes the inconsistent value of each non-leaf
    node in the hierarchical cluster tree Z. Z is a (M-1)-by-3 matrix
    generated by the function LINKAGE. Each inconsistent value is a
    measure of separation between the two clusters whose merge is
    represented by that node, compared to the separation between
    subclusters merged within those clusters.

    Y = INCONSISTENT(Z, DEPTH) computes inconsistent values by looking
    to a depth DEPTH below each node.

    Y is a (M-1)-by-4 matrix, with rows corresponding to each of the
    non-leaf nodes represented in Z. INCONSISTENT computes the
    inconsistent value for node (M+i) using S_i, the set of nodes less than
    DEPTH branches below node (M+i), excluding any leaf nodes.
    S_i是除了叶节点外,所有深度低于(M+i)不超过DEPTH的节点(包括M+i节点自身)
    而Inconsistent计算的是S_i的距离的平均值。
    Then

    Y(i,1) = mean(Z(S_i,3)), the mean height of nodes in S_i
    Y(i,2) = std(Z(S_i,3)), the standard deviation of node heights in S_i
    Y(i,3) = length(S_i), the number of nodes in S_i
    Y(i,4) = (Z(i,3) - Y(i,1))/Y(i,2), the inconsistent value
    

    The default value for DEPTH is 2.
    计算深度会影响不一致系数的计算结果,计算深度比较大时,不一致系数的增量能反映出当前步引入的新样品与该类中心(涉及该类中所有样品)的距离远近,计算深度比较小时,不一致系数的增量仅能反映出当前步引入的新样品与上几步聚类中涉及的样品的中心的距离远近。

具体实例详见博客:matlab聚类分析函数总汇

【matlab智能算法一函数学习】Matlab聚类分析(Cluster Analyses)相关推荐

  1. matlab中存档算法代码,MATLAB 智能算法超级学习手册中程序代码

    [实例简介] MATLAB 智能算法超级学习手册中程序代码 [实例截图] [核心代码] dc90ef43-7920-434e-bdb8-0636c31c0b44 └── MATLAB 智能算法超级学习 ...

  2. matlab智能算法超级学习手册 pdf,MATLAB智能算法超级学习手册

    [实例简介] 高飞作者书,MATLAB智能算法超级学习手册源码.通过此书的学习,加上对代码的阅读调试,能够更好的对算法理解. [实例截图] [核心代码] MATLAB智能算法超级学习手册-程序代码 └ ...

  3. 《MATLAB智能算法30个案例》:第27章 无导师学习神经网络的分类——矿井突水水源判别

    <MATLAB智能算法30个案例>:第27章 无导师学习神经网络的分类--矿井突水水源判别 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MATLAB智能算法3 ...

  4. 《MATLAB智能算法30个案例》:第25章 有导师学习神经网络的回归拟合——基于近红外光谱的汽油辛烷值预测

    <MATLAB智能算法30个案例>:第25章 有导师学习神经网络的回归拟合--基于近红外光谱的汽油辛烷值预测 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MA ...

  5. 《MATLAB智能算法30个案例》:第2章 基于遗传算法和非线性规划的函数寻优算法

    <MATLAB智能算法30个案例>:第2章 基于遗传算法和非线性规划的函数寻优算法 1. 前言 2. MATLAB 仿真示例一 3. MATLAB 仿真示例二 4. MATLAB 仿真示例 ...

  6. 《MATLAB智能算法30个案例》:第17章 基于PSO工具箱的函数寻优算法

    <MATLAB智能算法30个案例>:第17章 基于PSO工具箱的函数寻优算法 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MATLAB智能算法30个案例分析& ...

  7. 《MATLAB智能算法30个案例》:第8章 基于量子遗传算法的函数寻优算法

    <MATLAB智能算法30个案例>:第8章 基于量子遗传算法的函数寻优算法 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MATLAB智能算法30个案例分析&g ...

  8. 《MATLAB智能算法30个案例》:第26章 有导师学习神经网络的分类——鸢尾花种类识别

    <MATLAB智能算法30个案例>:第26章 有导师学习神经网络的分类--鸢尾花种类识别 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MATLAB智能算法30 ...

  9. 《MATLAB智能算法超级学习手册》一一2.2 种群竞争模型的讨论

    本节书摘来自异步社区出版社<MATLAB智能算法超级学习手册>一书中的第2章,第2.2节,作者:MATLAB技术联盟 , 高飞 , 许玢更多章节内容可以访问云栖社区"异步社区&q ...

  10. 《MATLAB智能算法超级学习手册》一一1.3 符号变量的应用

    本节书摘来自异步社区出版社<MATLAB智能算法超级学习手册>一书中的第1章,第1.3节,作者:MATLAB技术联盟 , 高飞 , 许玢更多章节内容可以访问云栖社区"异步社区&q ...

最新文章

  1. linux kernel and user space通信机制,Linux内核与用户空间通信机制研究.pdf
  2. php 计算两点时间距离,PHP计算地球上两点之间的距离(示例详解)
  3. 省选前的反演抢救计划
  4. 使用Thrift RPC编写程序
  5. 界面设计语言_使用任何语言设计界面的提示
  6. 机器学习08机器学习系统设计
  7. 分享一篇竞品分析报告
  8. Mysql数据库,项目需求需要数据还原的数据表结构构思方案
  9. dom4j工具类_基于DOM4J的XML文件解析类
  10. ps切图后 JAVA开发_2018年设计师都在用的PS切图插件--摹客
  11. 加密+拜占庭将军_简单读懂拜占庭容错
  12. 【C语言】【笔试题】实现函数itoa(int n,char s[]),将整数n这个数字转换为对应的字符串,保存到s中...
  13. Python删除文件中含有特定值的行
  14. 【imessage软件群推送】 “CMCC“ | grep password #待补充 重置后撤销暂存的变更
  15. ec6108v9a精简刷机包_新版华为悦盒EC6108V9E、V9I第三方精简流畅无安装限制固件
  16. 云尚发卡PHP,PHP云尚发卡系统V1.5.7源码,专门为个人或小型企业提供在线售卡
  17. 有关Android优化比较好网络资源
  18. 吃芋头相当于注射免疫球蛋白
  19. Word文档插入图片的问题
  20. 论文解读(GMI)《Graph Representation Learning via Graphical Mutual Information Maximization》

热门文章

  1. 主成分分析 SPSS、python实例分析
  2. ab性能测试工具使用
  3. 功能全面的开源小程序商城-CRMEB
  4. 从零实现 SPI_flash(W25Q256)
  5. 一文读懂PCB品质体系认证
  6. linux安装taskctl乱码,TASKCTL常见问题和解决方法(FAQ)
  7. windows抓wifi包 Microsoft Network Monitor
  8. SPSS基本数据处理(三)
  9. java 设计数据字典_应用开发中数据字典项设计实现方案
  10. 基于matlab的红外图像处理算法研究,基于小波的红外图像去噪算法研究