一,聚类分析的基础知识
1五种基本聚类方法
1.1基于分层的聚类
1.2.基于划分的聚类
1.3.基于密度的聚类
1.4.基于网格的聚类
1.5.基于模型的聚类
基本的聚类简介
2.几种距离的计算
记 Ω 是样本点集,距离 d ( ⋅ , ⋅ ) 是 Ω×Ω → R + 的一个函数,满足条件:
1 ) d ( x , y ) ≥ 0 , x , y ∈Ω ;
2 ) d ( x , y ) = 0 当且仅当 x = y
3 ) d ( x , y ) = d ( y , x ) , x , y ∈Ω ;
4 ) d ( x , y ) ≤ d ( x , z ) + d ( z , y ) , x , y , z ∈Ω 。
这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类
分析中,对于定量变量,最常用的是 Minkowski 距离

q = 1,2 或 q → +∞ 时,则分别得到
2.1绝对值距离
2.2欧氏距离

2.3byshev 距离

在 Minkowski 距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交
旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换
后样本点间的距离和变换前完全相同。
值得注意的是在采用 Minkowski 距离时,一定要采用相同量纲的变量。如果变量
的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计
算 距 离 。 在 采 用 Minkowski 距 离 时 , 还 应 尽 可 能 地 避 免 变 量 的 多 重 相 关 性
( multicollinearity )。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。
由于 Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下
2.4马氏( Mahalanobis )距离

其中 x , y 为来自 p 维总体 Z 的样本观测值, Σ 为 Z 的协方差矩阵,实际中 Σ 往往是不
知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量
纲的影响。
此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年
来随着数据挖掘研究的深入,这方面的新方法层出不穷。
3.数据规范化
3.1按小数定标规范化
3.2最小-最大值规范化
3.3z-score规范化
详细说明
4. 类与类间的相似性度量
如果有两个样本类 G 1 和 G 2 ,我们可以用下面的一系列方法度量它们间的距离:
4.1最短距离法
它的直观意义为两个类中最近两点间的距离
4.2最长距离法
它的直观意义为两个类中最远两点间的距离
4.3重心法
其中 x , y 分别为 G 1 , G 2 的重心
4.4类平均法
它等于 G 1 , G 2 中两两样本点距离的平均,式中 n 1 , n 2 分别为 G 1 , G 2 中的样本点个数
4.5离差平方和法
事实上,若 G 1 , G 2 内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类
又能够充分分离(即 D 12 很大),这时必然有 D = D 12 - D 1 - D 2 很大。因此,按定义可
以认为,两类 G 1 , G 2 之间的距离很大。离差平方和法最初是由 Ward 在 1936 年提出,
后经 Orloci 等人 1976 年发展起来的,故又称为 Ward 方法。
5.matlab中相关函数说明

5.1 pdist函数

调用格式:Y=pdist(X,’metric’)

说明:用 ‘metric’指定的方法计算 X 数据矩阵中对象之间的距离。

X:一个m×n的矩阵,它是由m个对象组成的数据集,每个对象的大小为n(即n个特征值)。

metric’取值如下:

‘euclidean’:欧氏距离(默认);‘seuclidean’:标准化欧氏距离;

‘mahalanobis’:马氏距离;‘cityblock’:布洛克距离;

‘minkowski’:明可夫斯基距离;‘cosine’:

‘correlation’:

‘jaccard’:‘chebychev’:Chebychev距离。

5.2 squareform 函数

调用格式:Z=squareform(Y,..)

对于M个点的数据集X,pdist之后的Y将是具有M*(M-1)/2个元素的行向量。

Y这样的显示虽然节省了内存空间,但对用户来说不是很易懂,如果需要对这些距离进行特定操作的话,也不太好索引。MATLAB中可以用squareform把Y转换成方阵形式,方阵中<i,j>位置的数值就是X中第i和第j点之间的距离,显然这个方阵应该是个对角元素为0的对称阵。

5.3 linkage函数

调用格式:Z=linkage(Y,‘method’)

输入值说明:Y为pdist函数返回的M*(M-1)/2个元素的行向量,用‘method’参数指定的算法计算系统聚类树。

method:可取值如下:

‘single’:最短距离法(默认);

‘complete’:最长距离法;

‘average’:未加权平均距离法;

‘weighted’: 加权平均法;

‘centroid’:质心距离法;

‘median’:加权质心距离法;

‘ward’:内平方距离法(最小方差算法)

返回值说明:Z为一个包含聚类树信息的(m-1)×3的矩阵,其中前两列为索引标识,表示哪两个序号的样本可以聚为同一类,第三列为这两个样本之间的距离。另外,除了M个样本以外,对于每次新产生的类,依次用M+1、M+2、…来标识。

5.4 dendrogram函数

调用格式:[H,T,…]=dendrogram(Z,p,…)

说明:生成只有顶部p个节点的冰柱图(谱系图)。

为了表示Z矩阵,我们可以用更直观的聚类数来展示,方法为:dendrogram(Z), 产生的聚类数是一个n型树,最下边表示样本,然后一级一级往上聚类,最终成为最顶端的一类。纵轴高度代表距离列。

另外,还可以设置聚类数最下端的样本数,默认为30,可以根据修改dendrogram(Z,n)参数n来实现,1<n<M。dendrogram(Z,0)则表n=M的情况,显示所有叶节点。

5.5 cophenet函数

调用格式:c=cophenet(Z,Y)

说明:利用pdist函数生成的Y和linkage函数生成的Z计算cophenet相关系数。

cophene检验一定算法下产生的二叉聚类树和实际情况的相符程度,就是检测二叉聚类树中各元素间的距离和pdist计算产生的实际的距离之间有多大的相关性,另外也可以用inconsistent表示量化某个层次的聚类上的节点间的差异性。

5.6 cluster 函数

调用格式:T=cluster(Z,…)

说明:根据linkage函数的输出Z 创建分类。

5.7 clusterdata 函数

调用格式:T=clusterdata(X,…)

说明:根据数据创建分类。

When 0 < CUTOFF < 2, T = CLUSTERDATA(X,CUTOFF) is equivalent to:

Y = pdist(X, 'euclid');

Z = linkage(Y, 'single');

T = cluster(Z, 'cutoff', CUTOFF);

When CUTOFF is an integer >= 2, T = CLUSTERDATA(X,CUTOFF) isequivalent

to:

Y = pdist(X,'euclid');

Z = linkage(Y,'single');

T = cluster(Z,'maxclust',CUTOFF)

5.8 Inconsistent

S_i是除了叶节点外,所有深度低于(M+i)不超过DEPTH的节点(包括M+i节点自身)

而Inconsistent计算的是S_i的距离的平均值。

Then

Y(i,1) = mean(Z(S_i,3)), the mean height of nodes in S_i

Y(i,2) = std(Z(S_i,3)), the standard deviation of node heights in S_i

Y(i,3) = length(S_i), the number of nodes in S_i

Y(i,4) = (Z(i,3) - Y(i,1))/Y(i,2), the inconsistent value

The default value for DEPTH is 2.

计算深度会影响不一致系数的计算结果,计算深度比较大时,不一致系数的增量能反映出当前步引入的新样品与该类中心(涉及该类中所有样品)的距离远近,计算深度比较小时,不一致系数的增量仅能反映出当前步引入的新样品与上几步聚类中涉及的样品的中心的距离远近。

聚类分析——matlab相关推荐

  1. 计算阶比分析 matlab_(案例)层次聚类分析Matlab编码计算

    "层次聚类分析Matlab编码计算" 测试数据集(9个变量,21个样本): 样本序号 人口密度x1/(人·.km-2) 人均耕地面积x 2/hm2) 森林覆盖率x3/% 农民人均纯 ...

  2. 聚类分析 | MATLAB实现k-Means(k均值聚类)分析

    目录 聚类分析 | MATLAB实现k-Means(k均值聚类)分析 k-均值聚类简介 相关描述 程序设计 学习小结 参考资料 致谢 聚类分析 | MATLAB实现k-Means(k均值聚类)分析 k ...

  3. 聚类分析matlab检验,「matlab聚类分析」聚类分析的Matlab 程序—系统聚类(附有案例分析) - 金橙教程网...

    matlab聚类分析 聚类分析的Matlab 程序-系统聚类 (1)计算数据集每对元素之间的距离,对应函数为pdistw. 调用格式:Y=pdist(X),Y=pdist(X,'metric'), Y ...

  4. 聚类分析matlab

    一.理论 聚类就是把东西聚在一起,那一定有一定的规则,相似等,后面会给出.聚类与分类的不同就是,聚类所要求的划分的类是未知的. 聚类是这么定义的:将数据分类到不同的类或者簇这样的一个过程,所以同一个簇 ...

  5. 三维层次聚类分析matlab,聚类分析(三) 层次聚类及matlab程序

    一.层次聚类介绍 1.1 简介 层次聚类,主要是对给定的待聚类的数据集进行层次化分解.主要分为两大类: 1.从下到上的凝聚聚类 2.从上到下的分裂聚类 其他算法大部分是对样本之间距离度量或者类间凝聚/ ...

  6. 聚类 轮廓 matlab,聚类分析 - MATLAB Simulink Example - MathWorks 中国

    K 均值和层次聚类 Statistics and Machine Learning Toolbox 中的一些函数可执行 K 均值聚类和层次聚类. K 均值聚类是一种分区方法,它将数据中的观测值视为具有 ...

  7. ahp层次分析法matlab代码_(案例)AHP层次决策分析Matlab编码计算

    "层次聚类分析Matlab编码计算" 01 - AHP层次决策分析计算函数 求判断矩阵最大特征根和归一化特征向量: function [maxEigVal,w] = maxEigV ...

  8. matlab相平面图程序,相平面分析matlab程序

    聚类分析matlab代码_交通运输_工程科技_专业资料 966人阅读|36次下载 聚类分析matlab代码_交通运输_工程科技_专业资料. 文档贡献者 傻爱傻丫头 贡献于2013-09-...... ...

  9. sas一元回归分析_商业分析的应用

    领域:零售,电子商务,旅游,酒店,物流和制造业 商业分析师必备的技能: 理解商业和商业问题 可应用于商业数据的数据分析技术和算法 计算机编程 数据结构和数据存储或数据仓库技术,包括如何有效地查询数据 ...

最新文章

  1. jsp response对象
  2. 移动视频-你选择了谁?
  3. Lumen开发:如何向 IoC 容器中添加自己定义的类
  4. 限制连接数上涨的几个关键因素
  5. jsp java注释_jsp注释方式
  6. LeetCode LCP 22. 黑白方格画
  7. Leetcode:892. 三维形体的表面积(Java)
  8. 自学java编译老是出错_为什么按照书上的代码,编译老是出错?
  9. nginx redis mysql_Nginx + Lua + Kafka + Redis + Mysql
  10. 如何利用wireshark对TCP消息进行分析
  11. kafka是什么_Kafka为什么快到根本停不下来?
  12. 龙芯ejtag 单步调试pmon
  13. 天狗农业技术网采用的跨平台的Amaze UI设计
  14. 小米手环5表盘bin文件解包修改
  15. 取消Editplus的自动备份
  16. [美国]《霍比特人2:史矛革之战》[蓝光1080P.720P.中英双字][2013年奇幻动作]
  17. 【转载】MongoDB 极简实践入门
  18. 【设计模式 三】实战工厂汽车代工之工厂模式-简单模式
  19. s5p4418显示驱动
  20. windows os x linux比较,windows、Linux与OS X相比,哪个系统更适合写代码?

热门文章

  1. 如何评价一个新技术——以 ChatGPT 为例
  2. 「国内招聘」软件工程师
  3. WebTours示例程序的订票流程-脚本
  4. Windows 7 小工具
  5. UI设计师比平面设计师更有发展前途吗?
  6. HTML5城堡防御游戏《13夜》截图
  7. JDT AST学习笔记
  8. 极溯链农品溯源管理系统:农产品认知升级!
  9. 测试用例设计之场景图法
  10. 【BFS瞎搜】九宫重排