SPSS中K均值聚类操作案例

给出我国各地区2003年三次产业产值数据，试根据三次产业产值利用K均值法对31个省、自治区和直辖市进行聚类分析（分3类）。

主要操作步骤及各选项解释如下：

（1）将变量移入 变量框 中；

将标志变量地区移入 个案标记依据框 中；

在 方法框 中选择 迭代与分类，即使用K-means算法不断计算新的类中心，并替换旧的类中心（若选择仅分类，则根据初始类中心进行聚类，在聚类过程中不改变类中心）；

在聚类数后面的矩形框中输入想要把样品聚成的类数，这里输入3，即将31个地区分为3类。至于聚类中心按钮，则用于设置迭代的初始类中心。如果不手工设置，则系统会自动设置初始类中心，这里不作设置；

（2）点击迭代按钮，对迭代参数进行设置。最大迭代次数参数框 用于设定K-means算法迭代的最大次数，收敛标准参数框 用于设定算法的收敛判据，其值应该介于0和1之间。例如判据设置为0.02，则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于2时，迭代停止。设置完这两个参数之后，只要在迭代的过程中先满足了其中的一个参数，则迭代过程就停止。这里我们选择系统默认的标准。

（3）点击保存按钮，设置保存在数据文件中的表明聚类结果的新变量。其中聚类成员选项用于建立一个代表聚类结果的变量，默认变量名为QCL_1；与聚类中心的距离 选项建立一个新变量，代表各观测量与其所属类中心的欧氏距离, 默认变量名为QCL_2。将两个复选框都选中，单击继续按钮返回。

（4）点击选项按钮，指定要计算的统计量。选中初始聚类中心 和每个个案的聚类信息 复选框。这样，在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息，包括分配到哪一类和该观测量距所属类中心的距离。

（5）点击确定按钮，得到K均值聚类分析结果。

分类结果如下：

（1）初始聚类中心

（2）迭代历史记录给出每次迭代结束后类中心的变动

从上表可以看到本次聚类过程共经历了三次迭代。由于在迭代子对话框中使用系统默认的选项（最大迭代次数为10和收敛判据为0），所以在第三次迭代后，类中心的变化为0，从而迭代停止。

（3）聚类成员给出各观测量所属的类及与所属类中心的距离

聚类成员
案例号	地区	聚类	距离
1	北京	3	1385.724
2	天津	2	665.342
3	河北	3	1193.462
4	山西	2	626.991
5	内蒙古	2	226.652
6	辽宁	3	517.500
7	吉林	2	448.395
8	黑龙江	3	756.679
9	上海	3	1245.952
10	江苏	1	381.287
11	浙江	1	1693.132
12	安徽	3	1012.800
13	福建	3	94.867
14	江西	2	621.919
15	山东	1	471.444
16	河南	3	1143.947
17	湖北	3	136.039
18	湖南	3	788.131
19	广东	1	1173.076
20	广西	2	570.067
21	海南	2	761.799
22	重庆	2	321.275
23	四川	3	504.150
24	贵州	2	291.361
25	云南	2	401.637
26	西藏	2	981.691
27	陕西	2	433.741
28	甘肃	2	292.899
29	青海	2	840.178
30	宁夏	2	845.426
31	新疆	2	105.452

表中聚类列给出了观测量所属的类别，距离列给出了观测量与所属类中心的距离。

（4）最终聚类中心给出聚类结果形成的类中心的各变量值

从（3）（4）两表中可以看出31个地区被分成3类。第一类包括：江苏、浙江、山东和广东4个省。这一类的类中心三个产业的产值分别为1102.14亿元、6423.01亿元和4454.26亿元，属于三个产业都比较发达的地区。第二类包括：天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆16个地区，这一类的类中心三个产业的产值分别为307.61亿元、795.41亿元和673.63亿元，属于欠发达地区。剩下的11个地区为第三类。这一类的类中心三个产业的产值分别为713.28亿元、2545.20亿元和2122.87亿元，属于中等发达地区。

SPSS中K均值聚类操作案例相关推荐

聚类算法中 K均值聚类（KMeans）的python实现
** 聚类算法中 K均值聚类(KMeans)的python实现 ** import numpy as np import matplotlib.pyplot as plt from sklearn.d ...
spss聚类分析_SPSS聚类分析 I K均值聚类法案例实操
- 点击上方"中国统计网"订阅我吧!- 文末领取医疗行业报告今天想写一下聚类分析方法之一:K-Mean聚类法 01聚类分析模型简介 (1)聚类分析没有过多的统计理论支持,也没有统 ...
spss实现k均值聚类
机器学习中的k均值聚类属于无监督学习,所谓k指的是簇类的个数,也即均值向量的个数.算法初始状态下,要根据我们设定的k随机生成k个中心向量,随机生成中心向量的方法既可以随机从样本中抽取k个样本作为中心向 ...
k均值聚类算法案例 r语言iris_K-means算法原理
聚类的基本思想俗话说"物以类聚,人以群分" 聚类(Clustering)是一种无监督学习(unsupervised learning),简单地说就是把相似的对象归到同一簇中.簇内 ...
k均值聚类算法案例 r语言iris_聚类分析—系统聚类
聚类就是按照某个特定标准把一个数据集分割成不同的类或簇,最后的结果是希望同类之间的差异性尽可能小,不同类之间的差异性尽可能大.不同的类具有能够表达异于其他类的指标,这样针对不同的类,后续就能采取不一样 ...
python机器学习库sklearn——k均值聚类
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 k均值聚类的相关的知识内容可以参考 http://blog.csdn.net/luanpeng825485697/article/de ...
案例实践：用SPSS做K均值聚类分析
01 案例数据背景某公司对应聘的48人进行多项测试后,对直接表现其特征的14个方面进行了打分,每个单项都采用10分制,得分越高说明当事人在此方面表现越好.试对应聘者做聚类. 对应聘者做聚类,在现实中 ...
matlab传递闭包动态聚类图,用SPSS制作3D散点图全方位动态展示K均值聚类效果
SPSS系统聚类输出的树状图广受用户喜爱,二阶聚类也可以输出一系列美观的可视化图形用来观察聚类效果,但我们发现Kmeans均值聚类没有提供可视化程度高的图形,那怎么办,我们自己来制作. 数据小兵推荐使 ...
k均值聚类算法(K Means)及其实战案例
算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...
python机器学习案例系列教程——k均值聚类、k中心点聚类
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程上一篇我们学习了层次聚类.层次聚类只是迭代的把最相近的两个聚类匹配起来.并没有给出能给出多少的分组.今天我们来研究一个K均值聚类.就是 ...

SPSS中K均值聚类操作案例

SPSS中K均值聚类操作案例相关推荐

最新文章

热门文章