SPSS中K均值聚类操作案例
给出我国各地区2003年三次产业产值数据,试根据三次产业产值利用K均值法对31个省、自治区和直辖市进行聚类分析(分3类)。
主要操作步骤及各选项解释如下:
(1)将变量移入 变量框 中;
将标志变量 地区 移入 个案标记依据框 中;
在 方法框 中选择 迭代与分类,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择 仅分类,则根据初始类中心进行聚类,在聚类过程中不改变类中心);
在 聚类数 后面的矩形框中输入想要把样品聚成的类数,这里输入3,即将31个地区分为3类。至于 聚类中心 按钮,则用于设置迭代的初始类中心。如果不手工设置,则系统会自动设置初始类中心,这里不作设置;
(2)点击 迭代 按钮,对迭代参数进行设置。最大迭代次数参数框 用于设定K-means算法迭代的最大次数,收敛标准参数框 用于设定算法的收敛判据,其值应该介于0和1之间。例如判据设置为0.02,则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于2时,迭代停止。设置完这两个参数之后,只要在迭代的过程中先满足了其中的一个参数,则迭代过程就停止。这里我们选择系统默认的标准。
(3)点击 保存 按钮,设置保存在数据文件中的表明聚类结果的新变量。其中 聚类成员 选项用于建立一个代表聚类结果的变量,默认变量名为QCL_1;与聚类中心的距离 选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离, 默认变量名为QCL_2。将两个复选框都选中,单击 继续 按钮返回。
(4)点击 选项 按钮,指定要计算的统计量。选中 初始聚类中心 和 每个个案的聚类信息 复选框。这样,在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息,包括分配到哪一类和该观测量距所属类中心的距离。
(5)点击 确定 按钮,得到K均值聚类分析结果。
分类结果如下:
(1)初始聚类中心
(2)迭代历史记录给出每次迭代结束后类中心的变动
从上表可以看到本次聚类过程共经历了三次迭代。由于在 迭代 子对话框中使用系统默认的选项(最大迭代次数为10和收敛判据为0),所以在第三次迭代后,类中心的变化为0,从而迭代停止。
(3)聚类成员 给出各观测量所属的类及与所属类中心的距离
聚类成员 |
|||
---|---|---|---|
案例号 |
地区 |
聚类 |
距离 |
1 |
北京 |
3 |
1385.724 |
2 |
天津 |
2 |
665.342 |
3 |
河北 |
3 |
1193.462 |
4 |
山西 |
2 |
626.991 |
5 |
内蒙古 |
2 |
226.652 |
6 |
辽宁 |
3 |
517.500 |
7 |
吉林 |
2 |
448.395 |
8 |
黑龙江 |
3 |
756.679 |
9 |
上海 |
3 |
1245.952 |
10 |
江苏 |
1 |
381.287 |
11 |
浙江 |
1 |
1693.132 |
12 |
安徽 |
3 |
1012.800 |
13 |
福建 |
3 |
94.867 |
14 |
江西 |
2 |
621.919 |
15 |
山东 |
1 |
471.444 |
16 |
河南 |
3 |
1143.947 |
17 |
湖北 |
3 |
136.039 |
18 |
湖南 |
3 |
788.131 |
19 |
广东 |
1 |
1173.076 |
20 |
广西 |
2 |
570.067 |
21 |
海南 |
2 |
761.799 |
22 |
重庆 |
2 |
321.275 |
23 |
四川 |
3 |
504.150 |
24 |
贵州 |
2 |
291.361 |
25 |
云南 |
2 |
401.637 |
26 |
西藏 |
2 |
981.691 |
27 |
陕西 |
2 |
433.741 |
28 |
甘肃 |
2 |
292.899 |
29 |
青海 |
2 |
840.178 |
30 |
宁夏 |
2 |
845.426 |
31 |
新疆 |
2 |
105.452 |
表中 聚类列 给出了观测量所属的类别,距离列 给出了观测量与所属类中心的距离。
(4)最终聚类中心 给出聚类结果形成的类中心的各变量值
从(3)(4)两表中可以看出31个地区被分成3类。第一类包括:江苏、浙江、山东和广东4个省。这一类的类中心三个产业的产值分别为1102.14亿元、6423.01亿元和4454.26亿元,属于三个产业都比较发达的地区。第二类包括:天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆16个地区,这一类的类中心三个产业的产值分别为307.61亿元、795.41亿元和673.63亿元,属于欠发达地区。剩下的11个地区为第三类。这一类的类中心三个产业的产值分别为713.28亿元、2545.20亿元和2122.87亿元,属于中等发达地区。
SPSS中K均值聚类操作案例相关推荐
- 聚类算法中 K均值聚类(KMeans)的python实现
** 聚类算法中 K均值聚类(KMeans)的python实现 ** import numpy as np import matplotlib.pyplot as plt from sklearn.d ...
- spss聚类分析_SPSS聚类分析 I K均值聚类法案例实操
- 点击上方"中国统计网"订阅我吧!- 文末领取医疗行业报告 今天想写一下聚类分析方法之一:K-Mean聚类法 01聚类分析模型简介 (1)聚类分析没有过多的统计理论支持,也没有统 ...
- spss实现k均值聚类
机器学习中的k均值聚类属于无监督学习,所谓k指的是簇类的个数,也即均值向量的个数.算法初始状态下,要根据我们设定的k随机生成k个中心向量,随机生成中心向量的方法既可以随机从样本中抽取k个样本作为中心向 ...
- k均值聚类算法案例 r语言iris_K-means算法原理
聚类的基本思想 俗话说"物以类聚,人以群分" 聚类(Clustering)是一种无监督学习(unsupervised learning),简单地说就是把相似的对象归到同一簇中.簇内 ...
- k均值聚类算法案例 r语言iris_聚类分析—系统聚类
聚类就是按照某个特定标准把一个数据集分割成不同的类或簇,最后的结果是希望同类之间的差异性尽可能小,不同类之间的差异性尽可能大.不同的类具有能够表达异于其他类的指标,这样针对不同的类,后续就能采取不一样 ...
- python机器学习库sklearn——k均值聚类
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 k均值聚类的相关的知识内容可以参考 http://blog.csdn.net/luanpeng825485697/article/de ...
- 案例实践:用SPSS做K均值聚类分析
01 案例数据背景 某公司对应聘的48人进行多项测试后,对直接表现其特征的14个方面进行了打分,每个单项都采用10分制,得分越高说明当事人在此方面表现越好.试对应聘者做聚类. 对应聘者做聚类,在现实中 ...
- matlab传递闭包动态聚类图,用SPSS制作3D散点图全方位动态展示K均值聚类效果
SPSS系统聚类输出的树状图广受用户喜爱,二阶聚类也可以输出一系列美观的可视化图形用来观察聚类效果,但我们发现Kmeans均值聚类没有提供可视化程度高的图形,那怎么办,我们自己来制作. 数据小兵推荐使 ...
- k均值聚类算法(K Means)及其实战案例
算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...
- python机器学习案例系列教程——k均值聚类、k中心点聚类
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 上一篇我们学习了层次聚类.层次聚类只是迭代的把最相近的两个聚类匹配起来.并没有给出能给出多少的分组.今天我们来研究一个K均值聚类.就是 ...
最新文章
- mysql 事务隔离规范_MySQL事务隔离级别以及脏读、幻读、不可重复读示例
- python array 使用创建10万浮点数
- Solution for Lead OPA test error ( add button clicked after cancel button )
- PHP学习之路(二)让我们开始环境搭建(Windows篇)
- 物联网与万物互联有什么区别?
- 详述一则数据库死锁故障的分析过程
- Linux——CMake更新和安装
- 树莓派4B安装ffmpeg的方法
- WCF作为SAO技术的核心:契约
- ios13.7 iPhone/iPad Location-cleaned 驱动下载
- adodb 连接mysql_PHP中使用ADODB连接MySQL中文乱码
- 机房收费系统之实现图(组件图、部署图)
- 如何制作微信小程序(三个步骤开发小程序)
- 大数据分析及工具应用总结
- 微商如何利用微信公众号来盈利
- 详解圆形头像Shader
- 【算法】汇总:求解π值的算法
- Scrapy爬虫之中文乱码问题
- ffmpeg 从现有视频中截取一段
- C#毕业设计——基于C#+vc.net+Access的报名管理信息系统设计与实现(毕业论文+程序源码)——报名管理信息系统