SPSS19.0实战之聚类分析
这篇文章与上一篇的回归分析是一次实习作业整理出来的。所以参考文献一并放在该文最后。CNBlOG网页排版太困难了,又不喜欢live writer……
聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数据做两种不同的类型的聚类;它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类方法也采用3种不同方法,来考察对比它们之间的优劣。由于没有样本数据,因此不能根据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的大小。
分析数据依然采用线性回归所使用的标准化后的能源消费数据。
1.1 系统聚类
本次实验的系统聚类都是凝聚系统聚类,为了控制变量,都采用平方Euclidean距离。
1.1.1 最短距离聚类法
最短距离法聚类步骤如下:
- 规定样本间的距离,计算样本两两之间的距离,得到对称矩阵。开始每个样品自成一类。
- 选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为D1,将这两个样品归并成为一类,记为G1。
- 计算G1与其他样品距离。重复以上过程直到所有样品合并为一类。
我们在SPSS中实现最短距离分析非常简单。单击“”-->“” -->“”。将弹出如图1-1所示的对话框,设置相应的参数即可。
图1-1 最短距离法
我们的数据已经做过标准化,在“转化值”-->“标准化”选项上选无。
在统计量的聚类成员中选择“无”,因为这是非监督分类,不需要指定最终分出的类个数。在绘制中选择绘制“树状图”。单击确定,得到以下结果。
- 表3-1显示了数据的缺失情况:
我们的数据经过预处理,所以缺失值个数为0.
2. 由于相关矩阵过于庞大,无法在文档中贴出,得到的是一个非相似矩阵。表1-2是样品聚类过程。样品21和28在第一步合并为一类,它们之间的非相关系数最小,为0.211。在下一次合并是第十步。在第五步的时候,样品2、27、14组成一类,出现群集,样品个数为3。如上类推,可以解释表格。
聚类表 |
||||||
阶 |
群集组合 |
系数 |
首次出现阶群集 |
下一阶 |
||
群集 1 |
群集 2 |
群集 1 |
群集 2 |
|||
1 |
21 |
28 |
.211 |
0 |
0 |
10 |
2 |
12 |
24 |
.465 |
0 |
0 |
6 |
3 |
2 |
27 |
.491 |
0 |
0 |
5 |
4 |
13 |
20 |
.585 |
0 |
0 |
9 |
5 |
2 |
14 |
.645 |
3 |
0 |
6 |
6 |
2 |
12 |
.678 |
5 |
2 |
7 |
7 |
2 |
7 |
.702 |
6 |
0 |
8 |
8 |
2 |
25 |
.773 |
7 |
0 |
9 |
9 |
2 |
13 |
.916 |
8 |
4 |
11 |
10 |
21 |
29 |
1.085 |
1 |
0 |
12 |
11 |
2 |
18 |
1.106 |
9 |
0 |
12 |
12 |
2 |
21 |
1.115 |
11 |
10 |
13 |
13 |
2 |
17 |
1.360 |
12 |
0 |
14 |
14 |
2 |
26 |
1.564 |
13 |
0 |
15 |
15 |
2 |
22 |
1.627 |
14 |
0 |
16 |
16 |
2 |
5 |
1.649 |
15 |
0 |
17 |
17 |
2 |
8 |
1.877 |
16 |
0 |
18 |
18 |
2 |
16 |
3.027 |
17 |
0 |
19 |
19 |
2 |
30 |
3.543 |
18 |
0 |
20 |
20 |
2 |
11 |
4.930 |
19 |
0 |
21 |
21 |
2 |
4 |
5.024 |
20 |
0 |
22 |
22 |
2 |
10 |
6.445 |
21 |
0 |
24 |
23 |
1 |
9 |
8.262 |
0 |
0 |
26 |
24 |
2 |
15 |
10.093 |
22 |
0 |
25 |
25 |
2 |
23 |
10.096 |
24 |
0 |
26 |
26 |
1 |
2 |
10.189 |
23 |
25 |
27 |
27 |
1 |
6 |
11.387 |
26 |
0 |
28 |
28 |
1 |
3 |
13.153 |
27 |
0 |
29 |
29 |
1 |
19 |
32.367 |
28 |
0 |
0 |
表1-2 聚类过程
我们可以通过更加形象直观的树状图来观察整个聚类过程和聚类效果。如图1-2所示,最短距离法组内距离小,但组间距离也较小。分类特征不够明显,无法凸显各个省份的能源消耗的特点。但是我们可以看到广东省能源消耗组成和其他省份特别不同,在其他方法中也显现出来。
图1-2 最短距离法聚类图
1.1.2 组间联接聚类
组间联接聚类法定义为两类之间的平均平方距离,即。类CK和CL 合并为下一步的CM 则CM 与CJ距离的递推公式为:。
我们依然贴出组间联接法的聚类表和树状图。
- 聚类表如表1-3所示,相关解释类似于表1-1所述。
聚类表 |
||||||
阶 |
群集组合 |
系数 |
首次出现阶群集 |
下一阶 |
||
群集 1 |
群集 2 |
群集 1 |
群集 2 |
|||
1 |
21 |
28 |
.211 |
0 |
0 |
10 |
2 |
12 |
24 |
.465 |
0 |
0 |
5 |
3 |
2 |
27 |
.491 |
0 |
0 |
6 |
4 |
13 |
20 |
.585 |
0 |
0 |
8 |
5 |
7 |
12 |
.840 |
0 |
2 |
7 |
6 |
2 |
14 |
.937 |
3 |
0 |
7 |
7 |
2 |
7 |
1.105 |
6 |
5 |
11 |
8 |
13 |
25 |
1.331 |
4 |
0 |
11 |
9 |
17 |
18 |
1.360 |
0 |
0 |
14 |
10 |
21 |
29 |
1.495 |
1 |
0 |
13 |
11 |
2 |
13 |
1.703 |
7 |
8 |
15 |
12 |
8 |
26 |
1.877 |
0 |
0 |
15 |
13 |
21 |
22 |
2.133 |
10 |
0 |
18 |
14 |
5 |
17 |
2.378 |
0 |
9 |
16 |
15 |
2 |
8 |
3.715 |
11 |
12 |
16 |
16 |
2 |
5 |
3.926 |
15 |
14 |
18 |
17 |
4 |
16 |
5.024 |
0 |
0 |
23 |
18 |
2 |
21 |
5.526 |
16 |
13 |
21 |
19 |
10 |
11 |
6.445 |
0 |
0 |
22 |
20 |
1 |
9 |
8.262 |
0 |
0 |
25 |
21 |
2 |
30 |
8.744 |
18 |
0 |
23 |
22 |
6 |
10 |
11.508 |
0 |
19 |
24 |
23 |
2 |
4 |
14.202 |
21 |
17 |
25 |
24 |
6 |
15 |
14.288 |
22 |
0 |
27 |
25 |
1 |
2 |
19.822 |
20 |
23 |
26 |
26 |
1 |
23 |
23.363 |
25 |
0 |
28 |
27 |
3 |
6 |
26.516 |
0 |
24 |
28 |
28 |
1 |
3 |
31.210 |
26 |
27 |
29 |
29 |
1 |
19 |
69.114 |
28 |
0 |
0 |
表1-2 组间联接聚类法
2. 树状图如图1-3所示,可以看到聚类的组间距离较大,组内距离较小。聚类结果较为理想。可以看到海南与青海,宁夏自治区,重庆市的能源消耗特点近似,北京、上海两地能源消耗特点也近似。江浙两地亦然。
最后广东和各地能源消耗特点都不同。
1.1.3 Ward法聚类
Ward即离差平方和法。它的思想是,同类离差平方和较小,类间偏差平方和较大。Ward方法并类时总是使得并类导致的类内离差平方和增量最小。公式:
递推公式:
我依然贴出ward法聚类表和树状图。
- 聚类表如表1-4所示,相关解释类似于表1-1所述.
聚类表 |
||||||
阶 |
群集组合 |
系数 |
首次出现阶群集 |
下一阶 |
||
群集 1 |
群集 2 |
群集 1 |
群集 2 |
|||
1 |
21 |
28 |
.106 |
0 |
0 |
11 |
2 |
12 |
24 |
.338 |
0 |
0 |
5 |
3 |
2 |
27 |
.584 |
0 |
0 |
6 |
4 |
13 |
20 |
.876 |
0 |
0 |
9 |
5 |
7 |
12 |
1.359 |
0 |
2 |
12 |
6 |
2 |
14 |
1.902 |
3 |
0 |
8 |
7 |
17 |
18 |
2.582 |
0 |
0 |
13 |
8 |
2 |
29 |
3.351 |
6 |
0 |
12 |
9 |
13 |
25 |
4.140 |
4 |
0 |
14 |
10 |
8 |
26 |
5.079 |
0 |
0 |
16 |
11 |
21 |
22 |
6.290 |
1 |
0 |
19 |
12 |
2 |
7 |
7.647 |
8 |
5 |
14 |
13 |
5 |
17 |
9.006 |
0 |
7 |
21 |
14 |
2 |
13 |
11.211 |
12 |
9 |
19 |
15 |
4 |
16 |
13.723 |
0 |
0 |
23 |
16 |
8 |
30 |
16.642 |
10 |
0 |
21 |
17 |
10 |
11 |
19.865 |
0 |
0 |
20 |
18 |
1 |
9 |
23.996 |
0 |
0 |
25 |
19 |
2 |
21 |
30.556 |
14 |
11 |
24 |
20 |
6 |
10 |
37.154 |
0 |
17 |
22 |
21 |
5 |
8 |
43.898 |
13 |
16 |
24 |
22 |
6 |
15 |
52.159 |
20 |
0 |
26 |
23 |
3 |
4 |
62.103 |
0 |
15 |
26 |
24 |
2 |
5 |
73.051 |
19 |
21 |
27 |
25 |
1 |
23 |
86.143 |
18 |
0 |
27 |
26 |
3 |
6 |
106.442 |
23 |
22 |
28 |
27 |
1 |
2 |
139.001 |
25 |
24 |
29 |
28 |
3 |
19 |
177.895 |
26 |
0 |
29 |
29 |
1 |
3 |
286.000 |
27 |
28 |
0 |
表1-4 Ward法聚类表
2. 树状图如图1-4所示,我们可以看到这个结果较以上两种方法都为理想,组内距离都很小,控制在五次迭代之内。然后组间距离非常大。各分类的样品也基本符合它们的能源消耗特点。最后在接近10次迭代,广东被归入山东、山西这两个分别是能源消耗大省和能源产量大省的一类,说明它们之间的相似度也不大。
图1-4 Ward法聚类树状图
1.2 K-mean聚类
K-mean聚类是用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终K个分类。 K-mean法对离群点敏感容易扭曲数据分布。
单击“”-->“” -->“”将弹出如图1-5所示的对话框,我们根据系统聚类法的经验将K选择为5。迭代次数和系统聚类一样选择25次。
图1-5 K-mean聚类设置
下面输出和解释K-mean聚类结果。
- 表1-5是K-mean的迭代历史记录,非常明了。
迭代历史记录a |
|||||
迭代 |
聚类中心内的更改 |
||||
1 |
2 |
3 |
4 |
5 |
|
1 |
2.796 |
1.414 |
1.813 |
.000 |
2.299 |
2 |
1.014 |
.000 |
.990 |
.000 |
.000 |
3 |
.000 |
.000 |
.000 |
.000 |
.000 |
a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 5.209。 |
表1-5 迭代历史记录
2. 表1-6是每个聚类样品数表。就是该次K-mean聚类所形成的类它们的样品数量。
每个聚类中的案例数 |
||
聚类 |
1 |
3.000 |
2 |
19.000 |
|
3 |
3.000 |
|
4 |
1.000 |
|
5 |
4.000 |
|
有效 |
30.000 |
|
缺失 |
.000 |
表1-6 聚类样品数
3. 表1-7是K-mean聚类的各个类的具体成员。距离代表的是样品自身和种子点的距离。
聚类成员 |
|||
案例号 |
地区名称 |
聚类 |
距离 |
1 |
北京市 |
1 |
1.489 |
2 |
天津市 |
2 |
.596 |
3 |
河北省 |
3 |
2.575 |
4 |
山西省 |
3 |
1.381 |
5 |
内蒙古自治区 |
2 |
1.951 |
6 |
辽宁省 |
5 |
2.299 |
7 |
吉林省 |
2 |
.646 |
8 |
黑龙江省 |
2 |
1.785 |
9 |
上海市 |
1 |
2.506 |
10 |
江苏省 |
5 |
1.569 |
11 |
浙江省 |
5 |
2.034 |
12 |
安徽省 |
2 |
.850 |
13 |
福建省 |
2 |
1.096 |
14 |
江西省 |
2 |
.960 |
15 |
山东省 |
5 |
2.489 |
16 |
河南省 |
3 |
1.980 |
17 |
湖北省 |
2 |
2.096 |
18 |
湖南省 |
2 |
1.211 |
19 |
广东省 |
4 |
.000 |
20 |
广西壮族自治区 |
2 |
.926 |
21 |
海南省 |
2 |
1.905 |
22 |
重庆市 |
2 |
1.436 |
23 |
四川省 |
1 |
2.954 |
24 |
贵州省 |
2 |
.984 |
25 |
云南省 |
2 |
1.080 |
26 |
陕西省 |
2 |
1.007 |
27 |
甘肃省 |
2 |
.955 |
28 |
青海省 |
2 |
1.744 |
29 |
宁夏回族自治区 |
2 |
1.414 |
30 |
新疆维吾尔自治区 |
2 |
2.503 |
表1-7 聚类成员
最后看到分类结果与ward法有所相似,但是组内距离较大。实际效果不如Ward法。而且该方法需要事先设定分类的个数,并不适合没有先验知识的条件下的数据聚类。
2.总结
本次实习主要通过一批国内的能源消耗和产量数据,来实现回归分析和聚类分析。回归分析得到一个拟合度良好多元线性回归方程:Y=0.008+1.061x1+0.087x2+0.157 x3-0.365x4-0.105 x5-0.017x6 。该方程的残差分析也通过了。聚类分析通过比较三种不同的系统聚类方法,同时还比较了K-mean方法与系统聚类法的不同。在处理该批数据的四种聚类方法中,以ward法最为理想。Ward法所做的聚类得到组间距离最大,组内距离最小。
3.参考文献
[1] Ronald .E et al.著.周勇等.译.理工科概率统计.[M].北京:机械工业出版社,2010:311-326.
[2] 袁志发,周静芋.多元统计分析[M].北京:科学出版社,2003:110-145,241-250.
[3] J. Han and M. Kamber. Datamining: concepts and techniques[M]. Morgan Kaufmann, 2006:251-267.
[4]SPSS for Window:分类分析[EB/OL].
http://www.fjmu.edu.cn/news/spss/doc3/sp10.htm#j1,1999-10/2010-12-25,
1999-10/2010-12-25
[5] 聚类分析[EB/OL].
http://www.math.pku.edu.cn/teachers/lidf/docs/statsoft/html/sas-5/cluster.html ,
2010-12-26
[6] 张文彤.SPSS 10.0高级教程十二:多元线性回归与曲线拟合[EB/OL].
http://www.bioon.com/biology/spss/55215.shtml,2004-7-12/2010-12-25
[7] 了空. SPSS中多元回归分析实例(上)[EB/OL]
http://hi.baidu.com/liaokong/blog/item/abe0be38344e1bc9d562259c.html,
2010-1-11/2010-12-25.
转载于:https://www.cnblogs.com/ventlam/archive/2010/12/27/SPSSCluster.html
SPSS19.0实战之聚类分析相关推荐
- R语言dplyr包将dataframe中的NA值替换(replace)为0实战:所有NA值替换(replace)为0、具体列的NA值替换(replace)为0、若干列的NA值替换(replace)为0
R语言dplyr包将dataframe中的NA值替换(replace)为0实战:所有NA值替换(replace)为0.具体列的NA值替换(replace)为0.若干列的NA值替换(replace)为0 ...
- echarts前后端交互数据_SpringBoot2.0实战(26)整合SpringSecurity前后端分离JSON交互...
在前端的文章中,我们实现了使用 SpringSecurity 实现登录鉴权,并使用数据库存储用户信息,实现登录鉴权 SpringBoot2.0实战(24)整合SpringSecurity之最简登录方法 ...
- Java Spring Boot 2.0 实战之制作Docker镜像并推送到Docker Hub和阿里云仓库
内容摘要:大规模集群快速部署Java应用,需要制作Docker镜像,本次课程详细介绍如何制作Java程序的Docker镜像文件,深入解析DockerFile核心参数,以及实践演练把我们制作的Docke ...
- operamasks-ui2.0 +MVC4.0+EF5.0实战之一 开篇及布局控件介绍
两年前,曾打算自己开发一个web开发框架,把部门.人员.权限.日志作为基本服务加入进去,在其基础上可以做业务快速开发,结果没有坚持下去,仅仅开了个头就夭折了.究其原因,一方面是采用自己完全不熟悉的新技 ...
- 大型电商项目3.0实战+支付宝、微信支付项目实战
须知:视频来源网络,侵权请联系删除! 大型电商项目3.0实战 获取方式 扫描下面二维码回复:A110 支付宝.微信支付项目实战 获取方式 扫描下面二维码回复:A106
- WF4.0实战系列索引
从WF4.0 betal1出来的时候就开始使用WF4.0,由于资料不多,学习过程也非常艰苦.今年四月份的时候打算写WF4.0实战系列,由于今年是本命年故坚持写了24篇文章.这个系列的文章都有一个特点, ...
- java github关联登录_没错,用三方Github做授权登录就是这么简单!(OAuth2.0实战)...
全2册git版本控制管理(第2版)+ 99.8元 包邮 (需用券) 去购买 > 本文收录在个人博客:www.chengxy-nds.top,技术资源共享. 上一篇<OAuth2.0 的四种 ...
- ZigBee 3.0实战教程-Silicon Labs EFR32+EmberZnet:学习教程目录
[源码.文档.软件.硬件.技术交流.技术支持,入口见文末] [所有相关IDE.SDK和例程源码均可从群文件免费获取,免安装,解压即用] 持续更新中,欢迎关注! 一.理论 ZigBee 3.0理论教程- ...
- ZigBee 3.0实战教程-Silicon Labs EFR32+EmberZnet-3-01:BootLoader+Application的开发模式
[源码.文档.软件.硬件.技术交流.技术支持,入口见文末] [所有相关IDE.SDK和例程源码均可从群文件免费获取,免安装,解压即用] 持续更新中,欢迎关注! 基于 Silicon Labs 的 EF ...
最新文章
- shell中执行脚本并显示到终端和保存到日志文件中
- WinRT界面控件Essential Studio上如何选择时间范围
- css基础 设置链接颜色
- 133.保护频带 134.流量控制在哪些层实现
- django 数据库中中文转化为汉语拼音
- 【笔记】css 自定义select 元素的箭头样式
- 边缘应用增长 800%,听听 Akamai 边缘部署的经验
- Nanachi发布:基于 React 的多端小程序转译框架
- 自定义TBE算子入门,不妨从单算子开发开始
- kafka topic数量上限_Kafka使用起来,竟还有这么多“潜规则”?一文彻底搞懂了...
- netty LEAK: ByteBuf.release() was not called before it's garbage-collected
- 什么是IP地址、IP协议?
- Linux环境yum安装nodejs
- HealthKit入门:第2部分
- Windows快速查看电脑显卡及处理器型号的方法
- 行动诠释价值,城联优品韩董事长出席广东英德抗洪捐赠公益活动会
- Summer School实验
- oracle数据库 日期函数用法
- 0代码实现接口自动化测试 —— RF框架实践
- 电路中的过压(OVP)过流(OCP)保护电路
热门文章
- 响铃:刚需之下,代泊真能冷启动汽车后市场?
- Python学习进度内容表
- 【Java编程学习】案例8-4 模拟12306售票
- android 电视安装apk文件损坏,android – 如何解决由于APK文件无效导致安装失败?...
- 自建CA,并给服务器颁发证书,将该证书安装至浏览器
- tsd3dmapper软件使用方法_Mapper
- 搜索不到投屏设备怎么办_乐播投屏搜索不到设备怎么办 问题分析与设置解决方法...
- 一个PHP文件搞定支付宝系列之手机网站支付(兼容微信浏览器) 转
- OpenGL之gult/freeglut/glew/glfw/glad的联系与区别
- CLAN Studio Toolkits - MCListbox Designer