聚类分析在SPSS上的实现与结果分析——基于SPSS实验报告
实验目的
通过本次实验学习聚类分析在SPSS软件中的具体操作方法,包括系统聚类法和K-means聚类这两种方法,同时根据实验目的自己判断方法的适用情况选取最优方法完成聚类分析达到聚类的目的,并做出综合的评价。
实验步骤及过程:
题目一:依菜单选择“分析”→“分类”→“系统聚类”,然后将数据变量导入变量框中,“地区”变量导入到标注个案框中。在“图”选项中勾选系谱图,然后在“方法”中选择不同的聚类方法测试,根据实际聚类效果选择最优方案,这道题我测试得出的最优方法是 “组间距离”(类平均法)与“欧式距离”,因为原始数据量纲差异不大,不需要将数据做标准化处理。
题目二:依菜单选择“分析”→“分类”→“K-均值聚类”,然后将数据变量导入到变量框中,“国家和地区”变量导入到“个案标注依据”中;聚类数一般在2-4之间,根据实际聚类效果反复测试得出3类效果最好,所以聚类数这里输入3;在“选项”中可勾选要统计的聚类信息方便结果分析。
题目三:同时采用系统聚类和快速聚类的方法,根据实际结果的情况选择最优方案,这两种具体操作步骤见题目一和题目二。测试结果发现,K-means聚3类的方法和采用 “组间联接”、“欧式距离”的系统聚类方法结果一致,且均为最优聚类方案,所以从便捷快速的角度考虑这里选择采用K-means聚类。
实验结果分析或说明
题目一:
聚类结果如图所示
根据聚类结果的效果最终选择使用欧式距离法将31个省份分为了三类(结果保存了变量):
第一类:北京、天津、山西、内蒙古、吉林、黑龙江、上海、安徽、福建、江西、广西、重庆、贵州、云南、陕西、甘肃、新疆
第二类:河北、辽宁、江苏、浙江、山东、河南、湖北、湖南、广东、四川
第三类:海南、西藏、青海、宁夏
将分好组的三类数据求其各项指标的均值观察其特点。
类别 |
医疗机构床位数 |
卫生机构人员数 |
妇幼保健院 |
疾病预防控制中心 |
门诊部诊所 |
卫生院 |
医院 |
第一类 |
89470.24 |
141041.94 |
89.35 |
106.94 |
5713.76 |
1095.41 |
544.3 |
第二类 |
191388.60 |
312149.60 |
136.00 |
153.90 |
11123.20 |
2055.4 |
943.9 |
第三类 |
15288.25 |
25076.5 |
31 |
47.75 |
969.25 |
403.75 |
138.5 |
从图中的数据可以清楚地看出,第二类省、市、自治区的医疗卫生设备总量上处于一个较高的水平,每一项指标均为三类中的最高值,单从总量上来看相对于其他两类第二类样本的医疗卫生设配的条件最好,结合第二类中的具体省、市、自治区发现,第二类样本均为一些中东部的人口、经济大省,例如江苏、浙江、广东、湖北等省,所以其分类结果具有一定的合理性。
第一类样本的医疗设备总量处于一个中等的水平,但是观察其具体样本的数据发现,包含了北京、上海、天津等经济发达地区,观察其原始数据发现其数据总量也不是很大,并且发现四个直辖市均在第一类中,所以这里姑且考虑为医疗卫生设备的总量会受到地域大小的影响。第一类中的其他样本也大多为一些中部、西部发展较为中等的省、市、自治区,例如陕西、甘肃、贵州、云南等省,所以第一类的分类结果也有一定的合理性。
第三类相较而言其医疗设备总量处于一个较低的水平,每项指标的均值都为三类中的最低值,观察其样本数据不难发现,第三类的样本多为西部的欠发达地区,例如西藏、青海,其医疗设备总量上处于一个低水平也得以解释,其分类也较为合理。
题目二:
经过反复测试发现使用K-means聚类分3类的效果最好,聚类结果如下图所示。
很显然,美国单独分为了第一列与其他样本差别较大,中国、日本、德国分为了第一类,其他国家和地区则是分为了第三类。
根据最终聚类中心结果得知,第二类样本对外贸易的各项指标基本都处于最高水平,联想到美国当前经济发展水平也不难理解,当今美国仍然是世界上第一大国在对外贸易方面占有着绝对的优势地位,但是其“货物贸易平衡”这一指标却又是这三类中最低水平,甚至为负值,这也许和美国实际的国情有关;
第一类大致处于一个中等片偏上的水平,中国为世界第二大经济体、日本岛国资源的稀缺、 “德国制造”的产品优势这些多多少少都是促使这三个国家成为贸易大国的因素之一,分为一类也不足为奇;
而最后一类,包含了东南亚和欧洲的一些国家,虽说不是组内水平较为平均,但相较另外两组而言这一类的样本与另两组的样本中心点差距还是过大,归为一类也较为合理。
题目三:
聚类结果如下图所示,北京市被单独分为了一类;上海、南京、无锡、苏州、深圳分为了第二类;而其余的省市分为了第三类。
观察各个类各项指标的聚类中心不难发现,北京之所以能单独分为一类,原因在于北京的各项指标均占据着绝对优势的地位,除了“出口总额”这个指标与第二类差距甚微外,其余的指标数值均远超其他类别,同时北京作为我国首都,在政策与历史积淀的作用下经济发展也有着绝对的优势地位;
第二类与第三类差别也存在着显著差异,除了“企业个数”这一指标和第三类差别不大外,其余的各项指标均为碾压状态,而观察样本发现,第二类的样本均为一些经济发展大市,上海和深圳两个经济特区全国前4的GDP贡献率,苏州、南京、无锡这三座城市也基本为全国GDP前十左右的存在,第二类的分类也较为合理;
第三类相较前两类略显后劲不足,考虑到第三类样本较大,样本水平参差不齐平均下来指标数值偏低,但相对于前两类而言差距均较大,分为一类也有一定的合理性。
聚类分析在SPSS上的实现与结果分析——基于SPSS实验报告相关推荐
- 判别分析在SPSS上的实现与结果分析——基于SPSS实验报告
实验目的 通过本次实验学习判别分析在SPSS软件中的具体操作方法,依据变量的各个特征来对变量进行分组,与聚类分析不同的是判别分析对于类别是已知的. 实验步骤及过程: 首先对14组数据做聚类分析,通过快 ...
- 大学计算机基础 试卷分析,基于SPSS大学计算机基础考试试卷分析.doc
基于SPSS大学计算机基础考试试卷分析 基于SPSS大学计算机基础考试试卷分析 摘要:试卷分析包括成绩分析和试卷质量分析两部分.该文以西南林学院2007-2008级的消防工程专业的大学计算机基础考试为 ...
- 红橙Darren视频笔记 view的绘制流程(上) onMeasure测量代码分析 基于API27
一.准备工作Activity的onCreate和onResume调用过程 从ActivityThread的handleLaunchActivity开始进行代码跟踪 private void handl ...
- 多元线性回归残差分析——基于SPSS统计分析工具
转载,原文链接https://blog.csdn.net/qysh123/article/details/75111472 希望对你们有帮助. 残差分析包括以下内容: ①残差是否服从均值为零的正态分布 ...
- 多选题spss相关分析_【医学问卷分析】使用SPSS多重响应对医学问卷多选题进行统计分析——【杏花开医学统计】...
杏花开生物医药统计 一号在手,统计无忧! 关 注 [医学问卷分析] 使用SPSS多重响应对 医学问卷多选题进行统计分析 关键词:SPSS.问卷分析 导 读 前几期,我们介绍了量表的制作及信效度分析的 ...
- c语言实验报告上理答案,C语言实验报告江西理工大学实验5
<C语言实验报告江西理工大学实验5>由会员分享,可在线阅读,更多相关<C语言实验报告江西理工大学实验5(6页珍藏版)>请在读根文库上搜索. 1.C语言程序设计实验报告教学班级: ...
- 普通玩家版基于SPSS的PCA攻略
这是一篇精准打击PCA之基于SPSS实战 我请我自己写一个普通玩家版基于SPSS平台的PCA攻略,以防我这个笨蛋白痴下次又重新学过.. PCA是什么? 主成分分析法(PCA), 是一种常用的无监督学习 ...
- oracle从入门到精通_【论文】基于SPSS Modeler和Oracle的学生行为数据分析
张翠轩,曹素丽,王淑梅 (石家庄邮电职业技术学院计算机系,河北 石家庄050021) 摘要: 随着校园信息化程度的日益提高.学校积累了大量的学生数据,如何充分利用这些数据,获取其中蕴藏的价值,已经成为 ...
- 基于SPSS的主成分分析(PCA)
主成分分析(Principal Component Analysis,PCA)是一种统计方法.PCA以降维方式,在损失很少信息的前提下通过正交变换将一组可能存在相关性的变量(多个指标)转换为一组线性不 ...
- spss打开oracle,零基础到数据挖掘精通(SPSS MODELER、EXCEL、ORACLE)
网盘地址1:https:// pan. baidu. com/s/1ghaV2xl 密码: xz3b网盘地址2:https:// pan. b ...
最新文章
- 走进科学-小菌株大作为—枯草芽孢杆菌替代畜牧业抗生素添加
- Linux centos 主机名颜色设置 和 别名设置
- rem、px、em之间的区别以及网页响应式设计写法
- linux ls连接数,51CTO博客-专业IT技术博客创作平台-技术成就梦想
- 数据挖掘方法论流程图
- 【熵】熵,KL散度,交叉熵,最大熵模型
- 【Python游戏】Python实现一个简易版本的阴阳师游戏 | 附带源码
- 《当程序员的那些狗日日子》(五十三)破局(中)
- If you insist running as root, then set the environment variable RUN_AS_USER=root before running thi
- LR11录制脚本无法弹出IE窗口的解决方案
- Hibernate实践JBX+MY SQL4.0
- jdbc操作数据库实现查询产品、增加产品库存量例子
- 笔记本电脑总是莫名其妙自动睡眠,记录一次排查过程
- php代码编辑软件安卓,PHP代码编辑软件|Rapid PHP编辑器 v15.0 最新版
- 铅笔盒的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
- 有效解决solidworks无法获得下列许可solidworks standard。使用此许可文件不支持此版本(-21.126.0)
- vue-echarts的ZRender事件
- 牛客:队列Q(思维)
- java 不定长参数_简单介绍Java的不定长度参数
- acunetix wvs网站漏洞扫描
热门文章
- ERP原理与应用期末复习
- 远程连接virtualBox本地虚拟机并访问虚拟机服务
- c++的内存问题---内存碎片
- 计算机机试题Excel,2009年职称计算机考试_Excel机试题-1
- java list去重工具_开发常用小工具类:list集合去重
- “同心鼓”运动在理想状态下的最佳策略研究
- dsf5.0 element ui表单相关验证
- cad计算机快捷键命令大全,2016cad快捷键命令大全,AutoCAD快捷键命令大全
- SpringBoot项目多环境配置(亲测有效)
- 数字信号处理:重要知识点整理