IBM SPSS Modeler 【1】 K均值聚类

一、聚类分析

在数据挖掘中，聚类分析关注的内容是一些相似的对象按照不同种类的度量构造成的群体。聚类分析的目标就是在相似的基础上对数据进行分类。

IBM SPSS Modeler 提供了多种聚类分析模型，其中主要包括两种聚类分析，K-Mean 聚类分析和 Kohonen 聚类分析，下面对各种聚类分析实验步骤进行详解。

1、K-Means 聚类分析实验

首先进行 K-Means 聚类实验。

（1）启动 SPSS Modeler 14.2。选择“开始”“程序”“IBM SPSS Modeler 14.2”“ IBM SPSS Modeler 14.2 ”，即可启动 SPSS Modeler 程序，如图 1 所示。

图 1 启动 SPSS Modeler 程序

（2）打开数据文件。首先选择窗口底部节点选项板中的“源”选项卡，再点击“可变

文件”节点，单击工作区的合适位置，即可将“可变文件”的源添加到流中，如图 2 所示。右键单击工作区的“可变文件”，选择“编辑”，打开如图3的编辑窗口，其中有许多选项可供选择，此处均选择默认设定。点击 “文件”右侧的“”按钮，弹出文件选择对话框，选择安装路径下 “Demos”文件夹中的“DRUG1n”文件，点击“打开”，如图4所示。

单击“应用”，并点击“确定”按钮关闭编辑窗口。

图 2 工作区中的“可变文件”节点

图 3 “可变文件”节点编辑窗口

图 4 文件选择对话框

图 5 工作区中的“表”节点

（3）借助“表（Table）”节点查看数据。选中工作区的“DRUG1n”节点，并双击“输出”选项卡中的“表”节点，则 “表”节点出现在工作区中，如图 5 所示。运行“表”节点（Ctrl+E 或者右键运行），可以看到图 6 中有关病人用药的数据记录。该数据包含 7 个字段（序列、年龄(Age)、性别(Sex)、血压(BP)、胆固醇含量(Cholesterol)、钠含量(Na)、钾含量

(K)、药类含量(Drug)），共 200 条信息记录。

图 6 用于查看数据的“表”窗口

图 7 工作区中的“类型”节点

（4）使用“类型（Type）”节点选择聚类分析的字段。选中“DRUG1n”节点，在 “字段选项”选项卡中双击“类型”节点，则 “类型”节点出现在工作区中，如图 7 所示。右键单击“类型”节点，选择“编辑”，可以看到一张关于字段的表，如图 8 所示。然后将所有字段的角色项设为“输入”，这表示要将所有字段进行聚类分析。最后点击“确定”按钮。

图 8 “类型”节点编辑窗口

（5）进行接入模型。首先，使用 K-Means 模型进行聚类分析。选择工作区的“类型”，在窗口底部“建模”选项卡中，找到“K-Means”模型，并双击。在工作区中，即得到一个

K-Means 模型节点，如图 1-9 所示

图 9 工作区中的“K-Means”模型

（6）编辑 K-Means 节点。右键单击工作区的“K-Means”，选择“编辑”，打开如图 10 的“K-Means”节点窗口。在“生成距离字段”的选择框中打勾，其他选择采用默认设置。

点击“运行”按钮，即生成 K-Means 聚类分析。

图 10 “K-Means”模型编辑窗口

（7）查看 K-Means 聚类分析结果。在窗口右上侧区域的“模型”选项卡中，可以看到 K-Means 的模型，右键单击，并选择“浏览”，既可以看到 K-Means 聚类分析图，如图 11 所示。

图 11 “K-Means”聚类分析图

（8）分析 K-Means 聚类分析。从图 11 中可以看到，聚类分析将源数据分成了五个聚类，每个类占总数的比例分别为 27.5%，23.0%，19.5%，15.5%和 14.5%。其中，对分类字段的依赖性依次由药类含量、血压、钾含量、胆固醇含量、钠含量、年龄和性别逐渐递减，其他的分析结论不在此细诉。

至此，已经完成了 K-Means 聚类分析实验的全部步骤。

IBM SPSS Modeler 【1】 K均值聚类相关推荐

IBM SPSS Modeler 【2】两步聚类
IBM SPSS Modeler 实验 1.2."两步"聚类分析实验接下来,继续进行"两步聚类分析模型"的实验. (1) SPSS Mode ...
matlab传递闭包动态聚类图,用SPSS制作3D散点图全方位动态展示K均值聚类效果
SPSS系统聚类输出的树状图广受用户喜爱,二阶聚类也可以输出一系列美观的可视化图形用来观察聚类效果,但我们发现Kmeans均值聚类没有提供可视化程度高的图形,那怎么办,我们自己来制作. 数据小兵推荐使 ...
spss聚类分析_SPSS聚类分析 I K均值聚类法案例实操
- 点击上方"中国统计网"订阅我吧!- 文末领取医疗行业报告今天想写一下聚类分析方法之一:K-Mean聚类法 01聚类分析模型简介 (1)聚类分析没有过多的统计理论支持,也没有统 ...
SPSS用KMEANS(K均值)、两阶段聚类、RFM模型在P2P网络金融研究借款人、出款人行为数据规律...
全文下载链接:http://tecdat.cn/?p=27831 随着P2P网络金融平台的交易量的激增,其交易数据不能得到充分有效地利用.将聚类分析引入到P2P网络金融平台的管理之中,利用聚类分析技术 ...
spss实现k均值聚类
机器学习中的k均值聚类属于无监督学习,所谓k指的是簇类的个数,也即均值向量的个数.算法初始状态下,要根据我们设定的k随机生成k个中心向量,随机生成中心向量的方法既可以随机从样本中抽取k个样本作为中心向 ...
非常值得收藏的 IBM SPSS Modeler 算法简介
IBM SPSS Modeler以图形化的界面.简单的拖拽方式来快速构建数据挖掘分析模型著称,它提供了完整的统计挖掘功能,包括来自于统计学.机器学习.人工智能等方面的分析算法和数据模型,包括如关联.分 ...
SPSS聚类分析：K均值聚类分析
SPSS聚类分析:K均值聚类分析一.概念:(分析-分类-K均值聚类) 1.此过程使用可以处理大量个案的算法,根据选定的特征尝试对相对均一的个案组进行标识.不过,该算法要求您指定聚类的个数.如果知道, ...
php 集成 spss,〖SPSS Modeler〗 IBM SPSS Modeler 整合不同数据库之间的数据
来自IBM DEVELOPERWORKS 简介由于目前企业客户的业务量和数据量都在不断的提高,随着企业的发展,很多企业的数据存储都不局限于同一个数据库上,如果要对这些存储在不同数据库上的数据进行处理 ...
《IBM SPSS Modeler数据与文本挖掘实战》之文本挖掘算法
随着文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.现代文本分类和聚类领域面临巨大的挑战,而且随着学者研究的不断深入,其中的一些深层次问题也逐渐暴露出来,一些问题也已经成为本学科进一 ...

IBM SPSS Modeler 【1】 K均值聚类

1、K-Means 聚类分析实验

IBM SPSS Modeler 【1】 K均值聚类相关推荐

最新文章

热门文章