一、聚类分析

在数据挖掘中,聚类分析关注的内容是一些相似的对象按照不同种类的度量构造成的群体。聚类分析的目标就是在相似的基础上对数据进行分类。

IBM SPSS Modeler 提供了多种聚类分析模型,其中主要包括两种聚类分析,K-Mean 聚类分析和 Kohonen 聚类分析,下面对各种聚类分析实验步骤进行详解。

1K-Means 聚类分析实验

首先进行 K-Means 聚类实验。

(1)          启动 SPSS Modeler 14.2。选择“开始”“程序”“IBM SPSS Modeler 14.2”“ IBM SPSS Modeler 14.2 ”,即可启动 SPSS Modeler 程序,如图 1 所示。

图 1 启动 SPSS Modeler 程序

(2)          打开数据文件。首先选择窗口底部节点选项板中的“源”选项卡,再点击“可变

文件”节点,单击工作区的合适位置,即可将“可变文件”的源添加到流中,如图 2 所示。右键单击工作区的“可变文件”,选择“编辑”,打开如图3的编辑窗口,其中有许多选项可供选择,此处均选择默认设定。点击 “文件”右侧的“”按钮,弹出文件选择对话框,选择安装路径下 “Demos”文件夹中的“DRUG1n”文件,点击“打开”,如图4所示。

单击“应用”,并点击“确定”按钮关闭编辑窗口。

图 2 工作区中的“可变文件”节点

图 3 “可变文件”节点编辑窗口

图 4 文件选择对话框

图 5 工作区中的“表”节点

(3)          借助“表(Table)”节点查看数据。选中工作区的“DRUG1n”节点,并双击“输出”选项卡中的“表”节点,则 “表”节点出现在工作区中,如图 5 所示。运行“表”节点(Ctrl+E 或者右键运行),可以看到图 6 中有关病人用药的数据记录。该数据包含 7 个字段(序列、年龄(Age)、性别(Sex)、血压(BP)、胆固醇含量(Cholesterol)、钠含量(Na)、钾含量

(K)、药类含量(Drug)),共 200 条信息记录。

图 6 用于查看数据的“表”窗口

图 7 工作区中的“类型”节点

(4)          使用“类型(Type)”节点选择聚类分析的字段。选中“DRUG1n”节点,在 “字段选项”选项卡中双击“类型”节点,则 “类型”节点出现在工作区中,如图 7 所示。右键单击“类型”节点,选择“编辑”,可以看到一张关于字段的表,如图 8 所示。然后将所有字段的角色项设为“输入”,这表示要将所有字段进行聚类分析。最后点击“确定”按钮。

图 8 “类型”节点编辑窗口

(5)          进行接入模型。首先,使用 K-Means 模型进行聚类分析。选择工作区的“类型”,在窗口底部“建模”选项卡中,找到“K-Means”模型,并双击。在工作区中,即得到一个

K-Means 模型节点,如图 1-9 所示

图 9 工作区中的“K-Means”模型

(6)          编辑 K-Means 节点。右键单击工作区的“K-Means”,选择“编辑”,打开如图 10 的“K-Means”节点窗口。在“生成距离字段”的选择框中打勾,其他选择采用默认设置。

点击“运行”按钮,即生成 K-Means 聚类分析。

图 10 “K-Means”模型编辑窗口

(7)          查看 K-Means 聚类分析结果。在窗口右上侧区域的“模型”选项卡中,可以看到 K-Means 的模型,右键单击,并选择“浏览”,既可以看到 K-Means 聚类分析图,如图 11 所示。

图 11 “K-Means”聚类分析图

(8)          分析 K-Means 聚类分析。从图 11 中可以看到,聚类分析将源数据分成了五个聚类,每个类占总数的比例分别为 27.5%,23.0%,19.5%,15.5%和 14.5%。其中,对分类字段的依赖性依次由药类含量、血压、钾含量、胆固醇含量、钠含量、年龄和性别逐渐递减,其他的分析结论不在此细诉。

至此,已经完成了 K-Means 聚类分析实验的全部步骤。

IBM SPSS Modeler 【1】 K均值聚类相关推荐

  1. IBM SPSS Modeler 【2】 两步聚类

    IBM SPSS Modeler 实验 1.2."两步"聚类分析实验 接下来,继续进行"两步聚类分析模型"的实验. (1)          SPSS Mode ...

  2. matlab传递闭包动态聚类图,用SPSS制作3D散点图全方位动态展示K均值聚类效果

    SPSS系统聚类输出的树状图广受用户喜爱,二阶聚类也可以输出一系列美观的可视化图形用来观察聚类效果,但我们发现Kmeans均值聚类没有提供可视化程度高的图形,那怎么办,我们自己来制作. 数据小兵推荐使 ...

  3. spss聚类分析_SPSS聚类分析 I K均值聚类法案例实操

    - 点击上方"中国统计网"订阅我吧!- 文末领取医疗行业报告 今天想写一下聚类分析方法之一:K-Mean聚类法 01聚类分析模型简介 (1)聚类分析没有过多的统计理论支持,也没有统 ...

  4. SPSS用KMEANS(K均值)、两阶段聚类、RFM模型在P2P网络金融研究借款人、出款人行为数据规律...

    全文下载链接:http://tecdat.cn/?p=27831 随着P2P网络金融平台的交易量的激增,其交易数据不能得到充分有效地利用.将聚类分析引入到P2P网络金融平台的管理之中,利用聚类分析技术 ...

  5. spss实现k均值聚类

    机器学习中的k均值聚类属于无监督学习,所谓k指的是簇类的个数,也即均值向量的个数.算法初始状态下,要根据我们设定的k随机生成k个中心向量,随机生成中心向量的方法既可以随机从样本中抽取k个样本作为中心向 ...

  6. 非常值得收藏的 IBM SPSS Modeler 算法简介

    IBM SPSS Modeler以图形化的界面.简单的拖拽方式来快速构建数据挖掘分析模型著称,它提供了完整的统计挖掘功能,包括来自于统计学.机器学习.人工智能等方面的分析算法和数据模型,包括如关联.分 ...

  7. SPSS聚类分析:K均值聚类分析

    SPSS聚类分析:K均值聚类分析 一.概念:(分析-分类-K均值聚类) 1.此过程使用可以处理大量个案的算法,根据选定的特征尝试对相对均一的个案组进行标识.不过,该算法要求您指定聚类的个数.如果知道, ...

  8. php 集成 spss,〖SPSS Modeler〗 IBM SPSS Modeler 整合不同数据库之间的数据

    来自IBM DEVELOPERWORKS 简介 由于目前企业客户的业务量和数据量都在不断的提高,随着企业的发展,很多企业的数据存储都不局限于同一个数据库上,如果要对这些存储在不同数据库上的数据进行处理 ...

  9. 《IBM SPSS Modeler数据与文本挖掘实战》之文本挖掘算法

    随着文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.现代文本分类和聚类领域面临巨大的挑战,而且随着学者研究的不断深入,其中的一些深层次问题也逐渐暴露出来,一些问题也已经成为本学科进一 ...

最新文章

  1. 周报 2016.04.10
  2. hiho #1044 : 状态压缩·一
  3. linux获取指定字符,shell 获取用户输入指定范围的单个字符的两种方法
  4. Pycharm 项目运行的多种技巧
  5. outlook不能保存密码_教大家轻松保存Outlook当中的附件到Onedrive文件夹上
  6. 收据找不到怎么退押金_押金收据单不见了,能退押金吗,合同上有写押金多少的 - 找法网免费法律咨询...
  7. 【ES】MySQL语法版的ES来了,搜索引擎可以如此简单
  8. LDC1314 学习资料
  9. YIT-CTF—隐写术
  10. 计算机如何连接wifi台式,台式机怎么连接wifi_台式机连接wifi教程-太平洋IT百科...
  11. java-集合框架库-LinkedList
  12. Android开发——用户在屏幕上的手势识别
  13. Sia(Siacoin/SC/云储币)去中心化存储平台网址汇总
  14. 教你如何注册dll文件
  15. 科大讯飞语音实现Android拨号之一
  16. 计算机主机板有什么作用,运维堡垒主机是什么?有什么作用?
  17. 前端React 框架- UmiJS有听说过吗?
  18. vue中时间戳转换为日期格式的方法封装
  19. 优惠券营销引流量来源
  20. MySQL数据库基础语法总结

热门文章

  1. pxe启动引导双硬盘中的ssd盘cmos设置
  2. LSTC LS-Opt 官方各版本下载
  3. 第十八届全国大学智能汽车竞赛报名信息统计
  4. PHP RSA公钥加密解密
  5. 继电器, 接触器,干簧管,弱电控制强电
  6. <硬件>——Arduino继电器控制实例
  7. mysql初始化密码问题
  8. isset和empty以及is_null区别
  9. html 无刷新显示公告,用javascript实现页面无刷新更新数据_js
  10. enet java 可靠udp,可靠的UDP编程(ENET库)