spss聚类分析_SPSS聚类分析 I K均值聚类法案例实操

－　点击上方“中国统计网”订阅我吧！－

文末领取医疗行业报告

今天想写一下聚类分析方法之一：K—Mean聚类法

01聚类分析模型简介

(1)聚类分析没有过多的统计理论支持，也没有统计检验对聚类结果的正确性“负责”，仅仅按照所定义的距离将数据归类而已。

02聚类分析入门

聚类分析实质就是按照距离的远近将数据分为若干个类别，以使得类别内数据的“差异”尽可能小，类别间“差异”尽可能大。

1. 所用的变量类型：一类是分类变量；一类是连续变量。连续变量一般使用欧式平方距离，分类变量使用卡方作为距离指标。

2. 多数传统聚类方法只能使用单一种类的变量进行分析，如果数据中同时有连续和分类两类变量，由于连续变量携带信息量远多于分类变量，可考虑或者只采用连续变量进行分析，将分类变量用于结果的描述和验证；或者将分类变量按照哑变量的方式拆分多个二分类变量，然后按照连续变量的方式进行分析。但多采用智能聚类方法，如两步聚类法。

3. 聚类方法：大致分为两类：层次聚类法、非层次聚类法

4. 距离的定义：SPSS中最常用的距离定义为欧式几里得距离。

5. 数据的标准化问题：各变量数量级相差较大，要对数据进行标准化，使不同数量级的数据之间可以比较。标准化方式有：标准正态分布、或把数据变换为范围在0-1之间的数据。

03聚类分析的方法体系

1. 非层次聚类法：将案例快速分成K个类别，一般而言具体的类别个数需要在分析前就加以确定，整个分析过程使用迭代的方式进行。其中K—均值聚类法最为常用，也称为快速聚类法(不能自动标准化，需要人为手动处理)。

2. 层次聚类法：首先确定距离的基本定义，以及类间距离的计算方式，随后按照距离的远近通过把距离较近的数据依次并入一类，直到数据完全归为一个类别为止。—“树状图”来表示聚类结果。

3. 智能聚类方法：针对海量数据以及距离指标往往不能满足需求的情况，发展出智能聚类方法，常用：两步聚类法，最近邻元素法，和神经网络中的自组织图。

07k-均值聚类法(快速聚类法)

方法原理：可用于大量数据进行聚类分析的情形。

1. 确定聚类的类别数量，分析者指定，可反复尝试并得到一个合理的最优方案；

2. 指定聚类中心，初步确认每个类别的原始中心点；

3. 逐一计算各案例到各个类别中心的距离，按照距离最近的原则归入各个类别，并计算各类别的新中心点；

4. 按照新中心位置，重新计算各案例距离新的类别中心的距离，并重新进行归类、更新类别中心点；

5. 重复迭代，直到满足一定的收敛标准或者达到事先指定的迭代次数为止。

05适用条件

k-均值聚类法使用范围有限：要求事先知道需要将样品分为多少类；只能对案例进行聚类而不能对变量聚类；所使用的变量必须是连续性变量，且对变量的多元正态性、方差齐性等条件要求较高

06案例：移动通信客户细分

1. 预分析：

将数据标准化：“分析”——“描述统计”——“描述”

2. 操作说明：“分析”——“降维”——“k平均值聚类分析”

将标化后的案例选入变量中，选择customer id作为标记个案，聚类数输入5，

迭代次数输入200

“保存”中确认保存聚类成员

“选项”中选择“ANOVA表”复选框

“注意：初始聚类中心有K-Means过程自动进行计算，也可以导入指定文件读入。”

结果解释：

1. 初始聚类中心：spss自动完成，原则是使得各初始类中心的散点在所有变量构成的空间中离的尽可能远，而且尽量广的分布在空间中

2. 迭代历史记录

我删除中间迭代点，可看出类别中心点变化越来越小，直到趋近0，迭代35补终止

3. 方差ANOVA的结果：

按照类别分组后，对所有变量一次进行单因素方差分析，然后汇总在一张表格中。并根据F值近似得到那个变量在聚类分析中的作用更大的结论。

各变量对聚类结果的重要程度排序为：总通话时长>工作日上班时期电话时长>工作日下班时期电话时长＞平均每次通话时长＞国际电话时长＞周末电话时长。

4. 每个聚类中的个案数量：

“保存”了聚类成员。自动生成变量“QCL-1”存储各案例被归入的类别号，以便后续分析。

End.

来源：知乎

你可能错过的往期内容

2018-2019医疗行业数据报告

关注领取哦~！

我就知道你“在看”

spss聚类分析_SPSS聚类分析 I K均值聚类法案例实操相关推荐

聚类分析 | MATLAB实现k-Means(k均值聚类)分析
目录聚类分析 | MATLAB实现k-Means(k均值聚类)分析 k-均值聚类简介相关描述程序设计学习小结参考资料致谢聚类分析 | MATLAB实现k-Means(k均值聚类)分析 k ...
k均值聚类图像分割matlab代码_用K均值聚类法为人类拍摄的首张黑洞照片进行分割...
众所周知,人类最近拍摄了首张黑洞照片.网友们纷纷表示,这明明就是一个甜甜圈嘛!以前以为黑洞是这个世界上最最高冷的存在,而此刻突然现出真身,形象却是如此的人畜无害!不但如此,还勾起了网友的食欲!简直是罪 ...
用K均值聚类法为人类拍摄的首张黑洞照片进行分割
如果你也想赚钱,实现财务自由,但接触不到优质的人脉和资源,可以到公June浩:成长home,发"资源" ,就会看到我吐血整理的168条保姆级零基础吸金秘籍,跟着我一起亲历毕业5年. ...
k均值聚类算法案例 r语言iris_K-means算法原理
聚类的基本思想俗话说"物以类聚,人以群分" 聚类(Clustering)是一种无监督学习(unsupervised learning),简单地说就是把相似的对象归到同一簇中.簇内 ...
k均值聚类算法案例 r语言iris_聚类分析—系统聚类
聚类就是按照某个特定标准把一个数据集分割成不同的类或簇,最后的结果是希望同类之间的差异性尽可能小,不同类之间的差异性尽可能大.不同的类具有能够表达异于其他类的指标,这样针对不同的类,后续就能采取不一样 ...
IBM SPSS Modeler 【1】 K均值聚类
一.聚类分析在数据挖掘中,聚类分析关注的内容是一些相似的对象按照不同种类的度量构造成的群体.聚类分析的目标就是在相似的基础上对数据进行分类. IBM SPSS Modeler 提供了多种聚类分析模型 ...
python机器学习库sklearn——k均值聚类
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 k均值聚类的相关的知识内容可以参考 http://blog.csdn.net/luanpeng825485697/article/de ...
matlab—— K均值聚类算法的步骤和实例
一.K均值聚类法分为如下几个步骤: 1. 初始化聚类中心 (1)凭经验选择.根据具体问题,凭经验从样本集中选出个 K 比较合适的样本作为初始聚类中心. (2)用前 K 个样本作为初始聚类中心. (3) ...
多元统计分析--聚类分析（系统性聚类、K均值聚类）
摘要系统聚类分为Q型聚类与R型聚类.前者对样品进行聚类,后者对变量进行聚类.在本文中,我们探讨对样品的分类. 文章目录摘要主要思想相似性的度量系统聚类 K均值聚类主要思想聚类,在样品没有 ...

spss聚类分析_SPSS聚类分析 I K均值聚类法案例实操

spss聚类分析_SPSS聚类分析 I K均值聚类法案例实操相关推荐

最新文章

热门文章