- 点击上方“中国统计网”订阅我吧!-

文末领取医疗行业报告

今天想写一下聚类分析方法之一:K—Mean聚类法

01聚类分析模型简介

(1)聚类分析没有过多的统计理论支持,也没有统计检验对聚类结果的正确性“负责”,仅仅按照所定义的距离将数据归类而已。

02聚类分析入门

聚类分析实质就是按照距离的远近将数据分为若干个类别,以使得类别内数据的“差异”尽可能小,类别间“差异”尽可能大。

1. 所用的变量类型:一类是分类变量;一类是连续变量。连续变量一般使用欧式平方距离,分类变量使用卡方作为距离指标。

2. 多数传统聚类方法只能使用单一种类的变量进行分析,如果数据中同时有连续和分类两类变量,由于连续变量携带信息量远多于分类变量,可考虑或者只采用连续变量进行分析,将分类变量用于结果的描述和验证;或者将分类变量按照哑变量的方式拆分多个二分类变量,然后按照连续变量的方式进行分析。但多采用智能聚类方法,如两步聚类法。

3. 聚类方法:大致分为两类:层次聚类法、非层次聚类法

4. 距离的定义:SPSS中最常用的距离定义为欧式几里得距离。

5. 数据的标准化问题:各变量数量级相差较大,要对数据进行标准化,使不同数量级的数据之间可以比较。标准化方式有:标准正态分布、或把数据变换为范围在0-1之间的数据。

03聚类分析的方法体系

1. 非层次聚类法:将案例快速分成K个类别,一般而言具体的类别个数需要在分析前就加以确定,整个分析过程使用迭代的方式进行。其中K—均值聚类法最为常用,也称为快速聚类法(不能自动标准化,需要人为手动处理)。

2. 层次聚类法:首先确定距离的基本定义,以及类间距离的计算方式,随后按照距离的远近通过把距离较近的数据依次并入一类,直到数据完全归为一个类别为止。—“树状图”来表示聚类结果。

3. 智能聚类方法:针对海量数据以及距离指标往往不能满足需求的情况,发展出智能聚类方法,常用:两步聚类法,最近邻元素法,和神经网络中的自组织图。

07k-均值聚类法(快速聚类法)

方法原理:可用于大量数据进行聚类分析的情形。

1. 确定聚类的类别数量,分析者指定,可反复尝试并得到一个合理的最优方案;

2. 指定聚类中心,初步确认每个类别的原始中心点;

3. 逐一计算各案例到各个类别中心的距离,按照距离最近的原则归入各个类别,并计算各类别的新中心点;

4. 按照新中心位置,重新计算各案例距离新的类别中心的距离,并重新进行归类、更新类别中心点;

5. 重复迭代,直到满足一定的收敛标准或者达到事先指定的迭代次数为止。

05适用条件

k-均值聚类法使用范围有限:要求事先知道需要将样品分为多少类;只能对案例进行聚类而不能对变量聚类;所使用的变量必须是连续性变量,且对变量的多元正态性、方差齐性等条件要求较高

06案例:移动通信客户细分

1. 预分析:

将数据标准化:“分析”——“描述统计”——“描述”


2. 操作说明:“分析”——“降维”——“k平均值聚类分析”


将标化后的案例选入变量中,选择customer id作为标记个案,聚类数输入5,

迭代次数输入200


“保存”中确认保存聚类成员


“选项”中选择“ANOVA表”复选框


注意:初始聚类中心有K-Means过程自动进行计算,也可以导入指定文件读入。

结果解释:

1. 初始聚类中心:spss自动完成,原则是使得各初始类中心的散点在所有变量构成的空间中离的尽可能远,而且尽量广的分布在空间中


2. 迭代历史记录


我删除中间迭代点,可看出类别中心点变化越来越小,直到趋近0,迭代35补终止

3. 方差ANOVA的结果:



按照类别分组后,对所有变量一次进行单因素方差分析,然后汇总在一张表格中。并根据F值近似得到那个变量在聚类分析中的作用更大的结论。

各变量对聚类结果的重要程度排序为:总通话时长>工作日上班时期电话时长>工作日下班时期电话时长>平均每次通话时长>国际电话时长>周末电话时长。

4. 每个聚类中的个案数量:


“保存”了聚类成员。自动生成变量“QCL-1”存储各案例被归入的类别号,以便后续分析。

End.

来源:知乎

你可能错过的往期内容

2018-2019医疗行业数据报告

关注领取哦~!

我就知道你“在看

spss聚类分析_SPSS聚类分析 I K均值聚类法案例实操相关推荐

  1. 聚类分析 | MATLAB实现k-Means(k均值聚类)分析

    目录 聚类分析 | MATLAB实现k-Means(k均值聚类)分析 k-均值聚类简介 相关描述 程序设计 学习小结 参考资料 致谢 聚类分析 | MATLAB实现k-Means(k均值聚类)分析 k ...

  2. k均值聚类图像分割matlab代码_用K均值聚类法为人类拍摄的首张黑洞照片进行分割...

    众所周知,人类最近拍摄了首张黑洞照片.网友们纷纷表示,这明明就是一个甜甜圈嘛!以前以为黑洞是这个世界上最最高冷的存在,而此刻突然现出真身,形象却是如此的人畜无害!不但如此,还勾起了网友的食欲!简直是罪 ...

  3. 用K均值聚类法为人类拍摄的首张黑洞照片进行分割

    如果你也想赚钱,实现财务自由,但接触不到优质的人脉和资源,可以到公June浩:成长home,发"资源" ,就会看到我吐血整理的168条保姆级零基础吸金秘籍,跟着我一起亲历毕业5年. ...

  4. k均值聚类算法案例 r语言iris_K-means算法原理

    聚类的基本思想 俗话说"物以类聚,人以群分" 聚类(Clustering)是一种无监督学习(unsupervised learning),简单地说就是把相似的对象归到同一簇中.簇内 ...

  5. k均值聚类算法案例 r语言iris_聚类分析—系统聚类

    聚类就是按照某个特定标准把一个数据集分割成不同的类或簇,最后的结果是希望同类之间的差异性尽可能小,不同类之间的差异性尽可能大.不同的类具有能够表达异于其他类的指标,这样针对不同的类,后续就能采取不一样 ...

  6. IBM SPSS Modeler 【1】 K均值聚类

    一.聚类分析 在数据挖掘中,聚类分析关注的内容是一些相似的对象按照不同种类的度量构造成的群体.聚类分析的目标就是在相似的基础上对数据进行分类. IBM SPSS Modeler 提供了多种聚类分析模型 ...

  7. python机器学习库sklearn——k均值聚类

    全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 k均值聚类的相关的知识内容可以参考 http://blog.csdn.net/luanpeng825485697/article/de ...

  8. matlab—— K均值聚类算法的步骤和实例

    一.K均值聚类法分为如下几个步骤: 1. 初始化聚类中心 (1)凭经验选择.根据具体问题,凭经验从样本集中选出个 K 比较合适的样本作为初始聚类中心. (2)用前 K 个样本作为初始聚类中心. (3) ...

  9. 多元统计分析--聚类分析(系统性聚类、K均值聚类)

    摘要 系统聚类分为Q型聚类与R型聚类.前者对样品进行聚类,后者对变量进行聚类.在本文中,我们探讨对样品的分类. 文章目录 摘要 主要思想 相似性的度量 系统聚类 K均值聚类 主要思想 聚类,在样品没有 ...

最新文章

  1. u盘安装linux双系统6,用U盘安装Centos6.5 + Win7 双系统
  2. 专为linux设计的笔记本,平板变笔记本,Linux 设备也要凑凑热闹
  3. 步骤3 - Orchestra将请求转发给微服务提供者
  4. Django的模型类Meta
  5. 移动开发利器——APICloud开发平台介绍
  6. 出现Field 'ssl_cipher' doesn't have a default value错误怎么解决
  7. 计算机六级好考吗,计算机六级考什么?
  8. recyclerview 横向卡片效果_UI设计中卡片式应如何设计
  9. SpringBoot项目文件上传
  10. SAP云平台里的三叉戟应用
  11. 永川机器人博览会门票_14日 又到永川来看机器人哦
  12. 海豚php 安装,下载及安装
  13. SIM 卡获取运营商信息
  14. 谷歌在新标签页打开搜索结果(超级新手)
  15. k8s高可用多节点master搭建
  16. Android rom开发:自定义序列号ro.serialno
  17. 《画解数据结构》「基数排序」算法教程
  18. 怎样设置计算机安全模式,电脑如何设置开机进入安全模式
  19. 2020湖湘杯部分writeup
  20. 计算机主机拆卸的步骤,硬件组装教程:拆卸机箱与安装电源步骤图文介绍

热门文章

  1. 将带空格的字符串去掉空格.join()函数
  2. 从“冰柜”到“冰棍儿”,下载Github单个文件
  3. 微软必应从.NET Core 2.1获得了性能提升
  4. 关于REID的mAP指标
  5. 再谈CVE-2017-7047 Triple_Fetch和iOS 10.3.2沙盒逃逸
  6. Vue.js下拉框-详细省市联动示例
  7. 应用系统中交互式报表功能解析
  8. 你们是不是也是开一堆shell. » 社区 | Ruby China
  9. Slide:11g新特性-在线实施补丁online patching
  10. Linux启动界面切换:图形界面-字符界面(转)