目录

聚类分析的定义及原理

聚类方法及其在SPSS中的实现

总结及拓展


聚类分析的定义及原理

1.定义

所谓物以类聚、人以群分。聚类分析,即是基于研究对象的特征,将他们分门别类,以让同类别的个体之间差异相对小、相似度相对大,不同类别之间的个体差异大、相似度小。

聚类分析是一种探索性分析方法,与判别分析不同,聚类分析事先并不知道分类的标准,甚至不知道应该分成几类,而是会根据样本数据的特征,自动进行分类。

聚类与分类的不同在于,聚类所要求划分的类是未知的

2.原理

假定研究对象均用所谓的“点”来表示。
        在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类。
常见的是对个案分类,也可以对变量分类,但对于变量分类此时一般使用相似系数作为“距离”测量指标。

       一般的规则:

聚类方法及其在SPSS中的实现

1.主要的聚类方法:

2.方法详解:

(1):K-means聚类

又称为快速聚类(K-Means Cluster),是在聚类的类别数已确定的情况下,快速将其他个案归类到相应的类别,适合大样本数据的聚类。

具体步骤如下:

距离计算规则(欧几你得距离公式):

图解:

K-means的优缺点:

优势:

(1)原理比较简单,实现也很容易,收敛速度快。

(2)在对大规模数据集进行聚类分析时,算法聚类较高效且聚类效果较好。

(3)簇与簇之间区别明显时,它的聚类效果很好。

不足:

(1)分类数从初始分类开始就确定不变了,所以要求事先要对样本有足够的了解。

(2)仅限于个案间的聚类(Q型聚类),不能对变量进行聚类。

(3)个案间的距离的测量方法使用的是欧式距离的平方,因此只能对连续变量进行聚类。

案例分析(SPSS):
通过查询整理出了2018年我国各省份的20项基本情况,根据这些指标把这31个省市或地区分成3类。

分析步骤:分析>>分类>>K-均值聚类>>迭代>>次数>>选项>>勾选统计>>确认

结果分析:

若不收敛则调大迭代次数

方差分析表:

其中聚类均方对应组间均方差,误差均方对应组内均方差,显著性p<0.05时说明此变量分类效果好。由表可知,大部分变量的p<0.05,且组间均方差大于组内均方差,说明各变量在三个类别中的差异大,分类结果可信度高。

聚类结果解读:

第一类:1个省份(广东省,经济发达)

第二类:19个省份(云南、西藏等地区,经济一般)

第三类:11个省份(上海、北京等地区,经济较发达)

(后续会继续更新系统聚类和二阶聚类)

聚类分析(K-means、系统聚类和二阶聚类)的原理、实例及在SPSS中的实现(一)相关推荐

  1. SPSS聚类分析(含k-均值聚类,系统聚类和二阶聚类)

    本篇博客主要是根据1.聚类的基本知识点_哔哩哔哩_bilibili系列视频进行的学习记录 一.SPSS聚类分析的基本知识点 1.什么是聚类分析? 聚类分析(Cluster analysis)又叫做群集 ...

  2. python 聚类分析 k means

    Kmeans 是一种动态聚类方法,其基本思想是:首先随机选取 K 个点作为初始凝聚点,按照距离最近原则划分为 K 类:然后重新计算 K 个类的重心作为新的凝聚点,再按照距离最近原则重新分类:重复这一过 ...

  3. OpenCV的k - means聚类 -对图片进行颜色量化

    OpenCV的k - means聚类 目标 学习使用cv2.kmeans()数据聚类函数OpenCV 理解参数 输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列. ...

  4. OpenCV官方文档 理解k - means聚类

    理解k - means聚类 目标 在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论 我们将这个处理是常用的一个例子. t恤尺寸问题 考虑一个公司要发布一个新模型的t恤. 显然 ...

  5. k均值聚类算法(K Means)及其实战案例

    算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...

  6. k means聚类算法_一文读懂K-means聚类算法

    1.引言 什么是聚类?我们通常说,机器学习任务可以分为两类,一类是监督学习,一类是无监督学习.监督学习:训练集有明确标签,监督学习就是寻找问题(又称输入.特征.自变量)与标签(又称输出.目标.因变量) ...

  7. 聚类算法:K-means聚类与系统(层次)聚类SPSS操作

    笔记整理来自清风老师的数学建模课程: https://www.bilibili.com/video/BV1gJ411k7X4?from=search&seid=1537010279875630 ...

  8. python聚类分析如何确定分类个数_Python数据挖掘—聚类—KMeans划分法

    概念 聚类分析:是按照个体的特征将它们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大差异性 无分类目标变量(Y)--无监督学习 K-Means划分法.DBSCAN密度法.层次聚类 ...

  9. K均值聚类关于初始聚类中心的探讨

    摘要:进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注.数据挖掘是指从数据库中发现隐含在大量数据中的新颖的.潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现. ...

最新文章

  1. python实例化是什么意思_类实例化和python中的’self’
  2. 《Android 开发入门与实战(第二版)》——6.6节配置改变
  3. IE后退按钮过期原因
  4. 二叉树的深度优先遍历和广度优先遍历
  5. developer console 学习
  6. 如何使用jlink从flash中读取数据保存为bin文件到本地
  7. finally代码块
  8. 数据库原理与应用(SQL Server)笔记 第七章 流程控制语句、系统内置函数
  9. 桌面虚拟化在学生教室及机房的应用案例
  10. socekt编程-select
  11. Nvidia GPU如何在Kubernetes 里工作
  12. SQL ltrim() 和 rtrim() 函数
  13. 【Hoxton.SR1版本】Spring Cloud Eureka服务注册中心集群搭建
  14. php面试专题---1、php中变量存储及引用的原理
  15. cad导出pdf_“又”一款免费的CAD批量导出PDF、DWF、PLT神兵利器
  16. 麒麟V10打印机ppd文件导入导出
  17. Android零基础入门第18节:EditText的属性和使用方法
  18. Linux awk 中 BEGIN 和 END 的使用方法
  19. day002血字的研究
  20. 联想Filez zBox2022企业版为企业的 “零信任体系”构建保驾护航

热门文章

  1. win7右键计算机没有注册类,win7系统提示没有注册类别如何解决
  2. [解题报告]【第16题】给定 n,打印一个直角边为 n 的等边直角三角形
  3. 腾讯优图TFace正式开源,更可信的人脸识别!
  4. 知到python课程答案-知到智慧树_Python数据分析与数据可视化_结课测验答案
  5. c语言电子时钟课程设计报告,电子时钟嵌入式课程设计报告
  6. BAT程序员工作的真实情况
  7. tensor 增加维度_tensor维度变换
  8. Lipschitz 条件
  9. noi国家集训队论文分类
  10. 惠普服务器蓝屏怎么修复,Win10惠普电脑出现蓝屏?解决教程附上