聚类分析(K-means、系统聚类和二阶聚类)的原理、实例及在SPSS中的实现(一)
目录
聚类分析的定义及原理
聚类方法及其在SPSS中的实现
总结及拓展
聚类分析的定义及原理
1.定义
所谓物以类聚、人以群分。聚类分析,即是基于研究对象的特征,将他们分门别类,以让同类别的个体之间差异相对小、相似度相对大,不同类别之间的个体差异大、相似度小。
聚类分析是一种探索性分析方法,与判别分析不同,聚类分析事先并不知道分类的标准,甚至不知道应该分成几类,而是会根据样本数据的特征,自动进行分类。
聚类与分类的不同在于,聚类所要求划分的类是未知的
2.原理
假定研究对象均用所谓的“点”来表示。
在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类。
常见的是对个案分类,也可以对变量分类,但对于变量分类此时一般使用相似系数作为“距离”测量指标。
一般的规则:
聚类方法及其在SPSS中的实现
1.主要的聚类方法:
2.方法详解:
(1):K-means聚类
又称为快速聚类(K-Means Cluster),是在聚类的类别数已确定的情况下,快速将其他个案归类到相应的类别,适合大样本数据的聚类。
具体步骤如下:
距离计算规则(欧几你得距离公式):
图解:
K-means的优缺点:
优势:
(1)原理比较简单,实现也很容易,收敛速度快。
(2)在对大规模数据集进行聚类分析时,算法聚类较高效且聚类效果较好。
(3)簇与簇之间区别明显时,它的聚类效果很好。
不足:
(1)分类数从初始分类开始就确定不变了,所以要求事先要对样本有足够的了解。
(2)仅限于个案间的聚类(Q型聚类),不能对变量进行聚类。
(3)个案间的距离的测量方法使用的是欧式距离的平方,因此只能对连续变量进行聚类。
案例分析(SPSS):
通过查询整理出了2018年我国各省份的20项基本情况,根据这些指标把这31个省市或地区分成3类。
分析步骤:分析>>分类>>K-均值聚类>>迭代>>次数>>选项>>勾选统计>>确认
结果分析:
若不收敛则调大迭代次数
方差分析表:
其中聚类均方对应组间均方差,误差均方对应组内均方差,显著性p<0.05时说明此变量分类效果好。由表可知,大部分变量的p<0.05,且组间均方差大于组内均方差,说明各变量在三个类别中的差异大,分类结果可信度高。
聚类结果解读:
第一类:1个省份(广东省,经济发达) |
第二类:19个省份(云南、西藏等地区,经济一般) |
第三类:11个省份(上海、北京等地区,经济较发达) |
(后续会继续更新系统聚类和二阶聚类)
聚类分析(K-means、系统聚类和二阶聚类)的原理、实例及在SPSS中的实现(一)相关推荐
- SPSS聚类分析(含k-均值聚类,系统聚类和二阶聚类)
本篇博客主要是根据1.聚类的基本知识点_哔哩哔哩_bilibili系列视频进行的学习记录 一.SPSS聚类分析的基本知识点 1.什么是聚类分析? 聚类分析(Cluster analysis)又叫做群集 ...
- python 聚类分析 k means
Kmeans 是一种动态聚类方法,其基本思想是:首先随机选取 K 个点作为初始凝聚点,按照距离最近原则划分为 K 类:然后重新计算 K 个类的重心作为新的凝聚点,再按照距离最近原则重新分类:重复这一过 ...
- OpenCV的k - means聚类 -对图片进行颜色量化
OpenCV的k - means聚类 目标 学习使用cv2.kmeans()数据聚类函数OpenCV 理解参数 输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列. ...
- OpenCV官方文档 理解k - means聚类
理解k - means聚类 目标 在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论 我们将这个处理是常用的一个例子. t恤尺寸问题 考虑一个公司要发布一个新模型的t恤. 显然 ...
- k均值聚类算法(K Means)及其实战案例
算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...
- k means聚类算法_一文读懂K-means聚类算法
1.引言 什么是聚类?我们通常说,机器学习任务可以分为两类,一类是监督学习,一类是无监督学习.监督学习:训练集有明确标签,监督学习就是寻找问题(又称输入.特征.自变量)与标签(又称输出.目标.因变量) ...
- 聚类算法:K-means聚类与系统(层次)聚类SPSS操作
笔记整理来自清风老师的数学建模课程: https://www.bilibili.com/video/BV1gJ411k7X4?from=search&seid=1537010279875630 ...
- python聚类分析如何确定分类个数_Python数据挖掘—聚类—KMeans划分法
概念 聚类分析:是按照个体的特征将它们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大差异性 无分类目标变量(Y)--无监督学习 K-Means划分法.DBSCAN密度法.层次聚类 ...
- K均值聚类关于初始聚类中心的探讨
摘要:进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注.数据挖掘是指从数据库中发现隐含在大量数据中的新颖的.潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现. ...
最新文章
- python实例化是什么意思_类实例化和python中的’self’
- 《Android 开发入门与实战(第二版)》——6.6节配置改变
- IE后退按钮过期原因
- 二叉树的深度优先遍历和广度优先遍历
- developer console 学习
- 如何使用jlink从flash中读取数据保存为bin文件到本地
- finally代码块
- 数据库原理与应用(SQL Server)笔记 第七章 流程控制语句、系统内置函数
- 桌面虚拟化在学生教室及机房的应用案例
- socekt编程-select
- Nvidia GPU如何在Kubernetes 里工作
- SQL ltrim() 和 rtrim() 函数
- 【Hoxton.SR1版本】Spring Cloud Eureka服务注册中心集群搭建
- php面试专题---1、php中变量存储及引用的原理
- cad导出pdf_“又”一款免费的CAD批量导出PDF、DWF、PLT神兵利器
- 麒麟V10打印机ppd文件导入导出
- Android零基础入门第18节:EditText的属性和使用方法
- Linux awk 中 BEGIN 和 END 的使用方法
- day002血字的研究
- 联想Filez zBox2022企业版为企业的 “零信任体系”构建保驾护航
热门文章
- win7右键计算机没有注册类,win7系统提示没有注册类别如何解决
- [解题报告]【第16题】给定 n,打印一个直角边为 n 的等边直角三角形
- 腾讯优图TFace正式开源,更可信的人脸识别!
- 知到python课程答案-知到智慧树_Python数据分析与数据可视化_结课测验答案
- c语言电子时钟课程设计报告,电子时钟嵌入式课程设计报告
- BAT程序员工作的真实情况
- tensor 增加维度_tensor维度变换
- Lipschitz 条件
- noi国家集训队论文分类
- 惠普服务器蓝屏怎么修复,Win10惠普电脑出现蓝屏?解决教程附上