这篇文章的案例过程涉及到spss层次聚类中的Q型聚类和R型聚类,单因素方差分析,Means过程等,是一个很不错的多种分析方法联合使用的 聚类分析案例。

案例数据源:

有20种12盎司啤酒成分和价格的数据,变量包括啤酒名称、热量、钠含量、酒精含量、价格。数据来自《SPSS for

Windows 统计分析》data11-03。

【一】问题一:选择那些变量进行聚类?——采用“R型聚类”

1、如何筛选聚类变量?现在我们有4个变量用来对啤酒分类,是否有必要将4个变量都纳入作为分类变量呢?热量、钠含量、酒精含量这3个指标是要通过化验员的辛苦努力来测定,而且还有花费不少成本,如果都纳入分析的话,岂不太麻烦太浪费?所以,有必要对4个变量进行降维处理,这里采用spss

R型聚类(变量聚类),对4个变量进行降维处理。输出“相似性矩阵”有助于我们理解降维的过程。

2、4个分类变量量纲各自不同,这一次我们先确定用相似性来测度,度量标准选用pearson系数,聚类方法选最远元素,此时,涉及到相关,4个变量可不用标准化处理,将来的相似性矩阵里的数字为相关系数。若果有某两个变量的相关系数接近1或-1,说明两个变量可互相替代。

3、只输出“树状图”就可以了,个人觉得冰柱图很复杂,看起来没有树状图清晰明了。从proximity

matrix表中可以看出热量和酒精含量两个变量相关系数0.903,最大,二者选其一即可,没有必要都作为聚类变量,导致成本增加。至于热量和酒精含量选择哪一个作为典型指标来代替原来的两个变量,可以根据专业知识或测定的难易程度决定。(与因子分析不同,是完全踢掉其中一个变量以达到降维的目的。)这里选用酒精含量,至此,确定出用于聚类的变量为:酒精含量,钠含量,价格。

【二】问题二:20中啤酒能分为几类?——采用“Q型聚类”

1、现在开始对20中啤酒进行聚类。开始不确定应该分为几类,暂时用一个3-5类范围来试探。Q型聚类要求量纲相同,所以我们需要对数据标准化,这一回用欧式距离平方进行测度。

2、主要通过树状图和冰柱图来理解类别。最终是分为4类还是3类,这是个复杂的过程,需要专业知识和最初的目的来识别。我这里试着确定分为4类。选择“保存”,则在数据区域内会自动生成聚类结果。

【三】问题三:用于聚类的变量对聚类过程、结果又贡献么,有用么?——采用“单因素方差分析”

1、聚类分析除了对类别的确定需讨论外,还有一个比较关键的问题就是分类变量到底对聚类有没有作用有没有贡献,如果有个别变量对分类没有作用的话,应该剔除。

2、这个过程一般用 单因素方差分析来判断。注意此时,因子变量选择聚为4类的结果,而将三个聚类变量作为因变量处理。方差分析结果显示,三个聚类变量sig值均极显著,我们用于分类的3个变量对分类有作用,可以使用,作为聚类变量是比较合理的。

【四】问题四:聚类结果的解释?——采用”均值比较描述统计“

1、聚类分析最后一步,也是最为困难的就是对分出的各类进行定义解释,描述各类的特征,即各类别特征描述。这需要专业知识作为基础并结合分析目的才能得出。

2、我们可以采用spss的means均值比较过程,或者excel的透视表功能对各类的各个指标进行描述。其中,report报表用于描述聚类结果。对各类指标的比较来初步定义类别,主要根据专业知识来判定。这里到此为止。http://cda.pinggu.org/view/20116.html

r型聚类典型指标_SPSS聚类分析经典案例分享相关推荐

  1. r型聚类典型指标_应用统计学与R语言实现学习笔记(十)——聚类分析

    Chapter 10 Cluster Analysis 本篇是第十章,内容是聚类分析.由于之后的几章是典型的分析方法.而且在14章的案例里面可能不会体现,所以内容里会渗透较多的R语言操作.由于简书不支 ...

  2. r型聚类典型指标_文献解读 | 缺陷和非缺陷型精神分裂症脑网络功能紊乱的共性和异性...

     # 导读  精神分裂症是一种高度异质性疾病,缺陷型精神分裂症(DS)与非缺陷型精神分裂症患者(NDS)存在症状上的差异.缺陷型精神分裂症的阴性症状具有原发性和持久性的特点.早期影像学研究报道了DS的 ...

  3. r型聚类典型指标_聚类与RFM模型 —— 从5月的一道腾讯数据分析面试题说起

    作者:稀饭 本文约2200字,建议阅读12分钟. 5月份的时候曾经投过腾讯的数据分析实习,中午投的简历,午觉睡醒就被call,没有HR通知,南山必胜客直接就来技术面.当时准备的还不够充分,半小时后就感 ...

  4. r型聚类典型指标_六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步...

    论文:An empirical study on evaluation metrics of generative adversarial networks 论文链接:https://arxiv.or ...

  5. r型聚类典型指标_常用的聚类算法及聚类算法评价指标

    1. 典型聚类算法 1.1 基于划分的方法 代表:kmeans算法 ·指定k个聚类中心 ·(计算数据点与初始聚类中心的距离) ·(对于数据点,找到最近的{i}ci(聚类中心),将分配到{i}ci中) ...

  6. r语言聚类分析_「SPSS数据分析」SPSS聚类分析(R型聚类)的软件操作与结果解读...

    ​ 在上一讲中,我们讲述了针对样本进行聚类的分析方法-Q型聚类.今天我们将详细讲解针对变量数据进行的聚类分析--系统聚类之R型聚类. 我们要将数据变量进行聚类,但不知道要分成几类,或者没有明确的分类指 ...

  7. r型聚类分析怎么做_【SPSS数据分析】SPSS聚类分析(R型聚类)的软件操作与结果解读 ——【杏花开生物医药统计】...

    ​ 在上一讲中,我们讲述了针对样本进行聚类的分析方法-Q型聚类.今天我们将详细讲解针对变量数据进行的聚类分析--系统聚类之R型聚类. 我们要将数据变量进行聚类,但不知道要分成几类,或者没有明确的分类指 ...

  8. 《R语言与数据挖掘最佳实践和经典案例》—— 第3章 数 据 探 索

    本节书摘来自华章出版社<R语言与数据挖掘最佳实践和经典案例>一 书中的第3章,第3.1节,作者:(澳)Yanchang Zhao,更多章节内容可以访问云栖社区"华章计算机&quo ...

  9. 《R语言与数据挖掘最佳实践和经典案例》—— 3.5 将图表保存到文件中

    本节书摘来自华章出版社<R语言与数据挖掘最佳实践和经典案例>一 书中的第3章,第3.5节,作者:(澳)Yanchang Zhao,更多章节内容可以访问云栖社区"华章计算机&quo ...

  10. 利用SEO技术赚钱经典案例分享

    利用SEO技术赚钱相信很多SEOer都想过,平时上上班闲暇时间赚点外快,多爽.首先通过利用SEO技术来做一些项目,是可以赚钱的,而且渠道也是非常多的,但是想要马上实现SEO赚钱也是不易的,因为骗子太多 ...

最新文章

  1. cad版本在线转换_CAD版本转换中将图纸转换为AutoCAD2018版本的方法
  2. ASP程序实现网页伪静态页源代码
  3. Could not find qmake configuration file解决
  4. windows 下cmd命令行的替换工具cmder
  5. linux-进程的理解-进程的状态与生命周期
  6. linux shell 逻辑运算符、逻辑表达式
  7. spymemcached 的 useNagle 问题与 TCP/IP延迟发送数据
  8. Oracle程序开发小技巧(一)
  9. 小客车年检(年审)相关的技术参数一览
  10. LayoutInflater解析
  11. 2018年安徽批捕涉黑涉恶犯罪2691人
  12. java memcmp_【转】 memcmp源码实现
  13. WeaveSocket框架-Unity太空大战游戏-服务端-1
  14. 凯撒密码加解密及破解实现原理
  15. 【笔记】excel预加载word引用
  16. AppInventor简单使用教程
  17. 【案例分析】Realme海外不同市场的差异化精准获客打法
  18. UDP攻击实战及其简略防御方法
  19. html屏幕有闪动,笔记本电脑屏幕出现条纹闪烁怎么解决【解决方法】
  20. linux未安装MySQL但有进程_Linux_RedHat下安装MySQL出现的问题及解决方法

热门文章

  1. 手把手教你规划IP地址
  2. 分步图解分析排序方法-冒泡排序
  3. Windows无法安装到这个磁盘,选中的磁盘具有MBR分区表。在EFI系统上,Windows只能安装GPT磁盘。
  4. 大厂面试为什么总考算法?如何避开算法面试?
  5. 编写myqq即时聊天脚本,实现相互通信(tcp协议)
  6. 时域、频域、傅里叶变换
  7. 完美世界国际版不用外挂多开的方法
  8. 简单的程序工具:matlab实现香农编码
  9. 鸿蒙系统分布式操作,如何通俗解释鸿蒙系统分布式操作
  10. 违反计算机安全网络,违反网络安全法规定会受到哪些处罚