聚类分析

1.什么是聚类分析

聚类分析是将个体或对象分类,使得同一类中的对象之间的相似性比其他类的对象的相似性更强。

2.目的

目的是把相似的研究对象归成类,使类内对象的同质性最大化和类与类间对象的异质性最大化。

3.聚类分析的基本思想

我们认为,所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)聚合为另一类......关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。

聚类分析不仅可以用来对样品进行分类,也可以用来对变量进行分类。

样品分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析

聚类分析的方法还是比较粗糙的,理论上也不算完善,但由于它能解决许多实际问题,所以很受实际研究者重视,同回归分析、判别分析一起称为多元分析的三大方法

4.聚类分析方法的分类

聚类分析给人们提供了丰富多彩的分类方法,这些方法大致可归纳为:

(1)系统聚类法。首先,将n个样品看成n类(一类包含一个样品),然后将性质最接近的两类合并成一个新类,得到n-1类,再从中找出最接近的两类加以合并,变成n-2类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图(称为聚类图)便可决定分多少类,每类各有哪些样品。

(2)模糊聚类法。将模糊数学的思想观点用到聚类分析中产生的方法。该方法多用于定性变量的分类。

(3)K-均值法。K-均值法是一种非谱系聚类法,它是把样品聚集成k个类的集合,类的个数k可以预先给定或者在聚类过程中确定。该方法可应用于比系统聚类法适用的大得多的数据组。

(4)有序样品的聚类。n个样品按某种原因(时间、底层深度等)排成次序,必须是次序相邻的样品才能聚成一类。

(5)分解法。它的程序正好和系统聚类法相反,首先所有的样品均在一类,然后用某种最优准则将它分为两类。再试图用同种准则将这两类各自分裂为两类,从中选一个使目标函数较好者,这样由两类变成三类。如此下去,一直分裂到每类只有一个样品为止(或用其他停止规则),将上述分裂过程画成图,由图便可求得各个类。

(6)加入法。将样品依次加入,每次加入后将它放到当前聚类图的应在位置上,全部加入后,即可得到聚类图。

5.聚类分析的应用

(1)聚类一方面本身就是一种模型技术,另一方面,又常常作为数据分析过程中,前期进行数据摸底和数据清洗、数据整理的工具。
(2)聚类分析技术在数据化运营实践中常见的业务应用场景:目标用户的群体分类、搜索推荐业务、不同产品的价值组合、探测、发现孤立点、异常值等。

【参考】

多元统计分析/何晓群编著.  -4版. --北京:中国人民大学出版社,2015.3

转载于:https://my.oschina.net/u/3888421/blog/2049827

聚类分析(一)基本思想相关推荐

  1. 主成分分析、因子分析、聚类分析的比较与应用

    听说这是一篇论文 不过我没详细看. 一.概述 主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原 ...

  2. 《多元统计分析》学习笔记之聚类分析

    鄙人学习笔记 PS:对不起,原本想简单写写,总结一下,不想截那么多图,但写着写着觉得都挺想写的,就越写越多,越截越多.... 文章目录 聚类分析 聚类分析的基本思想 相似性度量 类和类的特征 系统聚类 ...

  3. 主成分分析、因子分析和聚类分析的区别

    主成分分析就是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标. 综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不 ...

  4. 数据挖掘时功能和一个聚类分析应用案例

    数据挖掘时功能和一个聚类分析应用案例 数据挖掘的常用方法和数据挖掘的重要功能(出自MBA智库百科).当然,横看成岭侧成峰,这些常用方法和重要功能也许并不完全正确或完整.除此以外,笔者尝试学习了SMAR ...

  5. 聚类分析在用户行为中的实例_聚类分析案例之市场细分

    聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性. 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法.传统的统计聚类分析方法 ...

  6. 聚类分析在用户行为中的实例_聚类分析的简单案例

    基本概念 聚类就是一种寻找数据之间一种内在结构的技术.聚类把全体数据实例组织成一些相似组,而这些相似组被称作聚类.处于相同聚类中的数据实例彼此相同,处于不同聚类中的实例彼此不同.聚类技术通常又被称为无 ...

  7. 聚类分析在用户行为中的实例_聚类分析案例

    一.数据挖掘的常用方法 利用数据挖掘进行数据分析常用的方法主要有分类.回归分析.聚类.关联规则.特征.变化和偏差分析.Web页挖掘等,它们分别从不同的角度对数据进行挖掘. 分类.分类是找出数据库中一组 ...

  8. 数据挖掘的常用方法、功能和一个聚类分析应用案例

    在今天的博文中,笔者整理了数据挖掘的常用方法和数据挖掘的重要功能(出自MBA智库百科).当然,横看成岭侧成峰,这些常用方法和重要功能也许并不完全正确或完整.除此以外,笔者尝试学习了SMARTBI公司中 ...

  9. 聚类分析及R编程实现

    目录 什么是聚类分析 ​聚类分析法的类型 聚类统计量 ​系统聚类法 R语言实现 最短距离法 最长距离法 中间距离法 类平均法 重心法 ward法 什么是聚类分析 聚类分析法-cluster analy ...

最新文章

  1. C语言掉电保存的变量,求解释,怎么能让程序里的变量在关闭后依然保存呢?...
  2. 网管必须了解的理光复印机相关故障现相之一
  3. Springboot的web开发-静态资源
  4. phpMyAdmin批量修改Mysql数据表前缀的方法
  5. 基本的python内置函数str(x)_Python内置函数(61)——str
  6. 985毕业,3年大数据经验,面试阿里腾讯失败,只因做不好报表
  7. rpg制作大师2003_RPG制作大师MV 我们一起做游戏(十五)
  8. grid安装前检查报PRVE-0426:/dev/shm less than the require
  9. Kubernetes集群搭建之Etcd集群配置篇
  10. ubuntu 上 nvidia-smi 没显示所有的GPU
  11. ini配置文件打开模式 r,r+等
  12. oracle字符串转日期比较大小写,【varchar】oracle中比较日期大小日期定义的是varchar2类型的......
  13. vim编辑器及目录结构
  14. linux下开源电子设计软件
  15. JavaScript经纬度和地图坐标相互转换
  16. 配色三部曲-你真懂颜色了吗?
  17. selinux 设置的彻底理解 并要 熟练经常的使用
  18. 银行核心操作系统as400 rs6000
  19. Vista如何安装迅盘驱动以及如何开启迅盘
  20. python开发_tkinter_窗口控件_自己制作的Python IDEL_博主推荐

热门文章

  1. 【数据库系统】核心知识归纳总结
  2. 小A点菜(洛谷P1164题题解,Java语言描述)
  3. 大数高精加减乘除(洛谷P1601、P2142、P1303、P1480题题解,Java语言描述)
  4. RabbitMQ入门-消息派发那些事儿
  5. [hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 将mysq数据导入hive
  6. addrinfo 结构
  7. php基础:查询程序运行时间并且把科学计数法转换成正常数字
  8. JavaMail发送邮件的笔记及Demo
  9. 使用GNOME桌面工具管理Linux(4)–服务的使用
  10. 想要 24 小时自学编程,那是不可能的,先自学 10000 小时再说!