商务智能大总结4 聚类分析

文章目录

概述
相似度衡量方法
- 数据类型
- 基于内容的相似度衡量
- - 基于距离的相似度度量
  - 余弦相似度
  - 基于相关性的相似度度量
  - Jaccard系数
  - 异种属性相似度的综合度量
- 基于链接的相似度衡量
k均值方法（k-means)
层次聚类方法
DBSCAN方法
聚类效果衡量方法

概述

聚类（clustering）：实现将对象自动分组的一种方法
无监督学习
物以类聚

根据簇之间的关系
划分型聚类：属于各个簇的对象之间没有交集
层次型聚类：簇之间具有包含关系
重叠聚类: 簇之间具有重叠关系

根据数据集D与簇之间的关系
完全聚类: C1∪C2∪…∪Ck=D，所有对象都被分配到簇中
部分聚类: C1∪C2∪…∪Ck⊂D
孤立点(outlier)：那些未被分到任一个簇中的对象

聚类方法分类
划分法（Partitioning approach）：
k均值（k-means）、k中心点（k-medoids）等方法。
层次法（Hierarchical approach）：
凝聚层次聚类（agglomerative hierarchical clustering）和分裂层次聚类（divisive hierarchical clustering）
Diana、 Agnes、BIRCH、 ROCK、CAMELEON等。
基于密度的方法（Density-based approach）
DBSCAN、OPTICS和 DenClue等。
基于模型的方法（Model-based）
EM、SOM和COBWEB等

相似度衡量方法

数据类型

定性属性
标称（nominal）属性、序数（ordinal）属性、二值属性（binary）
二值属性：对称属性（symmetric）和非对称属性（asymmeric）
性别是对称属性，医学检查结果为非对称属性
定量属性
区间属性（interval）和比率属性（ratio）
区间属性：加和减操作有意义，可以比较取值的差别，乘除运算没有意义，即两个取值之间的比率关系不成立。摄氏温度
比率属性：既可以加减也可以乘除。绝对温度

基于内容的相似度衡量

基于距离的相似度度量

1、距离度量
明可夫斯基距离Minkowski distance: i = (x_i1, x_i2, …, x_im) 和j = (x_j1, x_j2, …, x_jm)

明可夫斯基距离又称为L_p范式，p=1时对应曼哈顿距离，又称L₁范式；p=2时对应欧式距离，又称L₂范式。p=∞时称为切比雪夫距离（Chebyshev distance）

If p = 1, d is 曼哈顿距离Manhattan distance, L₁

If p = 2, d is 欧式距离Euclidean distance: L₂

2、相似度度量

余弦相似度

通过两个向量夹角的余弦来衡量，相似度忽略了向量的大小，即各个属性取值的绝对大小，这是与距离不同的。
特点：两个向量中，只要有一个对象在某维度（属性）的取值为0，则该维度相当于被忽略，因为乘积为0。这使得该相似度特别适合于具有大量零值维度的情况。
例如用其度量文档的相似度、用户购买行为。

基于相关性的相似度度量

Jaccard系数

异种属性相似度的综合度量

基于链接的相似度衡量

k均值方法（k-means)

层次聚类方法

层次聚类产生具有层次关系的簇
不需要指定簇的个数k

凝聚层次聚类：采用自底向上策略，首先将每个样本作为单独的一个原子簇，然后合并这些原子簇形成更大的簇，直到所有的样本都在一个簇中（层次的最上层），或者达到一个终止条件。
分裂层次聚类：采用自顶向下策略，首先将所有样本置于一个簇中，然后逐渐细分为越来越小的簇，直到每个样本自成一个簇，或者达到某个终止条件（例如达到了某个希望的簇的数目）。

簇之间的相似度的衡量方法
最小距离(minimum distance)，即单链接Single link: 基于来自两个簇中的结点之间的最小距离来衡量两个簇的相似度, 即,

最大距离(maximum distance)，即全链接complete link: 基于来自两个簇中的结点之间的最大距离来衡量两个簇的相似度, 即,

平均距离(average distance) : 基于来自两个簇中的结点之间的平均距离来衡量两个簇的相似度, 即,

质心距离(centroid distance) :计算两个簇的质心之间的距离来衡量两个簇的相似度, 即,

DBSCAN方法

基于密度的聚类方法

基本概念

基本过程

对于二维数据集来说，MinPts=4比较合适。

聚类效果衡量方法

Cohesion(凝聚度):衡量簇内各对象紧密程度
Separation(分离度):衡量簇间各对象的相异程度
silhouette coefficient(轮廓系数): combining cohesion and separation 将凝聚度和分离度相结合的度量方法
轮廓系数越大越好。将所有点的轮廓系数求平均可以用于衡量聚类质量

请将如下8个点[用(x,y)代表位置]用K-means算法聚为三个簇。
提示：距离采用欧式距离，假设三个簇的初始质心为A1,B1,C1。
8个点为：A1(2,10)，A2(2,5)，A3(8,4)，B1(5,8)，B2(7,5)，B3(6,4)，C1(1,2)，C2(4,9)
请回答：
（1）第一轮执行后三个簇各自包含的点；
（2）第一轮执行后三个簇的质心。

(1)A2到三个中心点的距离分别为: 5，3倍根号二，根号十，3因此A2属于点C1所在簇. 同理可求得:A3,B2,B3,C2属于B1所在簇因此,第一轮聚类所得到的三个簇为: {A1}, {B1,A3,B2,B3,C2}, {C1,A2} 其新的簇中心为(分别求均值): (2, 10), (6, 6), (1.5, 3.5)
(2) 依次往复,得到最终聚类结果为: {A1,C2,B1}, {A3,B2,B3}, {C1,A2}