【数据挖掘】基于密度的聚类方法 - OPTICS 方法 ( 算法流程

文章目录

OPTICS 算法两个阶段
OPTICS 算法第一阶段生成族序
待处理队列样本的核心距离与可达距离
OPTICS 算法第二阶段数据准备
OPTICS 算法第二阶段工作流程
OPTICS 算法示例题目
OPTICS 算法示例人为判断
OPTICS 算法示例第一次迭代
OPTICS 算法示例第二次迭代
OPTICS 算法示例第三次迭代
OPTICS 算法示例第四次迭代
OPTICS 算法示例第五次迭代
OPTICS 算法示例第十六次迭代
OPTICS 算法示例第二阶段聚类分析

OPTICS 算法两个阶段

第一阶段生成族序 :

主要工作 : 计算每个数据集样本对象的核心距离与可达距离 , 目的是生成族序 ;

族序 : 处理数据集样本时 , 样本对外扩展的顺序 ;

核心距离 : 是使得 OOO 能成为核心对象的 最小距离 , 取其半径范围内 恰好有 MinPts个样本 的半径值 ε\varepsilonε 作为其核心距离 ;

可达距离 : 样本 OOO 与样本 ppp 之间的可达距离是 , 核心距离 与 欧几里得距离 的 较大的值 ;

第二阶段聚类分组 :

① 使用族序信息 : 使用第一阶段生成的数据集样本的 族序信息 ;

② 聚类分组 : 主要是选择一个核心样本 , 然后向外扩展 , 划分聚类分组 ;

OPTICS 算法第一阶段生成族序

1 . 输入算法参数 : 算法开始时 , 需要输入两个参数 ;

① 参数一 : ε\varepsilonε 参数 , 是 ε\varepsilonε-邻域的半径 ;

② 参数二 : MinPts 参数 , 是 ε\varepsilonε-邻域中要求的含有的最低样本个数 , 即阈值 ;

2 . 选择样本 : 随机选择一个数据样本 ppp ;

3 . 判定核心对象 : 判定数据样本 ppp 是否是核心对象 , 通过判定其 ε\varepsilonε-邻域中分布的样本数量是否大于等于 MinPts 阈值个数 , 也就是其中的样本分布达到一定的密度 ;

4 . 如果 ppp 是核心对象 :

① 提取样本 : 提取所有从 ppp 样本触发 , 密度可达的数据样本对象 ;

② 计算核心距离与可达距离 : 计算提取的所有的样本对象的核心距离与可达距离 ;

③ 待处理队列 : 将计算好核心距离可达距离的样本放入待处理队列 QQQ 中 ;

5 . 如果 ppp 是边界对象 ( 非核心对象 ) : 不进行任何处理 ;

6 . 选择样本 : 从 QQQ 待处理队列中 , 选择一个可达距离最小的样本 qqq 继续进行进一步的扩展 , 进行 3.4.5.63.4.5.63.4.5.6 步骤的循环迭代 , 遇到符合要求的核心对象 , 放入 QQQ 待处理队列 , 遇到不符合要求的边界对象 , 不做任何处理 ;

7 . 迭代要求及算法终止条件 : 所有的样本全部被处理过 , 都在待处理队列 QQQ 清空时 , 终止迭代 ;

待处理队列样本的核心距离与可达距离

1 . 样本的两个距离 : 在上面的待处理队列 QQQ 中 , 每个样本对象都有一个 核心距离 和 可达距离 ;

2 . 样本的核心距离 : 这个距离是固定不变的 , 只要数据集是同一个 , 那么每个样本点的核心距离是固定的 ;

3 . 样本的可达距离 ( 实时更新 ) : 每次提取样本时 , 都基于一个样本 ppp 计算与另外所有的密度可达的样本的可达距离 , 基本每次都要重新计算 , 这个可达距离每次迭代 , 都要修改一次 ;

OPTICS 算法第二阶段数据准备

1 . 第一阶段生成的数据 :

① 族序 : 处理数据集样本时 , 样本对外扩展的顺序 ;

② 特定 εi\varepsilon_iεi ( 可达距离 ) : 该 εi\varepsilon_iεi 取值范围是 [0,ε][0 , \, \varepsilon][0,ε] 闭区间 ; 这是预先设定的一个半径值 ;

2 . 处理过程 : 根据族序处理每个样本对象 ; 每个样本对象都有族序 , 核心距离 , 可达距离 属性 ;

OPTICS 算法第二阶段工作流程

1 . 取出样本 : 取出任意样本对象 ppp ;

2 . 判定可达距离 : 判定 ppp 的可达距离是否大于 εi\varepsilon_iεi 半径 ;

( 1 ) 非聚类判定 : 如果 ppp 可达距离大于 εi\varepsilon_iεi 半径值 , 那么说明 ppp 之前的族序的样本对象 , 没有一个是到 ppp 密度可达的 ;

只要进入这个分支 , 说明 ppp 不是当前的聚类分组样本 , 要么是新的聚类 , 要么是噪音 ; 这个需要根据其核心距离进行判定 ;

判定核心距离 : ppp 可达距离大于 εi\varepsilon_iεi 半径值基础上 , 进一步判定 ppp 的核心距离 ;

① 新聚类分组 : 如果 ppp 样本的核心距离 , 小于 εi\varepsilon_iεi , 说明 ppp 是核心对象 , 此时创建一个新的聚类分组 ;

② 噪音标记 : 如果 ppp 样本的核心距离 , 大于 εi\varepsilon_iεi , 将 ppp 标记为噪音 , 异常点 ;

( 2 ) 聚类判定 : 如果 ppp 可达距离小于等于 εi\varepsilon_iεi 半径值 , 将 ppp 标记为当前的聚类分组 ;

OPTICS 算法示例题目

已知条件 :

① 数据集 : 将如下含有 16 个样本的数据集 , 进行聚类分析 ;

② 数据样本的属性 : 该数据样本是二维数据 , 有两个属性值 , 可以在一个平面进行模拟 , 一个是 xxx 轴数据 , 一个是 yyy 轴数据 ;

③ 聚类参数 : ε\varepsilonε-邻域半径是 ε=44\varepsilon = 44ε=44 , ε\varepsilonε-邻域样本最小阈值为 MinPts=3MinPts = 3MinPts=3 ;

OPTICS 算法示例人为判断

首先由人进行的判断分析 ( 仅做参考 ) : 人先进行判断 , 这不是最后结果 ;

该样本数据集 , 使用肉眼判断 , 应该分成两层分组 ;

内层分组 : 如下图绿色的圈代表的聚类 ;

外层分组 : 如下图红色的圈代表的聚类 ;

OPTICS 算法示例第一次迭代

选择样本 AAA 开始分析 : 样本 AAA 的核心距离是 ε\varepsilonε ; 将样本 AAA 拿出来 , 放入

族序 - 可达距离坐标系 : xxx 轴是族序 , yyy 轴是可达距离 ;

其中 AAA 由于是第一个处理的样本 , 其只有核心距离 , 没有可达距离 , 因此 AAA 的可达距离设置成正无穷大 ;

判定样本 AAA 是否是核心对象 : 判定数据样本 AAA 是否是核心对象 , 通过判定其 ε\varepsilonε-邻域中分布的样本数量是否大于等于 MinPts=3MinPts = 3MinPts=3 阈值个数 , 也就是除 AAA 外 , 应该还有另外 222 个样本 , 这里发现其 ε\varepsilonε-邻域中还有样本 BBB 和样本 III , 因此 样本 AAA 是核心对象 ;

样本 AAA 是核心对象 : 执行下面一系列流程 ;

① 提取样本 : 提取所有从 AAA 样本触发 , 密度可达的数据样本对象 , 即 BBB , III 两个样本 ;

② 计算核心距离 : 计算样本 AAA 的核心距离 , 结果是 404040 ;

③ 计算可达距离 : 计算提取的 BBB , III 两个样本 对象的可达距离 , 都是 404040 ;

④ 待处理队列 : 将计算好核心距离可达距离的样本放入 待处理队列 QQQ 中 ;

{(B,40)(I,40)}\{ \quad ( B , 40 ) \quad ( I , 40 ) \quad \}{(B,40)(I,40)}

(B,40)( B , 40 )(B,40) 中的 BBB 表示样本 BBB , 404040 表示样本 AAA 到样本 BBB 的 可达距离 是 404040 ;

(I,40)( I , 40 )(I,40) 中的 III 表示样本 III , 404040 表示样本 AAA 到样本 III 的 可达距离 是 404040 ;

OPTICS 算法示例第二次迭代

选择样本 BBB 分析 : 从 QQQ 待处理队列 {(B,40)(I,40)}\{ \quad ( B , 40 ) \quad ( I , 40 ) \quad \}{(B,40)(I,40)} 中 , 选择一个可达距离最小的样本 BBB 继续进行进一步的扩展 , 这两个样本可达距离都是 404040 , 任意选一个即可 , 选择 BBB ;

此时将 BBB 从待处理队列 QQQ 中移出 , 只剩下 III 样本 , 此时的待处理队列是 :

{(I,40)}\{ \quad ( I , 40 ) \quad \}{(I,40)}

将样本 BBB 拿出来 , 放入以下坐标系中 , 坐标系是

族序 - 可达距离坐标系 : xxx 轴是族序 , yyy 轴是可达距离 ;

其中样本 BBB 可达距离是 404040 , 其对应的 yyy 轴可达距离是 404040 , xxx 轴族序是 222 ;

判定样本 BBB 是否是核心对象 : 判定数据样本 BBB 是否是核心对象 , 通过判定其 ε\varepsilonε-邻域中分布的样本数量是否大于等于 MinPts=3MinPts = 3MinPts=3 阈值个数 , 也就是除 BBB 外 , 应该还有另外 222 个样本 , 这里发现其 ε\varepsilonε-邻域中还有样本 AAA 和样本 CCC , 因此 样本 BBB 是核心对象 ;

样本 BBB 是核心对象 : 执行下面一系列流程 ;

① 提取样本 : 提取所有从 BBB 样本触发 , 密度可达的数据样本对象 , 即 CCC , AAA 两个样本 ; 但是样本 AAA 已经处理过了 , 就不再处理样本 AAA , 只处理样本 CCC ;

② 计算核心距离 : 计算样本 BBB 的核心距离 , 从 BBB 到 CCC 的距离 , 结果是 404040 ;

③ 计算可达距离 : 计算提取的 CCC 样本 对象的可达距离 , 是 404040 ;

④ 待处理队列 : 将计算好核心距离可达距离的样本放入 待处理队列 QQQ 中 ;

{(I,40)(C,40)}\{ \quad ( I , 40 ) \quad ( C , 40 ) \quad \}{(I,40)(C,40)}

(C,40)( C , 40 )(C,40) 中的 CCC 表示样本 CCC , 404040 表示样本 CCC 到样本 BBB 的 可达距离 是 404040 ;

(I,40)( I , 40 )(I,40) 中的 III 表示样本 III , 404040 表示样本 AAA 到样本 III 的 可达距离 是 404040 ;

OPTICS 算法示例第三次迭代

选择样本 III 分析 : 从 QQQ 待处理队列 {(I,40)(C,40)}\{ \quad ( I , 40 ) \quad ( C , 40 ) \quad \}{(I,40)(C,40)} 中 , 选择一个可达距离最小的样本 III 继续进行进一步的扩展 , 这两个样本可达距离都是 404040 , 任意选一个即可 , 选择 III ;

此时将 III 从待处理队列 QQQ 中移出 , 只剩下 CCC 样本 , 此时的待处理队列是 :

{(C,40)}\{ \quad ( C , 40 ) \quad \}{(C,40)}

将样本 III 拿出来 , 放入以下坐标系中 , 坐标系是

族序 - 可达距离坐标系 : xxx 轴是族序 , yyy 轴是可达距离 ;

其中样本 III 可达距离是 404040 , 其对应的 yyy 轴可达距离是 404040 , xxx 轴族序是 333 ;

判定样本 III 是否是核心对象 : 判定数据样本 III 是否是核心对象 , 通过判定其 ε\varepsilonε-邻域中分布的样本数量是否大于等于 MinPts=3MinPts = 3MinPts=3 阈值个数 , 也就是除 III 外 , 应该还有另外 222 个样本 , 这里发现其 ε\varepsilonε-邻域中还有样本 A,J,K,L,M,RA, J,K,L,M,RA,J,K,L,M,R , 因此 样本 III 是核心对象 ;

样本 III 是核心对象 : 执行下面一系列流程 ;

① 提取样本 : 提取所有从 III 样本出发 , 密度可达的数据样本对象 , 即A,J,K,L,M,RA, J,K,L,M,RA,J,K,L,M,R 两个样本 ; 但是样本 AAA 已经处理过了 , 就不再处理样本 AAA , 只处理样本 J,K,L,M,RJ,K,L,M,RJ,K,L,M,R ;

② 计算核心距离 : 计算样本 III 的核心距离 ;

③ 计算可达距离 : 计算提取的 J,K,L,M,RJ,K,L,M,RJ,K,L,M,R 样本 对象的可达距离 , 分别是 20,20,31,40,4320, 20, 31, 40, 4320,20,31,40,43 ;

④ 待处理队列 : 将计算好核心距离可达距离的样本放入 待处理队列 QQQ 中 ;

{(J,20)(K,20)(L,31)(C,40)(M,40)(R,43)}\{ \quad ( J , 20 ) \quad ( K , 20 ) \quad ( L , 31 ) \quad ( C , 40 ) \quad ( M , 40 ) \quad ( R , 43 ) \quad \}{(J,20)(K,20)(L,31)(C,40)(M,40)(R,43)}

(J,20)( J , 20 )(J,20) 中的 JJJ 表示样本 JJJ , 202020 表示样本 III 到样本 JJJ 的 可达距离 是 202020 ;

OPTICS 算法示例第四次迭代

选择样本 JJJ 分析 : 从 QQQ 待处理队列 {(J,20)(K,20)(L,31)(C,40)(M,40)(R,43)}\{ \quad ( J , 20 ) \quad ( K , 20 ) \quad ( L , 31 ) \quad ( C , 40 ) \quad ( M , 40 ) \quad ( R , 43 ) \quad \}{(J,20)(K,20)(L,31)(C,40)(M,40)(R,43)} 中 , 选择一个可达距离最小的样本 JJJ 继续进行进一步的扩展 , 这个样本可达距离是 202020 , 在待处理队列中最小 , 选择样本 JJJ ;

此时将 JJJ 从待处理队列 QQQ 中移出 , 剩下 K,L,C,M,RK,L,C,M,RK,L,C,M,R 样本 , 此时的待处理队列是 :

{(K,20)(L,31)(C,40)(M,40)(R,43)}\{ \quad ( K , 20 ) \quad ( L , 31 ) \quad ( C , 40 ) \quad ( M , 40 ) \quad ( R , 43 ) \quad \}{(K,20)(L,31)(C,40)(M,40)(R,43)}

将样本 JJJ 拿出来 , 放入以下坐标系中 , 坐标系是

族序 - 可达距离坐标系 : xxx 轴是族序 , yyy 轴是可达距离 ;

其中样本 JJJ 可达距离是 202020 , 其对应的 yyy 轴可达距离是 202020 , xxx 轴族序是 444 ;

判定样本 JJJ 是否是核心对象 : 判定数据样本 JJJ 是否是核心对象 , 通过判定其 ε\varepsilonε-邻域中分布的样本数量是否大于等于 MinPts=3MinPts = 3MinPts=3 阈值个数 , 也就是除 JJJ 外 , 应该还有另外 222 个样本 , 这里发现其 ε\varepsilonε-邻域中还有样本 I,L,K,R,M,PI,L , K,R, M,PI,L,K,R,M,P , 因此 样本 JJJ 是核心对象 ;

样本 JJJ 是核心对象 : 执行下面一系列流程 ;

① 提取样本 : 提取所有从 JJJ 样本出发 , 密度可达的数据样本对象 , 即I,L,K,R,M,PI,L , K,R, M,PI,L,K,R,M,P 两个样本 ; 但是样本 III 已经处理过了 , 就不再处理样本 III , 只处理样本 L,K,R,M,PL , K,R, M,PL,K,R,M,P ;

② 计算核心距离 : 计算样本 JJJ 的核心距离 ;

③ 计算可达距离 : 计算提取的 L,K,R,M,PL , K,R, M,PL,K,R,M,P 样本 对象的可达距离 , 分别是 19,20,21,30,3119, 20, 21, 30, 3119,20,21,30,31 ;

④ 待处理队列 : 将计算好核心距离可达距离的样本放入 待处理队列 QQQ 中 ;

{(L,19)(K,20)(R,21)(M,30)(P,31)(C,40)}\{ \quad ( L , 19) \quad ( K , 20 ) \quad ( R , 21 ) \quad ( M , 30 ) \quad ( P , 31 ) \quad ( C , 40 ) \quad \}{(L,19)(K,20)(R,21)(M,30)(P,31)(C,40)}

(L,19)( L , 19 )(L,19) 中的 LLL 表示样本 LLL , 191919 表示样本 JJJ 到样本 LLL 的 可达距离 是 191919 ;

OPTICS 算法示例第五次迭代

选择样本 LLL 分析 : 从 QQQ 待处理队列 {(L,19)(K,20)(R,21)(M,30)(P,31)(C,40)}\{ \quad ( L , 19) \quad ( K , 20 ) \quad ( R , 21 ) \quad ( M , 30 ) \quad ( P , 31 ) \quad ( C , 40 ) \quad \}{(L,19)(K,20)(R,21)(M,30)(P,31)(C,40)} 中 , 选择一个可达距离最小的样本 LLL 继续进行进一步的扩展 , 这个样本可达距离是 191919 , 在待处理队列中最小 , 选择样本 LLL ;

此时将 LLL 从待处理队列 QQQ 中移出 , 剩下 K,R,M,P,CK,R, M, P,CK,R,M,P,C 样本 , 此时的待处理队列是 :

{(K,20)(R,21)(M,30)(P,31)(C,40)}\{ \quad ( K , 20 ) \quad ( R , 21 ) \quad ( M , 30 ) \quad ( P , 31 ) \quad ( C , 40 ) \quad \}{(K,20)(R,21)(M,30)(P,31)(C,40)}

将样本 LLL 拿出来 , 放入以下坐标系中 , 坐标系是

族序 - 可达距离坐标系 : xxx 轴是族序 , yyy 轴是可达距离 ;

其中样本 LLL 可达距离是 191919 , 其对应的 yyy 轴可达距离是 191919 , xxx 轴族序是 555 ;

判定样本 LLL 是否是核心对象 : 判定数据样本 LLL 是否是核心对象 , 通过判定其 ε\varepsilonε-邻域中分布的样本数量是否大于等于 MinPts=3MinPts = 3MinPts=3 阈值个数 , 也就是除 LLL 外 , 应该还有另外 222 个样本 , 这里发现其 ε\varepsilonε-邻域中还有样本 I,J,M,K,R,P,NI,J , M, K,R, P, NI,J,M,K,R,P,N , 因此 样本 LLL 是核心对象 ;

样本 LLL 是核心对象 : 执行下面一系列流程 ;

① 提取样本 : 提取所有从 LLL 样本出发 , 密度可达的数据样本对象 , 即I,J,M,K,R,P,NI,J , M, K,R, P, NI,J,M,K,R,P,N 两个样本 ; 但是样本 I,JI,JI,J 已经处理过了 , 就不再处理样本 I,JI,JI,J , 只处理样本 M,K,R,P,NM, K,R, P, NM,K,R,P,N ;

② 计算核心距离 : 计算样本 LLL 的核心距离 ;

③ 计算可达距离 : 计算提取的 M,K,R,P,NM, K,R, P, NM,K,R,P,N 样本 对象的可达距离 , 分别是 18,18,20,21,3518, 18, 20, 21, 3518,18,20,21,35 ;

④ 待处理队列 : 将计算好核心距离可达距离的样本放入 待处理队列 QQQ 中 ;

{(M,18)(K,18)(R,20)(P,21)(N,35)(C,40)}\{ \quad ( M , 18) \quad ( K , 18 ) \quad ( R , 20 ) \quad ( P , 21 ) \quad ( N , 35 ) \quad ( C , 40 ) \quad \}{(M,18)(K,18)(R,20)(P,21)(N,35)(C,40)}

(M,18)( M , 18 )(M,18) 中的 MMM 表示样本 MMM , 181818 表示样本 LLL 到样本 MMM 的 可达距离 是 181818 ;

OPTICS 算法示例第十六次迭代

第 161616 次迭代之后 , QQQ 待处理队列清空 , 所有的样本都放到了 族序 - 可达距离 坐标系中 ;

族序 - 可达距离坐标系 : xxx 轴是族序 , yyy 轴是可达距离 ;

此时已经将每个样本的族序 , 以及其可达距离表示在了坐标系中 ;

此时可以开始进行聚类了 ;

OPTICS 算法示例第二阶段聚类分析

ε\varepsilonε 太小无意义聚类分析 : 选择如下图所绘制的红色线代表的 ε\varepsilonε 值进行聚类 , 没有任何意义 , 距离太小了 , 以至于所有的样本都不能密度可达 ; 所有的样本都被标记成噪音了 ;

2 . 两个聚类分组的情况 :

下图中 , 绘制的红色线的 yyy 轴值代表的 ε\varepsilonε , 此时按照此 ε\varepsilonε 进行聚类 , 凹形的分在一组聚类中 , 如

聚类分组 111 : {J,L,M,K,N,R,P}\{ J , L,M,K,N,R,P \}{J,L,M,K,N,R,P} ;

聚类分组 222 : {D,F,G,E}\{ D,F,G,E \}{D,F,G,E} ;

其它的 A,B,I,C,HA,B,I,C,HA,B,I,C,H 样本都被 标记成噪音 处理了 ;

3 . 一个聚类分组的情况 :

聚类分析 : 下图中 , 绘制的红色线的 yyy 轴值代表的 ε\varepsilonε , 此时按照此 ε=44\varepsilon = 44ε=44 进行聚类 , 凹形的分在一组聚类中 , 如

聚类分组 111 : {B,I,J,L,M,K,N,R,P,C,D,F,G,E,H}\{ B, I ,J , L,M,K,N,R,P, C , D,F,G,E , H \}{B,I,J,L,M,K,N,R,P,C,D,F,G,E,H} ;

噪音 : 样本 AAA 被当做噪音处理了 ;