【数据挖掘】基于密度的聚类方法 - OPTICS 方法 ( 核心距离 | 可达距离 | 族序 )
文章目录
- I . 核心距离 概念
- II . 核心距离值
- III . 核心距离 示例
- IV . 可达距离
- V . 可达距离 示例
- VI . 可达距离 总结
- VII . 族序 ( Cluster Ordering ) 概念
I . 核心距离 概念
1 . 核心距离概念引入 : 必须是核心对象 , 才有核心距离 ;
2 . 已知条件 :
① 数据集合 : 给定 数据集 DDD ;
② 参数 : 给定两个参数 , ε\varepsilonε-邻域半径参数 ε\varepsilonε , MinPts 参数 ( ε\varepsilonε-邻域中样本个数最小阈值 ) ;
③ 数据样对象 : 给定一个数据样本 OOO ;
3 . 样本 OOO 是核心对象 : 此类情况 核心距离有意义 , 如果是边界对象无意义 ;
① 核心距离概念引入 : 如果该样本对象 OOO 是核心对象 , 那么 OOO 对象的 核心距离 , 就是使样本 OOO 能够成为 核心对象 的 最小半径值 ε\varepsilonε 参数 ;
② 核心距离要求 ( 恰好核心的最小距离 ) : 是使得 OOO 能成为 核心对象 的 最小距离 , 不是 之前设定的 ε\varepsilonε 参数 , 该核心距离小于等于 ε\varepsilonε 参数 , 样本 OOO 的 ε\varepsilonε-邻域 内可能有多于 MinPts 个样本 , 但是我们只取其半径范围内 恰好 有 MinPts 样本的 半径值 ε\varepsilonε 作为其核心距离 ;
③ 核心距离种类个数 : 不同的样本 , 核心距离可能不同 , 101010 个样本 , 可能有 101010 个核心距离 ;
④ 样本 OOO 是核心对象判定条件 : 以样本 OOO 为中心点 , 再其 ε\varepsilonε 半径区域范围内 ( ε\varepsilonε-邻域 ) , 样本个数多于 MinPts 最小阈值 ;
4 . 样本 OOO 不是核心对象 : 如果该样本对象 OOO 不是核心对象 , 是 边界对象 , 那么 该样本的 核心距离 概念没有意义 ;
II . 核心距离值
核心距离确定 :
① 样本 OOO 是 边界对象 : 核心距离 无穷大 ; 样本 OOO 的 ε\varepsilonε-邻域 的样本个数小于 MinPts 个 ;
② 样本 OOO 是 核心对象 : 核心距离 是保证 半径范围内恰好有 MinPts 个样本的最小半径 , 一定要注意 , 就是 卡着第 MinPts 个样本点的圆的半径 , 从 OOO 核心对象到第 MinPts 个样本的距离 / 半径 ;
III . 核心距离 示例
1 . 已知条件 :
① ε\varepsilonε-邻域 半径参数 : ε\varepsilonε ;
② MinPts 阈值参数 : MinPts =5= 5=5 , ε\varepsilonε-邻域中样本个数最小阈值 , 达到该阈值 , 样本才能算作核心对象 ;
③ 核心对象 : 红色点是 核心对象 ;
④ ε\varepsilonε-邻域 : 外层的圆 , 以核心对象 ( 红色样本 ) 为中心 , ε\varepsilonε 参数为半径 , 的区域范围 , 是 ε\varepsilonε-邻域 ;
2 . 核心距离分析 :
① 核心距离要求 : 样本的 核心距离 是保证 半径范围内恰好有 MinPts 个样本的最小半径 ;
② ε\varepsilonε 半径说明 : 这里 ε\varepsilonε 半径内有 111111 个样本 , 这个 ε\varepsilonε 不是我们要的核心距离 ;
③ 本案例的核心距离 : 要恰好保证有 核心距离半径范围内 MinPts =5= 5=5 样本 , 的最小半径值 ;
④ 注意两点 : 第一 , 恰好保证区域内有 555 个样本 ; 第二 , 最小半径 ;
⑤ 核心距离确定 : 这两个条件唯一确定了一个半径值 ε′\varepsilon'ε′ ;
IV . 可达距离
1 . 可达距离概念引入 : 必须是核心对象 , 才有可达距离 ;
2 . 已知条件 :
① 数据集合 : 给定 数据集 DDD ;
② 参数 : 给定两个参数 , ε\varepsilonε-邻域半径参数 ε\varepsilonε , MinPts 参数 ( ε\varepsilonε-邻域中样本个数最小阈值 ) ;
③ 数据样对象 : 给定一个数据样本 OOO ;
3 . 样本 OOO 是核心对象 : 此类情况 可达距离有意义 , 如果是边界对象 可达距离 无意义 ;
4 . 可达距离概念 :
① 前提 : 样本 OOO 必须是核心对象 ;
② 核心距离 : 样本 OOO 的核心距离 ;
③ 欧几里得距离 : OOO 和 ppp 之间的 欧几里得距离 , 这里与 曼哈顿距离 对照 ;
④ 可达距离 : 样本 OOO 与样本 ppp 之间的可达距离是 , 核心距离 与 欧几里得距离 的 较大的值 ;
V . 可达距离 示例
1 . 已知条件 :
① ε\varepsilonε-邻域 半径参数 : ε\varepsilonε ;
② MinPts 阈值参数 : MinPts =5= 5=5 , ε\varepsilonε-邻域中样本个数最小阈值 , 达到该阈值 , 样本才能算作核心对象 ;
③ 样本 OOO : 是核心对象 , 中心的红点 ;
④ ε\varepsilonε-邻域 : 外层的圆 , 以核心对象 ( 红色样本 ) 为中心 , ε\varepsilonε 参数为半径 , 的区域范围 , 是 ε\varepsilonε-邻域 ;
⑤ 样本 p1p_1p1 : 在 样本 OOO 核心距离范围内 ;
⑥ 样本 p2p_2p2 : 在样本 OOO 核心距离范围外 , 在 ε\varepsilonε 半径之内 ;
2 . 可达距离 :
① 样本 OOO 与 样本 p1p_1p1 的可达距离 : 在 核心距离 ε′\varepsilon'ε′ 与 OOO 与 p1p_1p1 欧几里得距离 选较大的那个 , 选择 核心距离 ;
② 样本 OOO 与 样本 p2p_2p2 的可达距离 : 在 核心距离 ε′\varepsilon'ε′ 与 OOO 与 p2p_2p2 欧几里得距离 选较大的那个 , 选择 欧几里得距离 ;
VI . 可达距离 总结
可达距离总结 :
① 核心距离内 : 样本 OOO 与其核心距离内的样本的可达距离 都是 核心距离 值 ;
② 核心距离外 ( ε\varepsilonε-邻域内 ) : 样本 OOO 与其核心距离外的样本的可达距离 都是 样本 OOO 与其它样本的 欧几里得距离 ;
VII . 族序 ( Cluster Ordering ) 概念
1 . 族序 ( Cluster Ordering ) 概念 :
① 多层次同时聚类 : 不同层次的聚类分组 , 可以同时进行构建 ;
② 顺序处理样本 : 处理数据集样本对象时 , 使用特定的顺序进行处理 ;
③ 顺序扩展 : 数据集样本对外扩展时 , 按照该顺序进行扩展 ,
④ 族序概念 : 该特定顺序就是 族序 ( Cluster Ordering ) ;
2 . 聚类顺序 : 从 低层 到 高层 ; 从 稠密 到 稀疏 ;
聚类时 , 低层 的聚类分组 要首先构建完成 , 也就是 ε\varepsilonε 参数 较小的聚类分组 ;
3 . 密度可达的两种情况情况 : 两个样本 密度可达 , 有两种情况 :
① ε\varepsilonε 参数小 : 一种情况是 ε\varepsilonε 参数 较小的时候 , 这两个样本就可以密度可达 ;
② ε\varepsilonε 参数大 : 另一种情况是 ε\varepsilonε 参数 取值很大时 , 才可以密度可达 ;
4 . 扩展样本优先级 : 扩展样本对象时 , 优先选择第一种情况 , ε\varepsilonε 参数 较小的时候 就可以密度可达的样本 ;
5 . 每个样本对象需要存储两个值 : 核心距离 与 可达距离 ;
【数据挖掘】基于密度的聚类方法 - OPTICS 方法 ( 核心距离 | 可达距离 | 族序 )相关推荐
- 【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( DBSCAN 原理 | DBSCAN 流程 | 可变密度问题 | 链条现象 | OPTICS 算法引入 | 聚类层次 | 族序概念 )
文章目录 I . DBSCAN 简介 II . DBSCAN 算法流程 III . DBSCAN 算法 优缺点 IV . 可变密度问题 V . 链条现象 VI . OPTICS 算法原理 VII . ...
- 基于密度的聚类方法-OPTICS
在DBSCAN算法中,我们知道该算法需要用户输入半径和阀值.这显然是不靠谱的,虽然我们可以通过其他方法来优化参数的选择,但这其实不是最好的做法. 这里为了克服在聚类分析中使用一组全局参数的缺点,这里 ...
- 【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )
文章目录 I . K-Means 算法在实际应用中的缺陷 II . K-Means 初始中心点选择不恰当 III . K-Means 优点 与 弊端 IV . 基于密度的聚类方法 V . 基于密度的聚 ...
- 【数据挖掘】聚类算法 简介 ( 基于划分的聚类方法 | 基于层次的聚类方法 | 基于密度的聚类方法 | 基于方格的聚类方法 | 基于模型的聚类方法 )
文章目录 I . 聚类主要算法 II . 基于划分的聚类方法 III . 基于层次的聚类方法 IV . 聚合层次聚类 图示 V . 划分层次聚类 图示 VI . 基于层次的聚类方法 切割点选取 VII ...
- 机器学习-无监督学习-聚类:聚类方法(二)--- 基于密度的聚类算法【DBSCAN文本聚类算法,密度最大值文本聚类算法】
密度聚类方法的指导思想是,只要样本点的密度大于某阀值,则将该样本添加到最近的簇中. 基于密度的聚类算法假设聚类结构能够通过样本分布的紧密程度确定,以数据集在空间分布上的稠密程度为依据进行聚类,即只要一 ...
- 机器学习 聚类篇——python实现DBSCAN(基于密度的聚类方法)
机器学习 聚类篇--python实现DBSCAN(基于密度的聚类方法) 摘要 python实现代码 计算实例 摘要 DBSCAN(Density-Based Spatial Clustering of ...
- 密度聚类dbscan_DBSCAN —基于密度的聚类方法的演练
密度聚类dbscan The idea of having newer algorithms come into the picture doesn't make the older ones 'co ...
- 基于密度的停留点识别方法
基于密度的停留点识别方法 李毓瑞, 陈红梅, 王丽珍, 肖清 云南大学信息学院,云南 昆明 650091 摘要:从GPS轨迹点序列中识别停留点,是轨迹分析的重要预处理步骤,是用户行为分析.个性化 ...
- 峰值云变换matlab代码,一种基于密度峰值的云变换方法与流程
本发明涉及一种基于密度峰值的云变换方法,属于数字图像数据处理技术. 背景技术: 粒计算是基于多层次粒结构研究思维方式.问题求解方法.信息处理模式的理论,早在1997年,Zadeh教授就提出了粒计算是模 ...
- DBSCAN聚类︱scikit-learn中一种基于密度的聚类方式
文章目录 @[toc] 一.DBSCAN聚类概述 1.伪代码 2.优点: 3.缺点: 4.与其他聚类算法比较 二.sklearn中的DBSCAN聚类算法 1.主要函数介绍: 最重要的两个参数: 其他主 ...
最新文章
- 解决:angularjs radio默认选中失效问题
- 简单借还书管理系统c语言,急求程序!!!简单图书馆借/还书管理子系统
- NP完全性理论与近似算法
- 【Python】Sklearn加载load_digits样本数据集
- Adobe illustrator 魔棒工具批量操作 - 连载 7
- pythongui界面复选框数值选择并求和_如何使用Python从图像中分离复选框按钮和复......
- 3月4日见!Redmi Note 10系列屏幕升级:首次采用Super AMOLED屏
- linux c 语言 errno 我个头,Linux错误代码:errno.h与返回值 -EINVAL
- pinpoint如何检测mysql_微服务链路监控系统-Pinpoint
- 企业网站+Axure企业官网通用模板+公司官网通用模板+web端高保真原型+门户官网+物流企业+门户网站+服务中心+产品中心+新闻中心+帮助中心+企业官网+公司官网+公司网站+登录注册+高保真交互
- MATLAB中的线性插值
- [原创]Xcode 4.6 安装 Boost 1.53.0
- 2-2 内建变量类型
- Struts2中4个核心组件_笔记
- 44膜型键盘_小学四年级数学上册考试必考题型:判断题练习题
- 白杨SEO:必应搜索引擎的特点,必应SEO优化怎么做?
- 软件工程及软件生命周期
- 电源芯片选择DC/DC还是LDO?
- DC/DC电源输入输出滤波电容摆放位置
- ssh 用户名密码登录