【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )
文章目录
- I . 基于方格的聚类方法 简介
- II . 基于方格的聚类方法 图示
- III . STING 方法
- IV . CLIQUE 方法
I . 基于方格的聚类方法 简介
1 . 基于方格的聚类方法 :
① 数据结构 划分 : 将 多维数据 空间 , 划分成一定数目的单元 ;
② 数据结构 操作 : 在上述 划分好的 数据单元 数据结构 上 , 进行聚类操作 ;
2 . 基于方格聚类方法 优缺点 :
① 优点速度快 : 聚类速度很快 , 其聚类速度 与 数据集样本个数无关 , 与划分的单元个数有关 ;
② 缺点准确率低 : 聚类的准确率会大大降低 , 划分的方格越大 , 准确率越低 , 但速度越快 ;
3 . 如 : 有 111 亿数据 , 如果按照样本数量进行聚类很慢 , 如果将其划分成 100100100 个聚类 , 相当于划分成了 100100100 个数据单元 , 其速度相当于 100100100 个样本进行聚类 , 速度很快 ;
II . 基于方格的聚类方法 图示
如下图的二维空间 , 二维空间中分布着 100100100 个点 , 将其划分成 999 个方格 , 然后对 999 个方格进行聚类 , 不再考虑对样本进行聚类了 ;
999 个方格 , 将每个方格当做一个 样本对象 , 进行聚类分组 ;
III . STING 方法
1 . STING 方法 简介 :
① 全称 : STING , Statistical Information Grid , 统计信息网格 , 是一种 多分辨率聚类技术 ;
② 划分方格 : 将数据空间 划分成矩形区域 ;
③ 划分分辨率 : 不同层次的 矩形方格 划分成的 数据单元 , 其分辨率不同 ;
④ 层次结构 : 这些 不同分辨率 的 数据单元 , 构成层次结构 , 如下示例 , 绿色的矩形 ( 数据单元 ) 中 , 包含紫色的 矩形 ( 数据单元 ) ;
2 . 单元统计 :
① 统计信息 : 每个单元 都有 数据统计信息 , 如 单元所有样本的 平均值 , 最大值 , 最小值 , 数据分布 等数据 ;
② 预先计算 : 统计信息需要预先计算出来 , 供之后的聚类操作使用 ;
③ 聚类分组 : 根据每个 数据单元 的统计信息 , 为 数据单元 进行 聚类分组 ;
IV . CLIQUE 方法
1 . CLIQUE 方法 : 是 基于密度 和 基于方法 结合后的算法 ;
① 划分 方格 : 将多维 数据集 样本 , 在 多维数据空间 中 , 划分成 互不相交 的矩形单元 , 这些单元之间互相不能覆盖 ;
② 密集单元 : 如果 某个 数据单元 的样本个数 大于 一个阈值 , 这个 数据单元 就是 密集单元 ;
③ 阈值 : 这个阈值一般是开始时 , 用户输入的参数 ;
④ 聚类 : 密集单元 相互连接 构成一个集合 , 就是一个聚类分组 ;
2 . CLIQUE 算法优点 :
① 性能高 : CLIQUE 算法可以 找出 具有 高密度 数据样本 对象所在的数据单元 ,
② 扩展性好 : 这些数据的 输入顺序 , 数据的分布 , 不会影响最终的数据分布 ;
3 . CLIQUE 算法缺点 : 聚类的准确度较低 :
【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )相关推荐
- Spark数据挖掘-基于 K 均值聚类的网络流量异常检测(1): 数据探索、模型初探
Spark数据挖掘-基于 K 均值聚类的网络流量异常检测(1): 数据探索.模型初探 1 前言 分类和回归是强大易学的机器学习技术.需要注意的是:为了对新的样本预测未知的值, 必须从大量已知目标值的样 ...
- dbpedia知识图谱java_一种基于DBpedia的水务领域概念知识图谱构建方法与流程
本发明涉及的是领域知识图谱构建技术领域,涉及到一种基于DBpedia的水务领域概念知识图谱构建方法,特别涉及到一种基于Jaccard相似度算法与随机游走相似度算法结合的协同过滤模型框架,用于补全概念模 ...
- 【数据挖掘】聚类算法 简介 ( 基于划分的聚类方法 | 基于层次的聚类方法 | 基于密度的聚类方法 | 基于方格的聚类方法 | 基于模型的聚类方法 )
文章目录 I . 聚类主要算法 II . 基于划分的聚类方法 III . 基于层次的聚类方法 IV . 聚合层次聚类 图示 V . 划分层次聚类 图示 VI . 基于层次的聚类方法 切割点选取 VII ...
- 基于密度的聚类算法(1)——DBSCAN详解
基于密度的聚类算法(1)--DBSCAN详解 基于密度的聚类算法(2)--OPTICS详解 基于密度的聚类算法(3)--DPC详解 1. DBSCAN简介 DBSCAN(Density-Based S ...
- 文献记录(part79)--光学影像序列中基于多视角聚类的群组行为分析
学习笔记,仅供参考,有错必纠 光学影像序列中基于多视角聚类的群组行为分析 摘要 群组行为分析是光学影像序列分析中的一项重要课题, 在近年来引起了人工智能领域研究人员的广泛关注. 与行人个体相比, 群组 ...
- 基于模型的聚类和R语言中的高斯混合模型
介绍 四种最常见的聚类方法模型是层次聚类,k均值聚类,基于模型的聚类和基于密度的聚类 . 最近我们被客户要求撰写关于聚类的研究报告,包括一些图形和统计输出. 可以基于两个主要目标评估良好的聚类算法: ...
- 【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )
文章目录 I . K-Means 算法在实际应用中的缺陷 II . K-Means 初始中心点选择不恰当 III . K-Means 优点 与 弊端 IV . 基于密度的聚类方法 V . 基于密度的聚 ...
- 【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( DBSCAN 原理 | DBSCAN 流程 | 可变密度问题 | 链条现象 | OPTICS 算法引入 | 聚类层次 | 族序概念 )
文章目录 I . DBSCAN 简介 II . DBSCAN 算法流程 III . DBSCAN 算法 优缺点 IV . 可变密度问题 V . 链条现象 VI . OPTICS 算法原理 VII . ...
- 【数据挖掘】基于层次的聚类方法 ( 聚合层次聚类 | 划分层次聚类 | 族间距离 | 最小距离 | 最大距离 | 中心距离 | 平均距离 | 基于层次聚类步骤 | 族半径 )
文章目录 基于层次的聚类方法 简介 基于层次的聚类方法 概念 聚合层次聚类 图示 划分层次聚类 图示 基于层次的聚类方法 切割点选取 族间距离 概念 族间距离 使用到的变量 族间距离 最小距离 族间距 ...
最新文章
- 处理文本框的鼠标事件,判断鼠标的状态
- vue中的if判断和for循环语句
- PHP应对洪水般的恶意访问接口 访问冲击
- php斯芬克斯,斯芬克斯之迷——ie私有属性haslayout的困扰
- Hadoop入门(三)HDFS API
- Heroku和Java –从新手到初学者,第1部分
- 【使用注意】以后定义变量类型利用父类定义
- python3.6安装ipython_centos6.5下安装python3.6、pip、ipython
- post多个参数_如何使用Arjun v1.3挖掘HTTP参数
- 路由添加失败 参数错误_路由器故障排错三大经典案例详解
- Linux 离线安装软件
- 偏向锁理论太抽象,实战了解下偏向锁如何发生以及如何升级【实战篇】
- html闹钟设置,设置闹钟标签.html
- 阅读《Android 从入门到精通》(10)——单项选择
- 妙!云服务器远程登录,本地听声音
- 家庭局域网_如何用电视盒子局域网共享电脑资源,赶紧Mark!
- GIS影像数据格式说明
- 六、入门python第六课
- c语言常用的运行速度优化,C语言程序设计优化(提速)
- Java自学教程!mysql环境变量配置好了之后怎么办