密度聚类

密度聚类是一种基于密度的聚类方法,基于密度的聚类方法的主要思想是寻找被低密度区域分离的高密度区域。

密度度量

一个点的局部密度有不同的度量方式:
1. 画个圈,数圈内其他点个数是一种方法。
2. 用圈内其他点和给点半径的比值的高斯概率密度形式,对距离核心点距离近的给大权重。
3. 计算圈内距离最小的前n个点到核心点的距离之和。

DBSCAN

小时候开玩笑,想要一个人离自己远一点,会说:“以我为圆心,5米为半径,画个圈,圈里不能有你。”这个规则的后果就是,这个人和我的距离至少有5米,他在我周围的密度就是极小。
密度距离中衡量一个点的密度,和以上有相似的逻辑。如果给定半径内包含的点多于给定的阈值,则认为这个点密度大,称为核心点。而如果这个圈内其他点在同样的规则下也是核心点,称这些点密度可达。随着范围不断扩大,不断判断出新的核心点,直到遇到给定半径内,点数小于阈值的点,我们成为边界点。噪音点是即不能被密度可达有不是核心点的点。

DBSCAN优点是允许带噪声,能发现任意形状,不需要预先给定簇数。文本中特别稀疏数据聚类效果可能不太理想。

密度最大值聚类

高局部密度点距离

知道衡量一个点密度的不同种方法后,确定一种方法,就可以得到样本每个点的局部密度。任选一个点a,设局部密度比点a高出最小量的点为点b,点b到点a的距离就是点a高局部密度点距离,记做di。

如果di很大,ρi也很大,说明这点周围环绕很多其他点,并且比他密度大的点离他距离还很远,则认为这个点是一个聚类中心。如图中点10,和点1。
如果di距离很大,ρi很小,说明他离比他密度高的点比较远,这点离群索居,局部密度还不高,则认为这样的点是噪声。如图点26,27,28。

找到聚类中心后,再用其他聚类算法聚类。这个算法主要用在寻找聚类中心。

参考:
小象学院,邹博《机器学习V》聚类
http://www.csdn.net/article/2012-07-03/2807073-k-means
http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html
层次聚类:http://bluewhale.cc/2016-04-19/hierarchical-clustering.html
密度聚类:http://blog.csdn.net/itplus/article/details/10088625
http://blog.csdn.net/google19890102/article/details/37330471

聚类总结(中)——密度聚类相关推荐

  1. Python基于聚类算法实现密度聚类(DBSCAN)计算

    本文实例讲述了Python基于聚类算法实现密度聚类(DBSCAN)计算.分享给大家供大家参考,具体如下: 算法思想 基于密度的聚类算法从样本密度的角度考察样本之间的可连接性,并基于可连接样本不断扩展聚 ...

  2. 【机器学习】聚类【Ⅴ】密度聚类与层次聚类

    主要来自周志华<机器学习>一书,数学推导主要来自简书博主"形式运算"的原创博客,包含自己的理解. 有任何的书写错误.排版错误.概念错误等,希望大家包含指正. 由于字数限 ...

  3. dbscan聚类算法matlab_密度聚类DBSCAN、HDBSCAN(转)

    # 密度聚类DBSCAN.HDBSCAN DBSCAN DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声 ...

  4. R语言聚类算法之密度聚类(Density-based Methods)

    1.原理解析: 1.从数据集中选择一个未处理的样本点 2.以1为圆心,做半径为E的圆,由于圆内圈入点的个数为3,满足密度阈值Minpts,因此称点1为核心对象(黑色实心圆点),且将圈内的4个点形成一个 ...

  5. 密度聚类(CFDP)原理与实现

    密度聚类,也被称为CFDP(Clustering by fast search and find of density peaksd). 密度聚类的作用和Kmeans聚类差不多,可以将一堆数据分成若干 ...

  6. 机器学习实战——密度聚类算法

    机器学习实战--密度聚类算法 1 密度聚类 2 sklearn中的实现 1 密度聚类 密度聚类假设聚类结构能够通过样本分布的密集程度确定,通常情形下,密度聚类算法从样本密度的角度来考察样本之间的可连接 ...

  7. 【R】【密度聚类、层次聚类、期望最大化聚类】

    文章目录 1.对数据集进行加载.预处理集可视化 1.1 加载数据集 1.2 数据预处理 1.3 将样本点进行可视化 2.密度聚类(DBSCAN 算法) 2.1 加载程序包 2.2 设置聚类参数阈值并可 ...

  8. 机器学习之密度聚类及代码示例

    一.密度聚类 密度聚类的思想,在于通过计算样本点的密度的大小来实现一个簇/类别的形成,样本点密度越大,越容易形成一个类,从而实现聚类. 密度聚类算法可以克服基于距离的聚类算法只能发现凸型集合的缺点,其 ...

  9. k-means聚类,密度聚类,层次聚类优缺点

    k-means: 优点: 1,简单,易于理解和实现: 2,时间复杂度低 缺点: 1,需要对均值给出定义, 2,需要指定要聚类的数目: 3,一些过大的异常值会带来很大影响: 4,算法对初始选值敏感: 5 ...

  10. dbscan和谱聚类_R 无监督聚类算法(1)K-means和层次聚类

    首先我们要解决几个问题 聚类算法主要包括哪些算法? 主要包括:K-means.DBSCAN.Density Peaks聚类(局部密度聚类).层次聚类.谱聚类. 什么是无监督学习? • 无监督学习也是相 ...

最新文章

  1. UI设计培训技术分享:配色秘籍
  2. 《算法竞赛中的初等数论》(二)正文 0x20同余(ACM / OI / MO)(十五万字符数论书)
  3. 一文读懂神经网络初始化!吴恩达Deeplearning.ai最新干货
  4. git 修改分支名字_开发中必须要掌握的 Git 技巧
  5. mysql 批量增加字段命令_sql使用命令批量给一个表添加字段
  6. SQLServer 查看耗时较多的SQL语句
  7. 人生的第一个博客(●'◡'●)ノ♥--开博典礼
  8. macappstore登不上去_丈夫在外与多人暧昧,妻子气愤不已,可他却怒怼:这还不都是你逼的...
  9. 计算机芯片组的分类,主板知识详解:芯片组和支持CPU类型
  10. 最近弄魔窗SDK踩过的坑
  11. NIC不变量检测对抗样本
  12. RabbitMQ队列、消息应答、持久化操作相关概念以及操作的详解
  13. 它是三大历史文献之一,明明价值连城,却被当做一堆废纸
  14. 合工大路强java第四次作业第5题
  15. virtualbox kali linux 安装小米随身wifi
  16. seting the network namespace failed: Invalid argument
  17. 写跨文化交际的论文,有哪些好的题目推荐?
  18. Coinbase 上市,说唱歌手 Nas 或将净赚 1 亿美元
  19. 群集系统服务器,多服务器群集 2008
  20. Linux中的剪贴板--X11和selection

热门文章

  1. lintcode刷题——左叶子的和
  2. 希尔伯特变换分析及应用
  3. 中国34个省级行政区2000年-2021年逐月NDVI统计分析结果
  4. rs232接口_USB转RS232接口9针串口线,工控数据转接线驱动安装方法
  5. java-信息安全(十六)-双向认证
  6. USB协议分析方法,工具推荐
  7. 越狱装源未能连接到服务器,科普cydia无法加载源地址插件安装错误解决方法及Cydia怎么备份shsh...
  8. python画正切函数_Python
  9. WDX-2型智能电能表校验仪操作程序
  10. 普元eos运行环境下的逻辑流及页面流反编译工具