一、前言

二、DBSCAN聚类算法

三、参数选择

四、DBSCAN算法迭代可视化展示

五、常用的评估方法:轮廓系数

六、用Python实现DBSCAN聚类算法

一、前言

去年学聚类算法的R语言的时候,有层次聚类、系统聚类、K-means聚类、K中心聚类,最后呢,被DBSCAN聚类算法迷上了,为什么呢,首先它可以发现任何形状的簇,其次我认为它的理论也是比较简单易懂的。今年在python这门语言上我打算好好弄弄DBSCAN。下面贴上它的官方解释:

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。 该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。

二、DBSCAN聚类算法

文字看不懂看下面这个图。下面这些点是分布在样本空间的众多样本,现在我们的目标是把这些在样本空间中距离相近的聚成一类。我们发现A点附近的点密度较大,红色的圆圈根据一定的规则在这里滚啊滚,最终收纳了A附近的5个点,标记为红色也就是定为同一个簇。其它没有被收纳的根据一样的规则成簇。(形象来说,我们可以认为这是系统在众多样本点中随机选中一个,围绕这个被选中的样本点画一个圆,规定这个圆的半径以及圆内最少包含的样本点,如果在指定半径内有足够多的样本点在内,那么这个圆圈的圆心就转移到这个内部样本点,继续去圈附近其它的样本点,类似传销一样,继续去发展下线。等到这个滚来滚去的圈发现所圈住的样本点数量少于预先指定的值,就停止了。那么我们称最开始那个点为核心点,如A,停下来的那个点为边界点,如B、C,没得滚的那个点为离群点,如N)。

基于密度这点有什么好处呢,我们知道kmeans聚类算法只能处理球形的簇,也就是一个聚成实心的团(这是因为算法本身计算平均距离的局限)。但往往现实中还会有各种形状,比如下面两张图,环形和不规则形,这个时候,那些传统的聚类算法显然就悲剧了。于是就思考,样本密度大的成一类呗。呐这就是DBSCAN聚类算法。

三、参数选择

上面提到了红色圆圈滚啊滚的过程,这个过程就包括了DBSCAN算法的两个参数,这两个参数比较难指定,公认的指定方法简单说一下:

半径:半径是最难指定的 ,大了,圈住的就多了,簇的个数就少了;反之,簇的个数就多了,这对我们最后的结果是有影响的。我们这个时候K距离可以帮助我们来设定半径r,也就是要找到突变点,比如:

以上虽然是一个可取的方式,但是有时候比较麻烦 ,大部分还是都试一试进行观察,用k距离需要做大量实验来观察,很难一次性把这些值都选准。

MinPts:这个参数就是圈住的点的个数,也相当于是一个密度,一般这个值都是偏小一些,然后进行多次尝试

四、DBSCAN算法迭代可视化展示

它可以把我们DBSCAN的迭代过程动态图画出来

设置好参数,点击GO! 就开始聚类了!

直接跳到最后看一下DBSCAN的聚类结果,如下:

如果minPoints参数设置再大一点,那么这个笑脸可能会更好看。没有颜色标注的就是圈不到的样本点,也就是离群点,DBSCAN聚类算法在检测离群点的任务上也有较好的效果。如果是传统的Kmeans聚类,我们也来看一下效果:

是不是好丑,这完美的体现出来DBSCAN算法基于密度聚类的优势了啊.

五、常用的评估方法:轮廓系数

这里提一下聚类算法中最常用的评估方法——轮廓系数(Silhouette Coefficient):

ji

计算样本i到同簇其它样本到平均距离ai。ai越小,说明样本i越应该被聚类到该簇(将ai称为样本i到簇内不相似度)。

计算样本i到其它某簇Cj的所有样本的平均距离bij,称为样本i与簇Cj的不相似度。定义为样本i的簇间不相似度:bi=min(bi1,bi2,...,bik2)

si接近1,则说明样本i聚类合理

si接近-1,则说明样本i更应该分类到另外的簇

若si近似为0,则说明样本i在两个簇的边界上

六、用Python实现DBSCAN聚类算法

importpandas as pd#导入数据

beer = pd.read_csv('data.txt', sep=' ')print(beer)

输出结果:

from sklearn.cluster importDBSCAN

X= beer[["calories","sodium","alcohol","cost"]]#设置半径为10,最小样本量为2,建模

db = DBSCAN(eps=10, min_samples=2).fit(X)

labels=db.labels_

beer['cluster_db'] = labels #在数据集最后一列加上经过DBSCAN聚类后的结果

beer.sort_values('cluster_db')#注:cluster列是kmeans聚成3类的结果;cluster2列是kmeans聚类成2类的结果;scaled_cluster列是kmeans聚类成3类的结果(经过了数据标准化)

输出结果:

#查看根据DBSCAN聚类后的分组统计结果(均值)

print(beer.groupby('cluster_db').mean())

#画出在不同两个指标下样本的分布情况

print(pd.scatter_matrix(X, c=colors[beer.cluster_db], figsize=(10,10), s=100))

#我们可以从上面这个图里观察聚类效果的好坏,但是当数据量很大,或者指标很多的时候,观察起来就会非常麻烦。

from sklearn importmetrics#就是下面这个函数可以计算轮廓系数(sklearn真是一个强大的包)

score =metrics.silhouette_score(X,beer.cluster_db)print(score)

dbscan聚类python_DBSCAN聚类算法 Python 代码相关推荐

  1. 关于聚类问题的算法python代码实现-K-均值聚类方法

    聚类含义 定义:聚类,也叫做聚类分析,依据对象的属性,将相似的对象归位一类.聚类,就是寻找发生数据之间内在联系的方法. 分类:从聚类的类型来讲,一般有结构性聚类.分散性聚类.密度聚类等. 结构性聚类是 ...

  2. 多元线性回归算法python实现_手写算法-Python代码推广多元线性回归

    1.梯度下降-矩阵形式 上篇文章介绍了一元线性回归,包括Python实现和sklearn实现的实例.对比,以及一些问题点,详情可以看这里: 链接: 手写算法-Python代码实现一元线性回归 里面封装 ...

  3. 手写算法-python代码实现Ridge(L2正则项)回归

    手写算法-python代码实现Ridge回归 Ridge简介 Ridge回归分析与python代码实现 方法一:梯度下降法求解Ridge回归参数 方法二:标准方程法实现Ridge回归 调用sklear ...

  4. 匈牙利算法python代码实现以及原理图解

    匈牙利算法python代码实现以及原理图解 1.匈牙利算法python代码实现: 2.原理图解: 1.匈牙利算法python代码实现: scipy中有对应的接口scipy.optimize.linea ...

  5. 进化算法——蛙跳算法Python代码

    进蛙跳算法Python代码 蛙跳算法原理 Python代码 参考文献 蛙跳算法原理 假设种群个数为 c h r o m n u m chromnum chromnum , 分组个数为 g r o u ...

  6. 数据挖掘学习——SOM网络聚类算法+python代码实现

    目录 1.SOM简述 2.SOM训练过程 (1)初始化 (2)采样(抽取样本点) (3)竞争 (4)合作和适应(更新权重值) (5)重复 3.python 代码实现 (1)初始化 (2)计算样本点和权 ...

  7. python实现tomasulo算法_手写算法-python代码实现KNN

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理 原理解析 KNN-全称K-Nearest Neighbor,最近邻算法,可以做分类任务,也可以做回归 ...

  8. knn算法python代码_K-最近邻分类算法(KNN)及python实现

    一.引入 问题:确定绿色圆是属于红色三角形.还是蓝色正方形? KNN的思想: 从上图中我们可以看到,图中的数据集是良好的数据,即都打好了label,一类是蓝色的正方形,一类是红色的三角形,那个绿色的圆 ...

  9. 随机森林分类算法python代码_随机森林的原理及Python代码实现

    原标题:随机森林的原理及Python代码实现 最近在做kaggle的时候,发现随机森林这个算法在分类问题上效果十分的好,大多数情况下效果远要比svm,log回归,knn等算法效果好.因此想琢磨琢磨这个 ...

  10. 【机器学习】关联规则挖掘算法 + 三大案例实战 + Apriori算法 + Python代码实现

    文章目录 一.关联规则概述 1.1 关联规则引入 1.2 关联规则相关概念介绍 1.2.1 样本.事务.项集.规则 1.2.2 支持度.置信度 1.2.3 提升度 1.2.4 所有指标的公式 二.Py ...

最新文章

  1. c++内存管理的一些资料
  2. Expression Blend实例中文教程(9) - 行为快速入门Behaviors
  3. 【转载】Qt Creator 添加自定义注释
  4. 成功解决 raise RuntimeError(“The JPMML-SkLearn conversion application has failed. The Java executable
  5. [LeetCode] Move Zeroes - 整数数组处理问题
  6. AcWing323. 战略游戏(树形DP)题解
  7. Oracle 屠刀下的 Java 软件公司怎么活?
  8. Zabbix-server安装后的故障处理及Zabbix-agent的配置添加过程
  9. Android TV开发总结【焦点】
  10. vim插件介绍(一)之Tabular
  11. TOGAF 架构内容框架
  12. c++ primer plus第六版复习题及答案
  13. 【Qt】Qt 开发环境安装 ( Qt 版本 5.14.2 | Qt 下载 | Qt 安装 )
  14. 永久域名注册流程知识
  15. Holt两参数指数平滑法的R实现
  16. 人工智能现状:只见人工不见智能,有多少人工就有多少智能?
  17. 利用RNAi研究马铃薯基因功能——StRIK与外表皮应激反应
  18. 如何制作WAV Audio DVD、AC3 Audio DVD、DTS Audio DVD封面音乐碟片?
  19. 领军服务外包 大连软件业加速对接资本市场
  20. Tensorflow2.0学习-Keras Tuner 妙用 (六)

热门文章

  1. java和javaw进程_java和 javaw 及 javaws的区别解析
  2. 标准正态分布怎么算_标准正态分布函数的快速计算方法
  3. 深入浅出H桥驱动电路
  4. CentOS7配置阿里源
  5. Java类加载机制--类加载过程(加载)
  6. can总线程序讲解_CANOpen系列教程02_理解CAN总线协议
  7. 在ppt中怎么加入倒计时 里面怎么加入倒计时【方法】
  8. 谱曲软件-MuseScore
  9. Everthing最强文件搜索神器
  10. 基于微信小程序的奶茶外卖商城系统设计与实现毕业设计毕设开题报告