dbscan聚类python_DBSCAN聚类算法 Python 代码

一、前言

二、DBSCAN聚类算法

三、参数选择

四、DBSCAN算法迭代可视化展示

五、常用的评估方法：轮廓系数

六、用Python实现DBSCAN聚类算法

一、前言

去年学聚类算法的R语言的时候，有层次聚类、系统聚类、K-means聚类、K中心聚类，最后呢，被DBSCAN聚类算法迷上了，为什么呢，首先它可以发现任何形状的簇，其次我认为它的理论也是比较简单易懂的。今年在python这门语言上我打算好好弄弄DBSCAN。下面贴上它的官方解释：

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

二、DBSCAN聚类算法

文字看不懂看下面这个图。下面这些点是分布在样本空间的众多样本，现在我们的目标是把这些在样本空间中距离相近的聚成一类。我们发现A点附近的点密度较大，红色的圆圈根据一定的规则在这里滚啊滚，最终收纳了A附近的5个点，标记为红色也就是定为同一个簇。其它没有被收纳的根据一样的规则成簇。(形象来说，我们可以认为这是系统在众多样本点中随机选中一个，围绕这个被选中的样本点画一个圆，规定这个圆的半径以及圆内最少包含的样本点，如果在指定半径内有足够多的样本点在内，那么这个圆圈的圆心就转移到这个内部样本点，继续去圈附近其它的样本点，类似传销一样，继续去发展下线。等到这个滚来滚去的圈发现所圈住的样本点数量少于预先指定的值，就停止了。那么我们称最开始那个点为核心点，如A，停下来的那个点为边界点，如B、C，没得滚的那个点为离群点，如N)。

基于密度这点有什么好处呢，我们知道kmeans聚类算法只能处理球形的簇，也就是一个聚成实心的团(这是因为算法本身计算平均距离的局限)。但往往现实中还会有各种形状，比如下面两张图，环形和不规则形，这个时候，那些传统的聚类算法显然就悲剧了。于是就思考，样本密度大的成一类呗。呐这就是DBSCAN聚类算法。

三、参数选择

上面提到了红色圆圈滚啊滚的过程，这个过程就包括了DBSCAN算法的两个参数，这两个参数比较难指定，公认的指定方法简单说一下：

半径：半径是最难指定的，大了，圈住的就多了，簇的个数就少了；反之，簇的个数就多了，这对我们最后的结果是有影响的。我们这个时候K距离可以帮助我们来设定半径r，也就是要找到突变点，比如：

以上虽然是一个可取的方式，但是有时候比较麻烦，大部分还是都试一试进行观察，用k距离需要做大量实验来观察，很难一次性把这些值都选准。

MinPts:这个参数就是圈住的点的个数，也相当于是一个密度，一般这个值都是偏小一些，然后进行多次尝试

四、DBSCAN算法迭代可视化展示

它可以把我们DBSCAN的迭代过程动态图画出来

设置好参数，点击GO! 就开始聚类了！

直接跳到最后看一下DBSCAN的聚类结果，如下：

如果minPoints参数设置再大一点，那么这个笑脸可能会更好看。没有颜色标注的就是圈不到的样本点，也就是离群点，DBSCAN聚类算法在检测离群点的任务上也有较好的效果。如果是传统的Kmeans聚类，我们也来看一下效果：

是不是好丑，这完美的体现出来DBSCAN算法基于密度聚类的优势了啊.

五、常用的评估方法：轮廓系数

这里提一下聚类算法中最常用的评估方法——轮廓系数(Silhouette Coefficient)：

计算样本i到同簇其它样本到平均距离ai。ai越小，说明样本i越应该被聚类到该簇(将ai称为样本i到簇内不相似度)。

计算样本i到其它某簇Cj的所有样本的平均距离bij，称为样本i与簇Cj的不相似度。定义为样本i的簇间不相似度：bi=min(bi1,bi2,...,bik2)

si接近1，则说明样本i聚类合理

si接近-1，则说明样本i更应该分类到另外的簇

若si近似为0，则说明样本i在两个簇的边界上

六、用Python实现DBSCAN聚类算法

importpandas as pd#导入数据

beer = pd.read_csv('data.txt', sep=' ')print(beer)

输出结果：

from sklearn.cluster importDBSCAN

X= beer[["calories","sodium","alcohol","cost"]]#设置半径为10，最小样本量为2，建模

db = DBSCAN(eps=10, min_samples=2).fit(X)

labels=db.labels_

beer['cluster_db'] = labels #在数据集最后一列加上经过DBSCAN聚类后的结果

beer.sort_values('cluster_db')#注：cluster列是kmeans聚成3类的结果；cluster2列是kmeans聚类成2类的结果；scaled_cluster列是kmeans聚类成3类的结果(经过了数据标准化)

输出结果：

#查看根据DBSCAN聚类后的分组统计结果(均值)

print(beer.groupby('cluster_db').mean())

#画出在不同两个指标下样本的分布情况

print(pd.scatter_matrix(X, c=colors[beer.cluster_db], figsize=(10,10), s=100))

#我们可以从上面这个图里观察聚类效果的好坏，但是当数据量很大，或者指标很多的时候，观察起来就会非常麻烦。

from sklearn importmetrics#就是下面这个函数可以计算轮廓系数(sklearn真是一个强大的包)

score =metrics.silhouette_score(X,beer.cluster_db)print(score)

dbscan聚类python_DBSCAN聚类算法 Python 代码相关推荐

关于聚类问题的算法python代码实现-K-均值聚类方法
聚类含义定义:聚类,也叫做聚类分析,依据对象的属性,将相似的对象归位一类.聚类,就是寻找发生数据之间内在联系的方法. 分类:从聚类的类型来讲,一般有结构性聚类.分散性聚类.密度聚类等. 结构性聚类是 ...
多元线性回归算法python实现_手写算法-Python代码推广多元线性回归
1.梯度下降-矩阵形式上篇文章介绍了一元线性回归,包括Python实现和sklearn实现的实例.对比,以及一些问题点,详情可以看这里: 链接: 手写算法-Python代码实现一元线性回归里面封装 ...
手写算法-python代码实现Ridge(L2正则项)回归
手写算法-python代码实现Ridge回归 Ridge简介 Ridge回归分析与python代码实现方法一:梯度下降法求解Ridge回归参数方法二:标准方程法实现Ridge回归调用sklear ...
匈牙利算法python代码实现以及原理图解
匈牙利算法python代码实现以及原理图解 1.匈牙利算法python代码实现: 2.原理图解: 1.匈牙利算法python代码实现: scipy中有对应的接口scipy.optimize.linea ...
进化算法——蛙跳算法Python代码
进蛙跳算法Python代码蛙跳算法原理 Python代码参考文献蛙跳算法原理假设种群个数为 c h r o m n u m chromnum chromnum , 分组个数为 g r o u ...
数据挖掘学习——SOM网络聚类算法+python代码实现
目录 1.SOM简述 2.SOM训练过程 (1)初始化 (2)采样(抽取样本点) (3)竞争 (4)合作和适应(更新权重值) (5)重复 3.python 代码实现 (1)初始化 (2)计算样本点和权 ...
python实现tomasulo算法_手写算法-python代码实现KNN
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理原理解析 KNN-全称K-Nearest Neighbor,最近邻算法,可以做分类任务,也可以做回归 ...
knn算法python代码_K-最近邻分类算法(KNN)及python实现
一.引入问题:确定绿色圆是属于红色三角形.还是蓝色正方形? KNN的思想: 从上图中我们可以看到,图中的数据集是良好的数据,即都打好了label,一类是蓝色的正方形,一类是红色的三角形,那个绿色的圆 ...
随机森林分类算法python代码_随机森林的原理及Python代码实现
原标题:随机森林的原理及Python代码实现最近在做kaggle的时候,发现随机森林这个算法在分类问题上效果十分的好,大多数情况下效果远要比svm,log回归,knn等算法效果好.因此想琢磨琢磨这个 ...
【机器学习】关联规则挖掘算法 + 三大案例实战 + Apriori算法 + Python代码实现
文章目录一.关联规则概述 1.1 关联规则引入 1.2 关联规则相关概念介绍 1.2.1 样本.事务.项集.规则 1.2.2 支持度.置信度 1.2.3 提升度 1.2.4 所有指标的公式二.Py ...

dbscan聚类python_DBSCAN聚类算法 Python 代码

dbscan聚类python_DBSCAN聚类算法 Python 代码相关推荐

最新文章

热门文章