人工智能系列之机器学习DBSCAN聚类算法

1 介绍
DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一个出现得比较早（1996年），比较有代表性的基于密度的聚类算法。DBSCAN能够将足够高密度的区域划分成簇，并能在具有噪声的空间数据库中发现任意形状的簇。聚类的时候不需要预先指定簇的个数，最终簇的个数不确定。

DBScan需要二个参数： 扫描半径 (Eps)和最小包含点数(MinPts)。
DBSCAN算法将数据点分为三类：
(1)、核心点：在半径Eps内含有超过MinPts数目的点；
(2)、边界点：在半径Eps内点的数量小于MinPts，但是落在核心点的邻域内的点；
(3)、噪音点：既不是核心点也不是边界点的点。

2 DBSCAN密度聚类思想
由密度可达关系导出的最大密度相连的样本集合，即为我们最终聚类的一个类别，或者说一个簇。
这个DBSCAN的簇里面可以有一个或者多个核心对象。如果只有一个核心对象，则簇里其他的非核心对象样本都在这个核心对象的ϵ-邻域里；如果有多个核心对象，则簇里的任意一个核心对象的ϵ-邻域中一定有一个其他的核心对象，否则这两个核心对象无法密度可达。这些核心对象的ϵ-邻域里所有的样本的集合组成的一个DBSCAN聚类簇。
DBSCAN使用的方法很简单，它任意选择一个没有类别的核心对象作为种子，然后找到所有这个核心对象能够密度可达的样本集合，即为一个聚类簇。接着继续选择另一个没有类别的核心对象去寻找密度可达的样本集合，这样就得到另一个聚类簇。一直运行到所有核心对象都有类别为止。

3 DBSCAN优缺点总结
优点：
相比K-Means，DBSCAN不需要预先声明聚类数量；

K-means使用簇的基于原型的概念，而DBSCAN使用基于密度的概念；
K-means只能用于具有明确定义的质心（如均值）的数据。DBSCAN要求密度定义（基于传统的欧几里得密度概念）对于数据是有意义的；
K-means需要指定簇的个数作为参数，DBSCAN不需要事先知道要形成的簇类的数量，DBSCAN自动确定簇个数；
与K-means方法相比，DBSCAN可以发现任意形状的簇类。DBSCAN可以处理不同大小和不同形状的簇，K-means很难处理非球形的簇和不同形状的簇；
K-means可以用于稀疏的高纬数据，如文档数据。DBSCAN则不能很好反映高维数据；
K-means可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇。

可以对任意形状的稠密数据集进行聚类，相对的，K-Means之类的聚类算法一般只适用于凸数据集；

通俗的讲，就是数据集D中任意两点的连线上的点，也在数据集D内，那么数据集D就是一个凸集。
如下图，左边非凸，右边为凸

可以在聚类的同时发现异常点，对数据集中的异常点不敏感；
聚类结果没有偏倚，相对的，K-Means之类的聚类算法初始值对聚类结果有很大影响。
缺点：
当空间聚类的密度不均匀、聚类间距差相差很大时，聚类质量较差，因为这种情况下参数MinPts和Eps选取困难；
如果样本集较大时，聚类收敛时间较长，此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进；
调参相对于传统的K-Means之类的聚类算法稍复杂，主要需对距离阈值eps，邻域样本数阈值MinPts联合调参，不同的参数组合对最后的聚类效果有较大影响。

4 Java实现（已知经纬度利用聚类算法聚类）
参考算法链接：
https://blog.csdn.net/qq_38567039/article/details/118671550
https://www.cnblogs.com/zlazm/p/9273067.html

5 Python实现（SkLearn中DBSCAN实现经纬度聚类）

import numpy as np
import pandas as pd
from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt
import matplotlib.cm as cm
from math import pi, cos, sin, atan2, sqrtdef get_centroid(cluster):x = y = z = 0coord_num = len(cluster)for coord in cluster:lat = coord[0] * pi / 180lon = coord[1] * pi / 180a = cos(lat) * cos(lon)b = cos(lat) * sin(lon)c = sin(lat)x += ay += bz += cx /= coord_numy /= coord_numz /= coord_numlon = atan2(y, x)hyp = sqrt(x * x + y * y)lat = atan2(z, hyp)return [lat * 180 / pi, lon * 180 / pi]df = pd.read_excel("经纬度.xlsx")hotel_df = df[['latitude', 'longitude']]
hotel_df = hotel_df.dropna(axis=0, how='any')
hotel_coord = hotel_df.valuesR = 6370996.8  # 地球半径
hotel_cluster = DBSCAN(eps=2500 / R, min_samples=int(len(hotel_df) / 70), algorithm='ball_tree',
metric='haversine').fit(np.radians(hotel_coord))
hotel_df['labels'] = hotel_cluster.labels_cluster_list = hotel_df['labels'].value_counts(dropna=False)
center_coords = []
for index, item_count in cluster_list.iteritems():if index != -1:df_cluster = hotel_df[hotel_df['labels'] == index]center_coord = get_centroid(df_cluster[["latitude", "longitude"]].values)center_lat = center_coord[0]center_lon = center_coord[1]center_coords.append(center_coord)
center_coords = pd.DataFrame(center_coords, columns=['latitude', 'longitude'])# 可视化
fig, ax = plt.subplots(figsize=[12, 12])
facility_scatter = ax.scatter(hotel_df['longitude'], hotel_df['latitude'], c=hotel_df['labels'], cmap=cm.Dark2,edgecolor='None',alpha=0.7, s=120)
centroid_scatter = ax.scatter(center_coords['longitude'], center_coords['latitude'], marker='x', linewidths=2,c='k', s=50)
ax.set_title('Facility Clusters & Facility Centroid', fontsize=30)
ax.set_xlabel('Longitude', fontsize=24)
ax.set_ylabel('Latitude', fontsize=24)
ax.set_xlim(120.2, 121.4)
ax.set_ylim(30.5, 32.5)
ax.legend([facility_scatter, centroid_scatter], ['Facilities', 'Facility Cluster Centroid'], loc='upper right',fontsize=20)
plt.show()

参考资料：
https://blog.csdn.net/m0_46297891/article/details/107579135 DBSCAN聚类算法
https://zhuanlan.zhihu.com/p/23504573 聚类算法第三篇-密度聚类算法DBSCAN
https://www.biaodianfu.com/dbscan.html 机器学习聚类算法之DBSCAN
https://www.cnblogs.com/pinard/p/6208966.html DBSCAN密度聚类算法
https://www.cnblogs.com/8335IT/p/5635965.html 邗影
Java实现聚类算法k-means
https://www.cnblogs.com/Allen-win/p/8298181.html java实现K-means聚类算法
https://www.cnblogs.com/xjx199403/p/11046067.html?ivk_sa=1024320u java 实现DBScan聚类算法
https://blog.csdn.net/u012848304/article/details/108710864 Python实现经纬度空间点DBSCAN聚类

人工智能系列之机器学习DBSCAN聚类算法相关推荐

【机器学习】聚类算法DBSCAN、K-means、Mean Shift对比分析及具体代码实现
[机器学习]聚类算法DBSCAN.K-means.Mean Shift对比分析及具体代码实现一.DBSCAN算法(具有噪声的基于密度的聚类方法) 1.算法原理基于数据分布密度不同对数据进行聚类,把 ...
dbscan算法_如何掌握用于机器学习的流行DBSCAN聚类算法
总览 DBSCAN聚类是一种针对无监督学习问题而被低估但非常有用的聚类算法了解DBSCAN集群如何工作,为什么要学习以及如何在Python中实现DBSCAN集群介绍掌握无监督学习为数据科学家开辟 ...
DBSCAN聚类算法——机器学习（理论+图解+python代码）
一.前言二.DBSCAN聚类算法三.参数选择四.DBSCAN算法迭代可视化展示五.常用的评估方法:轮廓系数六.用Python实现DBSCAN聚类算法一.前言去年学聚类算法的R语言的时候, ...
[Python从零到壹] 十三.机器学习之聚类算法四万字总结全网首发（K-Means、BIRCH、树状聚类、MeanShift）
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
机器学习之聚类算法——聚类效果评估可视化
我曾在机器学习之聚类算法应用篇中介绍过,聚类算法常使用轮廓系数来评估聚类效果,不过有时候并不是轮廓系数越大越好,如下面两幅图所示,图中的红色虚线表示聚类系数分数: 显然将簇数据设置为2的时候得到的轮廓 ...
K-means与DBSCAN聚类算法
K-means与DBSCAN聚类算法前言:目前数据聚类方法大体上可以分为划分式聚类方法(Partition-based Methods).基于密度的聚类方法(Density-based method ...
python DBSCAN聚类算法
文章目录 DBSCAN聚类算法基本思想基本概念工作流程参数选择 DBSCAN的优劣势代码分析 ==Matplotlib Pyplot== ==make_blobs== ==StandardS ...
AI：人工智能概念之机器学习中常用算法的思维导图集合(非常经典、建议收藏)之详细攻略
AI:人工智能概念之机器学习中常用算法的思维导图集合(非常经典.建议收藏)之详细攻略目录机器学习算法的思维导图集合 1.ML算法思维图 2.ML算法思维导图相关文章:ML/DL:关于算法模型的选 ...
dbscan算法c语言实现,用C++实现DBSCAN聚类算法
这几天由于工作需要,对DBSCAN聚类算法进行了C++的实现.时间复杂度O(n^2),主要花在算每个点领域内的点上.算法很简单,现共享大家参考,也希望有更多交流. 数据点类型描述如下: 复制代码代码 ...
dbscan聚类算法_一种视频人群流的轨迹聚类方法
tags: KLT光流法,K-means聚类算法,DBSCAN聚类算法方法简介运动轨迹是一种在视频场景中捕捉复杂时间动态的有效方法.因此,我们将人流分割问题转化为一个轨迹提取和聚类任务.该方法分为 ...

人工智能系列之机器学习DBSCAN聚类算法

人工智能系列之机器学习DBSCAN聚类算法相关推荐

最新文章

热门文章

人工智能系列 之机器学习DBSCAN聚类算法

人工智能系列 之机器学习DBSCAN聚类算法相关推荐

最新文章

热门文章

人工智能系列之机器学习DBSCAN聚类算法

人工智能系列之机器学习DBSCAN聚类算法相关推荐