机器学习之密度聚类（DBSCAN）

密度聚类亦称"基于密度的聚类" (density-based clustering) ，此类算法假设聚类结构能通过样本分布的紧密程度确定。通常情形下，密度聚类算法从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。

1、密度聚类算法简介

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种著名的密度聚类算法，它基于一组"邻域" (neighborhood)参数(ϵ\epsilonϵ, MinPts) 来刻画样本分布的紧密程度。
ϵ\epsilonϵ (eps) 邻域，对xj∈Dx_j\in Dxj∈D，其ϵ\epsilonϵ-邻域包含样本集D 中与xjx_jxj的距离不大于 ϵ\epsilonϵ 的样本，即Nϵ(xj)={xi∈D∣Ddist(xi,xj)≤ϵ}N_\epsilon (x_j)=\{x_i\in D\: |D\: dist(x_i,x_j)\leq \epsilon \}Nϵ(xj)={xi∈D∣Ddist(xi,xj)≤ϵ}
DBSCAN相关术语

核心对象(core object): 若xjx_jxj的ϵ\epsilonϵ-邻域至少包含MinPts 个样本，则 xjx_jxj是一个核心对象；
噪声(noise)：样本集D 中不属于任何簇的样本被认为是噪声(noise)或异常(anomaly)样本。
DBSCAN 将"簇"定义为：由密度可达关系导出的最大的密度相连样本集合。

DBSCAN 算法先任选数据集中的一个核心对象为"种子" (seed) ,再由此出发确定相应的聚类簇。算法先根据给定的邻域参数(ϵ\epsilonϵ， MinPts) 找出所有核心对象；然后以任一核心对象为出发点，找出由其密度可达的样本生成聚类簇，直到所有核心对象均被访问过为止。

2、Sklearn代码实现

import matplotlib.pyplot as plt
import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn import datasetsdef db_scan():# 加载样本数据sample = load_data()data = sample.data# 创建模型model = DBSCAN(eps=1, min_samples=3)# 模型训练model.fit(data)# 聚类生成的标签值labels = model.labels_n_clusters = len(pd.Series(labels))print("各簇的样本数目：", pd.Series(labels).value_counts())# 散点颜色colors = ['r', 'b', 'g', 'c', 'm']# 散点形状markers = ['o', 's', '^', 'x']# 绘制簇散点图plt.figure('db_scan')for i in range(n_clusters):# 按簇循环绘制x = data[labels == i]# 样本的前两个特征值plt.scatter(x=x[:, 0], y=x[:, 1], marker=markers[i % 4], color=colors[i % 5], alpha=0.5)# 绘制噪点noises = data[labels == -1]plt.scatter(x=noises[:, 0], y=noises[:, 1], marker='+', s=80, color='k')# 坐标轴，获取样本特征名称plt.xlabel("{}".format(sample.feature_names[0]))plt.ylabel("{}".format(sample.feature_names[1]))plt.title("Test DBSCAN(eps=1, min_samples=3)")plt.show()def db_scan_eps():"""计算向量之间的距离，用于测算Eps参数值:return:"""from sklearn.metrics.pairwise import euclidean_distancesimport numpy as np# 加载数据sample = load_data()data = sample.data# 计算向量之间的欧氏距离dist = euclidean_distances(data)# 计算每个样本特征的平均值，代表样本，作为x轴x = np.mean(data, axis=1)# dist[0]代表第一个样本与所有样本的距离，作为y轴plt.scatter(x=x, y=dist[0], marker='.', color='r')plt.xlabel("每个样本的特征均值")plt.ylabel("样本间距离")plt.title("Compute DBSCAN Epsilon")plt.show()def load_data():"""加载鸢尾花数据集"""return datasets.load_iris()if __name__ == '__main__':import matplotlib as mpl# 汉字字体,优先使用楷体，如果找不到楷体，则使用黑体mpl.rcParams['font.sans-serif'] = ['KaiTi', 'SimHei', 'FangSong']# 展示向量之间的距离，测算Eps参数值# db_scan_eps()# DBSCAN算法db_scan()

2.1、运行方法 db_scan_eps 测算Eps参数值，效果图，如下：

备注：截图后，手工添加蓝色方框，用于标明eps值在区间[1, 2]存在断层。

2.2、运行方法 db_scan，效果图，如下：

说明：eps距离为1时，整好可分为两类；距离减少后，出现噪点，且不能整好划分为三类（鸢尾花数据集本身是三类）。DBSCAN 算法虽然不用预设簇数，但eps参数的设置是关键，作用与簇数类似。