密度聚类算法DBSCAN实战及可视化分析

DBSCAN实战及聚类效果可视化

构建分类算法获得预测推理能力

DBSCAN实战及聚类效果可视化

DBSCAN算法将数据集定义为高密度的连续区域，下面是它的工作原理：

对于每个实例，我们计算有多少实例位于离它很小的距离内（这个区域称为-邻域）。如果一个实例在它的-邻域中有≥min_samples实例，那么它被认为是一个核心实例。核心实例是那些位于密集区域的实例。

核心实例附近的所有实例都属于同一个族群。这个邻域可能包括其他核心实例。因此，相邻核心实例的长序列形成单个集群。

任何不是核心实例且在其邻域中没有核心实例的实例都被视为异常。

如果所有簇足够密集，并且它们被低密度区域很好地分隔，DBSCAN工作得很好。

from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moonsX, y = make_moons(n_samples=1000, noise=0.05)
X.shape, y.shape

((1000, 2), (1000,))

dbscan = DBSCAN(eps=0.05, min_samples=5)dbscan.fit(X)

DBSCAN(algorithm='auto', eps=0.05, leaf_size=30, metric='euclidean',metric_params=None, min_samples=5, n_jobs=None, p=None)

#获取聚类的预测标签

dbscan.labels_[:5]

array([0, 0, 1, 0, 2])

#如果样本的标签被标注为-1，那么意味着在DBSCAN算法看来该样本是一个异常样本；

# 获得核心样本的个数；

len(dbscan.core_sample_indices_)

# actual core instances coords
dbscan.components_

array([[ 1.97735134,  0.16746005],[ 1.73191549, -0.24587221],[ 0.04933691,  0.09386341],...,[ 0.9702814 ,  0.18676075],[-0.77970719,  0.60591176],[ 0.39840368,  0.90286737]])

#可视化DBSCAN聚类的效果

plt.figure(figsize=(12, 8))
plt.scatter(X[:, 0], X[:, 1], c=dbscan.labels_)
plt.axis('off')
plt.show()

# 增大算法的临域值重新进行可视化分析

dbscan = DBSCAN(eps=0.2, min_samples=5)dbscan.fit(X)

DBSCAN(algorithm='auto', eps=0.2, leaf_size=30, metric='euclidean',metric_params=None, min_samples=5, n_jobs=None, p=None)

plt.figure(figsize=(12, 8))
plt.scatter(X[:, 0], X[:, 1], c=dbscan.labels_)
plt.axis('off')
plt.show()

构建分类算法获得预测推理能力

# DBSCAN没有针对新实例的predict()方法，因此，我们将在训练目标上训练一个分类器来对新实例进行分类。

# 训练样本为DBSCAN聚类获得的核心实例，以及他们对应的聚类标签；

from sklearn.neighbors import KNeighborsClassifierknn = KNeighborsClassifier(n_neighbors=50)knn.fit(dbscan.components_, dbscan.labels_[dbscan.core_sample_indices_])

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',metric_params=None, n_jobs=None, n_neighbors=50, p=2,weights='uniform')

X_new = np.array([[-0.5, 0.], [0, 0.5], [1, -0.1], [2, 1]])knn.predict(X_new)knn.predict_proba(X_new)

array([1, 0, 1, 0])

array([[0.22, 0.78],[1.  , 0.  ],[0.18, 0.82],[1.  , 0.  ]])

注意，我们只在核心实例上训练分类器，但我们也可以选择在所有实例上训练分类器，或者在异常之外的所有实例上训练分类器。这取决于最后的任务。

因为我们没有在异常上训练我们的分类器，所以任何新的实例都将被放入我们的已知的聚类簇中。

引入一个最大距离是相当简单的，在这种情况下，远离两个簇的那两个实例就会被归类为异常样本。

y_dist, y_pred_idx = knn.kneighbors(X_new, n_neighbors=1)y_pred = dbscan.labels_[dbscan.core_sample_indices_][y_pred_idx]y_pred[y_dist > 0.2] = -1y_pred.ravel()

array([-1,  0,  1, -1])

简而言之，DBSCAN是一个非常简单但强大的算法，能够识别任意形状的任意数目的集群。它对离群点具有鲁棒性，并且只有两个超参数（eps和min_samples）。

如果聚类簇之间的密度差异很大，那么它就不可能正确地捕捉所有的聚类簇。

Its computational complexity is roughly