【机器学习】聚类算法 kmeans

引言

kmeans 是一个简单实用的机器学习算法，今天专门介绍一下。这篇文章主要关注以下几点：

kmeans 算法的具体流程是啥？
做一个代码实战，并用可视化的方法来展示kmeans的聚类效果。
训练过程中如何选取最好的聚类结果？
训练好后如何评价训练的的结果。

k-means算法流程

k-means算法的步骤：

随机选取k个初始中心点。
计算每个样本点和中心点的距离，各自划分为距离最近的中心点所对应的类别中。
重新确定中心点：每个类别中的点的均值作为新的中心点。
重复步骤2,3 直到某个条件终止（一定的次数或者是每个簇中的点不在改变）

k-means算法存在的问题：

计算量和样本数量成正比
初始值对聚类结果影响很大
不同的初始值可能会有不同的聚类结果。
对不规则的数据效果不好。
分成的簇的数量需要人工确认。
对初始值的稳定性非常差。

kmeans 算法实战

生成数据

我们可以先自己手工构造一个一个的簇，作为聚类的数据集。这里讲一下生成数据的方法。
要点如下：

指定若干个二维的点作为质心。
指定每个质心周围的点的个数以及离散程度，用标准差数值来表示。
绘制散点图。
具体的代码如下：

import  numpy as np
import os
%matplotlib inline
import matplotlib
import matplotlib.pyplot as pltfrom sklearn.datasets import make_blobs
# 这是中心点
blob_centers = np.array(
[[2.2,2.3],[-1.5, 2.3],[-2.8, 1.8],[-2.8, 2.8],[-2.8, 1.3]
]
)
# 这是离散程度， 越大则越离散。
blob_std = np.array([1, 0.3, 0.1, 0.1, 0.1])X,y = make_blobs(n_samples=5000, centers = blob_centers, cluster_std = blob_std, random_state=7)
print(X, y)

这里有个小思考：例子中基本都是使用的二维点来进行展示的，如果是多维的数据，如果可以图形化展示聚类算法的效果呢？

聚类算法进行聚类

# kmeans算法from sklearn.cluster import KMeans
# 需要人为指定簇的个数
k = 5
# random_stat 指定可以保证出来的结果都是一样的
kmeans = KMeans(n_clusters = k, random_state=42)
# 输入的X是一个二维的数组，每个元素都是一个点。
y_pred= kmeans.fit_predict(X)
# 得到的是每个点的簇的标签
print(y_pred)
print(kmeans.labels_)
# 可以得出簇的中心点
kmeans.cluster_centers_

可视化展示-画等高线

等高线可以看出每个簇所处的区域是啥，具体的函数代码如下：

def plot_data(X):plt.plot(X[:, 0], X[:, 1], 'k.', markersize=2)# 画中心点
def plot_centroids(centroids, weights=None, circle_color='w', cross_color='k'):if weights is not None:centroids = cnetroids[weights > weights.max() / 10]plt.scatter(centroids[:, 0], centroids[:, 1], marker= 'o', s = 30, linewidths=8, color=circle_color, zorder=10, alpha=0.9)plt.scatter(centroids[:, 0], centroids[:, 1],marker='x', s=50, linewidths=1,color=cross_color, zorder=11, alpha=1)def plot_decision_boundaries(clusterer, X, resolution=1000, show_centroids=True, show_xlabels=True, show_ylabels=True):# 这个是为了可以显示所有的点mins = X.min(axis=0)maxs = X.max(axis=0)print(mins)print(maxs)# 下面画一个网格xx, yy = np.meshgrid(np.linspace(mins[0], maxs[0], resolution),np.linspace(mins[1], maxs[1], resolution))# 这个ravel函数可以把二维数组拍平Z = clusterer.predict(np.c_[xx.ravel(), yy.ravel()])print(Z)Z = Z.reshape(xx.shape)plt.contourf(Z, extent=(mins[0], maxs[0], mins[1], maxs[1]), cmap="Pastel2")plt.contour(Z, extent=(mins[0], maxs[0], mins[1], maxs[1]), linewidths=1, colors='k')plot_data(X)if show_centroids:plot_centroids(clusterer.cluster_centers_)if show_xlabels:plt.xlabel("$x_1$", fontsize=14)else:plt.tick_params(labelbottom='off')if show_ylabels:plt.ylabel("$x_2$", fontsize=14, rotation=0)else:plt.tick_params(labelleft='off')plt.figure(figsize=(8,4))
plot_decision_boundaries(kmeans, X)

也可以写一个画图函数，将不同簇的点用不同的颜色表示出来。代码如下：

def plot_color(clusterer, X):# 预测一下聚类效果y = clusterer.fit_predict(X)# 这里的c 表示颜色序列plt.scatter(X[:, 0], X[:, 1], c=y,s=2, cmap=plt.cm.Spectral)plot_color(kmeans, X)

kmeans聚类算法使用技巧

我们知道， kmeans聚类算法的结果，会受到初始值中心点的影响，我们怎么保证最后聚类出来的结果是比较合适的呢？
kmeans算法里有几个参数，需要注意一下。

n_init, 例如这个值设定为10的话，会把模型跑10次，最后选取跑的最好的那一次，那么，如何确定哪个值好呢，先留个疑问。
max_iter: 迭代次数，这里设置最大的迭代次数。

kmeans聚类算法的评估方法

机器学习库中，有个inertia_属性，这个就是每个样本与对应质心的距离的平方和的累加值。当设定n_init参数的时候，会选取多次聚类， inertia_值最小的聚类结果。

如何寻找最合适的k值

首先，选择最小inertia值对应的k值不可靠，原因是，随着k的增加，聚类的簇就会越来越多，数据点到质心的距离也会很小，最后的inertia的值也会变得非常小，但是聚类效果并不是越来越好的。
推荐方案一：画一个图，表示出k值与对应的inertia值的对应关系曲线，在曲线的下降率发生剧烈变化的时候对应的k值，可以认为是比较合适的k值，不过，这个点只能作为参考，有可能不是最优的选择。
推荐方案二：使用轮廓系数来选取k值。
定义两个概念:

a i a_i ai: 计算样本i到同簇其他样本的平均距离 a i a_i ai, 这个值越小，说明越是应该被聚类到这个簇。
b i b_i bi: 计算样本i 到其他簇的所有样本的平均距离，然后取一个最小值就是 b i b_i bi, b i b_i bi越大越好。

s ( i ) = b ( i ) − a ( i ) m a x ( a ( i ) , b ( i ) ) s(i)=\frac{b(i)-a(i)}{max(a(i),b(i))} s(i)=max(a(i),b(i))b(i)−a(i)

我们可以计算所有 s ( i ) s(i) s(i)的均值，作为评价指标。
sklearn机器学习库中有一个专门计算函数。具体使用如下:

# kmeans_per_k表示聚类实例的列表。
# 注意实例取值要从1开始， 否则会出错的。
silhouette_scores = [silhouette_score(X,model.labels_) for model in kmeans_per_k[1:]]#绘制图表
plt.figure(figsize=(8,4))
plt.plot(range(2,10),silhouette_scores,'bo-')
plt.show()

这个指标也只能是作为一个参考，最合适的k值还是需要根据自己的需求来决定的。

总结

kmeans 是一个简单实用的算法，不过缺点也是比较明显的，对于形状不规则的点状图，kmeans 的聚类算法效果可能会不好，而且对于kmeans 的模型评估比较难，不容易找到合适的k值。