机器学习sklearn----通过轮廓系数确定适合的n

文章目录

创建数据集
n_clusters=4详细画图代码解析
完整代码

前面的文章我们知道了KMeans的常用评估指标轮廓系数。这篇文章我们介绍怎样通过轮廓系数来确定最佳的n_cluster

创建数据集

创建一个有5个分类的数据集，用于聚类，这里创建数据集我们是知道分类情况的，但是实际中我们是基本不会知道分类情况的。也就没有了最佳的聚类效果参考。所以需要使用到轮廓系数来选择最佳的聚类数量。

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeansimport warnings
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt%matplotlib inline
warnings.filterwarnings("ignore") # 忽略警告# 创建数据集
X, y = make_blobs(n_samples = 500, n_features=2, centers=5, random_state=1)
plt.scatter(X[:, 0], X[:, 1])
plt.title("row data")

n_clusters=4详细画图代码解析

fig, charts = plt.subplots(1, 2)
# 创建一行两列的一张画布
# 返回值第一个为画布本身
# 返回值第二个为子图对象的数组# 设置图像的大小
fig.set_size_inches(14, 5)# 训练模型
km4 = KMeans(n_clusters=4).fit(X)
labels = km4.labels_
sil_samples = silhouette_samples(X, labels) # 计算每个样本点的轮廓系数# 每个聚类填充之间的间隔为20
interval = 20# 每个填充区域的上下限
lower = 0
higher = 0
for i in range(4) :# 将第i个聚类中的每个样本的轮廓系数取出sil_samples_i = sil_samples[labels == i]# 将轮廓系数排序，使得画出的图的一个弧线方便展示sil_samples_i.sort()# 计算填充区域的上界higher = sil_samples_i.shape[0] + lower# 进行填充charts[0].fill_betweenx(np.arange(lower, higher),sil_samples_i,facecolor=cm.nipy_spectral(i/4))# 显示聚类的类别charts[0].text(-0.05, (lower+higher) * 0.5, str(i))# 更新下界lower = higher + interval# 画出轮廓系数的均值线
charts[0].axvline(x=sil_samples.mean(), color='red', linestyle='--')# 设置坐标轴的显示范围
charts[0].set_xticks([-0.1, 0, 0.2, 0.4, 0.6, 0.8, 1.0])
charts[0].set_yticks([])# 画出聚类的结果散点图
charts[1].scatter(X[:, 0], X[:, 1], c=labels)# 画出质心
centers = km4.cluster_centers_
charts[1].scatter(centers[:, 0], centers[:, 1], color='red', marker='x', s=80)plt.show()
# 从图上来看每个聚类中都有较多的部分样本轮廓系数超过了平均水平
# 这说明n_clusters=4是一个比较好的聚类结果

通过上面的代码就能画出一个n_cluster对应的图了。在将上面的代码包装到一个关于n_cluster的循环中，就能实现完整的画图代码了

完整代码

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samplesimport warnings
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.cm as cm%matplotlib inline
warnings.filterwarnings("ignore") # 忽略警告# 创建数据集
X, y = make_blobs(n_samples = 500, n_features=2, centers=5, random_state=1)for n_clusters in range(2, 9) :# 模型训练km = KMeans(n_clusters=n_clusters).fit(X)labels = km.labels_sil_samples = silhouette_samples(X, labels)# 建立画布fig, charts = plt.subplots(1, 2)fig.set_size_inches(14, 5)interval = 20lower = 0higher=0for i in range(n_clusters) :sil_samples_i = sil_samples[labels == i]sil_samples_i.sort()higher = sil_samples_i.shape[0] + lower# 填充charts[0].fill_betweenx(np.arange(lower, higher),sil_samples_i,facecolor=cm.nipy_spectral(i/n_clusters),alpha=.7)# 显示类别charts[0].text(-0.05, (lower + higher) * 0.5, str(i))lower = higher + interval# 画出轮廓系数的均值线charts[0].axvline(x=sil_samples.mean(), color='red', linestyle='--')# 设置坐标轴charts[0].set_xlabel("silhouette scores")charts[0].set_ylabel("clusters={}".format(n_clusters))charts[0].set_xticks(np.arange(-0.2, 1.2, 0.2))charts[0].set_yticks([])# 画出聚类的结果散点图charts[1].scatter(X[:, 0], X[:, 1], c=labels)# 画出质心centers = km.cluster_centers_charts[1].scatter(centers[:, 0], centers[:, 1], color='red', marker='x', s=80)plt.show()print("for n_clusters = {}, silhouette score = {}\n".format(n_clusters, sil_samples.mean()))

从上面的结果来看n_clusters=2的时候轮廓系数是最高的。但是从每个样本的轮廓系数来看。该聚类结果主要的贡献在第0个聚类。也就是说，第0个聚类的效果很好，但是第一个聚类效果不是很好，大部分的轮廓系数低于平均值。
在具体的应用总怎么选择需要看实际需求，需要结合人力财力来做出最佳的选择。

机器学习sklearn----通过轮廓系数确定适合的n_clusters相关推荐

机器学习数据分析之-轮廓系数（评估聚类结果）
在学习使用k-means算法进行负载聚类分析时看到了这样的图,查了之后是用轮廓系数来评估分类结果的准确度或者称合适度. silhouette 是一个衡量一个结点与它属聚类相较于其它聚类的相似程度. 取 ...
[机器学习与scikit-learn-26]：算法-聚类-KMeans寻找最佳轮廓系数
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...
机器学习：聚类算法的模型评估指标：轮廓系数
不同于分类模型和回归,聚类算法的模型评估不是一件简单的事. 在分类中,有直接结果(标签)的输出,并且分类的结果有正误之分,所以使用预测的准确度,混淆矩阵,ROC曲线等指标来进行评估.但无论如何评估,都 ...
Kmeans聚类③——Kmeans聚类原理轮廓系数Sklearn实现
数据分析目录(文末有超级彩蛋!): 一.Excel系列--四大常用函数及十大高级图表二.SQL系列--性能优化/多表关联/窗口分析函数等三.统计学系列--概率论/置信区间/相关/抽样等四.Pan ...
python sklearn库silhouette_score轮廓系数接口调用
官方接口说明:https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html#sklea ...
机器学习（三）K-means聚类（手肘法、轮廓系数、可视化代码）
K-means聚类聚类是无监督学习当中非常重要的一部分,能够在没有标签的情况下将数据分类.说到聚类,最常用也是最重要的一个算法就是K-means算法. 算法介绍 K-means是一种非常简单快速高效 ...
Sklearn 成长之路（五）K-means聚类及其评价指标——轮廓系数
聚类结果评价指标--轮廓系数某个点的轮廓系数定义为: s=disMeanout−disMeaninmax(disMeanout,disMeanin)s =\frac{disMean_{out} - ...
样本轮廓系数（原理、sklearn.metrics.silhouette_score、silhouette_samples参数介绍）
一.轮廓系数含义: 轮廓系数(Silhouette Coefficient),是聚类效果好坏的一种评价方式. 最佳值为1,最差值为-1.接近0的值表示重叠的群集.负值通常表示样本已分配给错误的聚类,因 ...
机器学习之K均值的SSE和轮廓系数
前文回顾: 肘部法:SSE误差平方和 SSE(sum of the squared errors)是对簇松散度的衡量,作为目标函数其实是一个严格的坐标下降(Coordinate Decendet)过程 ...
轮廓系数sklearn.metrics.silhouette_score
轮廓系数(Silhouette Coefficient),是聚类效果好坏的一种评价方式.最早由 Peter J. Rousseeuw 在 1986 提出.它结合内聚度和分离度两种因素.可以用来在相同原 ...

机器学习sklearn----通过轮廓系数确定适合的n_clusters

文章目录

创建数据集

n_clusters=4详细画图代码解析

完整代码

机器学习sklearn----通过轮廓系数确定适合的n_clusters相关推荐

最新文章

热门文章