sklearn学习05——K-means

  • 前言
  • 一、K-means算法思想
  • 二、代码实现 K-means算法
    • 2.1、引入相关库
    • 2.2、生成数据集
    • 2.3、训练 + 预测
    • 2.3、惯性指标(inertia)
  • 总结

前言

面对无标签的数据集,我们期望从数据中找出一定的规律。一种最简单也最快速的聚类算法应运而生——K-Means。因为数据集无标签,所以它是无监督学习,下面介绍K-means算法思想,然后再调用sklearn相关库代码实现一下。


一、K-means算法思想

其核心思想比较简单,四个字概括的话就是:物以类聚。先理解下面的流程图(来自西瓜书),可以看到该算法的详细过程是怎样的:

整个过程是一个不断迭代更新的过程:首先初始化 k 个聚簇中心向量(后边简称为 质心),然后计算每个样本到这 k 个质心的欧氏距离,该样本的类别就定为 离它最近的质心的类别(符合“物以类聚”的思想),将所有样本分好类之后,需要更新这 k 个质心,更新前和更新后的质心的偏离比较小(用一个阈值来表示我们的要求),或者迭代到了一定次数的时候,就停止更新,完成了分类。

如果引入目标函数,我们最终会使:

即每个样本到它所在簇的质心的欧氏距离之和最小。

关于K-means聚类算法的一些需要注意的点:

  • k 值的选择。一般来说,我们会根据对数据的先验经验选择一个合适的 k 值,如果没有什么先验知识,则可以通过交叉验证选择一个合适的 k 值。
  • k 个初始化的质心的选择。由于它是启发式方法,k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响,因此需要选择合适的 k 个质心,最好这些质心不能太近。(在初始点选择这方面做了优化后,就是 K-means++算法)。

二、代码实现 K-means算法

2.1、引入相关库

代码如下:

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

2.2、生成数据集

代码如下:

# make_blobs:生成聚类的数据集
# n_samples:生成的样本点个数,n_features:样本特征数,centers:样本中心数
# cluster_std:聚类标准差,shuffle:是否打乱数据,random_state:随机种子
X, y = make_blobs(n_samples=150, n_features=2,centers=3, cluster_std=0.5,shuffle=True, random_state=0)# 散点图
# c:点的颜色,marker:点的形状,edgecolor:点边缘的颜色,s:点的大小
plt.scatter(X[:, 0], X[:, 1],c='white', marker='o',edgecolor='black', s=50)
plt.show()

这里生成3簇数据,并以散点图的形式显示出来,如下图:

2.3、训练 + 预测

代码如下:

# 定义模型
# n_clusters:要形成的簇数,即k均值的k,init:初始化方式,tot:Frobenius 范数收敛的阈值
model = KMeans(n_clusters=3, init='random',n_init=10, max_iter=300, tol=1e-04, random_state=0)
# 训练加预测
y_pred = model.fit_predict(X)

训练,预测完之后将数据集显示出来,看每个样本属于哪一个簇:

代码如下:

# 画出预测的三个簇类
plt.scatter(X[y_pred == 0, 0], X[y_pred == 0, 1],s=50, c='lightgreen',marker='s', edgecolor='black',label='cluster 1'
)plt.scatter(X[y_pred == 1, 0], X[y_pred == 1, 1],s=50, c='orange',marker='o', edgecolor='black',label='cluster 2'
)plt.scatter(X[y_pred == 2, 0], X[y_pred == 2, 1],s=50, c='lightblue',marker='v', edgecolor='black',label='cluster 3'
)# 画出聚类中心
plt.scatter(model.cluster_centers_[:, 0], model.cluster_centers_[:, 1],s=250, marker='*',c='red', edgecolor='black',label='centroids'
)
plt.legend(scatterpoints=1)
plt.grid()
plt.show()


因为我们直观上看到这个数据集大概率是三类样本(其实数据集是我们自己做的,我们已经知道它是几个簇了),所以在选择 k 值的时候直接定义为 3。但假设在不知道数据集是多少个簇组成的,我们就要尝试不同的 k 值了。这时,我们引入一个 惯性指标(inertia) 来帮助我们选择 k 值。

2.3、惯性指标(inertia)

K-Means的惯性指标计算方式是:每个样本与最接近的质心的均方距离的总和。
下面使用 不同的 k 值来训练看该惯性指标如何变化:

# 计算inertia随着k变化的情况
distortions = []
for i in range(1, 10):model = KMeans(n_clusters=i, init='random',n_init=10, max_iter=300,tol=1e-04, random_state=0)model.fit(X)distortions.append(model.inertia_)
# 画图可以看出k越大inertia越小,追求k越大对应用无益处
plt.plot(range(1, 10), distortions, marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('Distortion')
plt.show()

惯性指标(inertia)的变化如下图显示:

一般地,惯性指数越小模型越好,但伴随K值的增大,惯性下降的速度变的很慢,因此我们选择“肘部”的K值,作为最优的K值选择。

总结

关于K-means传统聚类算法,它是一种无监督的较简单的分类学习方法,它在 k 值选择 和 初始化聚簇中心向量时 比较随意,因此之后也有不少在这些方面做出改进的算法,例如初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法等。

sklearn学习05——K-means相关推荐

  1. sklearn机器学习:K均值聚类

    K-Means 均值聚类聚类算法可以说是最简单但是使用最广的一种聚类算法了,原理也简单易懂,sklearn中提供了很多聚类算法的实现,所以这里就学习一下K-Means算法.接下来会介绍一些关键性的概念 ...

  2. 为了联盟还是为了部落 | K means

    1. 问题 人类有个很有趣的现象,一群人在一起,过一段时间就会自发的形成一个个的小团体.好像我们很擅长寻找和自己气质接近的同类.其实不只是人类,数据也有类似情况,这就是聚类(Clustering)的意 ...

  3. k均值聚类算法(K Means)及其实战案例

    算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...

  4. OpenCV的k - means聚类 -对图片进行颜色量化

    OpenCV的k - means聚类 目标 学习使用cv2.kmeans()数据聚类函数OpenCV 理解参数 输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列. ...

  5. 文献记录(part89)--I-k-means-+:An iterative clustering algorithm based on an enhanced k -means

    学习笔记,仅供参考,有错必究 关键词:k均值:解决方案改进:准确的k均值:迭代改进 I-k-means-+:An iterative clustering algorithm based on an ...

  6. 机器学习Sklearn学习总结

    Sklearn学习资料推荐: sklearn中文文档 机器学习入门必看:使用 scikit-learn 构建模型的通用模板 机器学习神器Scikit-Learn保姆教程! python机器学习_FF_ ...

  7. JDK11源码学习05 | HashMap类

    JDK11源码学习05 | HashMap类 JDK11源码学习01 | Map接口 JDK11源码学习02 | AbstractMap抽象类 JDK11源码学习03 | Serializable接口 ...

  8. 惰性学习算法 ---- k 近邻算法

    惰性学习算法 ---- k 近邻算法 KNN 是惰性学习算法的典型例子.说它具有 惰性 不是因为它看起来简单,而是因为它仅仅对训练数据集有记忆功能,而不会从训练集中通过学习得到一个函数. 这种基于记忆 ...

  9. SKlearn学习笔记——XGBoost

    SKlearn学习笔记--XGBoost 1. 概述 1.1 xgboost库与XGB的sklearn API 1.2 XGBoost的三大板块 2. 梯度提升树 2.1 提升集成算法:重要参数 n_ ...

最新文章

  1. 导师:学CV的不懂目标检测?那你别学了
  2. 京津冀计算机学科大学排名,2021京津冀地区大学排名!北师大第3,北航第7,人大不敌天大?...
  3. java冒泡函数解释,JS DOM操作 函数 事件 阻止事件冒泡
  4. python matplotlib绘制等高线,plt.contour(),ax3.contour()和plt.contourf(),ax3.contour(), 同名函数
  5. Angular基础(五) 内建指令和表单
  6. JavaScript数组内置排序函数
  7. nginx编译安装_Nginx编译安装nginx-upsync-module模块以实现动态负载
  8. Git 切换提交历史节点
  9. linux更新函数,linux系统不同对象升级方法详细介绍
  10. php导入img,PHP 转PDF(Img)
  11. expat 处理xml常用函数名
  12. chromium笔记目录
  13. 【USB电压电流表】基于STM32F103C8T6 for Arduino
  14. Android图片拼接9宫格
  15. 自然语言处理(NLP)概论
  16. 一个画板十年工程师的PCB设计经验分享
  17. UAT:它也是一种“群体测试”吗?
  18. 超详细Spring MVC的环境配置:IDEA环境下创建Maven WebAp
  19. [推荐系统读书笔记]利用用户标签数据
  20. aws部署web_运营酿酒厂解释了Amazon Web Services(AWS)

热门文章

  1. 王者荣耀服务器信息共享,王者荣耀账号时长共享是怎么回事 账号时长共享具体规则...
  2. Meizu M8 SDK开发初体验
  3. DC-3靶机渗透详细教程(附靶机链接)
  4. websphere默认端口号_9080,websphere 端口设置问题
  5. 2021-11 -03
  6. vue全局过滤器配置
  7. NOIP(CSP-J)信息学奥赛_普及组第十四课--穷举
  8. 爪哇oj--数组查找及替换
  9. 基于JAVA学生信息管理系统录像演示2021计算机毕业设计源码+系统+数据库+lw文档+部署
  10. Cache与主存的三种地址映射详细解读