机器学习算法——聚类3（k均值算法）

一、理论讲解

给定样本集 $D=\{x_1,x_2,...,x_m \}$ ，k均值（k-means）算法针对聚类所得簇划分 $C=\{C_1,C_2,...,C_k \}$ 最小化平方误差为：

$E=\sum_{i=1}^{k} \sum_{x \in C_i} || x-\mu_i ||_2^2$ （1）

其中 $\mu_i = \frac{1}{|C_i|} \sum_{x \in C_i}$ x是簇内 $C_i$ 的均值向量。直观来看，（1）式在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度，E越小，则簇内样本相似度越高。

最小化（1）式并不容易，找到它的最优解需考察样本集D所有可能的簇划分，这是一个NP难问题。因此，k均值算法采用了贪心策略，通过迭代优化来近似求解（1）式。算法流程为：

输入：样本集 $D=\{x_1,x_2,...,x_m \}$ ;聚类簇数k

过程：从D中随机选择k个样本最为初始均值向量 $\{\mu_1,\mu_2,...,\mu_k \}$

repeat

令 $C_i = \phi (1 \leqslant i \leqslant k)$

for j = 1,2,..,m do

计算样本 $x_j$ 与各均值向量 $\mu_i (1 \leqslant i \leqslant k)$ 的距离： $d_{ji} = ||x_j - \mu_i||_2$ ;

根据距离最近的均值向量确定 $x_j$ 的簇标记： $\lambda_j = arg min_{i \in \{1,2,...,k\}} d_{ji}$ ;

将样本 $x_j$ 划入相应的簇： $C_{\lambda j}= C_{\lambda j} \cup {x_j}$

end for

for i=1,2,..,k do

计算新均值向量： $\mu_i^{'} = \frac{1}{|C_i|}\sum_{x \in C_i} x$

if $\mu_i ^{'} \neq \mu_i$ then

将当前均值向量 $\mu_i$ 更新为 $\mu_i^{'}$

else

保持当前均值不变

end if

end for

until 当前均值向量均未更新

输出：簇划分 $C=\{C_1,C_2,...,C_k\}$

二、案例讲解

用西瓜数据集4.0解释上述算法：

编号	密度	含糖率
1	0.697	0.460
2	0.774	0.376
3	0.634	0.264
4	0.608	0.318
5	0.556	0.215
6	0.403	0.237
7	0.481	0.149
8	0.437	0.211
9	0.666	0.091
10	0.243	0.267
11	0.245	0.057
12	0.343	0.099
13	0.639	0.161
14	0.657	0.198
15	0.360	0.370
16	0.593	0.042
17	0.719	0.103
18	0.359	0.188
19	0.339	0.241
20	0.282	0.257
21	0.748	0.232
22	0.714	0.346
23	0.483	0.312
24	0.478	0.437
25	0.525	0.369
26	0.751	0.489
27	0.532	0.472
28	0.473	0.376
29	0.725	0.445
30	0.446	0.459

假定聚类簇数为3，算法开始时随机选取三个样本 $x_6,x_{12},x_{27}$ 做为初始均值向量，即

$\mu_1=(0.403;0.237), \mu_2=(0.343,0.099),\mu_3=(0.532,0.472)$

考察样本 $x_1=(0.697;0.460)$ ，它与当前均值向量 $\mu_1$ 的距离为：

$\mu_1 = \sqrt{(0.697-0.403)^2+(0.460-0.237)^2} = 0.369$

$\mu_2= \sqrt{(0.697-0.343)^2+(0.460-0.099)^2}=0.506$

$\mu_3= \sqrt{(0.697-0.532)^2+(0.460-0.472)^2}=0.166$

因此将 $x_1$ 划入簇 $C_3$ 中。类似地，对样本集中的所有样本考察一遍后，可得当前簇划分为

$C_1=\{x_5,x_6,x_7,x_8,x_9,x_{10},x_{13},x_{14},x_{15},x_{17},x_{18},x_{19},x_{20},x_{23} \}$

$C_2=\{x_{11},x_{12},x_{16} \}$

$C_3=\{x_1,x_2,x_3,x_4,x_{21},x_{22},x_{24},x_{25},x_{26},x_{27},x_{28},x_{29},x_{30} \}$

于是从 $C_1,C_2,C_3$ 分别求出新得均值向量

$\mu_1^{'}= (0.473,0.214), \mu_2^{'}=(0.394,0.066),\mu_3^{'}=(0.623,0.388)$

更新当前均值向量后，不断重复上述过程。最终在第五轮迭代产生得结果与第四轮迭代相同，于是算法终止，得到最终的簇划分。

三、代码实现

import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import pandas as pdxigua = pd.read_csv('D:/Machine_Learning/西瓜数据集4.0.csv', encoding='gbk')
data = xigua.values[:, [1,2]]
print(data.shape)
model = KMeans(n_clusters=3, random_state=10).fit(data) #默认为k-means++
label = model.predict(data)
print(label)
plt.scatter(data[:,0], data[:,1], c=label)
plt.show()

得到的结果如下：

机器学习算法——聚类3（k均值算法）相关推荐

（学习笔记）聚类算法 - k均值算法(k-means)
聚类之K均值算法聚类介绍 k均值算法步骤 Python实现参考文献聚类介绍聚类是一种经典的无监督学习方法. 聚类的目的是将数据集中的样本划分为若干个通常是不相交的子集,每个子集被称为簇,以此来 ...
5 模式识别-动态聚类算法（K均值算法、迭代自组织的数据分析ISOData算法）
武汉理工大学资源郭志强动态聚类算法:先选取初始的中心(每个类别的初始中心),然后把所有的样本进行聚类分析,聚类完成后,就去判断这个聚类结果合不合理(满不满足设计指标要求),如果合理就输出聚类结果( ...
K 均值算法-如何让数据自动分组
公号:码农充电站pro 主页:https://codeshellme.github.io 目录 1,K 均值算法 2,K 均值算法聚类过程 3,K 均值算法的实现 4,准备数据点 5,对数据聚类 6, ...
LBG算法、Lloyd算法和K均值算法
---------------------------------LBG算法.Lloyd算法和K-Means算法--------------------------------- LBG算法是一种矢量 ...
算法基础：k最近邻算法
本博客所有内容均整理自<算法图解>,欢迎讨论交流~ 了解过机器学习这个概念,一定知道有一种名为k最近邻的算法,简称KNN. 对于k最近邻算法的定义,百度百科是这样给出的:K最近邻(k-Ne ...
机器学习之无监督学习-K均值聚类算法
机器学习之无监督学习-K均值聚类算法对于无监督学习,有两类重要的应用,一个是聚类,一个是降维.我们今天主要学习聚类中的K均值聚类. 我们先看看下图,图a为原始的数据点,我们想要对图a的数据点进行分类 ...
k均值算法python实现（吴恩达机器学习作业）
k均值算法python实现(吴恩达机器学习作业) 题目要求数据集读取mat文件 K-means 实现结果问题题目要求采用K均值算法对样本进行聚类. 编写K均值算法源代码,对ex7data2 ...
百面机器学习—7.K均值算法、EM算法与高斯混合模型要点总结
文章目录一.总结K均值算法步骤二.如何合理选择K值? 三.K均值算法的优缺点是什么? 四.如何对K均值算法进行调优? 五.EM算法解决什么问题? 六.EM算法流程是什么? 六.EM算法能保证收敛嘛 ...
数据挖掘--“聚类”详解、K-means、K-平均值算法、K均值算法
一. 什么是聚类二. 聚类步骤三. 聚类算法有哪些 1 层次聚类算法 2 划分聚类算法 3 基于密度的聚类算法 4 基于网格的聚类算法 5 基于模型的聚类算法一. 什么是聚类? 物以类聚,人以群 ...
基于K均值算法的鸢尾花聚类实验（Sklearn实现）
实验代码 ##### 相关库导入部分 ##### from sklearn.datasets import load_iris import pandas as pd from sklearn.pre ...

机器学习算法——聚类3（k均值算法）

机器学习算法——聚类3（k均值算法）相关推荐

最新文章

热门文章