1、算法步骤

输入：聚类个数，以及包含个数据对象的数据集
输出：满足方差最小标准的个聚类
Step1 从个数据对象任意选择个对象作为初始聚类中心；
Step2 根据簇中对象的平均值，将每个对象重新赋给最类似的簇；
Step3 更新簇的平均值，即计算每个簇中对象的平均值；
Step4 循环Step2到Step3直到每个聚类不再发生变化为止。

2、详细过程

1) 给定大小为 nnn 的数据集，令 iter=1iter=1iter=1，表示迭代次数，选择 kkk 个初始聚类中心 zj(iter),j=1,2,…,kz_{j}(iter),j=1,2,\dots,kzj(iter),j=1,2,…,k ；
2) 计算每个样本数据 xi,i=1,2,…,nx_{i},i=1,2,\dots,nxi,i=1,2,…,n 与聚类中心的距离，将 xix_{i}xi 分配给最近的聚类中心 zj(iter)z_{j}(iter)zj(iter) 所属的聚类，即 ∣xi−zj(iter)∣≤∣xi−zj′(iter)∣,j′≠j,j′,j∈(1,2,….k)\vert x_{i}-z_{j}(iter)\vert \leq \vert x_{i}-z_{j^{'}}(iter)\vert,j^{'}\neq j,j^{'},j \in(1,2,\dots.k)∣xi−zj(iter)∣≤∣xi−zj′(iter)∣,j′=j,j′,j∈(1,2,….k)；
3) 令 iter=iter+1iter=iter+1iter=iter+1，计算新的聚类中心（取已聚类的平均值）和误差平方和准则 FFF （目标函数）值
F(iter)=∑j=1k∑i=1n∥xij−zj(iter)∥2F(iter)=\sum_{j=1}^{k}\sum_{i=1}^{n}\Vert x_{i}^{j}-z_{j}(iter)\Vert^{2}F(iter)=j=1∑ki=1∑n∥xij−zj(iter)∥2
4) 判断：若 ∣F(iter+1)−F(iter)∣<θ\vert F(iter+1) - F(iter) \vert<\theta∣F(iter+1)−F(iter)∣<θ （FFF 收敛）或者对象无类别变化，则算法结束，否则，返回第 2）步。

3、流程图

4、聚类过程示意图

（和测试效果图无关，只是为了展示）

5、测试效果

6、算法优化

由于随机聚类中心的不同，在最小化代价函数时，有可能会停留在一个局部最小值处，导致最终的聚类效果不佳。需要对初始化质心点的选择进行优化。
优化：选择批次距离尽可能远的 kkk 个点（事先确定的类簇个数），首先随机选择一个点作为第一个初始类簇中心点，然后选择距离该点最远的那个点作为第二个初始类簇中心点，然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点，以此类推，直至选出 kkk 个初始类簇中心点。
下面是优化后初始质心点选择的代码部分（所用语言C#）：

DataPoint firstCenterPoint = new DataPoint(dataSet[0].X, dataSet[0].Y, 1); //选择第一个点作为第一个随机点
int n = 2;
centerPoints.Add(firstCenterPoint);
for (int i = 0; i < k - 1; ++i, ++n)
{List<double> tempList = new List<double>();for (int j = 0; j < len; ++j){bool brFlag = false;for (int m = 0; m < centerPoints.Count(); ++m){if (dataSet[j].X == centerPoints[m].X && dataSet[j].Y == centerPoints[m].Y){brFlag = true;break;}}  if (brFlag){tempList.Add(0);continue;}List<double> ceterPointSd = new List<double>();for (int m = 0; m < centerPoints.Count(); ++m){double tempSd = Math.Sqrt(SquareDistance(dataSet[j], centerPoints[m]));ceterPointSd.Add(tempSd);}double minSd = ceterPointSd.Min();tempList.Add(minSd);}int maxIndexValue = tempList.Select((m, index) => new { m, index }).Where(x => x.m == tempList.Max()).FirstOrDefault().index;DataPoint centerPoint = new DataPoint(dataSet[maxIndexValue].X, dataSet[maxIndexValue].Y, n);centerPoints.Add(centerPoint);
}

通俗易懂的 k-means 聚类算法原理及优化（附代码）相关推荐

k means聚类算法_一文读懂K-means聚类算法
1.引言什么是聚类?我们通常说,机器学习任务可以分为两类,一类是监督学习,一类是无监督学习.监督学习:训练集有明确标签,监督学习就是寻找问题(又称输入.特征.自变量)与标签(又称输出.目标.因变量) ...
k means聚类算法_K-Means 聚类算法 20210108
说到聚类,应先理解聚类和分类的区别聚类和分类最大的不同在于:分类的目标是事先已知的,而聚类则不一样,聚类事先不知道目标变量是什么,类别没有像分类那样被预先定义出来. K-Means 聚类算法有很多种 ...
手把手教你在多种无监督聚类算法实现Python（附代码）
来源: 机器之心本文约2704字,建议阅读6分钟. 本文简要介绍了多种无监督学习算法的 Python 实现,包括 K 均值聚类.层次聚类.t-SNE 聚类.DBSCAN 聚类. 无监督学习是一类用于 ...
OpenCV官方文档理解k - means聚类
理解k - means聚类目标在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论我们将这个处理是常用的一个例子. t恤尺寸问题考虑一个公司要发布一个新模型的t恤. 显然 ...
python（scikit-learn）实现k均值聚类算法
k均值聚类算法原理详解示例为链接中的例题直接调用python机器学习的库scikit-learn中k均值算法的相关方法 from sklearn.cluster import KMeans imp ...
基于 K-means 聚类算法实现图像区域分割matlab代码
1 简介对图像进行颜色区域分割.将图像转换到CIE L*a*b颜色空间,用K均值聚类分析算法对描述颜色的a*和b*通道进行聚类分析;通过提取各个颜色区域独立成为单色的新图像,对图像进行分割处理.实验 ...
【图像分割】基于 K-means 聚类算法实现图像区域分割matlab代码
1 简介对图像进行颜色区域分割.将图像转换到CIE L*a*b颜色空间,用K均值聚类分析算法对描述颜色的a*和b*通道进行聚类分析;通过提取各个颜色区域独立成为单色的新图像,对图像进行分割处理.实验 ...
k均值聚类算法(K Means)及其实战案例
算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...
k均值聚类算法案例 r语言iris_K-means算法原理
聚类的基本思想俗话说"物以类聚,人以群分" 聚类(Clustering)是一种无监督学习(unsupervised learning),简单地说就是把相似的对象归到同一簇中.簇内 ...
计算机视觉面试考点（14）K均值聚类算法（K-Means）
计算机视觉工程师在面试过程中主要考察三个内容:图像处理.机器学习.深度学习.然而,各类资料纷繁复杂,或是简单的知识点罗列,或是有着详细数学推导令人望而生畏的大部头.为了督促自己学习,也为了方便后人,决 ...

通俗易懂的 k-means 聚类算法原理及优化（附代码）

目录