K-Means 算法步骤

那么，K-Means 这个算法是如何完成聚类过程的呢？其实算法名称中对此已有体现：

K: 描述了簇的数量，也就是应当聚合成的几何数。
Means：均值求解会是该算法的核心。

步骤描述

下面具体看到该算法的步骤：

（1）根据设定的聚类数 KKK ，随机地选择 KKK 个聚类中心（Cluster Centroid），这就好比古代乱世，天下诸侯并起而逐鹿。

（2）评估各个样本到聚类中心的距离，如果样本距离第 iii 个聚类中心更近，则认为其属于第 iii 簇，这可以看做四方义士纷纷投奔诸侯，形成不同的势力。

（3）计算每个簇中样本的 平均（Mean） 位置，将聚类中心移动至该位置，该过程可以被认为是诸侯调整战略根据地以达到最强的控制力和凝聚力。

重复以上步骤直至各个聚类中心的位置不再发生改变。

综上，K-Means 的算法步骤能够简单概括为：

分配：样本分配到簇。
移动：移动聚类中心到簇中样本的平均位置。

注意，某些聚类中心可能没有被分配到样本，这样的聚类中心就会被淘汰（意味着最终的类数可能会减少）。

伪码描述

假设簇的个数被定为 KKK ，样本数为 mmm 。
随机设定 KKK 个聚类中心： μ1,μ2,...,μk∈Rnμ_1,μ_2,...,μ_k∈\R^nμ1,μ2,...,μk∈Rn

重复如下过程直至聚类中心的位置不再改变：

分配过程

fori=1tom：for\quad i=1\ to\ m ：fori=1 to m：
c(i)=距x(i)最近的聚类中心c^{(i)}=距\ x^{(i)}\ 最近的聚类中心c(i)=距 x(i) 最近的聚类中心

距离的计算式如下：

min⁡k∣∣x(i)−μk∣∣2\min_k||x^{(i)}−μ_k||^2kmin∣∣x(i)−μk∣∣2

移动过程：

fork=1toK：for\quad k=1\ to\ K ：fork=1 to K：
μk（第k个聚类中心的新位置）=第k簇的平均位置μ_k（第 k个聚类中心的新位置）=第\ k\ 簇的平均位置μk（第k个聚类中心的新位置）=第 k 簇的平均位置

假设 μ2μ_2μ2 聚类中心下分配了 4 个样本：
x(1),x(5),x(6),x(10)x^{(1)},\ x^{(5)},\ x^{(6)},\ x^{(10)}x(1), x(5), x(6), x(10)

亦即：
c(1)=c(5)=c(6)=c(10)=2c^{(1)}=c^{(5)}=c^{(6)}=c^{(10)}=2c(1)=c(5)=c(6)=c(10)=2

那么 μ2μ_2μ2 将会移动到这四个样本的中心位置：
μ2=14(x(1)+x(5)+x(6)+x(10))μ_2=\frac14(x^{(1)}+x^{(5)}+x^{(6)}+x^{(10)})μ2=41(x(1)+x(5)+x(6)+x(10))

6.2 K-Means 算法步骤-机器学习笔记-斯坦福吴恩达教授相关推荐

4.7 程序示例--算法诊断-机器学习笔记-斯坦福吴恩达教授
程序示例–算法诊断我们手头有一份大坝水的流量与水位关系的数据,首先我们将其划分为训练集.交叉验证集和测试集: # coding: utf-8 # algorithm_analysis/diagnos ...
4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授
机器学习系统设计–垃圾邮件分类假定我们现有一封邮件,其内容如下: From: cheapsales@buystufffromme.com To: ang@cs.stanford.edu Subjec ...
6.6 二分 K-Means 算法-机器学习笔记-斯坦福吴恩达教授
二分 K-Means 算法该算法补充自 <机器学习实战> 一书常规的 K-Means 算法的误差通常只能收敛到局部最小,在此,引入一种称为二分 K-Means(bisecting km ...
8.3 算法流程与评估-机器学习笔记-斯坦福吴恩达教授
算法流程与评估算法流程有了前面的知识,我们可以得到,采用了高斯分布的异常检测算法流程如下: 选择一些足够反映异常样本的特征 xjx_jxj . 对各个特征进行参数估计: μj=1m∑i=1mxj ...
6.3 优化-机器学习笔记-斯坦福吴恩达教授
优化和其他机器学习算法一样,K-Means 也要评估并且最小化聚类代价,在引入 K-Means 的代价函数之前,先引入如下定义: μc(i)=样本x(i)被分配到的聚类中心μ^{(i)}_c=样本\ ...
5.7 程序示例--基于 SMO 的 SVM 模型-机器学习笔记-斯坦福吴恩达教授
程序示例–基于 SMO 的 SVM 模型在这里,我们会实现一个基于 SMO 的 SVM 模型,在其中,提供了简化版 SMO 和完整版 SMO 的实现. 简化版 SMO:不使用启发式方法选择 (α( ...
10.2 梯度下降-机器学习笔记-斯坦福吴恩达教授
梯度下降批量梯度下降法(Batch gradient descent) 拥有了大数据,就意味着,我们的算法模型中得面临一个很大的 m 值.回顾到我们的批量梯度下降法: 重复直到收敛:重复直到收敛:重 ...
10.1 掌握大数据-机器学习笔记-斯坦福吴恩达教授
掌握大数据在算法分析与优化一节中,我们就提到,在机器学习界流传着这样一句话: It's not who has the best algorithm that wins. It's who has ...
9.2 协同过滤-机器学习笔记-斯坦福吴恩达教授
协同过滤(Collaborative Filtering) 回到上一节的问题,每部电影,我们都有评价其内容的特征向量 xxx : 但是,在现实中,不会有任何网站,任何人有精力,有能力去评估每部电影所具 ...

6.2 K-Means 算法步骤-机器学习笔记-斯坦福吴恩达教授

K-Means 算法步骤

步骤描述

伪码描述

6.2 K-Means 算法步骤-机器学习笔记-斯坦福吴恩达教授相关推荐

最新文章

热门文章