程序示例–二分 K-Means

仍然是在 kmeans.py 中，我们又添加了二分 K-Means 算法：

# coding: utf-8
# kmeans/kmeans.py# ...
def biKmeans(dataSet, k):"""Args:def biKmeans(dataSet, k):"""二分kmeans算法Args:dataSet: 数据集k: 聚类数Returns:centroids: 聚类中心clusterAssment: 点分配结果"""m, n = np.shape(dataSet)# 起始时，只有一个簇，该簇的聚类中心为所有样本的平均位置centroid0 = np.mean(dataSet, axis=0).tolist()[0]# 设置一个列表保存当前的聚类中心currentCentroids = [centroid0]# 点分配结果： 第一列指明样本所在的簇，第二列指明该样本到聚类中心的距离clusterAssment = np.mat(np.zeros((m, 2)))# 初始化点分配结果，默认将所有样本先分配到初始簇for j in range(m):clusterAssment[j, 1] = distEclud(dataSet[j, :], np.mat(centroid0))**2# 直到簇的数目达标while len(currentCentroids) < k:# 当前最小的代价lowestError = np.inf# 对于每一个簇for j in range(len(currentCentroids)):# 获得该簇的样本ptsInCluster = dataSet[np.nonzero(clusterAssment[:, 0].A == j)[0], :]# 在该簇上进行2-means聚类# 注意，得到的centroids，其聚类编号含0，1centroids, clusterAss = kMeans(ptsInCluster, 2)# 获得划分后的误差之和splitedError = np.sum(clusterAss[:, 1])# 获得其他簇的样本ptsNoInCluster = dataSet[np.nonzero(clusterAssment[:, 0].A != j)[0]]# 获得剩余数据集的误差nonSplitedError = np.sum(ptsNoInCluster[:, 1])# 比较，判断此次划分是否划算if (splitedError + nonSplitedError) < lowestError:# 如果划算，刷新总误差lowestError = splitedError + nonSplitedError# 记录当前的应当划分的簇needToSplit = j# 新获得的簇以及点分配结果newCentroids = centroids.AnewClusterAss = clusterAss.copy()# 更新簇的分配结果# 第0簇应当修正为被划分的簇newClusterAss[np.nonzero(newClusterAss[:, 0].A == 0)[0], 0] = needToSplit# 第1簇应当修正为最新一簇newClusterAss[np.nonzero(newClusterAss[:, 0].A == 1)[0], 0] = len(currentCentroids)# 被划分的簇需要更新currentCentroids[needToSplit] = newCentroids[0, :]# 加入新的划分后的簇currentCentroids.append(newCentroids[1, :])# 刷新点分配结果clusterAssment[np.nonzero(clusterAssment[:, 0].A == needToSplit)[0], :] = newClusterAssreturn np.mat(currentCentroids), clusterAssmentdataSet: 数据集k: 聚类数Returns:centroids: 聚类中心clusterAssment: 点分配结果"""# 随机初始化聚类中心centroids = randCent(dataSet, k)m, n = np.shape(dataSet)# 点分配结果： 第一列指明样本所在的簇，第二列指明该样本到聚类中心的距离clusterAssment = np.mat(np.zeros((m, 2)))# 标识聚类中心是否仍在改变clusterChanged = True# 直至聚类中心不再变化while clusterChanged:clusterChanged = False# 分配样本到簇for i in range(m):# 计算第i个样本到各个聚类中心的距离minIndex = 0minDist = np.inffor j in range(k):dist = distEclud(dataSet[i, :],  centroids[j, :])if(dist < minDist):minIndex = jminDist = dist# 判断cluster是否改变if(clusterAssment[i, 0] != minIndex):clusterChanged = TrueclusterAssment[i, :] = minIndex, minDist**2# 刷新聚类中心: 移动聚类中心到所在簇的均值位置for cent in range(k):# 通过数组过滤获得簇中的点ptsInCluster = dataSet[np.nonzero(clusterAssment[:, 0].A == cent)[0]]# 计算均值并移动centroids[cent, :] = np.mean(ptsInCluster, axis=0)return centroids, clusterAssment
# ...

测试

# coding: utf-8
# kmeans/test_bi_kmeans.pyimport kmeans
import numpy as np
import matplotlib.pyplot as pltif __name__ == "__main__":dataMat = np.mat(kmeans.loadDataSet('data/testSet2.txt'))centroids, clusterAssment = kmeans.biKmeans(dataMat, 3)clusterCount = centroids.shape[0]m = dataMat.shape[0]# 绘制散点图patterns = ['o', 'D', '^']colors = ['b', 'g', 'y']fig = plt.figure()title = 'bi-kmeans with k=3'ax = fig.add_subplot(111, title=title)for k in range(clusterCount):# 绘制聚类中心ax.scatter(centroids[k,0], centroids[k,1], color='r', marker='+', linewidth=20)for i in range(m):# 绘制属于该聚类中心的样本ptsInCluster = dataMat[np.nonzero(clusterAssment[:, 0].A==k)[0]]ax.scatter(ptsInCluster[:, 0].flatten().A[0], ptsInCluster[:, 1].flatten().A[0], marker=patterns[k], color=colors[k])plt.show()

运行结果如下：

6.8 程序示例--二分 K-Means-机器学习笔记-斯坦福吴恩达教授相关推荐

5.11 程序示例--垃圾邮件检测-机器学习笔记-斯坦福吴恩达教授
程序示例–垃圾邮件检测邮件内容的预处理下面展示了一封常见的 email,邮件内容包含了一个 URL (http://www.rackspace.com/),一个邮箱地址(groupname-uns ...
2.7 程序示例--多分类问题-机器学习笔记-斯坦福吴恩达教授
程序示例–多分类问题我们采用 One-vs-All 方法来进行多分类,在原有的逻辑回归模块中添加 One-vs-All 的训练以及预测方法: # coding: utf-8 # logical_re ...
2.5 程序示例--非线性决策边界-机器学习笔记-斯坦福吴恩达教授
程序示例–非线性决策边界我们首先对数据进行了多项式拟合,再分别使用 λ=0,λ=1,λ=100λ=0,λ=1,λ=100λ=0,λ=1,λ=100 的批量梯度下降法(sgd)完成了训练,获得了非线性 ...
2.4 程序示例--线性决策边界-机器学习笔记-斯坦福吴恩达教授
程序示例–线性决策边界回归模块在逻辑回归模块 logical_regression.py 中,实现了批量梯度下降法(bgd)以及随机梯度下降法(sgd),同时,支持正规化方程 # coding: ...
1.9 程序示例--局部加权线性回归-机器学习笔记-斯坦福吴恩达教授
程序示例–局部加权线性回归现在,我们在回归中又添加了 JLwr() 方法用于计算预测代价,以及 lwr() 方法用于完成局部加权线性回归: # coding: utf-8 # linear_regr ...
3.12 程序示例--多分类问题-机器学习笔记-斯坦福吴恩达教授
多分类问题我们手上包含有手写字符的数据集,该数据集来自斯坦福机器学习的课后作业,每个字符图片大小为 20×20 ,总的样本规模为 5000×400 , 我们的神经网络设计如下,包含 1 个隐含层,隐 ...
6.6 二分 K-Means 算法-机器学习笔记-斯坦福吴恩达教授
二分 K-Means 算法该算法补充自 <机器学习实战> 一书常规的 K-Means 算法的误差通常只能收敛到局部最小,在此,引入一种称为二分 K-Means(bisecting km ...
4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授
机器学习系统设计–垃圾邮件分类假定我们现有一封邮件,其内容如下: From: cheapsales@buystufffromme.com To: ang@cs.stanford.edu Subjec ...
5.7 程序示例--基于 SMO 的 SVM 模型-机器学习笔记-斯坦福吴恩达教授
程序示例–基于 SMO 的 SVM 模型在这里,我们会实现一个基于 SMO 的 SVM 模型,在其中,提供了简化版 SMO 和完整版 SMO 的实现. 简化版 SMO:不使用启发式方法选择 (α( ...

6.8 程序示例--二分 K-Means-机器学习笔记-斯坦福吴恩达教授

程序示例–二分 K-Means

测试

6.8 程序示例--二分 K-Means-机器学习笔记-斯坦福吴恩达教授相关推荐

最新文章

热门文章