Bisecting k-means（二分K均值算法）

二分k均值（bisecting k-means）是一种层次聚类方法，算法的主要思想是：首先将所有点作为一个簇，然后将该簇一分为二。之后选择能最大程度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。以此进行下去，直到簇的数目等于用户给定的数目K为止。
以上隐含着一个原则是：因为聚类的误差平方和能够衡量聚类性能，该值越小表示数据点月接近于它们的质心，聚类效果就越好。所以我们就需要对误差平方和最大的簇进行再一次的划分，因为误差平方和越大，表示该簇聚类越不好，越有可能是多个簇被当成一个簇了，所以我们首先需要对这个簇进行划分。

bisecting k-means通常比常规K-Means方法运算快一些，也和K-Means聚类方法得到结果有所不同。
  Bisecting k-means is a kind of hierarchical clustering using a divisive (or “top-down”) approach: all observations start in one cluster, and splits are performed recursively as one moves down the hierarchy.
  Bisecting K-means can often be much faster than regular K-means, but it will generally produce a different clustering.
   二分k均值算法的伪代码如下：

将所有的点看成一个簇
当簇数目小于k时对每一个簇：计算总误差在给定的簇上面进行k-均值聚类k=2计算将该簇一分为二后的总误差选择使得误差最小的那个簇进行划分操作

//BisectingKMeans和K-Means API基本上是一样的，参数也是相同的
//模型训练
val bkmeans=new BisectingKMeans().setK(2) .setMaxIter(100) .setSeed(1L) val model=bkmeans.fit(dataset) //显示聚类中心 model.clusterCenters.foreach(println) //SSE（sum of squared error）结果评估 val WSSSE=model.computeCost(dataset) println(s"within set sum of squared error = $WSSSE")

Bisecting k-means优缺点
同k-means算法一样，Bisecting k-means算法不适用于非球形簇的聚类，而且不同尺寸和密度的类型的簇，也不太适合。

摘自：http://blog.csdn.net/qq_34531825/article/details/52663428

转载于:https://www.cnblogs.com/bonelee/p/7229461.html

spark Bisecting k-means（二分K均值算法）相关推荐

机器学习算法与Python实践之（六）二分k均值聚类
机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学 ...
k均值算法二分k均值算法_如何获得K均值算法面试问题
k均值算法二分k均值算法数据科学访谈 (Data Science Interviews) KMeans is one of the most common and important cluste ...
Kmeans++、Mini-Batch Kmeans、Bisecting Kmeans、K中心点（K-Medoids）算法、K众数聚类、核K均值聚类
Kmeans++.Mini-Batch Kmeans.Bisecting Kmeans.K中心点(K-Medoids)算法.K众数聚类.核K均值聚类目录 Kmeans++.Mini-Batch Km ...
k均值算法二分k均值算法_使用K均值对加勒比珊瑚礁进行分类
k均值算法二分k均值算法 Have you ever seen a Caribbean reef? Well if you haven't, prepare yourself. 您见过加勒比礁吗? ...
k均值聚类算法(K Means)及其实战案例
算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...
k-modes算法mysql_第十一章 K-Means(K均值)算法模型实现（中）
python2 代码实现: from numpy import * import numpy def loadDataSet(fileName): #general function to parse ...
python实现k均值算法_python实现kMeans算法
聚类是一种无监督的学习,将相似的对象放到同一簇中,有点像是全自动分类,簇内的对象越相似,簇间的对象差别越大,则聚类效果越好. 1.k均值聚类算法 k均值聚类将数据分为k个簇,每个簇通过其质心,即簇中所 ...
基于SPSS的K均值算法
文章目录前言一.K均值算法是什么? 二.动画演示 1.网站 2.示例三.缺点解决(K-means++算法) 四.SPSS实现总结前言菜鸡学习数学建模一.K均值算法是什么? K-means ...
k means聚类算法_一文读懂K-means聚类算法
1.引言什么是聚类?我们通常说,机器学习任务可以分为两类,一类是监督学习,一类是无监督学习.监督学习:训练集有明确标签,监督学习就是寻找问题(又称输入.特征.自变量)与标签(又称输出.目标.因变量) ...

spark Bisecting k-means（二分K均值算法）

Bisecting k-means（二分K均值算法）

spark Bisecting k-means（二分K均值算法）相关推荐

最新文章

热门文章