Similar to other algorithm, K-mean clustering has many weaknesses:

1 When the numbers of data are not so many, initial grouping will determine the cluster significantly.  当数据数量不是足够大时,初始化分组很大程度上决定了聚类,影响聚类结果。
2 The number of cluster, K, must be determined before hand.  要事先指定K的值。
3 We never know the real cluster, using the same data, if it is inputted in a different order may produce different cluster if the number of data is a few. 数据数量不多时,输入的数据的顺序不同会导致结果不同。
4 Sensitive to initial condition. Different initial condition may produce different result of cluster. The algorithm may be trapped in the local optimum. 对初始化条件敏感。
5 We never know which attribute contributes more to the grouping process since we assume that each attribute has the same weight. 无法确定哪个属性对聚类的贡献更大。
6 weakness of arithmetic mean is not robust to outliers. Very far data from the centroid may pull the centroid away from the real one. 使用算术平均值对outlier不鲁棒。
7 The result is circular cluster shape because based on distance.  因为基于距离,故结果是圆形的聚类形状。

One way to overcome those weaknesses is to use K-mean clustering only if there are available many data. To overcome outliers problem, we can use median instead of mean.  克服缺点的方法: 使用尽量多的数据;使用中位数代替均值来克服outlier的问题。

Some people pointed out that K means clustering cannot be used for other type of data rather than quantitative data. This is not true! See how you can use multivariate data up to n dimensions (even mixed data type) here. The key to use other type of dissimilarity is in the distance matrix.

http://people.revoledu.com/kardi/tutorial/kMean/Weakness.htm

转载于:https://www.cnblogs.com/emanlee/archive/2012/03/06/2381617.html

k-means k均值聚类的弱点/缺点相关推荐

  1. 聚类分析 | MATLAB实现k-Means(k均值聚类)分析

    目录 聚类分析 | MATLAB实现k-Means(k均值聚类)分析 k-均值聚类简介 相关描述 程序设计 学习小结 参考资料 致谢 聚类分析 | MATLAB实现k-Means(k均值聚类)分析 k ...

  2. spss实现k均值聚类

    机器学习中的k均值聚类属于无监督学习,所谓k指的是簇类的个数,也即均值向量的个数.算法初始状态下,要根据我们设定的k随机生成k个中心向量,随机生成中心向量的方法既可以随机从样本中抽取k个样本作为中心向 ...

  3. 为了联盟还是为了部落 | K means

    1. 问题 人类有个很有趣的现象,一群人在一起,过一段时间就会自发的形成一个个的小团体.好像我们很擅长寻找和自己气质接近的同类.其实不只是人类,数据也有类似情况,这就是聚类(Clustering)的意 ...

  4. k均值聚类算法(K Means)及其实战案例

    算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...

  5. K均值聚类关于初始聚类中心的探讨

    摘要:进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注.数据挖掘是指从数据库中发现隐含在大量数据中的新颖的.潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现. ...

  6. 讨论k值以及初始聚类中心对聚类结果的影响_K均值聚类需要标准化数据吗

    摘要:进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注.数据挖掘是指从数据库中发现隐含在大量数据中的新颖的.潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现. ...

  7. 机器学习(十四):K均值聚类(kmeans)

    k均值聚类方法是一种无监督机器学习技术,用于识别数据集中的数据对象集群.有许多不同类型的聚类方法,但k -means是最古老和最平易近人的方法之一.这些特性使得在 Python 中实现k -means ...

  8. Udacity机器人软件工程师课程笔记(二十一) - 对点云进行集群可视化 - 聚类的分割 - K-means|K均值聚类, DBSCAN算法

    聚类的分割 1.K-均值聚类 (1)K-均值聚类介绍 k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心 ...

  9. k均值聚类算法考试例题_一文读懂K-means聚类算法

    1.引言 什么是聚类?我们通常说,机器学习任务可以分为两类,一类是监督学习,一类是无监督学习.监督学习:训练集有明确标签,监督学习就是寻找问题(又称输入.特征.自变量)与标签(又称输出.目标.因变量) ...

最新文章

  1. vue 获取当前时间 格式YYYY-MM-DD
  2. mysql 创建师徒_mysql基础整理
  3. LeetCode-动态规划基础题-62. 不同路径
  4. 03_ClickHouse数据格式,TabSeparated、TSKV、CSV格式、JSON格式、Parquet、ORC、其它数据格式(Native,Pretty,Values,Vertical等)
  5. 利用Java实现串口全双工通讯
  6. Polygonal-Light Shading with LTC
  7. 分治算法求最大最小值c语言,[蓝桥杯][算法提高VIP]和最大子序列 (C语言代码)分治法...
  8. Python 微信定向问好
  9. abi-api, arm target triplet https://en.wikipedia.org/wiki/ARM_architecture
  10. python FIFO命名管道
  11. mysql配置ip和端口_连接(Connectivity)选项中,“TCP/IP”复选项选中表示启用TCP/IP网络协议,配置连接MySQL服务器的默认端口号为“3306”。_学小易找答案...
  12. 【sv】getenv 【import “DPI-C“】
  13. 机房服务器维修,机房维护方案
  14. 6-7 十进制转换二进制(15 分)
  15. 光影之间,人类向虚拟世界探索史
  16. python爬虫教材推荐 豆瓣_Python爬虫爬取豆瓣书籍数据
  17. 全同态加密(FHE)体系概述(初学版)
  18. 2023年大学英语B统考题库网考大学英语B试题(完整版)
  19. git提交远程报错[rejected] master -> master (fetch first)
  20. InDesign 教程如何创建风格化的书籍封面?

热门文章

  1. php获取post全部数据,PHP获取POST数据的几种方法汇总_PHP教程
  2. java 前后的区别_java中前后++的区别
  3. 如何将文件拷贝服务器上,如何将文件复制到云服务器上
  4. mnesia mysql性能,Mnesia数据库的存储容量是多少?
  5. java自定义线程_Java自定义线程池详解
  6. Java获取系统时间
  7. 为什么人会摆高姿态_Yo , 你为什么喜欢冲浪?
  8. windows无法安装到这个磁盘,windos必须安装在格式化为NTFS的分区
  9. codeforces71A-C语言解题报告
  10. IDR、CRA、BLA、RASL、RADL、closed-gop、open-gop