一.基本概念

无监督问题,不需要标签

难点:如何评估聚类结果,如何调参(也由于不能评估结果导致)

k-means

  • 要得到簇的个数,需要指定K值
  • 质心:均值,即向量各维取平均即可
  • 距离的度量:常用欧几里得距离和余弦相似度(先标准化)
  • 优化目标:(k表示k个聚类中心,ci表示第几个中心,dist表示的是欧几里得距离)

 二.基本过程

算法过程

  • 随机选取K个对象作为初始聚类中心
  • 将数据样本集合中的样本按照最小距离原则分配到最邻近聚类
  • 根据聚类的结果,重新计算K个聚类的中心,并作为新的聚类中心
  • 重复步骤2和3,直到聚类中心不再变化

三.优缺点

优势

  • 简单,快速,适合常规数据集

劣势

  • K值难确定
  • 复杂度与样本呈线性关系
  • 很难发现任意形状的簇

简单,快速,适合常规数据集

参考:

https://blog.csdn.net/taoyanqi8932/article/details/53727841

k表示k个聚类中心,ci表示第几个中心,dist表示的是欧几里得距离。

转载于:https://www.cnblogs.com/xyp666/p/9201485.html

聚类分析一:K-MEANS算法相关推荐

  1. kmeans改进 matlab,基于距离函数的改进k―means 算法

    摘要:聚类算法在自然科学和和社会科学中都有很普遍的应用,而K-means算法是聚类算法中经典的划分方法之一.但如果数据集内相邻的簇之间离散度相差较大,或者是属性分布区间相差较大,则算法的聚类效果十分有 ...

  2. k means算法C语言伪代码,K均值算法(K-Means)

    1. K-Means算法步骤 算法步骤 收敛性定义,畸变函数(distortion function): 伪代码: 1) 创建k个点作为K个簇的起始质心(经常随机选择) 2) 当任意一个点的蔟分配结果 ...

  3. k均值聚类算法(K Means)及其实战案例

    算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...

  4. K means 图片压缩

    k-means的基本原理较为清晰,这里不多赘述,本次博客主要通过基础的k means算法进行图像的压缩处理. 原理分析 在彩色图像中,每个像素的大小为3字节(RGB),可以表示的颜色总数为256 * ...

  5. SPSS聚类分析:K均值聚类分析

    SPSS聚类分析:K均值聚类分析 一.概念:(分析-分类-K均值聚类) 1.此过程使用可以处理大量个案的算法,根据选定的特征尝试对相对均一的个案组进行标识.不过,该算法要求您指定聚类的个数.如果知道, ...

  6. 独家 | R语言中K邻近算法的初学者指南:从菜鸟到大神(附代码&链接)

    作者:Leihua Ye, UC Santa Barbara 翻译:陈超 校对:冯羽 本文约2300字,建议阅读10分钟 本文介绍了一种针对初学者的K临近算法在R语言中的实现方法. 本文呈现了一种在R ...

  7. OpenCV的k - means聚类 -对图片进行颜色量化

    OpenCV的k - means聚类 目标 学习使用cv2.kmeans()数据聚类函数OpenCV 理解参数 输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列. ...

  8. OpenCV官方文档 理解k - means聚类

    理解k - means聚类 目标 在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论 我们将这个处理是常用的一个例子. t恤尺寸问题 考虑一个公司要发布一个新模型的t恤. 显然 ...

  9. 文献记录(part89)--I-k-means-+:An iterative clustering algorithm based on an enhanced k -means

    学习笔记,仅供参考,有错必究 关键词:k均值:解决方案改进:准确的k均值:迭代改进 I-k-means-+:An iterative clustering algorithm based on an ...

  10. k均值算法 二分k均值算法_如何获得K均值算法面试问题

    k均值算法 二分k均值算法 数据科学访谈 (Data Science Interviews) KMeans is one of the most common and important cluste ...

最新文章

  1. Nature子刊:加州大学伯克利分校Banfield组发现某些淡水湖泊中的大噬菌体或能加速好氧甲烷氧化...
  2. JDBC——数据库的隔离级别
  3. Java打乱牌的算法_Leetcode 384. 打乱数组 (洗牌算法)
  4. Hyperledger Fabric 智能合约实战 (2)软件安装Docker、 Docker-composer、go
  5. fullyRelease
  6. JavaScript 中的函数介绍
  7. centos7下memcached的安装配置
  8. mnist数据集读取并保存为Numpy数组
  9. Windows cmd 颜色,字体,color font set up
  10. kA*与(kA)*的行列式计算
  11. 成年人的21个规则,必须知道
  12. PAT之图:遍历、最短路径dijkstra
  13. php面试专题---1、php中变量存储及引用的原理
  14. dump java 分析工具,java内存分析工具 jmap,jhat及dump分析
  15. 取之盈--别人轻松月薪过万,都是怎样高效学习的?
  16. sdk 今日头条_今日头条商业SDK(激励视频)的坑
  17. Win7 Python3.5安装Scrapy
  18. MarkDown添加图片的三种方式
  19. 直播出新规 这些行为会被限制参加活动
  20. 呼叫中心的软电话架构

热门文章

  1. 编程基本功:代码都写不好,还写什么注释
  2. 如何给硬盘分1T整数的空间
  3. 僵化封闭的苹果:鼠标不支持右键,键盘没有DEL键
  4. 为不干活的员工辩护,要小心
  5. 拿了工资就要干活,不干活不是成了骗钱?
  6. eclipse中如何搜索带\的字串
  7. 鸟类的视力很惊人,如何从高空中发现食物
  8. 几人同行时步伐总是整齐
  9. 从山顶透过云层看城市
  10. C语言中的宏之#define