目录

KMeans介绍

算法思想

KMeans算法迭代停止条件

KMeans算法具体步骤

K-Means会不会陷入一直选质心的过程,永远停不下来?

初始的K个质心怎么选?

K均值算法的优缺点


KMeans介绍

KMeans算法属于非监督学习学习方式,KMeans++算法主要解决初始点选择问题

算法思想

以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果

KMeans算法迭代停止条件

1.迭代次数

2.簇中心变化率

3.最小平方误差MSE

KMeans算法具体步骤

  1. 随机设置K个特征空间内的点作为初始的聚类中心

  2. 对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别

  3. 接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)

  4. 如果计算得出的新中心点与原中心点一样(质心不再移动),那么结束,否则重新进行第二步过程

K-Means会不会陷入一直选质心的过程,永远停不下来?

不会,有数学证明K-Means一定会收敛,大致思路是利用SSE的概念(也就是误差平方和),即每个点到自身所归属质心的距离的平方和,这个平方和是一个函数,然后能够证明这个函数是可以最终收敛的函数。

初始的K个质心怎么选?

最常用的方法是随机选,初始质心的选取对最终聚类结果有影响,因此算法一定要多执行几次,哪个结果更具备解释性,就用哪个结果。 当然也有一些优化的方法,第一种是选择彼此距离最远的点(KMeans++),具体来说就是先选第一个点,然后选离第一个点最远的当第二个点,然后选第三个点,第三个点到第一、第二两点的距离之和最小,以此类推。第二种是先根据其他聚类算法(如层次聚类)得到聚类结果,从结果中每个分类选一个点。

K均值算法的优缺点

K-means优点

1.在算法稳定性、效率和准确率(相对于真实标签的判别)上表现非常好

2.处理较大的数据集时,该算法保持可伸缩性和高效性

3.当簇接近高斯分布时,它的效果较好。
K-means缺点
1.数据量过大的时候不适合使用k-means,当真正面对海量数据时,使用K均值算法将面临严重的结果延迟,尤其是当K均值被用做实时性或准实时性的数据预处理、分析和建模时,这种瓶颈效应尤为明显。
2.对噪声和孤立点数据敏感,不适用于发现非凸形状的簇或者大小差别很大的簇。
3.在簇的平均值可被定义的情况下才能使用

[博学谷学习记录]超强总结,用心分享|人工智能机械学习基础知识KMeans总结分享相关推荐

  1. [博学谷学习记录]超强总结,用心分享|人工智能机械学习基础知识线性回归总结分享

    1.线性回归的核心是参数学习,线性回归和回归方程(函数)有关 2.线性回归是目标值预期是输入变量的线性组合 3.欠拟合的产生原因是学习到数据的特征过少 4.多元线性回归中的"线性" ...

  2. [博学谷学习记录]超强总结,用心分享|第07节 常用的API-----笔记篇

    目录 1.API 1.1 API概述-帮助文档的使用 1.2 键盘录入字符串 2. String类 2.1 String概述 2.2 String类的构造方法 2.4 创建字符串对象的区别对比 2.5 ...

  3. {博学谷学习记录} 超强总结,用心分享|狂野架构师-前置互联网架构演变过程

    本章以系统架构,数据架构,两种维度来进行讲解 目录 1 系统架构 1,1 单体架构 1.2 中台战略 2 数据库架构 2,1 单体架构 2.2 主从读写 2.3 分库分表 3 总结 1 系统架构 1, ...

  4. [博学谷学习记录]超强总结,用心分享|架构 Nacos入门

    提示:学习笔记 欢迎指点 文章目录 前言 一.Nacos安装 二.Nacos服务注册与发现 1.服务提供者Provider 2.服务消费者Consumer 三.Nacos作为配置中心 前言 Nacos ...

  5. [博学谷学习记录]超强总结,用心分享|架构 敏捷 - 开发管理之道

    提示:学习笔记 欢迎指点 文章目录 1.敏捷开发思想之道 2.面向对象开发之道 3.敏捷学习之道 1.敏捷开发思想之道 一名敏捷开发者,敏捷思想的掌握自然首当其冲.在敏捷开发实施的过程中,我们虽然不是 ...

  6. [博学谷学习记录]超强总结,用心分享|第16节 集合续-----笔记篇

    目录 1.HashSet集合 1.1HashSet集合概述和特点[应用] 1.2HashSet集合的基本应用[应用] 1.3哈希值[理解] 1.4哈希表结构[理解] 1.5HashSet集合存储学生对 ...

  7. [博学谷学习记录]超强总结,用心分享|软件测试之计算机基础(一)

    本周开始学习软件测试,而我也即将开始在平台记录我的学习之路.我会把我的个人心得及掌握的知识发布在此平台,俗话说最好的输入就是输出,希望在输出的同时能有更多的收获,也希望与大家多多交流. 为了更好的学习 ...

  8. [博学谷学习记录] 超强总结,用心分享|陌陌综合案例

    注:大家觉得博客好的话,别忘了点赞收藏呀,本人每周都会更新关于人工智能和大数据相关的内容,内容多为原创,Python Java Scala SQL 代码,CV NLP 推荐系统等,Spark Flin ...

  9. [博学谷学习记录]超强总结,用心分享|Hive的压缩格式

    压缩格式 工具 算法 文件扩展名 是否可切分 DEFAULT 无 DEFAULT .deflate 否 Gzip gzip DEFAULT .gz 否 bzip2 bzip2 bzip2 .bz2 是 ...

最新文章

  1. stl的nth_element
  2. 从CSRF原理到CMS漏洞利用
  3. java学习笔记2022.1.15
  4. 点击出现黑色背景的解决:-webkit-tap-highlight-color:rgba(0,0,0,0)
  5. mysql流程控制_Mysql之流程控制结构
  6. 尽管速度如此之慢,为什么Python如此受欢迎?
  7. (转)Bootstrap 之 Metronic 模板的学习之路 - (1)总览
  8. vue router-link子级返回父级页面
  9. 对中级Linux用户有用的20个命令
  10. 通过 Kubeadm联网部署K8S
  11. 关于websocket 在生产环境中遇到的问题 及 解决办法
  12. 洛谷 P2804 神秘数字
  13. 拓端tecdat|R语言随机波动率(SV)模型、MCMC的Metropolis-Hastings算法金融应用:预测标准普尔SP500指数
  14. 手机组态软件 APP监控台达PLC C#全套源代码
  15. 使用DevCpp/DevC++调试的设置和步骤
  16. 计算机窗口的排列和切换,win10系统操作多窗口显示排列切换的方案介绍
  17. 制作png格式透明图片的简易方法
  18. Jenkins书籍推荐
  19. c语言解惑 指针 数组 函数和多文件编程,C语言解惑 指针、数组、函数和多文件编程...
  20. Typical of the grassland dwellers of the continent is the American antelope

热门文章

  1. 最近使用的一款session工具:sa-Token
  2. 话单数据采集简单了解
  3. 七夕 | 情人节 | 用Python给你送个钻石戒指
  4. mapstruct java: Ambiguous mapping methods found for mapping collection element
  5. Nothing is impossible
  6. matlab矩阵学习—郭彦甫老师笔记
  7. Ceph分布式存储详述
  8. 基于localstorage实现增删改查功能
  9. Spring Boot学习笔记(超详细)
  10. windows关机命令