[博学谷学习记录]超强总结,用心分享|人工智能机械学习基础知识KMeans总结分享
目录
KMeans介绍
算法思想
KMeans算法迭代停止条件
KMeans算法具体步骤
K-Means会不会陷入一直选质心的过程,永远停不下来?
初始的K个质心怎么选?
K均值算法的优缺点
KMeans介绍
KMeans算法属于非监督学习学习方式,KMeans++算法主要解决初始点选择问题
算法思想
以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果
KMeans算法迭代停止条件
1.迭代次数
2.簇中心变化率
3.最小平方误差MSE
KMeans算法具体步骤
随机设置K个特征空间内的点作为初始的聚类中心
对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别
接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)
如果计算得出的新中心点与原中心点一样(质心不再移动),那么结束,否则重新进行第二步过程
K-Means会不会陷入一直选质心的过程,永远停不下来?
不会,有数学证明K-Means一定会收敛,大致思路是利用SSE的概念(也就是误差平方和),即每个点到自身所归属质心的距离的平方和,这个平方和是一个函数,然后能够证明这个函数是可以最终收敛的函数。
初始的K个质心怎么选?
最常用的方法是随机选,初始质心的选取对最终聚类结果有影响,因此算法一定要多执行几次,哪个结果更具备解释性,就用哪个结果。 当然也有一些优化的方法,第一种是选择彼此距离最远的点(KMeans++),具体来说就是先选第一个点,然后选离第一个点最远的当第二个点,然后选第三个点,第三个点到第一、第二两点的距离之和最小,以此类推。第二种是先根据其他聚类算法(如层次聚类)得到聚类结果,从结果中每个分类选一个点。
K均值算法的优缺点
K-means优点
1.在算法稳定性、效率和准确率(相对于真实标签的判别)上表现非常好
2.处理较大的数据集时,该算法保持可伸缩性和高效性
3.当簇接近高斯分布时,它的效果较好。
K-means缺点
1.数据量过大的时候不适合使用k-means,当真正面对海量数据时,使用K均值算法将面临严重的结果延迟,尤其是当K均值被用做实时性或准实时性的数据预处理、分析和建模时,这种瓶颈效应尤为明显。
2.对噪声和孤立点数据敏感,不适用于发现非凸形状的簇或者大小差别很大的簇。
3.在簇的平均值可被定义的情况下才能使用
[博学谷学习记录]超强总结,用心分享|人工智能机械学习基础知识KMeans总结分享相关推荐
- [博学谷学习记录]超强总结,用心分享|人工智能机械学习基础知识线性回归总结分享
1.线性回归的核心是参数学习,线性回归和回归方程(函数)有关 2.线性回归是目标值预期是输入变量的线性组合 3.欠拟合的产生原因是学习到数据的特征过少 4.多元线性回归中的"线性" ...
- [博学谷学习记录]超强总结,用心分享|第07节 常用的API-----笔记篇
目录 1.API 1.1 API概述-帮助文档的使用 1.2 键盘录入字符串 2. String类 2.1 String概述 2.2 String类的构造方法 2.4 创建字符串对象的区别对比 2.5 ...
- {博学谷学习记录} 超强总结,用心分享|狂野架构师-前置互联网架构演变过程
本章以系统架构,数据架构,两种维度来进行讲解 目录 1 系统架构 1,1 单体架构 1.2 中台战略 2 数据库架构 2,1 单体架构 2.2 主从读写 2.3 分库分表 3 总结 1 系统架构 1, ...
- [博学谷学习记录]超强总结,用心分享|架构 Nacos入门
提示:学习笔记 欢迎指点 文章目录 前言 一.Nacos安装 二.Nacos服务注册与发现 1.服务提供者Provider 2.服务消费者Consumer 三.Nacos作为配置中心 前言 Nacos ...
- [博学谷学习记录]超强总结,用心分享|架构 敏捷 - 开发管理之道
提示:学习笔记 欢迎指点 文章目录 1.敏捷开发思想之道 2.面向对象开发之道 3.敏捷学习之道 1.敏捷开发思想之道 一名敏捷开发者,敏捷思想的掌握自然首当其冲.在敏捷开发实施的过程中,我们虽然不是 ...
- [博学谷学习记录]超强总结,用心分享|第16节 集合续-----笔记篇
目录 1.HashSet集合 1.1HashSet集合概述和特点[应用] 1.2HashSet集合的基本应用[应用] 1.3哈希值[理解] 1.4哈希表结构[理解] 1.5HashSet集合存储学生对 ...
- [博学谷学习记录]超强总结,用心分享|软件测试之计算机基础(一)
本周开始学习软件测试,而我也即将开始在平台记录我的学习之路.我会把我的个人心得及掌握的知识发布在此平台,俗话说最好的输入就是输出,希望在输出的同时能有更多的收获,也希望与大家多多交流. 为了更好的学习 ...
- [博学谷学习记录] 超强总结,用心分享|陌陌综合案例
注:大家觉得博客好的话,别忘了点赞收藏呀,本人每周都会更新关于人工智能和大数据相关的内容,内容多为原创,Python Java Scala SQL 代码,CV NLP 推荐系统等,Spark Flin ...
- [博学谷学习记录]超强总结,用心分享|Hive的压缩格式
压缩格式 工具 算法 文件扩展名 是否可切分 DEFAULT 无 DEFAULT .deflate 否 Gzip gzip DEFAULT .gz 否 bzip2 bzip2 bzip2 .bz2 是 ...
最新文章
- stl的nth_element
- 从CSRF原理到CMS漏洞利用
- java学习笔记2022.1.15
- 点击出现黑色背景的解决:-webkit-tap-highlight-color:rgba(0,0,0,0)
- mysql流程控制_Mysql之流程控制结构
- 尽管速度如此之慢,为什么Python如此受欢迎?
- (转)Bootstrap 之 Metronic 模板的学习之路 - (1)总览
- vue router-link子级返回父级页面
- 对中级Linux用户有用的20个命令
- 通过 Kubeadm联网部署K8S
- 关于websocket 在生产环境中遇到的问题 及 解决办法
- 洛谷 P2804 神秘数字
- 拓端tecdat|R语言随机波动率(SV)模型、MCMC的Metropolis-Hastings算法金融应用:预测标准普尔SP500指数
- 手机组态软件 APP监控台达PLC C#全套源代码
- 使用DevCpp/DevC++调试的设置和步骤
- 计算机窗口的排列和切换,win10系统操作多窗口显示排列切换的方案介绍
- 制作png格式透明图片的简易方法
- Jenkins书籍推荐
- c语言解惑 指针 数组 函数和多文件编程,C语言解惑 指针、数组、函数和多文件编程...
- Typical of the grassland dwellers of the continent is the American antelope