概述

K-means分类算法属于无监督类学习算法。

该分类算法不需要训练算法,直接对待分类点进行决策分类。

算法原理

算法实现过程如下所示:

1、随机创建k个点作为起始质心(也不是完全随机的,创建的质心必须在整个数据集边界内部,即每个质心的每个每一维的取值必须在数据该维度的最大和最小值之间)

2、将数据集中每个数据点分配到对应的质心

计算数据集中每个数据点与k个质心的距离,将数据点分配到距离其最近的质心

3、对每一个簇,计算簇中所有点的均值并将均值作为质心

4、重复步骤2和步骤3,直到所有点的分配结果都不在改变

举例说明

(a)绿色的点表示原始的数据集

(b)在原始数据集边界范围内随机生成两个质心(K=2)

(c)比较整个数据集中每个数据点与两个质心的距离,将其划分到距离较近的簇中(如图中将每个点修改为红色或蓝色)

(d)计算每个簇的均值,找到新的质心(新的红色和蓝色的X,注意这里寻找质心的计算过程尽在上次分好的每个簇内进行)

(e)重新比较整个数据集中每个数据点与新的质心的距离,并重新划分

(f)计算新生成的每个簇的均值,作为质心。

重新计算整个数据集中每个数据点与新的质心的距离,当所有数据点的分类结果都不再变化时,停止迭代

--------------

总结:通过上述过程可知,实际上是先划分好簇,然后才得到最终的质心的

关于计算数据点与质心的距离有不同的方法,得到的分类效果也可能不同,常见的有欧式距离、SSE(误差平方和)

《机器学习实战》学习总结(五)K-means算法原理相关推荐

  1. 统计学方法机器学习实战(二) K近邻算法

    目录 一.前言: 二.理论难点: 距离度量: 欧式距离: 三.数据可视化 四.数据归一化: 五.代码实践: 理论补充 实验一: 海伦约会 实验二 使用sklearn实现knn 六.总结 1.kNN算法 ...

  2. 《机器学习实战》——kNN(k近邻算法)

    原作者写的太好了,包括排版都特别整齐(其中有一个错误之处就是在约会网站配对效果判定的时候,列表顺序不对,导致结果有误,这里我已做出修改) 原作者和出处:http://blog.csdn.net/c40 ...

  3. 机器学习实战学习笔记 一 k-近邻算法

    k-近邻算法很简单,这里就不赘述了,主要看一下python实现这个算法的一些细节.下面是书中给出的算法的具体实现. def clssify(inX,dataset,label,k):#计算距离data ...

  4. 机器学习实战(一)—— K-近邻算法(KNN)

    本系列文章以<机器学习实战>为基础,并结合B站的UP主shuhuai008的机器学习白板推导系列合集,加强对机器学习基础算法的理解及运用. 如果大家对计算机视觉感兴趣可以参考博主的计算机视 ...

  5. 机器学习实战-65:主成因分析降维算法(Principal Component Analysis)

    机器学习实战-65:主成因分析降维算法(PCA) 深度学习原理与实践(开源图书)-总目录,建议收藏,告别碎片阅读! 机器学习分为监督学习.无监督学习和半监督学习(强化学习).无监督学习最常应用的场景是 ...

  6. 机器学习第七章之K近邻算法

    K近邻算法(了解) 7.1 K近邻算法 7.1.1 K近邻算法的原理介绍 7.1.2 K近邻算法的计算步骤及代码实现 7.2 数据预处理之数据归一化 7.2.1 min-max标准化 7.2.2 Z- ...

  7. kmeans改进 matlab,基于距离函数的改进k―means 算法

    摘要:聚类算法在自然科学和和社会科学中都有很普遍的应用,而K-means算法是聚类算法中经典的划分方法之一.但如果数据集内相邻的簇之间离散度相差较大,或者是属性分布区间相差较大,则算法的聚类效果十分有 ...

  8. 吴恩达《机器学习》学习笔记五——逻辑回归

    吴恩达<机器学习>学习笔记五--逻辑回归 一. 分类(classification) 1.定义 2.阈值 二. 逻辑(logistic)回归假设函数 1.假设的表达式 2.假设表达式的意义 ...

  9. 机器学习实战学习提纲

    机器学习实战学习提纲 学习目录 第一部分 分类 第1章 机器学习基础 第2章 k-近邻算法 第3章 决策树 第4章 基于概率论的分类方法:朴素贝叶斯 第5章 Logistic回归 第6章 支持向量机 ...

  10. Apollo星火计划学习笔记——Apollo开放空间规划算法原理与实践

    文章目录 前言 1. 开放空间规划算法总体介绍 1.1 Task: OPEN_SPACE_ROI_DECIDER 1.2 Task: OPEN_SPACE_TRAJECTORY_PROVIDER 1. ...

最新文章

  1. mysql触发器新元组_MySQL触发器-条件触发器语法
  2. python和按键精灵自动化测试_按键精灵对APP自动化测试(下)
  3. [蓝桥杯][算法提高VIP]密码锁(BFS)
  4. c/c++整理--析构函数
  5. 使用map的find头文件_C++ map的基本操作和使用
  6. Bootstrap3 滚动监听的使用方法
  7. 海底捞发布公告 预计去年最高亏损45亿
  8. Linq lambda表达式经验总结
  9. linux基本操作命令的使用
  10. 为什么接口在设计时所有的方法一般都要抛异常?
  11. exec调用oracle,exec 和 call 用法详解
  12. 服务器30hz显示器240hz,显示器刷新率上不去,这锅到底让谁背
  13. 二进制漏洞挖掘技术实战
  14. 计算机设计大赛海报素材,海报创意设计比赛方案(word版)
  15. java窗口图标怎么换_如何更改Swing窗口的默认图标?
  16. 熔断机制什么意思_熔断机制是什么意思?熔断机制的作用
  17. Combined Margin loss人脸识别训练笔记
  18. Java笔试/面试题
  19. 软考java题目_软件工程软考题目总结
  20. 基于MATLAB的语音去噪处理系统

热门文章

  1. 手把手教你最好用的数据分析方法,会用的没几个
  2. 这可能是今年最值得推荐的数据分析工具!
  3. 地产IT人福利:帆软地产BI解决方案全解析
  4. AS3多线程快速入门(一):Hello World[
  5. 案例学习BlazeDS+Spring之四InSync02使用RemoteObject事件
  6. Flex App的Size和Link报告
  7. java的serializable_Java里Serializable的那些事
  8. python字典api_python接口自动化(九)--python中字典和json的区别(详解)
  9. 设置Visual Studio code停止自动更新
  10. 450g吐司烘烤温度_这不可能是吐司!不,是的