在网上查看了些博客,感觉大家都对数学公式的解释的比较晦涩,下面我结合一个非常简单的示意图解释下他的数学公式,理解不到位的请留言。

kmeans是一种聚类算法下面是算法的描述

  • 给定训练样本是每一个

,即每一个样本元素都是n维向量。为了便于理解在后面的示意图中采用二维的向量。

step1:
   随机选取k个聚类质心点为

step2:
   重复下面过程直到手链

对于每一个样本i计算其应该属于的类

对于每一个类,重新计算该类的质心

以下是转自http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html的解释

其中,K是给定的聚类数,代表样例i与k个类中距离最近的那个类,的值是1到k中的一个。质心代表我们对属于同一个类的样本中心点的猜测,拿星团模型来解释就是要将所有的星星聚成k个星团,首先随机选取k个宇宙中的点(或者k个星星)作为k个星团的质心,然后第一步对于每一个星星计算其到k个质心中每一个的距离,然后选取距离最近的那个星团作为,这样经过第一步每一个星星都有了所属的星团;第二步对于每一个星团,重新计算它的质心(对里面所有的星星坐标求平均)。重复迭代第一步和第二步直到质心不变或者变化很小。

相信到这里很多人看的一头雾水,这里我接着博主的描述再进一步解释。

第一个公式中的arg是标记符号,即表明哪个样本参数属于哪个类用的,后面的紧跟着的min最小化j是我们接下来要说的J这个函数。如下:
这是kmeans算法中定性描述,公式里面的符号还是上面所说的符号。表示第1个样本所属的类别,表示数据点x(i)被归类到 的时候为 1 ,否则为 0 。

下面通过图文来解释这个公式,一直按照流程聚类一个样本相信大家就能很好地理解这个公式表达的意思了

  • 用kmeans算法将三个样本聚类成2类,图中的红点为样本点,蓝点为随即初始的两类的样本点的质心,黑色连线代表每个样本点到某一类质心的距离。J函数最小的意思就是选取这些黑色的距离线使其长度和最小,并且从红点出发的线只能选取一次,即如图中的1.9这条线和2这条线由于都是从同一个红点出发所以只能选取一个进行相加,选取的总线数就是红点的个数,下面两张图分别是多种组合选择的二种选取结果

其中绿线为选取的线,他们的和为1.9+2+2.3=6.2

其中绿线为选取的线,他们的和为1.9+1.2+1=4.1

对比上面两张图可以看出,后者的和小,即J值小。这里第二种选取方案也是全局最优选取方案,即所有选取方案中最小的一个。此时,可以把三个点分成两类,如下图

分成2类后再重新计算每类的质心,以及质心到各个样本点的距离,如下图。需要注意的是由于黄色类只有一个样本点,即该类的质点就是该样本点,故其中一个“0”表示质点到该样本点的距离为零。

仍然按照,找每个红点到蓝点的一条线的和最小的组合方式,注意每个红点到蓝点的多个距离值只容许一条计算,下图是错误的,其中一个红有两条线参加了计算,1和0.8这两条线只能有一天参与求和。

此时,样本被分成新的两类,如下图

再求新分的两类的质心

重复以上操作,直到质心不变,即J函数值最小,结束算法。

Kmeans原理公式图文详解相关推荐

  1. SSH原理之图文详解

    一.Telnet和SSH 1.Telnet        Telnet是一个远程连接服务是一个C/S架构,具有Server端和Client端,Client通过telnet协议连接到服务器端,这是早期常 ...

  2. 硬盘的读写原理(图文详解)

    硬盘的种类主要是SCSI .IDE .以及现在流行的SATA等:任何一种硬盘的生产都要一定的标准:随着相应的标准的升级,硬盘生产技术也在升级:比如 SCSI标准已经经历了SCSI-1 .SCSI-2. ...

  3. 全息投影是计算机技术吗,「图文」3D全息投影技术原理【图文详解】-火米互动...

    什么是3D全息投影技术 3D全息投影技术主要是利用干涉和衍射的原理将物体的三维图像进行再现,是全息摄影技术的逆向展示过程.其第一步是利用干涉原理记录物体光波信息,即拍摄过程;第二步是利用衍射原理再现物 ...

  4. 数字签名,数字证书,证书链原理(图文详解)

    文章目录 数字签名,数字证书,加密简述 数字签名原理 数字证书原理 证书链 数字签名,数字证书,加密简述 数字签名:谈及数字签名,就如小时候老师叫把卷子或者作业带回去给家长签字.只不过数字签名非物理用 ...

  5. 原理 rpm_图文详解,微型直流电机的工作原理

    导语:微型电机是通过将电能转化为机械能,通过运转提供动力源.不少产品需求较大的启动扭矩,微型直流电机有高扭矩特性,能应用在扭矩大的产品,并且电机的转速可以调整.适应负载,所以微型直流电机一直应用非常广 ...

  6. 【图文详解】一文全面彻底搞懂HBase、LevelDB、RocksDB等NoSQL背后的存储原理:LSM-tree日志结构合并树...

    LSM 树广泛用于数据存储,例如 RocksDB.Apache AsterixDB.Bigtable.HBase.LevelDB.Apache Accumulo.SQLite4.Tarantool.W ...

  7. TYPE-C接口的工作原理图文详解

    TYPE-C接口的工作原理图文详解 发表于 2018-01-29 09:53:53 电子常识 +关注 2016年,有一个名词在手机上非常火,几乎所有的旗舰手机都会提到这个名词,说到这,大家应该都够猜到 ...

  8. Docker持续部署图文详解

    2019独角兽企业重金招聘Python工程师标准>>> Docker持续部署图文详解 博客分类: docker 架构 JAVA项目如何通过Docker实现持续部署(只需简单四步),即 ...

  9. php。defined,PHP defined()函数的使用图文详解

    PHP defined()函数的使用图文详解 PHP defined() 函数 例子 定义和用法 defined() 函数检查某常量是否存在. 若常量存在,则返回 true,否则返回 false. 语 ...

最新文章

  1. hbase 修改表名_HBase学习——2.HBase原理
  2. 让Ubuntu自动登录到X
  3. asp.net DBHelper类
  4. What‘s new in dubbo-go v1.5.6
  5. Android中处理崩溃异常 (转)
  6. active server pages 错误 asp 0126_最终选型 Blazor.Server:又快又稳!
  7. 3D人脸识别预处理,3D face recognition preprocess
  8. jquery中的serializeArray方法的使用
  9. python给定一个整数n、判断n是否为素数_输入一个大于3的整数n,判断它是否为素数...
  10. Vue填坑(v-model和:model)
  11. 计算器计算经纬距离_经纬度距离角度计算工具
  12. 1 | GNN基础理论
  13. 审题解题没思路?算法大赛出题方为你指点迷津!
  14. php三步运算法,小技巧----“三步翻转法”
  15. 关于清除贴图与光域网路径
  16. Unity3D游戏开发之MMD For Unity插件研究
  17. 【PTA】统计素数并求和
  18. GoLang使用sync.Once
  19. 2021振兴杯参赛后感(部分writeup)
  20. Flink 灵魂两百问,这谁顶得住?

热门文章

  1. 【LMX2594调试软件TICS PRO的使用】
  2. JPA学习 —— 第十四课、 关连查询
  3. c语言程序如何调成夜间模式,微信再改版!相比“夜间模式”,这些新功能更有趣...
  4. linux服务器下数学软件下载,八年级初中数学软件-八年级初中数学学习app下载v1.0.5-Linux公社...
  5. Linux中ls查看前十个文件,linux ls命令的20个实用范例
  6. 期货开户的具体程序是什么?
  7. Android裁剪图片为圆形图片
  8. 微信 初始 for if 绑定数据 修改数据
  9. HTML——文本域标签(textarea)
  10. android 日历动态图标,Android 日历action_search ActionBar更改home图标