文章目录

  • 前言
  • 一、K均值算法是什么?
  • 二、动画演示
    • 1.网站
    • 2.示例
  • 三、缺点解决(K-means++算法)
  • 四、SPSS实现
  • 总结

前言

菜鸡学习数学建模


一、K均值算法是什么?

K-means聚类的算法流程:
一、指定需要划分的簇的个数K值(类的个数);
二、随机地选择K个数据对象作为初始的聚类中心(不一定要是我们的样本点) ;
三、计算其余的各个数据对象到这K个初始聚类中心的距离,把数据对象划归到距离它最近的那个中
心所处在的簇类中;
四、调整新类并且重新计算出新类的中心;
五、循环步骤三和四,看中心是否收敛(不变),如果收敛或达到迭代次数则停止循环;
六、结束。

优点:
(1)算法简单、快速。
(2)对处理大数据集,该算法是相对高效率的。
缺点:
(1)要求用户必须事先给出要生成的簇的数目k。()对初值敏感。
(3)对于孤立点数据敏感。

二、动画演示

1.网站

可视化K均值聚类网站

2.示例

确定初始点

不断更新得到结果

对于不同的分类点结果不一样

三、缺点解决(K-means++算法)

K-means++算法选择初始聚类中心的基本原则是:初始的聚类中心之间的相互距离要尽可能的远。

一一算法描述如下:
(只对K一means算法“初始化K个聚类中心”这一步进行了优化)
步骤一:随机选取一个样本作为第一个聚类中心;
步骤二:计算每个样本与当前已有聚类中心的最短距离(即与最近一个聚类中心的距离),这个值越大,表示被选取作为聚类中心的概率较大;最后,用轮盘法(依据概率大小来进行抽选)选出下一个聚类中心;
步骤三:重复步骤二,直到选出K个聚类中心。选出初始点后,就继续使用标准的K-means算法了。

四、SPSS实现

首先导入数据

将数据标准化

选择K均值算法(实际是K均值++算法)

选择变量和个案标注依据,设置好类别数目

得到最终聚类中心

以及聚类结果(部分)

总结

没有总结,嘿嘿

基于SPSS的K均值算法相关推荐

  1. 基于K均值算法的鸢尾花聚类实验(Sklearn实现)

    实验代码 ##### 相关库导入部分 ##### from sklearn.datasets import load_iris import pandas as pd from sklearn.pre ...

  2. k-modes算法mysql_第十一章 K-Means(K均值)算法模型实现(中)

    python2 代码实现: from numpy import * import numpy def loadDataSet(fileName): #general function to parse ...

  3. k均值算法 二分k均值算法_如何获得K均值算法面试问题

    k均值算法 二分k均值算法 数据科学访谈 (Data Science Interviews) KMeans is one of the most common and important cluste ...

  4. k均值算法 二分k均值算法_使用K均值对加勒比珊瑚礁进行分类

    k均值算法 二分k均值算法 Have you ever seen a Caribbean reef? Well if you haven't, prepare yourself. 您见过加勒比礁吗? ...

  5. 基于Python的k均值聚类不同规格的商品名

    基于Python的k均值聚类不同规格的商品名 前言 聚类的目标是使得同一簇内的点之间的距离较短,而不同簇中点之间的距离较大.以此来区分不同的群体. 本篇讲述使用k均值算法对超市购物记录集中的商品名称进 ...

  6. k均值算法python实现(吴恩达机器学习作业)

    k均值算法python实现(吴恩达机器学习作业) 题目要求 数据集 读取mat文件 K-means 实现 结果 问题 题目要求 采用K均值算法对样本进行聚类. 编写K均值算法源代码,对ex7data2 ...

  7. 百面机器学习—7.K均值算法、EM算法与高斯混合模型要点总结

    文章目录 一.总结K均值算法步骤 二.如何合理选择K值? 三.K均值算法的优缺点是什么? 四.如何对K均值算法进行调优? 五.EM算法解决什么问题? 六.EM算法流程是什么? 六.EM算法能保证收敛嘛 ...

  8. 数据挖掘--“聚类”详解、K-means、K-平均值算法、K均值算法

    一. 什么是聚类 二. 聚类步骤 三. 聚类算法有哪些 1 层次聚类算法 2 划分聚类算法 3 基于密度的聚类算法 4 基于网格的聚类算法 5 基于模型的聚类算法 一. 什么是聚类? 物以类聚,人以群 ...

  9. R实现K均值算法,层次聚类算法与DBSCAN算法

    1.聚类的基本概念 聚类分析(cluster analysis)仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组.其目标是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不 ...

最新文章

  1. MES系统模块设计之物料控制 Material Control -- 1
  2. xgboost模型参数详解
  3. 面试必会系列 - 2.1 MySQL知识点大汇总(基本架构,存储引擎,锁,事务,索引,B+树等等)
  4. MIPI DSI协议介绍
  5. COM 组件设计与应用(七)
  6. plsql 记录型变量
  7. 有标号的DAG计数 II
  8. CODEVS-1215迷宫
  9. python 导出数据并发邮件_Python 获取zabbix数据图并发邮件
  10. android 腾讯地图demo,腾讯地图调用Demo
  11. c语言卡诺图算法实现,多变量卡诺图化简的算法实现.pdf
  12. commonAncestor
  13. 利用阿里云短信找回密码 SpringBoot集成Mybatis
  14. 抽象基类与接口,共性与个性的选择
  15. Java_Save could not be completed. Try File> Save As. if the problem persists.
  16. IC 后端仿真: process corner 和 PVT
  17. Ceph常见问题处理(octopus 15.2.13)
  18. Android使用usb线传输大文件笔记
  19. zabbix 监控hp 打印机
  20. 大疆在美国被告,商务部预警!最后竟是中兴投资公司所为

热门文章

  1. go list 转 map;数组转map 通用
  2. 某大学开田径运动会,现有12名选手参加100米比赛,对应的运动员号及成绩如表所示,请按照成绩排名并输出,要求每一行输出名次、运动员号及成绩
  3. SpringMVC的执行流程
  4. 【ABBYY FineReader】pdf文件很清晰但是复制或导出都是乱码
  5. http://www.w3school.com.cn/
  6. 史上最全文本处理器盘点!(一)
  7. 车牌识别(一)BMP文件读写
  8. 有源医疗器械的开发过程和各阶段的注意事项(六)——有源医疗器械研发涉及到的标准总结与介绍
  9. AEC、AGC、ANS是什么意思
  10. 学术文章绘图常用颜色搭配(附RGB值)