聚类算法—k-Means实验

k-平均(k-Means),也被称为k-均值,是一种得到最广泛使用的聚类算法[1]. k-Means算法以k为参数,把n个对象分为k个簇,使得簇内具有较高的相似度。

实验目的

  1. 了解常用聚类算法及其优缺点;
  2. 掌握k-Means聚类算法对数据进行聚类分析的基本原理和划分方法;
  3. 利用k-Means聚类算法对数据集进行聚类实验;
  4. 熟悉使用Matlab进行算法的实现。

聚类算法的主要思想

主要思想

给定一个有n个对象的数据集,划分聚类技术将构造数据k个划分,每一个划分就代表一个簇,k≤nk\le nk≤n. 每一个簇至少包含一个对象,每一个对象属于且仅属于一个簇。

对于给定的k,算法首先给出一个初始的划分方法,以后通过反复迭代的方法改变划分,使得每一次改进之后的划分较前一次更好。

评价函数

更好的标准是:同一簇中的对象越接近越好,而不同簇中的对象越远越好,目标是最小化所有对象与其簇中心之间相异度之和。

各个簇应该是紧凑的,各个簇间的距离应当尽可能远。因此,用聚类C的类内差异(Within cluster variation)w(C)w(C)w(C) 和类间差异(Between cluster variation)b(C)b(C)b(C) 分别衡量上述两要求。

w(C)=∑i=1kw(Ci)=∑i=1k∑x∈Cid(x,xi‾)2w(C)=\sum_{i=1}^{k}w(C_i)=\sum_{i=1}^{k}\sum_{x\in C_i}d(x,\overline{x_i})^2w(C)=i=1∑k​w(Ci​)=i=1∑k​x∈Ci​∑​d(x,xi​​)2

b(C)=∑1≤j≤i≤kd(xj‾,xi‾)2b(C)=\sum_{1\le j\le i\le k}d(\overline{x_j},\overline{x_i})^2b(C)=1≤j≤i≤k∑​d(xj​​,xi​​)2

其中,xi‾\overline{x_i}xi​​ 是类 CiC_iCi​ 的聚类中心,d 为距离函数。聚类C的总体质量可以被定义为 b(C)w(C)\frac{b(C)}{w(C)}w(C)b(C)​.

k-Means算法原理

k-Means算法用类内均值作为聚类中心、用欧氏距离定义d,并使上述 w(C)w(C)w(C) 最小化。

优化目标

arg⁡max⁡C∑i=1k∑x∈Ci∥x−xi‾∥2\mathop{\arg\max}\limits_{C} \sum_{i=1}^k \sum_{x\in C_i} \parallel x-\overline{x_i}\parallel ^2Cargmax​i=1∑k​x∈Ci​∑​∥x−xi​​∥2

表示选取合适的C使得所有对象的平方误差总和最小,其中x是空间中的点,xi‾\overline{x_i}xi​​ 是簇 CiC_iCi​ 的平均值,这个优化目标可以保证生成的结果簇尽可能的紧凑和独立。

算法描述

首先随机选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到上述平方误差总和收敛。

k-Means算法分析

优点

  • 对处理大数据集,该算法是相对可伸缩和高效率的,时间复杂度约为 O(k⋅n⋅t)\mathcal{O} (k\cdot n\cdot t)O(k⋅n⋅t),t是迭代次数。k-Means算法经常以局部最优结束;
  • 算法尝试找出使平方误差最小的k个划分,当结果簇是密集的,而簇与簇之间区别明显时,k-Means的效果较好。

缺点

  • 若涉及离散属性,其平均值无法定义,无法使用k-Means聚类;
  • 必须事先给出参数k,k的选取对聚类质量和效果影响很大;
  • k-Means算法不适合发现非凸面形状的簇,或者大小差别很大的簇。而且对于“噪声”和孤立点数据是敏感的,少量的该类数据对平均值产生较大影响。

算法改进

k-模算法:将k-Means的应用扩大到离散数据。k-原型可以对离散与数值属性两种混合的数据进行聚类,在k-原型中定义了一个对数值与离散属性都计算的相异性度量标准。[2]

k-中心点算法:解决了k-Means算法对孤立点敏感的问题,不采用簇中的平均值作为参照点,而使用簇中位置最靠近中心的对象作为参照点。基本思路是反复用非代表对象来替代代表对象,以改进聚类的质量。PAM(Partition Around Medoid)是最早提出的k-中心点算法之一。[3]

代码

clc;clear;
k = 2;
data = [1 1; 2 1; 1 2; 2 2; 4 3; 5 3; 4 4; 5 4;];
eps = 0.1;
epochs = 100;
[n,~] = size(data);
% initialize the last column of data as classes
data(:,end+1) = 0;
% assign initial value for means
rng('default') % For reproducibility
clusters = data(randperm(n,k),1:end-1);
% initialize E
E = inf;
% save means steps
cnt = 0; % counter
cls_steps = [];
while epochs>0% to save means stepscnt = cnt + 1;cT = clusters';cls_steps(cnt,:) = cT(:)';% assign each xj to the cluster which has the closet meanD = pdist2(data(:,1:end-1),clusters);[~,I] = min(D');data(:,end) = I';% calculate new means for each classesclusters = grpstats(data(:,1:end-1),data(:,end));% calculate criterion function ElastE = E;E = .0;for i=1:nE = E + pdist2(data(i,1:end-1),clusters(data(i,end),:));endif lastE-E<=epsbreakendepochs = epochs - 1;
end

Matlab2021a

结果验证

结果数据

在data.csv数据集上运行上述代码,得到结果如下:

Clusters: 聚类中心

x1 x2
1.5 1.5
4.5 3.5

E = 5.65685424949238

cls_steps: 聚类中心移动记录

c1x1 c1x2 c2x1 c2x2
4 3 5 3
2.33333333 2.16666667 5 3.5
1.5 1.5 4.5 3.5

结果图像

其中,蓝色/黄色实心点表示不同分类下的数据点,空心橙色/紫色圆环表示k-Means聚类中心的变化情况。

附录(data.csv)

Index Attr1 Attr2
1 1 1
2 2 1
3 1 2
4 2 2
5 4 3
6 5 3
7 4 4
8 5 4

参考

  1. 毛国君、段立娟, 《数据挖掘原理与算法》, 清华大学出版社, 2016-01-01, ISBN:9787302415817
  2. Ramasubramanian P , Kumar S P , Anandam D . Experimental work on Data Clustering using Enhanced Random KMode Algorithm. 2020.
  3. Bhat A . K-Medoids Clustering Using Partitioning Around Medoids for Performing Face Recognition. 2014.

k-Means——经典聚类算法实验(Matlab实现)相关推荐

  1. K均值聚类算法的MATLAB实现

    K均值聚类算法的MATLAB实现 1.K-均值聚类法的概述 之前在参加数学建模的过程中用到过这种聚类方法,但是当时只是简单知道了在matlab中如何调用工具箱进行聚类,并不是特别清楚它的原理.最近因为 ...

  2. 聚类(part2)--经典聚类算法

    学习笔记,仅供参考,有错必纠 文章目录 聚类方法 方法图示 经典聚类算法 基于模型的算法 基于划分的算法 基于密度的算法 基于网格的算法 层次聚类算法 聚类方法 方法图示 经典聚类算法 基于模型的算法 ...

  3. matlab实现k-l算法,K均值聚类算法的MATLAB实现

    K-means算法是最简单的一种聚类算法.算法的目的是使各个样本与所在类均值的误差平方和达到最小(这也是评价K-means算法最后聚类效果的评价标准) K-means聚类算法的一般步骤: 初始化.输入 ...

  4. 【Kmeans】基于Kmeans的聚类算法的MATLAB仿真

    0.完整源码获得方式 ​​​​​​​方式1:微信或者QQ联系博主 方式2:订阅MATLAB/FPGA教程,免费获得教程案例以及任意2份完整源码 1.软件版本 MATLAB2021a 2.本算法理论知识 ...

  5. MATLAB实战系列(三十八)-基于K-means聚类算法的MATLAB图像分割

    前言 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) tableau可视化数据 ...

  6. k-means聚类算法及matlab实现(简单实现)

    k-means简介   k-means算法也称k均值算法,是一种常用的聚类算法.聚类算法是研究最多.应用最广的一种无监督学习算法.   聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集 ...

  7. Kmeans聚类算法及其matlab源码

    本文介绍了K-means聚类算法,并注释了部分matlab实现的源码. K-means算法 K-means算法是一种硬聚类算法,根据数据到聚类中心的某种距离来作为判别该数据所属类别.K-means算法 ...

  8. 基于遗传模拟退火算法的模糊C-均值聚类算法(SAGAFCM)—MATLAB实现

    本文的代码将放在最后,需要的小伙伴们可以免费获取哦!!! 文章目录 一.模糊C-均值聚类(FCM) 1.介绍 1).算法初步介绍 2)算法步骤 2.MATLAB实现 1).问题描述 2).算法实现 二 ...

  9. K均值(K-means)聚类算法原理与代码详解

    0. 算法原理: 上述过程简单描述: a: 初始数据 b: 选择质点 c: 根据质点划分 d: 求均值,更新质心点 e: 划分 f: 更新质心点 1. 代码实现: # K means 教程# 0. 引 ...

最新文章

  1. windows 远程桌面 启动方式
  2. 服务发现技术选型那点事儿
  3. ipa去除时间锁_【解密了!】影响沸石分子筛转轮去除效率的因素
  4. CSS基础(part21)--CSS3伪元素选择器
  5. 电子商务应用课程知识整理 第四章-搜索引擎
  6. 文本二叉树折半查询及其截取值
  7. 实战演练:通过伪列、虚拟列实现SQL优化
  8. VoIP服务器Asterisk安装及部署
  9. 推荐 5 个免费高品质的图片资源网站
  10. php命名空间的设计思想和缺点
  11. 计算机招聘试题选择题,计算机考试题库:计算机基础练习题(39)
  12. W3af详细安装与基本使用
  13. 巴克莱、高盛支持区块链衍生品领域的ISDA标准
  14. 【Unity3D小技巧】Unity3D中Animation和Animator动画的播放、暂停、倒放控制
  15. 关于视觉工业相机的50个问题
  16. 不用代码免费采集网站内容_看一遍就能上手的火车头采集图文全流程教程
  17. 设定自动弹窗html,javascript如何设置弹窗?
  18. adb复制root到手机,怎样通过adb命令来root手机
  19. mysql linq any查询_LINQ标准查询操作符详解(转)
  20. ESLint配置方法

热门文章

  1. LeetCode 508. 出现次数最多的子树元素和(递归)
  2. LeetCode 797. 所有可能的路径(DFS)
  3. oracle 打开 ctl,Oracle 19c 随系统systemctl启动数据库
  4. 爬虫技巧:在pycharm 下 调试 scrapy项目
  5. 计算机硬盘怎么设置ntfs,每次设置系统后,能否更改计算机硬盘分区的fat32和ntfs格式?...
  6. 大模型炼丹无从下手?谷歌、OpenAI烧了几百万刀,总结出这些方法论…
  7. 预训练卷不动,可以卷输入预处理啊!
  8. Redis系列教程(一):Redis缓存的设计、性能、应用与数据集群同步
  9. 一篇文章搞懂架构师的核心技能
  10. 【python】详解类class的继承、__init__初始化、super方法