R语言之K-mean聚类分析

K-mean聚类是很基础的算法，在本科阶段大家都会学，如何通过R语言自己写K-mean算法，话不多说，上代码，算法流程和函数解释代码后

K_means <- function(data,k,max.iter = 10){
rows <- nrow(data)                 #获取行数
cols <- ncol(data)                 #获取列数
within <- numeric(k)               #用于存储组类平方和
lable_matrix <- matrix(0,rows,2)   #用于存储类标签及到类中心的距离
centers <- matrix(0,cols,k)        #用于存储类中心
centers_matrix <- matrix(0,rows,k) #用于存储初始确定初始类中心时到类中心的距离
iter <- 0                          #迭代次数
random <- sample(1:rows,1)
centers[,1] <- as.matrix(data[random,])
for(j in 2:k){for(i in 1:rows){centers_matrix[i,j] <- sum((data[i,] - centers[,j-1])^2)+centers_matrix[i,j-1]}centers[,j] <- as.matrix(data[which(centers_matrix[,j] == max(centers_matrix[,j])),])
}                                  #计算初始类中心
changed <- TRUE                    #用于判断数据的类标签是否发生改变
while(changed){if(iter >= max.iter){changed <- FALSEbreak}for(j in 1:rows){updata <- 1000000000for( i in 1:k){updatas <- sum((data[j,]-centers[,i])^2)if(updatas < updata){updata <- updataslable_matrix[j,1] <- updataslable_matrix[j,2] <- i}}}                                 #更新到类中心的距离以及类标签center <- centersfor(i in 1:k){centers[,i] <- colMeans(data[lable_matrix[,2]==i,])}                                 #更新类中心changed <- !all(center == centers)#判断类中心是否变化iter <- iter + 1
}
###计算函数返回值：
totss <- sum((t(data[,])-colMeans(data))^2)
withinss <- numeric()
for(i in 1:k){withinss[i] <- sum((t(data[lable_matrix[,2]==i,])-(centers[,i]))^2)
}
tot.withinss <- sum(withinss)
betweenss<-0
for(i in 1:3){betweenss <- betweenss + sum(nrow(data[lable_matrix[,2]==i,])*(rowMeans(t(data[lable_matrix[,2]==i,]))-colMeans(data))^2)
}
size <- aggregate(lable_matrix[,2], by=list(lable=lable_matrix[,2]),length)[,2]centers_matrix <- t(centers)
colnames(centers_matrix) <- colnames(data)
result <- list(cluster = lable_matrix[,2],centers = centers_matrix,totss = totss,withinss = withinss,tot.withinss = tot.withinss,betweenss = betweenss,size = size,iter = iter)
return(result)
}df <- kmeans(iris[,1:4],3)
df$cluster
df$centers
df$totss
df$withinss
df$tot.withinss
df$betweenss
df$size
df$iter
K_means(iris[,1:4],3)

对设置的函数参数以及输出的结果做一解释：

参数：data：用于聚类的数据；k：用于聚类的数目；max.iter：最大迭代次数

输出结果（均与R语言中自带kmeans函数输出结果命名一致）：

cluster：聚类结果，即类标签；

centers：聚类中心；

totss：总平方和；

withinss：各组内的平方和；

tot.withinss:组内平方和；

betweenss：组间平方和；

size：各类的数量；

iter ：迭代次数；

我用自己写的函数与R语言自带的kmeans函数结果做了对比，数据集使用iris数据集，结果如下：

由上面两图的结果对比可知：除去迭代次数不一致外其余均相同；迭代次数不一致是因为选取的初始类中心为随机选取造成的。也不排除我的迭代过程不是最优的迭代方式造成，欢迎大家留言谈论！

算法流程：

对于K-mean聚类算法的详细流程以及可改进地方和方向，我后期也会发类似的文章。

R语言之K-mean聚类分析相关推荐

手把手教你R语言做k均值聚类分析
今天聊聊k均值聚类分析,我们先要知道什么是类,在大数据时代,我们每个人都被打上很多个性标签,比如:宅男,月光族,手机控,非主流等等,每个标签都可以算是一个类,因此,可以不严谨的说:类是一些有特殊属性个 ...
R 语言基于关联规则与聚类分析的消费行为统计
<金融数据挖掘案例分析> 课程设计报告题目: 基于关联规则与聚类分析的消费行为统计学生姓名: 序号: 学生姓名: 序号: 学生姓名: 序号: 学生姓名: 序号: 指导教师: 信息工程 ...
R语言学习笔记之聚类分析
感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 对商业智能BI.大数据分析挖掘.机器学习, ...
R语言学习记录：聚类分析的R实现
时间: 2018-08-04 参考教程: Learn R | 统计建模之聚类分析(上). Learn R | 统计建模之聚类分析(下) 学习内容:聚类分析的R实现数据来源:<应用多元统计分析& ...
clustMD r语言_利用R语言实现微阵列数据分析-聚类分析
原文见:http://www.biostat.ucsf.edu/jean/Presentation/IMSLAB.pdf 为了方便大家学习,我将该文翻译成中文加上一些相关的简单介绍,经验尚浅,还请大家 ...
通过R语言对数据进行聚类分析
聚类分析是将数据根据相似特征分类到不同的类或簇,用以对数据进行区分. 1.聚类(K-means) 通过数据中每个数值间的距离进行聚类,是一种纵向聚类,将样本数据据成类型,用以对数据的特征进行区分. ( ...
pvrect r语言聚类_R语言一条命令实现基于样本和距离的聚类分析
上一篇文章给大家介绍了利用 R语言的 hclust()进行聚类分析的步骤,已经很简单了,但是依然有不少小伙伴来问 "老师,还有更简单的方法吗,最好是一条命令那种",为了满足的大家的 ...
r语言descstats_R语言学习笔记之聚类分析
原标题:R语言学习笔记之聚类分析 taoyan:伪码农,R语言爱好者,爱开源. 个人博客: https://ytlogos.github.io/ 使用k-means聚类所需的包: factoextra ...
R语言可视化学习笔记之相关矩阵可视化包ggcorrplot
本文转载自"R语言中文社区",己获授权. 作者简介Introduction taoyan:伪码农,R语言爱好者,爱开源. 个人博客: https://ytlogos.github. ...

R语言之K-mean聚类分析

R语言之K-mean聚类分析相关推荐

最新文章

热门文章