K平均算法(k-means)

在下面的误差平方和图中,拐点(bend or

elbow)的位置对应的x轴即k-means聚类给出的合适的类的个数。

> n =

100

>

g=6

>

set.seed(g)

> d

rnorm(n/g, runif(1)*i^2))), y = unlist(lapply(1:g, function(i)

rnorm(n/g, runif(1)*i^2))))

>

plot(d)

>

> mydata

>

> wss

(nrow(mydata)-1)*sum(apply(mydata,2,var))

> for (i in

2:15)

wss[i]

sum(kmeans(mydata,centers=i)$withinss)

>

###这里的wss(within-cluster sum of squares)是组内平方和

> plot(1:15,

wss, type="b", xlab="Number of Clusters",ylab="Within groups sum of

squares")

>

由上图可以看出,该方法给出合理的类别个数是4个。

方法二:

K中心聚类算法(K-mediods)

使用fpc包里的pamk函数来估计类的个数:

>

library(cluster)

Warning

message:

程辑包‘cluster’是用R版本3.2.3

来建造的

>

library(fpc)

> pamk.best

>

cat("number of clusters estimated by optimum average silhouette

width:", pamk.best$nc, "\n")

number of

clusters estimated by optimum average silhouette width:

4

>

plot(pam(d, pamk.best$nc))

sihouette值是用来表示某一个对象和它所属类的凝合力强度以及和其他类分离强度的,值范围为-1到1,值越大表示该对象越匹配所属类以及和邻近类有多不匹配。

所以从上图sihouette

plot中可以看出,该方法给出的合理类的个数为4个。

方法三:

基于Calinsky

Criterion

>

require(vegan)

载入需要的程辑包:vegan

载入需要的程辑包:permute

载入需要的程辑包:lattice

This is vegan

2.4-0

Warning

messages:

1:

程辑包‘vegan’是用R版本3.2.5 来建造的

2:

程辑包‘permute’是用R版本3.2.5 来建造的

3:

程辑包‘lattice’是用R版本3.2.3 来建造的

> fit

TRUE, scale = TRUE), 1, 10, iter =

1000)

> plot(fit,

sortg = TRUE, grpmts.plot = TRUE)

>

calinski.best

as.numeric(which.max(fit$results[2,]))

>

cat("Calinski criterion optimal number of clusters:",

calinski.best, "\n")

Calinski

criterion optimal number of clusters:

5

>

由上图我们可以看到,根据Calinsky标准,得到类的个数是5个。

方法四:

基于模型假设的聚类,利用的是mclust包:

>

library(mclust)

__ ___________ __ _____________

/ |/ / ____/

/ / / / /

___/_ __/

/ /|_/ /

/ /

/ / / / /\__ \ /

/

/

/ / / /___/ /___/ /_/ /___/ //

/

/_/ /_/\____/_____/\____//____//_/ version 5.1

Type

'citation("mclust")' for citing this R package in

publications.

Warning

message:

程辑包‘mclust’是用R版本3.2.4

来建造的

> d_clust

> m.best

>

cat("model-based optimal number of clusters:", m.best,

"\n")

model-based

optimal number of clusters: 4

>

plot(d_clust)

Model-based

clustering plots:

1:

BIC

2:

classification

3:

uncertainty

4:

density

方法五:

基于AP算法的聚类

>

library(apcluster)

载入程辑包:‘apcluster’

The following

object is masked from ‘package:stats’:

heatmap

Warning

message:

程辑包‘apcluster’是用R版本3.2.5

来建造的

> d.apclus

d)

>

cat("affinity propogation optimal number of clusters:",

length(d.apclus@clusters), "\n")

affinity

propogation optimal number of clusters:

4

> #4

得出的分类个数

>

heatmap(d.apclus)

>

plot(d.apclus, d)

>

python聚类分析如何确定分类个数_R语言做聚类分析Kmeans时确定类的个数相关推荐

  1. R语言做聚类分析Kmeans时确定类的个数

    方法一: K平均算法(k-means) 在下面的误差平方和图中,拐点(bend or elbow)的位置对应的x轴即k-means聚类给出的合适的类的个数. > n = 100 > g=6 ...

  2. java 汉字个数_java语言中如何获取字符串中汉字的个数

    java语言中如何获取字符串中汉字的个数? [实例描述] 字符串中可以包含数字,字母.汉字或者其他字符.使用Character 类的isDigit()方法可以判断字符中的某个字符是否为数字,使用Cha ...

  3. R语言在图上标出点坐标_R语言做图plot参数

    R语言做图plot参数函数名称:plot 用       途:作图 用       法:plot(x, y, --) 参       数: 1.符号和线条 pch:指定绘制点所使用的符号,取值范围[0 ...

  4. r语言 回归分析 分类变量_R语言进阶之广义线性回归

    广义线性回归是一类常用的统计模型,在各个领域都有着广泛的应用.今天我会以逻辑回归和泊松回归为例,讲解如何在R语言中建立广义线性模型. 在R语言中我们通常使用glm()函数来构建广义线性模型,glm实际 ...

  5. r k-means 分类结果_R语言信用评分卡:数据分箱(binning)

    作者:黄天元,复旦大学博士在读,热爱数据科学与R,热衷推广R在工业界与学术界的应用.邮箱:huang.tian-yuan@qq.com.欢迎合作交流 library(knitr) opts_chunk ...

  6. r语言 回归分析 分类变量_R语言 | 回归分析(二)

    R语言 语言学与R语言的碰撞 Xu & Yang PhoneticSan 学习参考 Discovering Statistics Using R Statistics for Linguist ...

  7. r语言 回归分析 分类变量_R语言下的PSM分析分类变量处理与分析步骤

    最近学习了PSM,我选择了用R去跑PSM,在这过程中遇到了许多问题,最后也都一一解决了,写下这个也是希望大家在遇到相同问题的时候能够得到帮助和启发,别的应该不会遇到太难的问题了哈哈.最近我也没做什么, ...

  8. python pca双标图的含义_R语言:FactoMineR进行PCA分析

    安装依赖: install.packages("FactoMineR") install.packages("factoextra") library(&quo ...

  9. rda分析怎么做_R语言做冗余分析(RDA)的一个简单小例子

    冗余分析(redundancy analysis, RDA)自己之前也听过,好像是生态学研究中用的比较多,主要是用来探索环境和一些样本指标之间的关系.最近自己在看一些群体遗传相关的内容,发现RDA也可 ...

最新文章

  1. HCNA多区域OSPF配置
  2. ETSI MEC — 与 5G 的融合
  3. X-UA-Compatible 1
  4. java8中的lambda用法实例
  5. vs2015+opencv+qt打包exe的问题
  6. 2021年春招Elasticsearch面试题
  7. Mybatis中的核心配置文件SqlMapConfig.xml详细介绍
  8. CAE所表示的计算机术语是,计算机应用中,英文缩略语CAE所表示的计算机术语是()。...
  9. JavaScript模态对话框类(拖拽时动画)
  10. Python-闭包详解
  11. linux系统监控必备两款软件
  12. 【HTTP】 认证和单点登录 【瞎写的…】
  13. java mail 503_邮件配置报503错误,发送失败
  14. [wbia 1.1] heritrix抓取网页信息
  15. vue —— 利用 viewport 进行适配
  16. php指定时间转为时间戳,将时间转换为时间戳_php日期转时间戳,指定日期转换成时间戳...
  17. T-Tree索引与MMDB简单映射(草稿)
  18. 6轴并联机器人开发--机械设计
  19. 虚拟摄像头驱动程序彻底分析
  20. BH_Ghost XP SP3完整装机版 V7.6(金大作品)

热门文章

  1. Python基础 - MySQLdb模块
  2. 个人总结---连通图的最小生成树算法
  3. WPF读写config配置文件
  4. Android学习笔记17:单项选择RadioButton和多项选择CheckBox的使用
  5. linux无密码scp,linux通过ssh-keygen实现无密码scp文件和目录
  6. 怎样设置mysql软件用户_mysql数据库用户的权限如何设置?
  7. wordpress主页php,wordpress主页在哪里设置
  8. 正式发布python版本的年份_飞书全新版本π正式发布 高效便捷的团队沟通新工具...
  9. 金蝶k3财务接口_记录用友T+接口对接的心酸历程
  10. 传统红色纹样图案背景|中式海报必备素材