原文链接：http://tecdat.cn/?p=22879

原文出处：拓端数据部落公众号

数据集概述

这个数据集常用于数据概述、可视化和聚类模型。它包括三个鸢尾花品种，每个品种有50个样本，以及一些属性。其中一个花种与其他两个花种是线性可分离的，但其他两个花种之间不是线性可分离的。

这个数据集的给定列是:

i> Id
ii> 萼片长度(Cm)
iii>萼片宽度(Cm)
iv> 花瓣长度(Cm)
v> 花瓣宽度 (Cm)
vi> 品种

让我们把这个数据集可视化，并用kmeans进行聚类。

基本可视化

IRIS数据，聚类前的基本可视化

plot(data, aes(x , y ))

plot(data,geom_density(alpha=0.25)

火山图

plot( iris, stat_density(aes(ymax = ..density..,  ymin = -..density..,

plot(data, aes(x ),stat_density= ..density..,  facet_grid. ~ Species)

聚类数据 :: 方法-1


# 在一个循环中进行15次的kmeans聚类分析
for (i in 1:15)kmeans(Data, i)    totalwSS[i]<-tot# 聚类碎石图 - 使用plot函数绘制total_wss与no-of-clusters的数值。
plot(x=1:15,                         # x= 类数量, 1 to 15totalwSS,                      #每个类的total_wss值type="b"                       # 绘制两点，并将它们连接起来

聚类数据 :: 方法-2

使用聚类有效性测量指标

library(NbClust)# 设置边距为: c(bottom, left, top, right)
par(mar = c(2,2,2,2))    # 根据一些指标来衡量聚类的合适性。
# 默认情况下，它检查从2个聚类到15个聚类的情况 # 花费时间

休伯特指数

休伯特指数是一种确定聚类数量的图形方法。
在休伯特指数图中，我们寻找一个明显的拐点，对应于测量值的明显增加，即休伯特指数第二差值图中的明显峰值。

D指数

在D指数的图表中，我们寻找一个重要的拐点（D指数第二差值图中的重要峰值），对应于测量值的显著增加。


##
## *******************************************************************
## * 在所有指数中:
## * 10 proposed 2 as the best number of clusters
## * 8 proposed 3 as the best number of clusters
## * 2 proposed 4 as the best number of clusters
## * 1 proposed 5 as the best number of clusters
## * 1 proposed 8 as the best number of clusters
## * 1 proposed 14 as the best number of clusters
## * 1 proposed 15 as the best number of clusters
##
##                    ***** 结论*****
##
## * 根据多数规则，集群的最佳数量是2
##
##
## *******************************************************************

画一个直方图，表示各种指数对聚类数量的投票情况。
在26个指数中，大多数（10个）投票给2个聚类，8个投票给3个聚类，其余8个（26-10-8）投票给其他数量的聚类。
直方图，断点=15，因为我们的算法是检查2到15个聚类的。


hist(Best.nc)

聚类数据 :: 方法-3

卡林斯基指标类似于寻找群组间方差/群组内方差的比率。

KM(Data, 1, 10)  # 对聚类1至10的测试# sortg = TRUE：将iris对象（行）作为其组别成员的函数排序
# 在热图中用颜色表示组成员类
# 排序是为了产生一个更容易解释的图表。
# 两个图。一个是热图，另一个是聚类数目与值（=BC/WC）。

modelData$results[2,]   # 针对BC/WC值的聚类

# 那么，这些数值中哪一个是最大的？BC/WC应尽可能的大
which.max(modelData$results[2,])

用Silhoutte图对数据进行聚类 :: 方法-4

先试着2个类


# 计算并返回通过使用欧氏距离测量法计算的距离矩阵，计算数据矩阵中各行之间的距离。
# 获取silhoutte 系数
silhouette (cluster, dis)

试用8个聚类

# 计算并返回通过使用欧氏距离测量法计算的距离矩阵，计算数据矩阵中各行之间的距离。# 获取silhoutte 系数
silhouette (cluster, dis)

分析聚类趋势

计算iris和随机数据集的霍普金统计值

# 1. 给定一个数字向量或数据框架的一列 根据其最小值和最大值生成统一的随机数runif(length(x), min(x), (max(x)))# 2.  通过在每一列上应用函数生成随机数据
apply(iris[,-5], 2, genx)  # 3. 将两个数据集标准化
scale(iris)   # 默认, center = T, scale = T# 4. 计算数据集的霍普金斯统计数字
hopkins_stat

# 也可以用函数hopkins()计算。
hopkins(iris)

# 5. 计算随机数据集的霍普金斯统计量
hopkins_stat

最受欢迎的见解

1.R语言k-Shape算法股票价格时间序列聚类

2.R语言中不同类型的聚类方法比较

3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的层次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本挖掘聚类

7.用于NLP的Python：使用Keras的多标签文本LSTM神经网络

8.R语言对MNIST数据集分析探索手写数字分类数据

9.R语言基于Keras的小数据集深度学习图像分类

拓端tecdat|R语言聚类有效性：确定最优聚类数分析IRIS鸢尾花数据和可视化相关推荐

拓端tecdat|R语言逻辑回归（Logistic回归）模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险逻辑回归Logistic模型原理和R语言分类预测冠 ...
拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解（STL）进行时间序列异常检测
最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...
拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子人口众多独生子女政策: ...
R语言KMeans聚类分析确定最优聚类簇数实战：间隙统计Gap Statistic（确定最优聚类簇数）
R语言KMeans聚类分析确定最优聚类簇数实战:间隙统计Gap Statistic(确定最优聚类簇数) 目录
R语言KMeans聚类分析确定最优聚类簇数实战：NbClust包（确定最优聚类簇数）
R语言KMeans聚类分析确定最优聚类簇数实战:NbClust包(确定最优聚类簇数) 目录
R语言KMeans聚类分析确定最优聚类簇数实战：期望最大化expectation-maximization准则（确定最优聚类簇数）
R语言KMeans聚类分析确定最优聚类簇数实战:期望最大化expectation-maximization准则(确定最优聚类簇数) 目录
R语言KMeans聚类分析确定最优聚类簇数实战：Calinski-Harabasz准则（确定最优聚类簇数）
R语言KMeans聚类分析确定最优聚类簇数实战:Calinski-Harabasz准则(确定最优聚类簇数) 目录
R语言︱LDA主题模型——最优主题数选取(topicmodels)+LDAvis可视化(lda+LDAvis)
笔者寄语:在自己学LDA主题模型时候,发现该模型有这么几个未解决的问题: 1.LDA主题数量,多少个才是最优的. 2.作出主题之后,主题-主题,主题与词语之间关联如何衡量. 于是在查阅几位老师做的成果 ...
拓端tecdat|bilibili视频流量数据潜望镜
最近我们被客户要求撰写关于bilibili视频流量的研究报告,包括一些图形和统计输出. 最新研究表明,中国有超过7亿人在观看在线视频内容.Bilibili,被称为哔哩哔哩或简称为B站,是中国大陆第二个 ...

拓端tecdat|R语言聚类有效性：确定最优聚类数分析IRIS鸢尾花数据和可视化