拓端tecdat|R语言基于温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图可视化

2024-05-10 10:45:09

原文链接：http://tecdat.cn/?p=20960

原文出处：拓端数据部落公众号

为了说明层次聚类技术和k-均值，我使用了了城市温度数据集，其中包括几个城市的月平均气温。

我们有15个城市，每月进行一次观测

boxplot(temp[,1:12],main="月平均温度")

由于方差看起来相当稳定，我们不会将这里的变量“标准化”，

> apply(月份,2,sd)

为了得到一个层次聚类分析，使用实例

 hclust(dist , method = "ward")

另一种选择是使用


> plot(h2)

在这里，我们用主成分分析将观察结果可视化。我们这里还有一个自动选择类的数目，这里是3个。我们可以得到组的描述

或直接

 cutree(cah,3)

我们也可以自己可视化这些类，

 PCA(X,scale.unit=FALSE)plot(  ind$coord[,1:2],col="white")text( ind$coord[,1],acp$ind$coord[,2],

可以绘制出这些簇的中心点

 > points(PT$Dim.1,PT$Dim.2,pch=19)

如果我们在这些中心周围添加Voronoi集，我们看到的是中间的点，恰好是三个区域的交点

vormo(PT$Dim.1,PT$Dim.2)
plot(V,add=TRUE)

要可视化这些区域，请使用Voronoi图，它又叫泰森多边形或Dirichlet图，它是由一组由连接两邻点直线的垂直平分线组成的连续多边形组成。

 p=function(x,y){
+   which.min((PT$Dim.1-x)^2+(PT$Dim.2-y)^2)
image(vx,vy,z,col=c(rgb(1,0,0,.2),

实际上，这三组（和这三个区域）也是我们用k-均值算法得到的，

kmeans(coord[,1:2],3)K-means clustering
with 3 clusters of sizes 3, 7, 5

由于我们有一些空间数据，我们可以在地图上把它们可视化

points(Long,Lati,col=groups.3)

或者，为了可视化这些区域，使用

 for(i in 1:3)
+ Ellipse( Long[groups.3==i],

最受欢迎的见解

1.R语言k-Shape算法股票价格时间序列聚类

2.R语言中不同类型的聚类方法比较

3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的层次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本挖掘聚类

7.用于NLP的Python：使用Keras的多标签文本LSTM神经网络

8.R语言对MNIST数据集分析探索手写数字分类数据

9.R语言基于Keras的小数据集深度学习图像分类

拓端tecdat|R语言基于温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图可视化相关推荐

拓端tecdat|R语言逻辑回归（Logistic回归）模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险逻辑回归Logistic模型原理和R语言分类预测冠 ...
拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解（STL）进行时间序列异常检测
最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...
拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子人口众多独生子女政策: ...
R语言基于lm模型构建线性回归模型（蟋蟀的鸣叫声与温度的关系）、计算回归模型的RMSE指标、计算回归模型的R方指标（R-squared）
R语言基于lm模型构建线性回归模型(蟋蟀的鸣叫声与温度的关系).计算回归模型的RMSE指标.计算回归模型的R方指标(R-squared) 目录
R语言基于模拟退火（Simulated Annealing）进行特征筛选（feature selection）
R语言基于模拟退火(Simulated Annealing)进行特征筛选(feature selection) 特征选择的目的 1.简化模型,使模型更易于理解:去除不相关的特征会降低学习任务的难度.并 ...
R语言基于日期范围筛选数据实战（Subset by a Date Range）:日期范围之内的数据、日期范围之外的数据、日期之后的数据、日期之前的数据
R语言基于日期范围筛选数据实战(Subset by a Date Range):日期范围之内的数据.日期范围之外的数据.日期之后的数据.日期之前的数据目录 R语言基于日期范围筛选数据实战(Subse ...
R语言基于可视化进行多变量离群（Mulltivariate outliers）点检测识别：散点图可视化多变量离群点、模型平滑多变量异常检测、使用平行坐标图查看钻石数据集中的异常值
R语言基于可视化进行多变量离群(Mulltivariate outliers)点检测识别:散点图可视化多变量离群点.模型平滑多变量异常检测.使用平行坐标图查看钻石数据集中的异常值目录
R语言基于多字段（多数据列、multiple columns）对dataframe的行数据进行排序（Ordering rows）实战：使用R原生方法、data.table、dplyr等方案
R语言基于多字段(多数据列.multiple columns)对dataframe的行数据进行排序(Ordering rows)实战:使用R原生方法.data.table.dplyr等方案目录
R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型、并评估模型在测试集和训练集上的分类效果（accuray、F1、偏差Deviance）：Bagging算法与随机森林对比
R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型.并评估模型在测试集和训练集上的分类效果(accuray.F1.偏差Deviance):Bagging算法与随机森林对比 ...

最新文章

热门文章