多元统计分析主成分分析何晓群版课后作业
- 实验目的
在对某一事物进行实证研究时,为了更全面、准确地反映事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产生了如下问题: 一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标;另一方面考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会掩盖事物的真正特征与内在规律。基于上述问题,人们希望在定量研究中涉及的变量较少而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。
通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而有效和用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。
二、实验内容
为了研究新疆14个市农业中产出与投入的关系,我们从新疆统计年鉴2012上收集到各市的粮食产量、农业产值、棉花产量、农业机械总动力、有效灌溉面积、化肥施用量的结构相对数据来进行主成分分析。
Y1:某市的粮食产量(公斤/公顷) Y2:某市的农业总产值(万元)
Y3:某市的棉花产量(公斤/公顷) Y4: 某市的农业机械总动力(千瓦)
Y5: 某市的有效灌溉面积(千公顷) Y6:某市的化肥施用量(吨)
以下是2011年新疆各市粮食产量、农业产值、棉花产量、农业机械总动力、有效灌溉面积、化肥施用量数据。
地区 |
Y1 (公斤/公顷) |
Y2(万元) |
Y3(公斤/公顷) |
Y4(千瓦) |
Y5(千公顷) |
Y6(吨) |
乌鲁木齐市 |
7601 |
163207 |
1300 |
307857 |
48.51 |
8961 |
克拉玛依市 |
9431 |
37794 |
1574 |
30647 |
13.7 |
3578 |
吐鲁番市 |
54464 |
232144 |
1350 |
213005 |
14.7 |
12499 |
哈密市 |
6062 |
162752 |
1864 |
186382 |
50.98 |
10245 |
昌吉市 |
7767 |
177833 |
1703 |
334624 |
92.51 |
31049 |
阜康市 |
7525 |
164771 |
3876 |
164272 |
44.21 |
9949 |
伊宁市 |
8556 |
70225 |
1071 |
81697 |
14.48 |
3856 |
奎屯市 |
50444 |
9483 |
1350 |
12140 |
4.68 |
3183 |
乌苏市 |
10516 |
393238 |
1905 |
629989 |
87.78 |
31731 |
博乐市 |
13487 |
218380 |
2115 |
243985 |
53.2 |
19455 |
库尔勒市 |
4571 |
407139 |
2010 |
471018 |
55.21 |
28889 |
阿克苏市 |
7636 |
290012 |
1955 |
238993 |
62.53 |
59221 |
喀什市 |
6219 |
78051 |
1500 |
91933 |
13.44 |
5374 |
和田市 |
6485 |
142436 |
1530 |
77141 |
10.37 |
5781 |
三、实验过程
1.将数据进行标准化处理。
第1步:读人数据,输出变量之间的相关性。结果显示除
正在上传…重新上传取消,与各变量的相关性不强
外,其他变量之间均存在较强的相关关系,因此原始数据适合做主成分分析。
ex5<-read.csv(file.choose(),head=TRUE)##选择文件中的数据赋值给ex5
dat5<-ex5[,-1]##去掉ex5中的第一列
rownames(dat5)<-ex5[,1]##确定行名
dat5<-scale(dat5,center=TRUE,scale=TRUE)##将数据标准化
sigm<-cov(dat5)##求协方差阵(cor(dat5)是求相关系数阵)
z<-print(sigm,digits=3)##输出协方差阵
write.csv(z,"1.csv")##
表1
x1 |
x2 |
x3 |
x4 |
x5 |
x6 |
|
x1 |
1.000 |
-0.198 |
-0.272 |
-0.238 |
-0.419 |
-0.220 |
x2 |
-0.198 |
1.000 |
0.268 |
0.896 |
0.688 |
0.721 |
x3 |
-0.272 |
0.268 |
1.000 |
0.165 |
0.329 |
0.188 |
x4 |
-0.238 |
0.896 |
0.165 |
1.000 |
0.823 |
0.602 |
x5 |
-0.419 |
0.688 |
0.329 |
0.823 |
1.000 |
0.723 |
x6 |
-0.220 |
0.721 |
0.188 |
0.602 |
0.723 |
1.000 |
第2步:计算特征值。结果可以看到,本例保留了前四个个主成分,它们解释了全部变量总方差的 81.594%,说明这 三个主成分代表原来的六个指标研究新疆14个市农业中产出与投入的关系已经足够。
my5<-eigen(sigm)##求特征值
lam<-my5$values##提取特征值
p<-length(lam)##特征值的长度赋值给p
cumlam<-cumsum(lam)/sum(lam)##求出贡献率赋值给cumlam
VE<-data.frame(lam,lam/sum(lam),cumlam)##求出累计贡献率
colnames(VE)<-c("特征值","比例","累计比例")##确定列名
n<-print(VE,digits=5)##输出列表并保留五位小数
write.csv(n,"2.csv")
表2
特征值 |
比例 |
累计比例 |
|
1 |
3.466 |
0.578 |
0.578 |
2 |
1.081 |
0.180 |
0.758 |
3 |
0.743 |
0.124 |
0.882 |
4 |
0.426 |
0.071 |
0.953 |
5 |
0.266 |
0.044 |
0.997 |
6 |
0.018 |
0.003 |
1.000 |
第3步:计算特征向量和因子负荷量。四个主成分的线性表达式如下:
gam<-my5$vectors##求特征向量
colnames(gam)<-paste("vec",sep="",1:p)##确定列名
m<-print(gam[,1:4],digits=4)##输出列表,并保留小数点后位
write.csv(m,"3.csv")
表3
vec1 |
vec2 |
vec3 |
|
1 |
0.2313 |
0.6477 |
-0.6804 |
2 |
-0.4828 |
0.2252 |
-0.1454 |
3 |
-0.2094 |
-0.6607 |
-0.7110 |
4 |
-0.4834 |
0.2413 |
0.0324 |
5 |
-0.4921 |
-0.0363 |
0.0966 |
6 |
-0.4401 |
0.1835 |
-0.0033 |
lam_ma<-matrix(lam,p,p,byrow=TRUE)##将列表转化为矩阵
sigmai<-(diag(sigm))^0.5
gamsla<-gam*sqrt(lam_ma)##特征向量##的算数平方根
load<-gamsla/sigmai##特征根/特征向量
colnames(load)<-paste("load",sep="",1:p)##确定行名
b<-print(load[,1:4],digits=4)##输出列表,并保留小数点后四位
write.csv(b,"4.csv")
表4
load1 |
load2 |
load3 |
|
1 |
0.4307 |
0.6735 |
-0.5865 |
2 |
-0.8988 |
0.2342 |
-0.1253 |
3 |
-0.3899 |
-0.6870 |
-0.6130 |
4 |
-0.8999 |
0.2509 |
0.0279 |
5 |
-0.9162 |
-0.0378 |
0.0832 |
6 |
-0.8192 |
0.1908 |
-0.0029 |
第4步:进一步分析主成分。有三个主成分。 做空间直角坐标系。得到各样品的分布情况,然后可以对样品进行分类。将标准化后的原始数据代人三个主成分的线性表达式,计算各样品的三个主成分得分。
library(scatterplot3d)##调用这个函数
y1<-dat5%*%as.matrix(gam[,1],p,1)##第一主成分
y2<-dat5%*%as.matrix(gam[,2],p,1)##第二主成分
y3<-dat5%*%as.matrix(gam[,3],p,1)##第三主成分
scatterplot3d(y1,y2,y3,pch="+",xlab="第一主成分",ylab="第二主成分",zlab="第三主成分")##画空间直角坐标系的图
图1
2.【例5-3】试利用主成分综合评价全国各地水泥制造业规模以上企业的经济效益,原始数据来源于2014年《中国水泥年鉴》
表1 2013年各地区水泥制造业规模以上企业的主要经济指标
X1 |
企业单位数(个) |
X5 |
主营业务收入(亿元) |
|||||||
X2 |
流动资产合计(亿元) |
X6 |
利润总额(亿元) |
|||||||
X3 |
资产总额(亿元) |
X7 |
销售利润率(%) |
|||||||
X4 |
负债总额(亿元) |
|||||||||
地区 |
x1 |
x2 |
x3 |
x4 |
x5 |
x6 |
x7 |
|||
北京 |
8 |
17.6 |
43.8 |
17.8 |
26.6 |
-1.4 |
-5.2 |
|||
天津 |
24 |
43.8 |
91.7 |
33.7 |
35.9 |
1.5 |
4.1 |
|||
河北 |
231 |
281.4 |
993.8 |
647 |
565.1 |
22.7 |
4 |
|||
山西 |
113 |
103.4 |
317.4 |
238.5 |
124 |
-2.1 |
-1.7 |
|||
内蒙古 |
116 |
135.9 |
384.4 |
256.8 |
245.8 |
11.9 |
4.8 |
|||
辽宁 |
151 |
151.4 |
417.6 |
247.9 |
350.3 |
23 |
6.6 |
|||
吉林 |
69 |
333.7 |
627.7 |
415.2 |
539.8 |
25.4 |
4.7 |
|||
黑龙江 |
96 |
142.1 |
331.6 |
234.7 |
183.2 |
13.5 |
7.4 |
|||
上海 |
14 |
21.5 |
28.3 |
12.6 |
31.6 |
1.2 |
4 |
|||
江苏 |
254 |
300.3 |
680 |
435.7 |
713.3 |
62.6 |
8.8 |
|||
浙江 |
192 |
259.8 |
561.9 |
300.1 |
473.9 |
42.1 |
8.9 |
|||
安徽 |
169 |
217.2 |
591.9 |
305.2 |
518.8 |
64.9 |
12.5 |
|||
福建 |
111 |
93.2 |
276.4 |
163.9 |
284.8 |
11.2 |
3.9 |
|||
江西 |
138 |
143.8 |
398.1 |
208.4 |
400.3 |
47.5 |
11.9 |
|||
山东 |
295 |
351.8 |
792.7 |
412.5 |
878.3 |
80.3 |
9.1 |
|||
河南 |
238 |
388.5 |
804.2 |
475.2 |
673.7 |
58.3 |
8.7 |
|||
湖北 |
151 |
193 |
619.7 |
360.7 |
570.5 |
49.1 |
8.6 |
|||
湖南 |
220 |
86.4 |
398.8 |
212.3 |
434.1 |
33.6 |
7.7 |
|||
广东 |
204 |
217 |
592.1 |
345.3 |
474.3 |
40.5 |
8.5 |
|||
广西 |
148 |
116 |
387.2 |
178.7 |
344 |
49.6 |
14.4 |
|||
海南 |
15 |
53.1 |
102.1 |
52.9 |
80.7 |
5.6 |
6.9 |
|||
重庆 |
78 |
158.3 |
419.8 |
294.1 |
185.1 |
8.4 |
4.5 |
|||
四川 |
196 |
218.2 |
739.1 |
433.3 |
465.2 |
37.1 |
8 |
|||
贵州 |
133 |
91.5 |
367.5 |
244.2 |
224.7 |
28.2 |
12.6 |
|||
云南 |
149 |
134.2 |
434.7 |
290.2 |
251 |
11.3 |
4.5 |
|||
西藏 |
10 |
11.3 |
26.5 |
5.4 |
17.4 |
4.1 |
23.7 |
|||
陕西 |
116 |
82.2 |
312.6 |
203.8 |
253.2 |
14.4 |
5.7 |
|||
甘肃 |
68 |
61.8 |
213.2 |
126.8 |
124.3 |
13.3 |
10.7 |
|||
青海 |
20 |
39.5 |
152.7 |
123.1 |
44.4 |
3 |
6.7 |
|||
宁夏 |
27 |
36.1 |
90.1 |
49.2 |
45.1 |
3.4 |
7.4 |
|||
新疆 |
86 |
220.6 |
602.7 |
353.4 |
136.1 |
1.5 |
1.1 |
三、实验过程
1.将数据进行标准化处理。
第1步:读人数据,输出变量之间的相关性。结果显示除
外,其他变量之间均存在较强的相关关系,因此原始数据适合做主成分分析。
ex5.3<-read.csv(file.choose(),head=TRUE)##选择文件中的数据赋值给ex5.3
dat53<-ex5.3[,-1]##去掉ex5.3中的第一列
rownames(dat53)<-ex5.3[,1]##确定行名
dat53<-scale(dat53,center=TRUE,scale=TRUE)##将数据标准化
sigm<-cov(dat53)##求协方差阵(cor(dat53)是求相关系数阵)
print(sigm,digits=3)##输出协方差阵
表 1
x1 |
x2 |
x3 |
x4 |
x5 |
x6 |
x7 |
|
x1 |
1.0000 |
0.7629 |
0.8518 |
0.7950 |
0.9020 |
0.8213 |
0.1570 |
x2 |
0.7629 |
1.0000 |
0.9234 |
0.8967 |
0.8809 |
0.7155 |
0.0248 |
x3 |
0.8518 |
0.9234 |
1.0000 |
0.9809 |
0.8750 |
0.6945 |
0.0252 |
x4 |
0.7950 |
0.8967 |
0.9809 |
1.0000 |
0.8102 |
0.5818 |
-0.0506 |
x5 |
0.9020 |
0.8809 |
0.8750 |
0.8102 |
1.0000 |
0.9032 |
0.1884 |
x6 |
0.8213 |
0.7155 |
0.6945 |
0.5818 |
0.9032 |
1.0000 |
0.4282 |
x7 |
0.1570 |
0.0248 |
0.0252 |
-0.0506 |
0.1884 |
0.4282 |
1.0000 |
第2步:计算特征值。结果可以看到,本例保留了前两个主成分,它们解释了全部变量总方差的 91.036%,说明这 2 个主成分代表原来的7个指标评价企业的经济效益已经足够。
my53<-eigen(sigm)##求特征值
lam<-my53$values##提取特征值
p<-length(lam)##特征值的长度赋值给p
cumlam<-cumsum(lam)/sum(lam)求出贡献率赋值给cumlam
VE<-data.frame(lam,lam/sum(lam),cumlam)##求出累计贡献率
colnames(VE)<-c("特征值","比例","累计比例")##确定列名
print(VE,digits=5)##输出列表并保留五位小数
表 2
特征值 |
比例 |
累计比例 |
|
1 |
5.16339 |
0.73763 |
0.73763 |
2 |
1.20914 |
0.17273 |
0.91036 |
3 |
0.34189 |
0.04884 |
0.95920 |
4 |
0.19479 |
0.02783 |
0.98703 |
5 |
0.04906 |
0.00701 |
0.99404 |
6 |
0.03415 |
0.00488 |
0.99892 |
7 |
0.00757 |
0.00108 |
1.00000 |
第3步:计算特征向量和因子负荷量。两个主成分的线性表达式如下:
主成分的经济意义由各线性组合中系数较大的几个指标的综合意义来确定。主成分巧中,除销售利润率的系数较小外,其他变量的系数大小相当,因此主成分 Y,综合反映水泥企业的整体规模和收入水平。主成分Y5中,变量利润总额和销售利润率的系数较大,后者的系数最大,其他变量的系数较小,因此主成分 Y。主要反映企业的盈利能力。这两个主成分从企业规模和企业盈利能力两个方面刻画企业经济效益,用它们来考核企业经济效益有 91.036%的可靠性。
gam<-my53$vectors##求特征向量
colnames(gam)<-paste("vec",sep="",1:p)##确定列名
print(gam[,1:2],digits=4)##输出列表,并保留小数点后位
表3
vec1 |
vec2 |
|
1 |
-0.40708 |
0.04364 |
2 |
-0.40956 |
-0.15500 |
3 |
-0.42124 |
-0.17831 |
4 |
-0.39992 |
-0.26946 |
5 |
-0.42630 |
0.07045 |
6 |
-0.37688 |
0.35951 |
7 |
-0.07354 |
0.85759 |
lam_ma<-matrix(lam,p,p,byrow=TRUE)##将列表转化为矩阵
sigmai<-(diag(sigm))^0.5
gamsla<-gam*sqrt(lam_ma)##特征向量##的算数平方根
load<-gamsla/sigmai##特征根/特征向量
colnames(load)<-paste("load",sep="",1:p)##确定行名
print(load[,1:2],digits=4)##输出列表,并保留小数点后四位
表 4
load1 |
load2 |
|
1 |
-0.92500 |
0.04799 |
2 |
-0.93064 |
-0.17044 |
3 |
-0.95720 |
-0.19607 |
4 |
-0.90873 |
-0.29630 |
5 |
-0.96868 |
0.07747 |
6 |
-0.85638 |
0.39532 |
7 |
-0.16709 |
0.94301 |
第4步:进一步分析主成分。当主成分有两个时,将各样品的主成分得分在平面直角坐标系上描出来,就可得到各样品的分布情况,然后可以对样品进行分类。将标准化后的原始数据代人两个主成分的线性表达式,计算各样品的两个主成分得分。现将各样品的主成分得分在平面直角坐标系上描出来(使用R软件画散点图并添加辅助线),结果如图5-5所示。
y1<-dat53%*%as.matrix(gam[,1],p,1)##第一主成分
y2<-dat53%*%as.matrix(gam[,2],p,1)##第二主成分
plot(y1,y2,pch="+",xlab="第一主成分",ylab="第二主成分")#3花出图表
abline(h=0,lty=2)
abline(v=0,lty=2)
text(y1,y2,ex5.3[,1],adj=-0.05)##注明每个点的名字
正在上传…重新上传取消
图 1
由图 1可知,分布在第一象限的地区是广西、江西、安徽、湖南、浙江、广东、湖北江苏和山东,说明这些省区的规模以上的水泥企业的经济效益较好,企业整体规模大且收人高,盈利能力强;分布在第三象限的地区是黑龙江、陕西、福建、云南、重庆、山西新疆、上海、天津、北京,说明这些地区的规模以上的水泥企业的经济效益较差,企业能体规模小且盈利能力弱,尤其是北京地区的水泥企业的经济效益最差,主要是由于北京地区较大规模的水泥企业比较少。
虽然可以根据各地区的主成分得分对各地区规模以上工业企业的经济效益或规模以上水泥企业的经济效益进行比较分析或分类研究,但因为此处主成分的意义并不十分明朗,我们把更深入的分析放到下一章,以期得到更合理、更容易解释的结果。
多元统计分析主成分分析何晓群版课后作业相关推荐
- 多元统计分析基于r课后答案_何晓群版—多元统计分析课后练习答案.pdf
何晓群版-多元统计分析课后练习答案 第1 章 多元正态分布 1.在数据处理时,为什么通常要进行标准化处理? 数据的标准化是将数据按比例缩放,使之落入一个小的特定区间.在某些比 较和评价的指标处理中经常 ...
- 多元统计分析-主成分分析的原理与实现
目录 一.什么是主成分分析? 二.主成分分析的原理 三.主成分分析的应用 四.使用sklearn实现主成分分析 五.总结 一.什么是主成分分析? 主成分分析(Principal Component A ...
- 多元统计分析何晓群_多元统计分析第四章作业
关注公众号,更多资源分享 回复关键词:多元统计分析 即可获取更多详细其他章节答案 <多元统计分析>课后答案||何晓群版(第二章) <多元统计分析>第一章课后答案(何晓群编第五版 ...
- 【应用多元统计分析】-王学民Python主成分分析例题,特征值处理和可视化(2)
title: "应用多元统计分析" subtitle: "书上题目" author: | OLSRR 由于字数限制,本文省去部分数据预览. 7.6 下表中给出的 ...
- 【多元统计分析】均值向量和协方差阵的检验——spss上机实验
均值向量和协方差阵的检验--spss上机实验 #参考书目为<多元统计分析>(第五版)--何晓群.中国人民大学出版社 #如有错误,请指正!谢谢~ #关注公众号搜索同名文章获取数据~ 习题2. ...
- 多元统计分析朱建平pdf_应用多元统计分析课后答案朱建平版[精心整理].doc
应用多元统计分析课后答案朱建平版[精心整理] 第二章 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,的联合分布密度函数是一个p维的函数,而 ...
- 多元统计分析及R语言建模(第五版)——第3章多元数据的直观表示课后习题
第3章多元数据的直观表示 本文用到的数据可以去这个网址下下载多元统计分析及R语言建模(第5版)数据 练习题 2)表3-2是2004年广东省各市高新技术产品情况.试对资料按照本章介绍的多元图示方法做直观 ...
- 多元统计分析及R语言建模(第五版)——第6章 判别分析课后习题
第6章 判别分析 文章会用到的数据请在这个网址下下载多元统计分析及R语言建模(第五版)数据 练习题 1)考虑两个数据集x1 = [3 7 2 4 4 7],x2 = [6 9 5 7 4 8] (1) ...
- 多元统计分析最短距离法_(完整word版)多元统计分析模拟试题
多元统计分析模拟试题(两套:每套含填空.判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法.贝叶斯判别法.费歇判别法.逐步 判别法. 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的 ...
- 【应用多元统计分析】上机四五——主成分分析因子分析
目录 一.主成分分析 1.princomp命令 2.screeplot命令 3.[例7.3.3]对[例6.3.3]中的数据从相关矩阵出发进行主成分分析 编辑(1)代码 (2)碎石图 (3)散点图 二 ...
最新文章
- 简单易学的python自动化办公教学视频-Python自动化办公之操作Excel文件
- 纠错工具之 - Proovread
- 从JSON数据中取出相关数据
- 提取图像的边界,用数字标记不同的目标边界
- 12.6 Nginx安装 12.7 默认虚拟主机 12.8 Nginx用户认证 12.9 Nginx
- MVC4建立DBContext的EF6数据
- MindManager 报错:Click to restart mindjet player 解决方法
- Git 新建仓库推送远程技巧
- 蚂蚁集团技术专家山丘:性能优化常见压测模型及优缺点
- 从教科书式的失败到手术刀式的自救,李宁找回了“李宁”!
- tomcat端口修改以及jvm启动参数设置
- 精雕道路怎么遍弧形_沥青冷补料多少钱一吨?怎么施工?效果怎么样?
- python调用go并把结果传回go_从Go调用Python函数并获取函数返回值
- python核心编程笔记chapter 14
- 变量名可以是python的关键字_python – 如何使用关键字作为变量名?
- 分享修改Wke源代码后重新封装成Duilib控件的代码
- Pandas速查手册中文
- VBA写一个下拉复选框,以及循环判断,附代码
- Cisco 思科模拟器命令
- 【程序源代码】小电影小程序