1)试述主成分分析的基本思想

主成分分析是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。

其基本思想是:设法将原来具有一定相关性的众多指标,重新组合成一组新的相互无关的综合指标代替原来指标。

3)假定2002年我国35个核心城市综合竞争力评价指标为:

——国内生产总值(亿元);

——一般预算收入(亿元);

——固定资产投资(亿元);

——外贸进出口(亿美元);

——城市居民人均可支配收入(元);

——人均国内生产总值(元);

——人均贷款余额(元/人);

它们的数据如表所示:

(1)求样本相关系数矩阵R及特征根和特征向量。

R语言程序代码如下:

> library(openxlsx)

> a = read.xlsx('E:/mvexer5.xlsx','E8.3',rowNames = T) #查找并读取指定数据

> X = data.frame(a)

> R = cor(X);R #相关系数阵

> R.e = eigen(R,symmetric = T);R.e #特征根

> R.e $ vectors%*%diag(R.e $ values)%*%t(R.e $ vectors) #特征向量

在Rstudio中运行结果如下:

图1. 相关系数矩阵R的特征根和特征向量

(2)确定前两个主成分所解释的总体样本方差的比例,并解释这些主成分。

R语言程序代码如下:

> source('E:/msaR.R')

> PC = msa.pca(a,cor = T);PC

> PC$vars

在Rstudio中运行结果如下:

由下图知:两个主成分占总体样本方差的94.26%,基本代表所有指标的信息量。

其中主成分Comp.1在国内生产总值、一般预算收入、固定资产投资、外贸进出口、城市居民人均可支配收入的载荷值都很大,可视为总竞争力主成分反映了核心城市的总发展水平;而主成分Comp.2在人均国内生产总值及人均贷款余额上的载荷值很大,可视为人均竞争力主成分反映了核心城市的人均发展水平。

图2.总体样本分析

(3)对35个核心城市综合竞争力进行综合排名。对其进行分析。

R语言程序代码如下:

> source('E:/msaR.R')

> PC = msa.pca(a,cor = T);PC

> PC$ranks

> biplot(PC $ scores,PC $ loadings)

> abline(h = 0,v = 0,lty = 3)

在Rstudio中运行结果如下:

在Comp.1上得分最高的分别有上海、深圳、北京、广州、杭州。而上海、深圳、北京、广州明显高于其他核心城市,这说明这几个核心城市的总的发展水平高,竞争力也相对较高。

而深圳在Comp.2上远远高于其他城市,这说明深圳的人均发展水平比较高。

就综合得分来看,总的排名如上图所示,排名前几的分别为:深圳、上海、北京、广州、杭州、宁波……

图3.双重信息图

1)比较因子分析和组成分分析模型,说明它们的相似和不同之处。

主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。因子分析就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。

4)因子分析法在股价预报上的探索:在本例中为了验证因子分析方法的有效性,特意不区分行业,以上交所和深交所进行分层,然后把层内全部股票选入抽样框,以进行随机抽取。从http://www.jrj.com.cn得到了23个企业在2004年3月31日的数据,见表9-4,所考虑的指标如下:流动比率x1(<2偏低)、速动比率x2(<1偏低)、现金流动负债比x3(%)、每股收益x4(元)、每股未分配利润x5(元)、每股净资产x6(元)、每股资本公积金x7(元)、每股盈余公积金x8(元)、每股净资产增长率x9(%)、经营净利率x10(%)、经营毛利率x11(%)、资产利润率x12(%)、资产净利率x13(%)、主营收入增长率x14(%)、净利润增长率x15(%)、总资产增长率x16(%)、主营利润增长率x17(%)、主营成本比例x18、营业费用比例x19(%)、管理费用比例x20(%)、财务费用比率x21(%)。

(1)求样本相关系数阵R及特征根与特征向量。

R语言程序代码如下:

> library(openxlsx)

> a = read.xlsx('E:/mvexer5.xlsx','E9.4',rowNames = T) #查找并读取指定数据

> X = data.frame(a)

> R = cor(X) #相关系数阵

> R.e = eigen(R,symmetric = T);R.e #特征根

> R.e $ vectors%*%diag(R.e $ values)%*%t(R.e $ vectors) #特征向量

在Rstudio中运行结果如下:

图4.R的特征根

图5.R的特征向量

(2)确定因子的个数,并解释这些因子的含义。

通过探索性的因子分析得:前6个因子的方差贡献率已经占到累积方差贡献率的76.0%,前7个因子的方差贡献率已经占到累积方差贡献率的82.9%,所以只要取前7个因子就可以很好地概括指标。

R语言程序代码如下:

> library(openxlsx)

> a = read.xlsx('E:/mvexer5.xlsx','E9.4',rowNames = T)

> factanal(a, 7, rotation = "none")

在Rstudio中运行结果如下:

图6. 确定因子的个数

(3)计算各因子得分,画出前两个因子的得分图并解释之。

R语言程序代码如下:

> source('E:/msaR.R')

> pa = msa.fa(a,m=7,rotation = 'none')

> pa$scores

> pa1 = msa.fa(a,m=2,rotation = 'none')

> plot(pa1$scores,asp = 1);abline(h=0,v=0,lty=2)

> text(pa1$scores,labels = rownames(a))

> biplot(pa$scores,pa$loadings)#因子信息重叠图

> abline(h=0,v=0,lty=2)

在Rstudio中运行结果如下:

由下面因子得分图知,张裕A、四环生物、深发展在第一因子Factor1和第二因子Factor2上的得分取正值且相对较大,爱建股份在第一因子Factor1上取正值且相对较大在第二因子Factor2上虽取负值但相对较小,所以排名靠前,而st昌源和st啤酒花在第一因子Factor1上取负值且相对较大,所以排名靠后。其余均距离原点不远处。总的来说要提高上市企业股价应该共同促进两种因子发展。

图7.计算因子得分

图8.因子得分信息图

图9.因子信息重叠图

(4)对因子进行旋转,比较旋转前后因子分析的结果。

R语言程序代码如下:

> source('E:/msaR.R')

> Fa1 = msa.fa(a, 7, rotation = "none")

> Fa1$vars   #旋转前

> Fa1$loadings

> Fa2 = msa.fa(a, 7, rotation = "varimax")

> Fa2$vars   #旋转后

> Fa2$loadings

在Rstudio中运行结果如下:

由下图可以看出,旋转前各综合因子代表的具体经济意义不很明显,而旋转后各因子代表的经济意义则十分明显,因子Factor7在流动比率x1上的载荷值高达到93.15%。

图10.因子旋转分析

(5)对这23个上市企业财务状况进行综合评价。

R语言程序代码如下:

> source('E:/msaR.R')

> Fa1 = msa.fa(a, 7, rotation = "none")

> Fa1   #旋转前

> Fa2 = msa.fa(a, 7, rotation = "varimax")

> Fa2   #旋转后

在Rstudio中运行结果如下:

从旋转后的因子载荷矩阵可以看出,公共因子Factor1在经营净利率x10、净利润增长率x15、管理费用比例x20、财务费用比率x21上的载荷值比较大,公共因子Factor2在速动比率x2、现金流动负债比x3、资产利润率x12和资产净利率x13上的载荷值比较大……

由回归法估计出因子得分以各因子的方差贡献率占四个因子总方差贡献率的比重 作为权重进行加权,汇总得出个省、市、自治区的综合得分及排名。其中排名最高的几个企业分别为张裕A、爱建股份、深发展、四环生物。由此可见,上市企业的财务状况是由总营业利润决定的。

图11.未旋转数据分析

图12.旋转后数据分析

2)对应分析的基本思想是什么?

对应分析是多变量统计分析中一种有用的分析方法 对应分析把R型因子分析和Q型因子分析统一起来,通过R型因子分析直接得到Q型因子分析的结果 把变量(指标)和样品同时反映到相同的坐标轴(因子轴)的一张图形上,用此来说明变量(指标)与样品之间的对应关系。

3)对应分析与因子分析的区别与联系。

对应分析是在因子分析的基础上发展起来的。在因子分析中,可以用较少的公共因子来提取样本数据的绝大部分信息,这样就可以考察较少的因素而获得足够的信息。然而R型因子分析和Q型因子分析,即对变量和样品分别做因子分析,并没有考虑变量和样本之间的联系,损失了一部分信息。

3)广东省授权专利的对应分析:当今世界经济、科技发展迅速,市场竞争越演越烈。市场竞争实质是科技的竞争,而科技竞争的重要形式则是专利竞争。专利是实现科学技术经济价值的重要形式,也是参与市场竞争的强力武器,更是改革和发展的"助推器"。我国的专利法将专利分为三类,分别是发明专利、实用新型专利和外观设计专利。

由于各种专利类型的申请和授权量会受所在地经济状况、行业性质等因素的影响,所以不同地区专利类型的结构也会不尽相同。试对2005年广东省各市专利类型的申请情况(表10-5)进行对应分析和比较,并解释其原因。

表10-5 2005年广东省各市专利类型的申请情况

地区

发明

实用新型

外观设计

地区

发明

实用新型

外观设计

广州

深圳

珠海

汕头

韶关

河源

梅州

惠州

汕尾

东莞

中山

2706

14583

401

160

85

10

30

75

28

553

192

3735

6766

929

689

272

42

73

377

43

2603

1263

5855

8390

788

2803

104

84

100

425

170

6723

2794

江门

佛山

阳江

湛江

茂名

肇庆

清远

潮州

揭阳

云浮

200

2016

24

112

22

41

20

28

32

29

802

5248

156

153

118

171

64

187

145

47

2279

11790

625

318

174

163

86

1415

470

91

R语言程序代码如下:

> library(openxlsx)

> a = read.xlsx('E:/mvexer5.xlsx','E10.3',rowNames = T)#查找并读取指定数据

> library(ca)

> Ca1 = ca(a);summary(Ca1)

> Ca1$rowcoord    #行坐标

> Ca1$colcoord     #列坐标

> plot(Ca1)    #对应分析图

在Rstudio中运行结构如下:

根据下图可将样本点和变量分为三组:

第一组:

变量:发明

样本:深圳

第二组:

变量:实用新型

样品:珠海、韶关、梅州、惠州、广州、清远、肇庆、茂名

第三组:

变量:外观设计

样品:其他城市

从这些分类结果来看,深圳注重发明创造,而珠海、广州、梅州等更注重实用新型的专利,其余各市则是更看重外观。

图13.对应分析及绘图

图14.对应分析图

多元统计分析及R语言建模(王斌会)第八、九、十章答案相关推荐

  1. 多元统计分析及R语言建模_自定义函数: msaR.R

    #*********************************************** #****** 多元统计分析及R语言建模(第五版)****** #****** 自定义函数: msaR ...

  2. 多元统计分析及R语言建模

    目录 一.数据矩阵数据框及R表示 1.创建向量和矩阵 1)创建一个向量 2)创建一个矩阵 2.矩阵其他运算 1)矩阵的转置,加法减,矩阵相乘,求矩阵C的逆 2)获得矩阵对角线元素 ,创建三阶单位矩阵 ...

  3. 多元统计分析及R语言建模(第五版)——第3章多元数据的直观表示课后习题

    第3章多元数据的直观表示 本文用到的数据可以去这个网址下下载多元统计分析及R语言建模(第5版)数据 练习题 2)表3-2是2004年广东省各市高新技术产品情况.试对资料按照本章介绍的多元图示方法做直观 ...

  4. 多元统计分析及R语言建模(第五版)——第6章 判别分析课后习题

    第6章 判别分析 文章会用到的数据请在这个网址下下载多元统计分析及R语言建模(第五版)数据 练习题 1)考虑两个数据集x1 = [3 7 2 4 4 7],x2 = [6 9 5 7 4 8] (1) ...

  5. 多元统计分析及R语言建模(王斌会)第十、十一、十二章答案

    3)我国工农业产业系统的典型相关分析:首先将工业内部五个结构比重变量作为第一组分析变量:以农业产品为原料的生产部门的产值占总工业部门产值的比重:以非农业产品为原料的生产部门的产值占总工业部门产值的比重 ...

  6. 多元统计分析及R语言建模#学习笔记

    最近在学习R语言,把书上的代码都敲一遍,仅供学习 函数c()创建向量 x1=c(171,175,159,155,152,158,154,164,168,166,159,164) x2=c(57,64, ...

  7. 多元统计分析及R语言建模(第五版)部分课后习题代码演示

    前言:我是lst,这是本学期课程内容,根据上课内容.参考书本.CSDN社区等来源,完成的部分课程习题代码.如有问题,欢迎大家批评指正 library(openxlsx)                 ...

  8. 数学建模笔记(十五):多元统计分析及R语言建模(判别分析、聚类分析、主成分分析、因子分析,含数据代码注释,均可供运行)

    文章目录 一.多元数据的数学表达 1.多元分析资料的一般格式与矩阵化表示 2.数据特征(一元数据与多元数据的均值和方差) 二.R软件基本使用 1.向量创建(c函数) 2.行列合并(rbind,cbin ...

  9. 多元统计分析及R语言建模(第四版)-----数据,包,资源

    链接:http://rstat.leanote.com/cate/%E5%A4%9A%E5%85%83%E7%BB%9F%E8%AE%A1%E5%88%86%E6%9E%90 ************ ...

最新文章

  1. 未来15年,人工智能将带给城市8种改变
  2. 如果输送知识不再重要,那么教育问题出在哪里?
  3. linux 文件系统 代码,Linux文件系统介绍
  4. [转]python中去掉字符串中的\xa0、\t、\n
  5. Log42j 源代码分析:日志回滚
  6. OWASP Web Testing Environment (WTE) 安装和使用
  7. jquery全国省市县三级联动
  8. mysql的应用领域_面向应用领域的数据库新技术汇总(干货)
  9. 普元EOS中如何往Session的UserObject中设置自定义属性
  10. Unity: 打飞碟Adapter版
  11. 手机定位浅析 AGPS定位 LBS基站定位 卫星定位
  12. Vue组件中关于@click.native.prevent事件
  13. 制作简单时钟logo
  14. Ubuntu Linux虚拟机不识别U盘问题解决
  15. Tuxera NTFS2023免费版Mac电脑系统读写软件
  16. 如何在Java中转换Excel文件到图像?
  17. 给程序员新年巨献:Google最热门60款开源项目
  18. JAVA毕设项目公立医院绩效考核系统(Vue+Mybatis+Maven+Mysql+sprnig+SpringMVC)
  19. 移动布局——流式布局
  20. 对emp表的一些查询操作

热门文章

  1. java安装教程(解决官网下载的安装包为什么没有jre?)
  2. 【调剂】航天科工四院四部2023年度自培研究生开始调剂啦!!!
  3. redhat linux 7.2系统安装详细过程
  4. tracert命令介绍
  5. python中类的继承关系使用什么符号表示_智慧职教: Python中类的继承关系使用( )符号表示?...
  6. axios 官方指南翻译
  7. 2021-2027全球与中国厨房用食品搅拌机市场现状及未来发展趋势
  8. JAVA oa 系统模块设计方案
  9. 华为设备配置Telnet与SSH服务实现运程连接网络设备
  10. 用Matlab录制、读取音频