主成分分析在SPSS中的操作应用
主成分分析在SPSS中的操作应用
- 主成分分析在SPSS中的操作应用
- 主成分分析原理
- 主成分分析法简介
- 主成分分析数学模型
- 对沿海 10 个省市经济综合指标进行主成分分析
- 生成图表
- 方法一
- 方法二
- 方法一结果
- 方法二结果
- 参考链接
主成分分析原理
主成分分析是设法将原来众多具有一定相关性 ( 比如 PPP 个指标) , 重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来 P" role="presentation">PPP 个指标作线性组合, 作为新的综合指标。最经典的做法就是用 F1F1F_1 ( 选取的第一个线性组合, 即第一个综合指标) 的方差来表达, 即 Var(F1)Var(F1)Var(F_1) 越大, 表示 F1F1F_1 包含的信息越多。因此在所有的线性组合中选取的 F1F1F_1 应该是方差最大的, 故称F1F1F_1 为第一主成分。如果第一主成分不足以代表原来 PPP 个指标的信息, 再考虑选取 F2" role="presentation">F2F2F_2 即选第二个线性组合, 为了有效地反映原来信息, F1F1F_1 已有的信息就不需要再出现在 F2F2F_2中, 用数学语言表达就是要求 Cov(F1,F2)=0Cov(F1,F2)=0Cov(F_1 , F_2 )=0 , 则称 F2F2F_2 为第二主成分, 依此类推可以构造出第三、第四, ⋯⋯, 第 PPP 个主成分。
主成分分析法简介
一项十分著名的工作是美国的统计学家斯通( ( stone) 在1947 年关于国民经济的研究。他曾利用美国 1929 一 1938年各年的数据,得到了 17 个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。
在进行主成分分析后,竟以 97.4 %的精度,用三新变量就取代了原 17 个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入 F1" role="presentation">F1F1F_1 、 总收入变化率 F2F2F_2 和经济发展或衰退的趋势 F3F3F_3。
主成分与原始变量之间的关系:
- 主成分保留了原始变量绝大多数信息。
- 主成分的个数大大少于原始变量的数目。
- 各个主成分之间互不相关。
- 每个主成分都是原始变量的线性组合。
主成分分析数学模型
\left\{ \begin{array}{c} F_1=a_{11}ZX_1+a_{21}ZX_2+\cdots\cdots+a_{p1}ZX_p \\ F_2=a_{12}ZX_1+a_{22}ZX_2+\cdots\cdots+a_{p2}ZX_p \\ \cdots \cdots \\ F_3=a_{1m}ZX_1+a_{2m}ZX_2+\cdots\cdots+a_{pm}ZX_p \\ \end{array} \right.
其中a1i,a2i,⋯⋯,api(i=1,⋯⋯,m)a1i,a2i,⋯⋯,api(i=1,⋯⋯,m)a_{1i} , a_{2i} , ⋯⋯ ,a_{pi} (i=1, ⋯⋯ ,m) 为 XXX 的协方差阵∑" role="presentation">∑∑\sum的特征值多对应的特征向量, ZX1,ZX2,⋯⋯,ZXpZX1,ZX2,⋯⋯,ZXpZX_1 , ZX_2 , ⋯⋯ , ZX_p 是原始变量经过标准化处理的值, 因为在实际应用中, 往往存在指标的量纲不同, 所以在计算之前须先消除量纲的影响,而将原始数据标准化, 本文所采用的数据就存在量纲影响 [ 注: 本文指的数据标准化是指 ZZZ 标准化 ] 。
A=(aij)p×m=(a1,a2,⋯am,)" role="presentation">A=(aij)p×m=(a1,a2,⋯am,)A=(aij)p×m=(a1,a2,⋯am,)A=(a_{ij})_{p×m}=(a_1 ,a_2 , ⋯ a_m ,) , Rai=λiaiRai=λiaiRa_i =\lambda_ia_i , RRR 为相关系数矩阵, λi" role="presentation">λiλiλ_i 、aiaia_i 是相应的特征值和单位特征向量 ,λ1≥λ2≥⋯≥λp≥0λ1≥λ2≥⋯≥λp≥0λ_1 ≥λ_2 ≥ ⋯ ≥λ_p ≥0 。
进行主成分分析主要步骤如下:
- 根据研究问题选取指标与数据;
- 进行指标数据标准化( SPSS 软件 Factor 过程自动执行) ;
- 进行指标之间的相关性判定;
- 确定主成分个数 mmm ;
- 确定主成分 Fi" role="presentation">FiFiF_i 表达式;
- 进行主成分 FiFiF_i 命名;
- 计算综合主成分值并进行评价与研究。
对沿海 10 个省市经济综合指标进行主成分分析
地区 | GDP | 人均GDP | 农业增加值 | 工业增加值 | 第三产业增加值 | 固定资产投资 | 基本建设投资 | 社会消费品零售总额 | 海关出口总额 | 地方财政收入 |
---|---|---|---|---|---|---|---|---|---|---|
辽宁 | 5458.2 | 13000 | 14883.3 | 1376.2 | 2258.4 | 1315.9 | 529 | 2258.4 | 123.7 | 399.7 |
山东 | 10550 | 11643 | 1390 | 3502.5 | 3851 | 2288.7 | 1070.7 | 3181.9 | 211.1 | 610.2 |
河北 | 6076.6 | 9047 | 950.2 | 1406.7 | 2092.6 | 1161.6 | 597.1 | 1968.3 | 45.9 | 302.3 |
天津 | 2022.6 | 22068 | 83.9 | 822.8 | 960 | 703.7 | 361.9 | 941.4 | 115.7 | 171.8 |
江苏 | 10636 | 14397 | 1122.6 | 3536.3 | 3967.2 | 2320 | 1141.3 | 3215.8 | 384.7 | 643.7 |
上海 | 5408.8 | 40627 | 86.2 | 2196.2 | 2755.8 | 1970.2 | 779.3 | 2035.2 | 320.5 | 709 |
浙江 | 7670 | 16570 | 680 | 2356.5 | 3065 | 2296.6 | 1180.6 | 2877.5 | 294.2 | 566.9 |
福建 | 4682 | 13510 | 663 | 1047.1 | 1859 | 964.5 | 397.9 | 1663.3 | 173.7 | 272.9 |
广东 | 11770 | 15030 | 1023.9 | 4224.6 | 4793.6 | 3022.9 | 1275.5 | 5013.6 | 1843.7 | 1202 |
广西 | 2437.2 | 5062 | 591.4 | 367 | 995.7 | 542.2 | 352.7 | 1025.5 | 15.1 | 186.7 |
运用 SPSS 统计分析软件 Factor 过程 [2] 对沿海 10 个省市经济综合指标进行主成分分析。具体操作步骤如下:
- 点击:分析→降维→因子… , 弹出因子分析对话框;
- 把 X1~X10X1~X10X_1 ~X_{10} 选入变量框;
- 点击:描述→系数(勾选); 提取→碎石图; 得分→显示因子得分系数矩阵;最后点击确定;
生成图表
SPSS 在调用 Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但 SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用 Descriptives 过程进行计算。
如,GDP和GDP的相关性为1,自己和自己相关性最强;人均GDP和GDP的相关性为-0.094,说明两者相关性不强;等等;
从上表可知 GDP 与工业增加值, 第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系, 与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强, 证明他们存在信息上的重叠。
左图:可以看出第一个特征GDP占72.205%,前两个特征累计占84.551%;所以提取2个主成分,即m=2。
右图: 可知 GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷, 说明第一主成分基本反映了这些指标的信息; 人均 GDP 和农业增加值指标在第二主成分上有较高载荷, 说明第二主成分基本反映了人均GDP 和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息, 所以决定用两个新变量来代替原来的十个变量。
方法一
用成分矩阵中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数 ;
例如:F1F1F_1系数 a11=0.9497.220√=0.353a11=0.9497.220=0.353a_{11}=\frac{0.949}{\sqrt{7.220}}=0.353,F2F2F_2中a11=0.1951.235√=0.175a11=0.1951.235=0.175a_{11}=\frac{0.195}{\sqrt{1.235}}=0.175
F1=0.353ZX1+0.042ZX2−0.041ZX3+0.364ZX4+0.367ZX5+0.366ZX6+0.352ZX7+0.364ZX8+0.298ZX9+0.355ZX10F1=0.353ZX1+0.042ZX2−0.041ZX3+0.364ZX4+0.367ZX5+0.366ZX6+0.352ZX7+0.364ZX8+0.298ZX9+0.355ZX10F_1 =0.353ZX_1 +0.042ZX_2 - 0.041ZX_3 +0.364ZX_4 +0.367ZX_5 +0.366ZX_6 +0.352ZX_7 +0.364ZX_8 +0.298ZX_9 +0.355ZX_{10}
F2=0.175ZX1−0.741ZX2+0.609ZX3−0.004ZX4+0.063ZX5−0.061ZX6−0.022ZX7+0.158ZX8−0.046ZX9−0.115ZX10F2=0.175ZX1−0.741ZX2+0.609ZX3−0.004ZX4+0.063ZX5−0.061ZX6−0.022ZX7+0.158ZX8−0.046ZX9−0.115ZX10F_2 =0.175ZX_1 - 0.741ZX_2 +0.609ZX_3 - 0.004ZX_4 +0.063ZX_5 - 0.061ZX_6 - 0.022ZX_7 +0.158ZX_8 - 0.046ZX_9 -0.115ZX_{10}
上式中ZXiZXiZX_i是归一化之后的数据,使用SPSS进行数据标准化,方法如下:
1. 点击:分析→描述统计→描述;
2. 将所有选项导入变量中;
3. 勾选标准化值;
生成归一化之后的Z值:
例如:求辽宁的F1=0.353∗−0.35567+0.042∗−0.31866+……+0.355∗−0.34163F1=0.353∗−0.35567+0.042∗−0.31866+……+0.355∗−0.34163F_1=0.353*-0.35567+0.042*-0.31866+……+0.355*-0.34163;
求F2F2F_2方法类似;
F=(72.2/84.5)F1+(12.3/84.5)F2F=(72.2/84.5)F1+(12.3/84.5)F2F=(72.2/84.5)F_1+(12.3/84.5)F_2
方法二
使用成份得分矩阵求F1和F2F1和F2F_1和F_2。
直接使用成分得分系数做为系数,如下公式:
F1=0.131ZX1+0.015ZX2−0.015ZX3+0.135ZX4+0.137ZX5+0.136ZX6+0.131ZX7+0.135ZX8+0.111ZX9+0.132ZX10F1=0.131ZX1+0.015ZX2−0.015ZX3+0.135ZX4+0.137ZX5+0.136ZX6+0.131ZX7+0.135ZX8+0.111ZX9+0.132ZX10F_1 =0.131ZX_1 +0.015ZX_2 - 0.015ZX_3 +0.135ZX_4+0.137ZX_5 +0.136ZX_6 +0.131ZX_7 +0.135ZX_8+0.111ZX_9 +0.132ZX_{10}
F2=0.158ZX1−0.667ZX2+0.548ZX3−0.004ZX4+0.056ZX5−0.055ZX6−0.020ZX7+0.142ZX8−0.041ZX9−0.104ZX10F2=0.158ZX1−0.667ZX2+0.548ZX3−0.004ZX4+0.056ZX5−0.055ZX6−0.020ZX7+0.142ZX8−0.041ZX9−0.104ZX10F_2 =0.158ZX_1 - 0.667ZX_2 +0.548ZX_3 - 0.004ZX_4+0.056ZX_5 - 0.055ZX_6 - 0.020ZX_7 +0.142ZX_8 -0.041ZX_9 -0.104ZX_{10}
F=(72.2/84.5)F1+(12.3/84.5)F2F=(72.2/84.5)F1+(12.3/84.5)F2F=(72.2/84.5)F_1+(12.3/84.5)F_2
方法一结果
方法二结果
参考链接
论文:主成分分析在SPSS中的操作应用
视频:主成分分析法
主成分分析在SPSS中的操作应用相关推荐
- 主成分在spss中的操作应用
主成分分析在SPSS中的操作应用 主成分分析在SPSS中的操作应用 主成分分析原理 主成分分析法简介 主成分分析数学模型 对沿海 10 个省市经济综合指标进行主成分分析 生成图表 方法一 方法二 方法 ...
- spss主成分综合得分_【SPSS因子分析】在SPSS中对医学多个数值变量进行因子分析 —【杏花开医学统计】...
杏花开生物医药统计 一号在手,统计无忧! 关 注 在SPSS中对医学多个数值 变量进行因子分析 关键词:SPSS.因子分析 导 读 因子分析(factor analysis),指通过多个可观测的指标 ...
- SPSS单样本T检验在SPSS中的实战操作及结果解读(含SPSS输出结果及三线表)【转载】
单样本t检验,即考察单个变量样本的均值与给定常值之间是否存在差异.在医学统计中,常用于某组资料与标准值的比较,如考察某地区居民的身高与基本身高的差异情况.某地区儿童的各阶段体重.头围等发育情况等,是计 ...
- 语言相关系数显著性_相关性分析在SPSS中的具体操作,一文读懂相关系数的含义及使用——【杏花开生物医药统计】...
相关性分析介绍 生物和医学统计中,相关分析属于流程前端的探索性分析,研究变量间关系及性质,其结果在为下一步采取何种方法做出指引,为数据挖掘之前的基础工作. 相关系数的选择 相关分析之前,需要先确认变量 ...
- R语言数据分析笔记——t检验(含正态性检验和方差齐性检验在SPSS和R语言中的操作t检验(单样本、双独立样本、配对样本)在Excel、SPSS、R语言中的操作)
前言:本文为个人学习笔记,为各大网站上的教学内容之综合整理,综合整理了①假设分析的基础知识.②正态性检验和方差齐性检验在SPSS和R语言中的操作.③t检验(单样本.双独立样本.配对样本)在Excel. ...
- 如何给图片赋值_医学数据的变量类型及在SPSS中的赋值方法(医学统计前的重要步骤)——【杏花开医学统计】...
杏花开生物医药统计 一号在手,统计无忧! 关 注 医学数据的变量类型 及在SPSS中的赋值方法 关键词:医学数据,变量类型,赋值,spss 下方为视频版和音频版,含软件操作步骤 导 读 不同的医学数 ...
- 方差分析及其在Excel、SPSS中的应用
方差分析及其在Excel.SPSS中的应用 1.什么是方差分析? 方差分析(ANOVA)指通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响. 方差分析中,所要检验的对象称为因 ...
- Access根据出生日期计算年龄_小技巧 | 在SPSS中根据出生日期计算年龄
数据资料中收集了样本的出生日期,如何通过出生日期快速计算他们的当前年龄呢?本文将通过SPSS的自带案例数据集Employee data.sav进行操作步骤分享. 打开数据集 在SPSS中,选择文件 - ...
- 用spss做多组两两相关性分析_两独立样本T检验及如何利用SPSS实现其操作
上一篇文章我们讲解了有关单样本T检验的相关内容(如何使用SPSS进行单样本检验),其实论文中除了常用到的单样本T检验以外,还有另外一种T检验的方法也是经常用到的统计方法,也就是两独立样本T检验 说到T ...
最新文章
- HarmonyOS 怎样打印log/日志的打印
- cogs 2320. [HZOI 2015]聪聪的世界题解
- linux安装weblogic9,linux_weblogic9_安装说明.doc
- windows10大瘦身 - Lync录屏的临时文件夹清理
- leetcode 222. 完全二叉树的节点个数(dfs)
- LeetCode425——Add Strings(两个字符串中的数字相加(十进制或二进制),输出字符串形式的结果)
- Excel导入到sql数据库中完整代码
- 数据结构之数组和列表
- 深入解析MySQL索引原理
- C语言——输出一个正方形
- Oracle批量低耗清除历史数据
- 基于友盟+U-APM解决客户小姐姐Android Native Crash问题,小姐姐说我真棒,要把她闺蜜介绍给我
- Springboot整合Poi导出excel(简单版)
- 用canvas画一个炫酷的粒子动画倒计时
- Ubuntu18.04使用Carla导入RoadRunner自建地图并使用
- Python 阶段性总结《抽奖系统》(文末附代码地址)
- You're a brave boy!
- C#编程:用Substring获取年份生肖-4
- vue 可拖拽组件的实现
- [VOT1](2019CVPR)SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks
热门文章
- 汇智动力2021年度软件测试学员就业分析报告
- 不重做系统给硬盘分配合适的空间(分区助手)
- dubbo教程总结(springboot+dubbo)
- 从清华园镜像站下载方法
- 什么叫黑链-SEO zuobi手法解析
- kotlin android 4,Kotlin Android Extensions: 与 findViewById 说再见 (KAD 04)
- O奖得主也收藏的6大美赛数据库网站
- 注册机解压缩后为空文件解决方案
- 安装VC运行时 vcredist_x64出现,安装不了
- 计算机设备管理器驱动,什么我的电脑设备管理器里没有非即插即用驱动程序着一项...