普通玩家版基于SPSS的PCA攻略
这是一篇精准打击PCA之基于SPSS实战
我请我自己写一个普通玩家版基于SPSS平台的PCA攻略,以防我这个笨蛋白痴下次又重新学过。。
PCA是什么?
主成分分析法(PCA), 是一种常用的无监督学习方法,旨在利用降维的思想,通过正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分的个数通常小手原始变量的个数,所以主成分分析属于降维方法,是迄今为止最流行的降维算法。
主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他机器学习方法的前处理(比如先用PCA进行变量的降维继而作为机器学习的输入端进行输入,效果一般会比直接把变量输入模型的效果会精准一些)。
关于投影那些原理在此不作赘述,,那些字都能看懂,但连在一起感觉以我的脑子学不明白(我是笨蛋我是笨蛋我是笨蛋)哈哈哈哈哈哈
为什么用PCA?
在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素,但变量过多时会增加计算量和分析问题的复杂度。我们希望在进行定量分析的过程中,涉及的变量较少,反而得到的信息量较多。那么PCA刚好符合我们的需求,它的目标是(基于方差)提取出最有价值的信息。
主成分分析法把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。
当然现在有多种途径可以实现PCA,比如MATLAB、Python和SPSS等,但个人由于编程能力非常拉跨,一般按容易度会基于SPSS平台进行PCA。
PCA具体怎么做?
- 具体步骤
- 案例分析
基于SPSS软件进行PCA,本次对国内某省份选取多指标进行主成分分析。初步选定的指标包括该省地区生产总值(GDP)、固定资产投资、海关货物进出口总值、规模以上工业增加值、社会消费品零售总额和旅游总收入等6个经济指标。数据样例如下。
前期准备:从excel导入指标数据,其中变量名称另命名为为x1,x2…x6,第一列代表2011-2021年,每行代表当年经济状况,如图所示。
1.数据标准化处理
点击 分析-描述统计-描述,并点击将标准值存为变量,作用:使数据无量纲化,之后步骤均以标准化处理过后的数据为输入。
经标准化数据添加在首页,如下图
因为z-score标准化是将数据进行正态分布,因此有正有负,视情况而定可进行绝对值化y=|x|处理
2.各指标相关性判定 及输出图表
点击 分析-降维-因子 选择标准化过后的变量
2.1 对描述进行修改
2.2 对提取进行修改(在这里可以任意调整你所需要的主成分个数)
2.3 对旋转进行修改(荷载图可选可不选)
2.4 对得分进行修改(保存为变量和显示因子得分系数矩阵)
基础设置修改完毕后,自动输出图表
因子分析前,首先进行KMO检验和巴特利球体检验(取值在0-1之间)
- KMO和巴特利特检验:
KMO统计量越接近于1,变量间的相关性越强,偏相关性越弱,因子分析的效果越好。实际分析中,KMO统计量在0.7以上时效果比较好;当KMO统计量在0.5以下,此时不适合应用因子分析法,应考虑重新设计变量结构或者采用其他统计分析方法。
- 相关性判定
相关性分析一般是用来对两个或多个具备相关性的变量元素进行分析,从而衡量两个或多个变量因素的相关密切程度。相关系数的绝对值>0.8,认为A和B有强的相关性;0.3-0.8之间,可以认为有弱的相关性;<0.3,认为没有相关性。
3. 确定主成分个数
一般按照累计贡献率85%以上或者特征值大于1进行主成分的确定。
通过总方差解释表分析,可以看到第一个成分的值大于了85%,所以仅提取一个主成分
从上图可知,原始的6×10维矩阵数据,通过主成分分析,提取出1个主成分,特征值为5.680,合理解释所有影响因素的94.670%,同时这也印证了原始数据越相关,降维效果就越好,将原始的多个指标直接降维到1个新的综合经济指标。
4. 确定主成分Fi的表达式
目前得到的是因子的载荷矩阵,并!不!是!主成分分析的载荷矩阵,所以还需进行处理!!
在输出端 的成分矩阵 点击-复制
粘贴到主页,命名为v1(瞎起的
点击 转换-计算变量
根据数理统计的相关知识,主成分分析的变换矩阵亦即主成分载荷矩阵与因子载荷矩阵以及特征值λ的数学关系如公式主成分荷载矩阵=因子荷载矩阵/sqr(特征值λi),即得出新综合指标Fi的权重系数。
计算公式:w1=v1/sqr(特征值1),w2=w2=v2/sqr(特征值2)…有几个主成分做几次计算
此时w1,w2…即为最终的成分的载荷矩阵(如w1对应的a11,a12,a13…)
继续通过公式计算最终指标值
即得出,如在本案例中主成分荷载系数,将原6个指标降维到1个新的综合指标。
当然此时如果有多个成分,比如2个或三个主成分也是同样步骤~
5. 计算综合主成分得分
本案例中由于仅提取1个主成分,F=F1
假设已提取2个主成分,那么
F=(第1成分贡献率/累计贡献率)F1+(第2成分贡献率/累计贡献率)F2
同理三个主成分或更多主成分计算方法相同。
~reference致敬各位大神respect
FAN Dong-kai,CAO Kai.Urban road traffic safety evaluation based on principal components analysis[J].China Safety Science Journal,2010,20(10):147-151.
PCA本人自行整理的PPT(包括基本原理&步骤)
链接:https://pan.baidu.com/s/1Qs5py_5y1cnbvzU4Um0VBw 提取码:72ng博主大神的代码学习价值极高!!
https://blog.csdn.net/weixin_43312354/article/details/105653308?spm=1001.2014.3001.5506b站视频 用主成分分析计算所有因素的综合得分(爱惨这个博主了,一学就会^
https://www.bilibili.com/video/BV1wa4y1i7Ui/
普通玩家版基于SPSS的PCA攻略相关推荐
- 关于端午节的网页设计HTML,梦幻西游网页版2021端午节活动龙舟竞渡攻略大全
梦幻西游网页版端午节活动龙舟竞渡中玩家可以获得端午节限定锦衣.头像框.称谓等奖励,那么梦幻西游网页版2021端午节活动龙舟竞渡怎么玩?下面和游戏宝小编一起去了解一下吧. 梦幻西游网页版2021端午节活 ...
- 计算机毕业论文内容参考|基于Android的旅游攻略APP的设计与实现
文章目录 导文 摘要: 前言: 绪论: 1. 课题背景: 2. 国内外现状与趋势: 3. 课题内容: 相关技术与方法介绍: 系统分析: 系统设计: 系统实现 系统测试 总结与展望 本文总结 后续工作展 ...
- JAVA梦幻之星攻略_《梦幻之星携带版》最速流程攻略(完结)
作者:阿乐 来源tgbus 欢迎转载,转载请注明以上信息 1,前往守护者中心.被授予任务后,超可爱机械娘薇薇安加入,家用机版资料片女主角莱亚加入. 2.菜单界面下组队,邀请一一菲菲和莱亚加入后便可开始 ...
- 怎么利用计算机打桌球,腾讯全民桌球怎么在电脑上玩 全民桌球PC电脑版安装使用【图文攻略】...
全民桌球iOS版1.0.0 iPhone/iPad版 类型:体育运动大小:0KB语言:中文 评分:10.0 标签: 立即下载 腾讯旗下又一休闲竞技手游力作<全民桌球>即将盛大开测啦!不过最 ...
- 准备入手iPhone 4港版的必看!港行无锁版iPhone 4购买全攻略
2010年7月,在港行无锁版iPhone 4即将推出倒计时之际,本人再次行动,将不惜继续折腾,以实事求是不怕困难的无畏精神再次将购买全程以文字形式记录下来,希望本流水记录同时也给众多期待和热爱港行的朋 ...
- 【玩家心得】Smurf Society 游戏攻略
在深林的深处,生活着一群无忧无虑.快乐的小精灵,浑身蓝色,叫做蓝精灵.蓝精灵住在自己村子里蘑菇屋里,精灵爸爸.精灵妹妹.笨笨.乐乐等使得精灵村每天都欢声笑语.可是,在森林深处的城堡里住着一个邪恶的巫师 ...
- 计算机毕业设计之java+springboot基于vue的游戏攻略分享平台
项目介绍 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息.为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生,各行各业相继进入信息管理时代, ...
- 基于android的旅游攻略应用(含源码)
最近做了一个android应用--深圳旅游攻略,界面做的比较清新.简洁,功能简单,可以看下上传的图片. 貌似源码传不了,需要的话我另外传给你. 另外,可以在android手机上在安卓市场或者安智市场搜 ...
- 基于springboot的旅游攻略系统
系统使用技术:springboot 前端技术:thymeleaf.bootstrap.css.js等 开发工具:idea 数据库:mysql5.7 项目介绍: 该系统框架后端采用Springboot框 ...
最新文章
- python3.5全局解释器锁GIL-实现原理浅析
- 队列在多线程中的应用
- 在AcGIS随着大数据的生成DEM
- 读大话数据结构之二--------算法(上)
- 重裝系統,磁盤消失解決方法
- linux cp和rm命令
- Win10安装MySQL5.7.22 解压缩版(手动配置)方法
- mysql 临时表 heap_mysql优化: 内存表和临时表
- python嵌入c代码_怎样把Python代码嵌入到C程序
- 重磅!百度小程序成立开源联盟
- Ubuntu之Docker安装
- 人工智能 对比试验_人工智能与药物研发
- python 工程生成requirements
- Python实战从入门到精通第九讲——字符串与文本3之字符串匹配和搜索
- Spring配置属性文件
- 两种方式,实现 SpringBoot 中数据库密码加密
- 一只喵的西行记-12 灯火阑珊处那娃在哭
- 【C语言从青铜到王者】第零篇·与C语言来个约会
- 计算机人才供需状况和就业形势分析,计算机科学与技术就业形势分析
- 如何将计算机桌面屏幕放大,电脑桌面内容放大怎么缩小
热门文章
- 明星热图|宋轶、辛芷蕾、王丽坤等演绎服饰新品;肖战代言李宁;林俊杰献唱迪士尼经典歌曲...
- Windows外壳名字空间的浏览
- 用Scikit-learn进行机器学习(二):使用Scikit-learn进行KNN分析——如何进行电影分类
- 【ACL2022】Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text
- 敏捷的第一步:把 “迭代” 变为 “冲刺” 开始!
- GMM-UBM for single-speaker detection
- 探寻生机 | 数说故事助力微播易第七届风向大会,研判新风向,洞察新趋势
- DNS常见的解析方式
- Hive分桶表创建clustered by()
- 龙芯服务器如何设置共享文件夹,龙芯3B系列服务器Raid配置指南