“主成分分析和因子分析有什么区别和联系?”这个问题其实很多朋友在后台提问过,今天将这个问题的答案写成推送分享给大家。以后有问题或需求,请在下方留言区留言。觉得解释得好的朋友,记得打赏,看看用“苹果”手机的人是不是在减少~~

方法背景

随着硬件技术的发展,每年被记录和存储下来的数据是非常庞大的,如何从庞大的数据堆中筛选出目标数据并分析得到有用的结论是现今重要的领域---数据挖掘。为了能够充分有效的利用数据,化繁为简是一项必做的工作,希望将原来繁多的描述变量浓缩成少数几个新指标,同时尽可能多的保存旧变量的信息,这些分析过程被称为数据降维。主成分分析和因子分析是数据降维分析的主要手段。另一种化繁为简的手段是聚类。

接下来的一段时间,我们将集中介绍降维分析和聚类分析的内容。降维分析简单理解就是将描述事物的众多指标(变量)通过一定的手段浓缩成少数几个有代表性且互不相关的新变量。聚类分析的分析对象是个案,每个个案都会有各种描述其情况的指标,根据各种指标的情况,将个案进行归类。例如,酒店通用的分级标准是一星到五星,每个等级都有对应的很多硬性指标,根据所有指标的综合情况评定酒店的级别。今天我们介绍的就是降维分析的其中两种主要方法:主成分分析和因子分析。

主成分分析

主成分分析可以简单的总结成一句话:数据的压缩和解释。常被用来寻找判断某种事物或现象的综合指标,并且给综合指标所包含的信息以适当的解释。在实际的应用过程中,主成分分析常被用作达到目的的中间手段,而非完全的一种分析方法。这也是为什么SPSS软件没有为主成分分析专门设置一个菜单选项,而是将其归并入因子分析。我们可以先了解主成分分析的分析模型。

上面这幅图是经常被用来形象解释主成分分析原理。图中原来有两个坐标轴X1和X2,从散点分布可以很明显的知道散点在这两个坐标轴内存在线性相关。如果将这些散点在坐标轴X1和X2上的取值自变量x1和x2纳入到各种回归模型中,将会由于它们的元共线问题致使拟合结论出现偏差。那么如何处理才能避免呢?

这里给大家强调,统计学上数据信息往往指的是数据变异(数据波动)。在上图中,散点的分布构成了一个椭圆形点阵,在椭圆的长轴方向,数据波动明显大于短轴方向。此时如果沿着椭圆的长轴和短轴方向设定新的坐标轴(F1和F2)组成坐标系,那么新坐标系可以完全解释数据散点的信息,散点在新坐标轴上的取值就形成两个新的变量(f1和f2),这两个新变量之间是相互独立(不相关)。

从散点图上还可以知道,长轴和短轴能够解释的数据信息是不同的,长轴变量携带了大部分数据的变异信息,而短轴上的变量只携带一小部分变异信息。此时只需要使用长轴方向上的新变量(f1)就可以代表原来两个变量(x1和x2)的大部分信息,达到降维的作用。

主成分分析的这种坐标轴变化是通过将原来的坐标轴进行线性组合完成的。这个线性组合的过程涉及到线性代数部分的内容,这里不过多解释。假设描述对象(例如汽车)由k个自变量指标(油耗、车重、轴长、内饰等等)进行描述,因为这些指标很多都是相关的(重量与油耗),因此可以进行主成分分析,浓缩变量。经过坐标轴线性组合以后,可以形成下面的线性组合式子:

通过线性组合以后,主成分分析可以形成k个新变量。这里的线性组合大家可以理解成原来坐标轴的空间旋转,因此原来有多少变量(k个),经过主成分分析以后,形成数量一致的新变量(k个)。新变量之间的方差关系见下式。通常情况下,我们只许取前面几个即可。

在主成分分析后,SPSS等软件会输出下面这个结果。包括特征根值,方差贡献率和累计方差贡献率。从表格结果可知,原来的变量数量是8个,经过矩阵的线性组合(正交变换)以后,形成了8个成分,前面三个成分总共贡献了数据变异的89.5%,因此提取了前面三个成分作为主成分。

特征根是矩阵线性组合后的产物,可以看作主成分的重要性指标,代表引入该主成分后可以解释多少原始变量的信息。如果特征根小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征根大于1作为纳入标准。

方差贡献率表示该主成分的方差在全部方差中的比重。这个值越大,表明主成分解释数据信息的能力越强,它与特征根是正相关的,特征根越大,方差贡献率越大。

累计贡献率表示前面n个主成分累计提取了多少数据信息。一般来说,如果前k个主成分的贡献率达到85%,表明提取前面k个主成分就基本可以解释所有数据信息。

主成分分析的一个重要的结论是主成分矩阵,如下表所示。主成分矩阵可以说明各主成分在原来变量上的载荷,所以也被称为载荷矩阵。

通过载荷矩阵可以写出主成分的组成结构表达式。我们以第一主成分为例,写出其表达式。从式子可以知道,第一主成分包含原来变量X1,X3和X8在信息最多,X2和X7其次,X4,X5和X6更少一些。这就是主成分分析的致命缺陷,提取出来的主成分不能明确解释成某几个原始变量的概率,为进一步分析制造了困难。(这个问题将由因子分析来解决)

主成分分析的另一个结论是主成分得分矩阵。其实就是主成分载荷矩阵除以主成分特征根后得到的矩阵。为什么要除以特征根呢?这是因为主成分载荷矩阵是带有成分重要性属性(包含特征根)的,如果要用提取得到的主成分进行综合排名比较或回归分析,需要先消除主成分的权重不平等(重要新不同),因此需要除以对应主成分的特征根,得到主成分得分矩阵。上表的主成分得分矩阵为:

根据主成分得分矩阵的得分系数,就可以计算每个个案在新变量(主成分)上的数值。进而可以将新变量值用于综合评分和回归。

以上就是主成分分析的所有过程。可以通过矩阵变换知道原始数据能够浓缩成几个主成分,以及每个主成分与原来变量之间线性组合关系式。但是细心的朋友会发现,每个原始变量在主成分中都占有一定的分量,这些分量(载荷)之间的大小分布没有清晰的分界线,这就造成无法明确表述哪个主成分代表哪些原始变量,也就是说提取出来的主成分无法清晰的解释其代表的含义。

因子分析

鉴于主成分分析现实含义的解释缺陷,统计学斯皮尔曼又对主成分分析进行扩展。因子分析在提取公因子时,不仅注意变量之间是否相关,而且考虑相关关系的强弱,使得提取出来的公因子不仅起到降维的作用,而且能够被很好的解释。因子分析与主成分分析是包含与扩展的关系。

首先解释包含关系。如下图所示,在SPSS软件“因子分析”模块的提取菜单中,提取公因子的方法很多,其中一种就是主成分。由此可见,主成分只是因子分析的一种方法。

其次是扩展关系。因子分析解决主成分分析解释障碍的方法是通过因子轴旋转。因子轴旋转可以使原始变量在公因子(主成分)上的载荷重新分布,从而使原始变量在公因子上的载荷两级分化,这样公因子(主成分)就能够用哪些载荷大的原始变量来解释。以上过程就解决了主成分分析的现实含义解释障碍。

上面两个表是旋转后的成分矩阵和成分得分系数矩阵,这两个表的数值与主成分分析的结果已经完全不同。从左边的表可以明显知道,第一公因子主要由X1,X8,X3和X5解释,第二公因子有X4和X2解释,第二公因子有X6和X7解释。右边表格的得分系数也不在是通过成分载荷/特征根得到,而是通过回归得出(后面的文章会介绍)。

总结一下

从以上内容可以知道,主成分分析和因子分析的关系是包含与扩展。当因子分析提取公因子的方法是主成分(矩阵线性组合)时,因子分析结论的前半部分内容就是主成分分析的内容,而因子旋转是因子分析的专属(扩展),主成分分析是因子分析(提取公因子方法为主成分)的中间步骤。这就是为什么很多软件没有专门为主成分分析独立设计模块的原因。从应用范围和功能上讲,因子分析法完全能够替代主成分分析,并且解决了主成分分析不利于含义解释的问题,功能更为强大。

主成分与因子分析异同_如何做主成分分析和因子分析?它们的区别与联系在哪里?...相关推荐

  1. 主成分回归之后预测_回归分析|笔记整理(B)——主成分回归(下),偏最小二乘回归...

    大家好! 上一节我们给主成分回归开了一个头,这一节我们会继续介绍它的有关内容,并且同时会介绍另一种新的回归方法:偏最小二乘回归.这一节的理论性也比较强,主要关注了相关回归的理论上的性质与相关证明. 提 ...

  2. 主成分回归之后预测_主成分回归解析.ppt

    教学课件课件PPT医学培训课件教育资源教材讲义 主成分回归分析 一.主成分估计 主成分估计是以P个主成分中的前q个贡献大的主成分为自变量建立回归方程,估计参数的一种方法. 它可以消除变量间的多重共线性 ...

  3. 主成分的java版_数据降维:主成分分析法

    前言 什么叫做主成分分析法,我们先看一张图椭圆的图,如果让你找一条线,使得椭圆上所有点在该线上映射的点最分散,保留下来的信息最多,你会怎么选择这条线?若是下图,会选择水平线,这是用一维的方式去尽可能多 ...

  4. 主成分回归预测matlab,科学网—Matlab: princomp() 主成分分析 - 杨建功的博文

    Matlab 提供了进行主成分分析的函数 princomp().由于主成分分析(principile component analysis,PCA)这个概念在不同领域(统计学.数学等)的解释差异较大, ...

  5. origin做主成分分析图_Graphpad Prism也可以做主成分分析(PCA)?

    如果完全不想碰R语言,其实可使用Prism自带的范例数据,方法如下. 参数设置 打开软件后,通过双击窗口灰色区域或点Prism(棱镜)的小三角,新建工程文件,在弹出的向导页面表格类型选Multiple ...

  6. 主成分与因子分析异同_因子分析

    1 导言 因子分析是将多个实测变量简化为较少变量的方法. 利用因子分析能简化分析,更能反映事物本质. 学习因子分析能确定哪些变量应该保留,哪些应该剔除,并得到主要成分的表达式,这些表达式是原有变量的线 ...

  7. java因子分析,SPSS统计分析全解析▶主成分分析与因子分析

    因子分析往往成为更复杂的多元分析方法的基础 ======================================================= 主成分分析 ================ ...

  8. 构建信用风险综合评价体系——基于主成分与因子分析

    多维数据在建模过程中,会出现很多问题,在基于logit模型的客户信用风险预测一文中,有谈到关于变量降维的几种方法:(1)基于经验,简单但主观性很强:(2)基于变量的统计显著性,模型上可靠但未必实务上可 ...

  9. python主成分得分系数矩阵_用spss得出的成分矩阵就是初始因子载荷矩阵吗?成分得分系数矩阵又是什么...

    用spss得出的成分矩阵就是初始因子载荷矩阵吗?成分得分系数矩阵又是什么呢? 第一问是的,译法不同而已:第二问,成分得分系数矩阵是用来求成分得分的,用标准化后的原始数据矩阵乘以成分得分系数矩阵就可以得 ...

最新文章

  1. 【zookeeper+Dubbo】zookeeper和Dubbo安装
  2. php iconv lanti1,字符编码转换iconv
  3. MATLAB之界面介绍
  4. Oracle入门(十四E)之条件表达式case和deocde函数
  5. Linux中 print用法,linux之find中的-print0和xargs中-0用法
  6. OutLook 2010 (Bata) 中的邮件导出功能
  7. 2021-04-04 CPU缓存一致性 MESI协议
  8. 开源:秋式广告杀手源码
  9. kpi权重设置原则_东阳用友ERP评价体系的建立原则及过程
  10. 从零开始学wordpress 之四
  11. hdu4727搜索+stl。轻微剪枝
  12. 云计算openstack核心组件——nova计算服务(7)
  13. 在网站添加客服QQ,打开临时回话框(不用加为好友)
  14. 常见文件扩展名和它们的说明
  15. 工具学习——在线访问远程服务器的SSH工具
  16. VideoMAE 论文阅读
  17. 浏览器突然访问不了某个网址或者提示无法访问此网站
  18. [Python]根据ip地址计算子网掩码位数
  19. vs修改程序图标、任务栏图标
  20. html调用腾讯地图定位当前位置,vue web项目中调用腾讯地图API获取当前位置的经纬度...

热门文章

  1. Wince下usb驱动详细总结(史无前例的详细)
  2. 【独立版】变现宝小程序V1.1.0知识付费小程序
  3. iOS - ipa安装包大小优化
  4. Java_io体系之PipedInputStream、PipedOutputStream简介、走进源码及示例——06
  5. conda不能创建虚拟环境
  6. 64微型计算机中的32,32位微型计算机中32指的是
  7. 如何使用WPS软件创建文本文档?
  8. 将时间格式转换成秒数
  9. php排序数组排序_PHP常见数组排序方法小结
  10. linux服务器 抓包命令 tcpdump