主成分分析和因子分析及其在R中的…

1 主成分分析和因子分析比较

主成分分析和探索性因子分析是两种用来探索和简化多变量复杂关系的常用方法，它们之间有联系也有区别。

主成分分析（PCA）是一种数据降维方法，它能将大量相关变量转化为一组很少的不相关变量，这些无关变量称为主成分。例如，使用PCA可将30个相关（很可能冗余）的环境变量转化为5个无关的成分变量，并且尽可能地保留原始数据集的信息。

相对而言，探索性因子分析（EFA）是一系列用来发现一组变量的潜在结构的方法。它通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关系。

从上图可以看出，主成分（PC1和PC2）是观测变量（X1到X5）的线性组合。形成线性组合的权重都是通过最大化各主成分所解释的方差来获得，同时还要保证个主成分间不相关。相反，因子（F1和F2）被当做是观测变量的结构基础或“原因”，而不是它们的线性组合。代表观测变量方差的误差（e1到e5）无法用因子来解释。图中的圆圈表示因子和误差无法直接观测，但是可通过变量间的相互关系推导得到。在本例中，因子间带曲线的箭头表示它们之间有相关性。在EFA模型中，相关因子是常见的，但并不是必需的。

2 R中的主成分因子分析

R的基础安装包提供了PCA和EFA的函数，分别为princomp()和factanal()。下文将重点介绍psych包中提供的函数，它们提供了比基础函数更丰富和有用的选项。

psych包中有用的因子分析函数

函数	描述
principal()	含多种可选的方差旋转方法的主成分分析
fa()	可用主轴、最小残差、加权最小平方或最大似然法估计的因子分析
fa.parallel()	含平行分析的碎石图
factor.plot()	绘制因子分析或主成分分析的结果
fa.diagram()	绘制因子分析或主成分的载荷矩阵
scree()	因子分析和主成分分析的碎石图

因子分析常见步骤：

（1）数据预处理。两种方法都是根据观测变量间的相关性来推导结果，可以输入原始数据矩阵或相关系数矩阵。

（2）选择因子模型。判断是选择主成分分析（数据降维）还是探索性因子分析（发现潜在结构）。如果选择因子分析方法，还需要选择一种估计因子模型的方法（如最大似然估计）。

（3）判断要选择的主成分/因子数目

（4）选择主成分/因子

（5）旋转主成分/因子

（6）解释结果

3 主成分分析

第一主成分是对原来观测变量的加权组合，对初始变量集的方差解释性最大。第二主成分次之，同时与第一成分正交（不相关）。

1 判断主成分个数

判断需要多少个主成分的准则：

A 根据先验经验和理论知识判断主成分分数

B 根据要解释变量方差的积累值的阈值来判断需要的主成分数

C 通过检查变量间k×k的相关系数矩阵来判断保留的主成分数

最常见的是基于特征值的方法。每个主成分都与相关系数矩阵的特征值相关联，第一主成分

与最大的特征值相关联，第二主成分与第二大的特征值相关联，依此类推。

Kaiser-Harris准则建议保留特征值大于1的主成分，特征值小于1的成分所解释的方差比包含在单个变量中的方差更少。

Cattell碎石检验则绘制了特征值与主成分数的图形。这类图形可以清晰地展示图形弯曲状况，

在图形变化最大处之上的主成分都可保留。

最后，也可以进行模拟，依据与初始矩阵相同大小的随机数据矩阵来判断要提取的特征值。若基于真实数据的某个特征值大于一组随机数据矩阵相应的平均特征值，那么该主成分可以保留。该方法称作平行分析。

利用fa.parallel()函数，你可以同时对三种特征值判别准则进行评价。

格式：fa.parallel(data, fa=”PC”, n.iter=100,show.legend=FALSE, main=””)

2 提取主成分

principal()函数可以根据原始数据矩阵或者相关系数矩阵做主成分分析。

格式为：principal(r,nfactors=,rotate=,scores=)

其中：r是相关系数矩阵或原始数据矩阵；

nfactors设定主成分数（默认为1）；

rotate指定旋转的方法（默认最大方差旋转（varimax））；

scores设定是否需要计算主成分得分（默认不需要）。

输出结果解释：

PC1、PC2栏包含了成分载荷，指观测变量与主成分的相关系数。

h2栏指成分因子方差——主成分对每个变量的方差解释度。

u2栏指成分唯一性——方差无法被主成分解释的比例（1-h2）。

SS loadings行包含了与主成分相关联的特征值，指与特定主成分相关联的标准化后的方差值。

Proportion Var行表示的是每个主成分对整个数据集的解释程度。

3 主成分旋转

旋转是一系列将成分载荷阵变得更容易解释的数学方法，它们尽可能地对成分去噪。旋转方法有两种：使选择的成分保持不相关（正交旋转），和让它们变得相关（斜交旋转）。最流行的正交旋转是方差极大旋转，它试图对载荷阵的列进行去噪，使得每个成分只是由一组有限的变量来解释（即载荷阵每列只有少数几个很大的载荷，其他都是很小的载荷）。

以方差极大旋转为例，旋转后，主成分仍不相关，对变量的解释性不变，累计方差解释性也没有变化，变的只是各个主成分对方差的解释度（即线性系数）。

4 获取主成分得分

Principal函数中score=TRUE时，即返回每个对象在主成分上的得分。当输入数据是相关系数矩阵时，则不可能获取每个观测的主成分得分，但可以得到用来计算主成分得分的系数。

4 探索性因子分析

EFA的目标是通过发掘隐藏在数据下的一组较少的、更为基本的无法观测的变量，来解释一组可观测变量的相关性。这些虚拟的、无法观测的变量称作因子。（每个因子被认为可解释多个观测变量间共有的方差，因此准确来说，它们应该称作公共因子）。

1 判断需提取的公共因子数

同样使用fa.parallel函数，令fa=”both”,因子图形将会同时展示主成分和公共因子分析的结果。

对于EFA，Kaiser-Harris准则的特征值数大于0，而不是1

2 提取公共因子

fa(r,nafctors=,n.obs=,rotate=,scores=,fm=)

其中：r是相关系数矩阵或者原始数据矩阵；

nfactors设定提取的因子数（默认为1）；

n.obs是观测数（输入相关系数矩阵时需要填写）；

rotate设定旋转的方法（默认互变异数最小法）；

scores设定是否计算因子得分（默认不计算）；

fm设定因子化方法（默认极小残差法）。

与PCA不同，提取公共因子的方法很多，包括最大似然法（ml）、主轴迭代法（pa）、加权

最小二乘法（wls）、广义加权最小二乘法（gls）和最小残差法（minres）。统计学家青睐使用最大似然法，因为它有良好的统计性质。不过有时候最大似然法不会收敛，此时使用主轴迭代法效果会很好。

3 因子旋转

使用正交旋转将人为地强制两个因子不相关。使用斜交转轴法，则允许两个因子相关。

对于正交旋转，因子分析的重点在于因子结构矩阵（变量与因子的相关系数），而对于斜交旋转，因子分析会考虑三个矩阵：因子结构矩阵、因子模式矩阵和因子关联矩阵。

因子模式矩阵即标准化的回归系数矩阵。它列出了因子预测变量的权重。PA1，PA2…

因子关联矩阵即因子相关系数矩阵。

因子结构矩阵（或称因子载荷阵）在输出结果上没显示出来。

4 因子得分

因子分析不怎么关注因子得分

5 其他与EFA相关的包

FactoMineR包不仅提供了PCA和EFA方法，还包含潜变量模型。

FaiR包用遗传算法来估计因子分析模型。

GPArotation包则提供了许多因子旋转方法。

nFactors包提供了用来判断因子数目的许多复杂方法