深入浅出详解因子分析，附案例教学（全）

1、作用

因子分析是基于降维的思想，在尽可能不损失或者少损失原始数据信息的情况下，将错综复杂的众多变量聚合成少数几个独立的公共因子，这几个公共因子可以反映原来众多变量的主要信息，在减少变量个数的同时，又反映了变量之间的内在联系。通常因子分析有三种作用：一是用于因子降维，二是计算因子权重，三是计算加权计算因子汇总综合得分。

2、输入输出描述

输入：2个或两个以上的定量变量（假设为N个变量）。
输出：最低可降维成1维（一个变量，一般用于综合评价），最多可降维成N个变量（一般用于数据脱敏），同时可以获取降维后各个变量的组成权重，用于代表原先变量的数据保留情况。

3、案例示例

根据该地区2021年的生产总值、人均可支配收入等多个指标，量化评估多个省市地区的经济发展水平排名或者各指标的权重。

4、案例数据

因子分析数据

5、案例操作

Step1：新建项目；
Step2：上传数据；
Step3：选择对应数据打开后进行预览，确认无误后点击开始分析；

step4：选择【因子分析】；
step5：查看对应的数据数据格式，【因子分析】要求输入数据为放入 [定量] 自变量X（变量数≥2）。
step6：选择主成分个数、因子旋转方式（注意：在因子分析中倾向于描述原始变量之间的相关关系，所以一般情况下在因子分析选取的主成分个数也就是自变量X个数，而特征根选择则是根据设定的阈值为界限，以大于该界限对应的主成分个数作为选取的主成分个数，默认为1。）
step7：点击【开始分析】，完成全部操作。

6、输出结果

输出结果1：KMO检验和Bartlett的检验

*p<0.05，**p<0.01，***p<0.001
图表说明：KMO检验的结果显示，KMO的值为0.775，同时，Bartlett球形检验的结果显示，显著性P值为0.000***，水平上呈现显著性，拒绝原假设，即表明各变量间具有相关性，因子分析的结果是有效的，结果可靠程度为一般。

输出结果2：方差解释表格

图表说明：
上表为总方差解释表格，主要是看因子对于变量解释的贡献率（可以理解为究竟需要多少因子才能把变量表达为100%），一般都要表达到90%以上才可以，否则就要调整因子数量。方差解释表中，前两个因子累积解释的贡献率达到94.296%(一般情况下大于90%即可），说明使用前两个因子就能够很好地评估省市地区的经济发展水平。前三个因子则效果更佳，累积解释的贡献率达到98.921%。

输出结果3：碎石图

图表说明：当折线由陡峭突然变得平稳时，陡峭到平稳对应的主成分个数即为参考提取主成分个数。由图可知，从第三个主成分开始，主成分的特征根值开始缓慢的下降，在满足因子累计解释的贡献度达到90%的情况下，我们可以选择保留三个主成分。

输出结果4：因子载荷系数表

图表说明： 上表为因子载荷系数表，可以分析到每个因子中隐变量的重要性。第一个因子与生产总值、进出口总额、财政预算收入、工业企业流动资产这四个变量的相关程度较大，可以概括为“地方发展况状”；第二个因子与人均可支配收入这一个变量的相关程度较大，可以概括为“人民富裕程度”。

输出结果5：因子载荷矩阵热力图

图表说明：上图为载荷矩阵热力图，可以分析到每个因子中隐变量的重要性，热力图颜色越深说明相关性越大。第一个因子与生产总值、进出口总额、财政预算收入、工业企业流动资产这四个变量的相关程度较大，第二个因子与人均可支配收入这一个变量的相关程度较大。

输出结果6：因子载荷象限分析

图表说明：因子载荷图通过将多因子降维成双因子或者三因子，通过象限图的方式呈现因子的空间分布。当保留两个因子时作出二维因子载荷象限。当保留三个因子时作出三维因子载荷象限。

输出结果7：成分矩阵表

图表说明： 模型的公式：
F1=0.236×生产总值(亿元)+0.057×人均可支配收入(元）+0.192×进出口总额(千美元)+0.214×财政预算收入(亿元)+0.23×工业企业流动资产(亿元)
F2=0.244×生产总值(亿元)+1.348×人均可支配收入(元）+0.618×进出口总额(千美元)+0.552×财政预算收入(亿元)+0.298×工业企业流动资产(亿元)
F3=0.063×生产总值(亿元)+0.821×人均可支配收入(元）+4.519×进出口总额(千美元)+2.024×财政预算收入(亿元)+1.681×工业企业流动资产(亿元)
F4=-3.888×生产总值(亿元)+0.164×人均可支配收入(元）+0.517×进出口总额(千美元)-0.199×财政预算收入(亿元)+5.176×工业企业流动资产(亿元)
F5=-1.375×生产总值(亿元)+0.605×人均可支配收入(元）+0.94×进出口总额(千美元)+8.783×财政预算收入(亿元)-1.017×工业企业流动资产(亿元)
由上可以得到： F=(0.669/1.0)×F1+(0.274/1.0)×F2+(0.046/1.0)×F3+(0.006/1.0)×F4+(0.005/1.0)×F5

输出结果8：因子权重分析

图表说明： 因子的权重计算结果显示，因子1的权重为66.9%、因子2的权重为27.396%、因子3的权重为4.625%、因子4的权重为0.576%、因子5的权重为0.503%。

输出结果9：综合得分表

图表说明：由综合得分可知，广东省的综合得分最高，也就是广东省的经济发展水平排名第一，其次是江苏省。

7、注意事项

因子分析要求变量之间的共线性或相关关系比较强，否则不能通过KMO检验和Bartlett球形检验；
因子分析是主成分的推广，相对于主成分分析，更倾向于描述原始变量之间的相关关系（可侧重分析输出结果4、输出结果5、输出结果6）。
因子分析时通常需要综合自己的专业知识，以及软件结果进行综合判断，即使是特征根值小于1，也一样可以提取主成分；
KMO值为null不存在可能导致的原因为：

（1）样本量过少容易导致相关系数过高，一般希望分析样本量大于5倍分析项个数；
（2）各个分析项之间的相关关系过高或过低。

8、模型理论

因子分析是一种依据变量间相关性将多维变量归结为少数公共因子表示,然后加以分析处理的多维变量统计分析方法。其基本思想是将原始变量分解为两部分:一部分是公共因子的线性组合,浓缩表示了原始变量中的绝大部分信息;另一部分是与公共因子无关的特殊因子,反映了公共因子线性组合与原始变量间的差距。p 维变量
x =[x1 ,…,xi ,…,xp ]T 的因子分析模型为:

或记为

其中f =[f 1 ,f 2 ,…,f m ]T 即为提取的公共因子向量,代表了原始变量中不可直接观测但客观存在的 m (m <p)个互相独立的共性影响因素；A=（aik）为因子载荷矩阵 ,矩阵元素 aik为变量 x i 对公共因子 fk 的载荷,反映了二者的相关系数, 其绝对值越大,相关性越高;
对多维变量 x 建立因子分析模型的关键在于求解因子载荷矩阵A 和公共因子向量 f ,其步骤如下：
1）为消除变量量纲不同的影响,对含 n 个 p 维变量的样本X=[x1 ,x2 ,…,xn ]进行标准化。标准化后,各变量的均值为 0,方差为 1。为表达方便标准化后的变量仍然用 X 表示,其各元素为

2）求样本的协方差矩阵 S ,其各元素为

3）对样本协方差矩阵 S 做特征值分解,得到 p 个特征值λ1 ≥λ2≥…≥λp ≥0,对应的特征值向量为γ1 , γ2 ,…,γp ,可取前 m 个最大特征值的特征向量估计因子载荷矩阵。同时为保证公共因子向量各分量方差为 1,需将其除以对应的标准差 λj 。因子载荷矩阵中对应特征向量γj 则需乘以 λj 。因此可得因子载荷矩阵

其中参数 m 由公共因子的累积方差贡献率确定,即

一般认为,当前 m 个公共因子的累积方差贡献率超过 90%时,可认为前 m 个公共因子的线性组合基本上能够还原原始变量信息。
公共因子向量 f ,即原始变量在公共因子上的具体得分可通过回归法估计得到

通过以上步骤,得到因子载荷矩阵和公共因子向量后,继而可得原始变量特殊因子向量为

9、参考文献

[1]高惠璇.应用多元统计分析[M].北京:北京大学出版社,2005.
[2]文旭,王浩,黄刚,等. 基于因子分析的母线负荷异常数据辨识方法[J]. 重庆大学学报,2021,44(8):91-102.

10、学习网站

SPSSPRO-免费专业的在线数据分析平台