构建信用风险综合评价体系——基于主成分与因子分析

多维数据在建模过程中，会出现很多问题，在基于logit模型的客户信用风险预测一文中，有谈到关于变量降维的几种方法：（1）基于经验，简单但主观性很强；（2）基于变量的统计显著性，模型上可靠但未必实务上可用；（3）变量规约，即用因子分析、主成分分析等方法将多个变量分解或合成为少数几个聚合因子。

之前用的是（1）和（2），这篇文章讨论第三种：主成分分析与因子分析。首先解决两个问题。

什么是主成分分析与因子分析

同：都是统计降维方法，将多个变量浓缩为少数几个新变量（主成分或因子）
异：浓缩方法不同，主成分分析是将原变量进行聚合，新变量（主成分）表示为原变量的线性组合；因子分析是将原变量进行结构，原变量表示为新变量（因子）的线性组合。

主成分分析与因子分析有什么用？

（1）对解释变量进行降维处理，输出值作为下一步的输入值，作为其它建模过程的准备部分。
（2）直接作为建模主体，构建指标评价体系。

下面通过一个案例加以说明。
背景与上一篇文章相似，我们依然希望通过一些变量和数据建立起客户（银行）的风险评估体系，具体分为这几个步骤：（1）变量选择；（2）源数据与预处理；（3）数据探索；（4）因子分析；（5）结论。

（一）变量的选择、指标体系的构建
根据指标选取原则，同时参考银行行业规范，考虑从资本充足性、资产质量、流动性、盈利性和成长性5个方面来建立指标体系，具体如表1-1所示：

（二）数据的来源与处理
为了保证样本的同质性以及数据的可得性，选取的是2014—2016年在市的16家银行，具体数据可分别从各家银行的年报得到。接下来需要对数据进行预处理，根据上面的计算公式，收集财务报表上的数据，整理后的数据部分见表1-2：

（三）数据探索
这份数据有12个变量，存在明显的多重共线性，这是变量规约在处理高维数据以外另一个可以克服的问题。

（四）因子分析
这一步主要有2个目的，计算因子综合得分进而分组以对原指标体系的合理性进行证明。根据上一部分所述，具体过程如下：

1.确定待分析的原有若干变量是否适合进行因子分析
通过前面相关图的直观展示，再加上进一步KMO和Bartlett的球形检验的结果（P值接近0），可得结论：样本数据适合做因子分析。

2.构造因子变量
观察特征值和累计方差贡献率，5个因子刚好，能解释总方差的88.365%，而且最后被选入的特征值为0.903（≈1），这与我们以往根据特征值大小选取因子个数的经验做法也不违背。

3.因子变量的解释
旋转得到的载荷矩阵如表2-3所示：

观察因子载荷矩阵，除了贷存比(x7)表现得比较反常外，因子分析得到5个组合因子恰好能对应原来5个综合指标。

4.计算因子得分并排序分组
因子得分可由软件直接输出，但综合得分需自行计算，公式为：

注：VDRi为各因子对应的方差贡献度。

接下来对综合得分排序，分类，为后续的logit分析、神经网络分析做准备。分类规则为：选取一个界点，低于该值，风险较大，取1；高于该值，较为稳健，取0。因为风险高低只是一个相对概念，并不真正存在一个临界值作为两组的分界点，再者，后续会有模型校正，所有这里的界点选取可稍任意，如这里取“-0.2”

5.验证分组效果
接下来对上面的分组效果进行验证，主要是通过具体指标在两组间的区分度，对划分后两组样本做方差分析。

从方差分析结果来看，两组样本在8个指标，即资本充足率（x1）、核心资本充足率（x2）、不良贷款率（x3）、拨备覆盖率（x4）、贷款总准备金率（x5）、贷存比（x7）、资产收益率（x8）、资本利润率（x9）上区分度都很高。

（五）结论
1.指标体系的重新构建
初始的12个指标，是基于经验和历史构造的，并不一定能适用于现在的数据，所以我们用因子分析对变量做了一个重新组合，发现除x7反常外，其它基本一致。

2.因子得分下的风险度量
通过计算因子得分，度量风险大小，取值越小风险越大。
选择一个合适的阈值进行分组，这里暂不展开，但是选-0.2分为两组后，通过方差分析可证明此时分组效果是不错的。

3.另一种思路下的风险评估
因子分析的结果可作为其它建模过程的准备，通过因子分析获取的每个样本在F1到F5上的取值，是可以继续进行聚类分析的，这种方法比按因子得分选阈值更可靠（因为临界值真得不大好确定），此外，因子得分排名告诉我们综合实力谁强谁弱，但kmeans聚类也许能帮我们找到有长短明显的“偏科生”。

构建信用风险综合评价体系——基于主成分与因子分析相关推荐

【异常检测】基于主成分分类器的异常检测方案（文献学习）
A novel anomaly detection scheme based on principal component classifier Mei-Ling Shyu , Shu-Ching C ...
基于R语言的主成分和因子分析
主成分分析主成分分析,是一种降维的分析方法,其考察多个变量间相关性的一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始 ...
【OpenCV 例程 300篇】237. 基于主成分提取的方向校正（OpenCV）
『youcans 的 OpenCV 例程200篇 - 总目录』 [youcans 的 OpenCV 例程 300篇]237. 基于主成分提取的方向校正(OpenCV) 主成分分析(Principal ...
R语言实战笔记--第十四章主成分和因子分析
R语言实战笔记–第十四章主成分和因子分析标签(空格分隔): R语言主成分分析因子分析原理及区别主成分分析与因子分析很接近,其目的均是为了降维,以更简洁的数据去解释结果,但这两种方法其实是相 ...
主成分分析二级指标权重_羡慕神仙权重？主成分与因子分析带你揭开权重的秘密...
文末领取[世界500强面试题及评点50题] 01 主成分分析 1.主成分分析流程原始数据标准化计算标准化变量间的相关系数矩阵计算相关系数矩阵的特征值和特征向量计算主成分变量值统计结果分析,提 ...
R语言实战（九）主成分和因子分析
本文对应<R语言实战>第14章:主成分和因子分析主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量成为主成分. 探索性因子分析(EFA)是 ...
65 R 主成分与因子分析
主成分与因子分析 1 概念 2 数学模型 3 相关性分析 4 R主成分分析三种方法 4.1方法1 princomp 方法2 princomp 未标准化方法3 用principal 函数对原数据进行 ...
主成分与因子分析异同_如何做主成分分析和因子分析？它们的区别与联系在哪里？...
"主成分分析和因子分析有什么区别和联系?"这个问题其实很多朋友在后台提问过,今天将这个问题的答案写成推送分享给大家.以后有问题或需求,请在下方留言区留言.觉得解释得好的朋友,记得打 ...
【R实验.9】主成分和因子分析
解法并不单一,下列方法带有璇子个人的偏好,因此仅供参考.如有错误,欢迎在评论区斧正! 9.1 用主成分方法探讨城市工业主体结构.表 9-4 是某市工业部门十三个行业,分别是冶金 (1).电力(2).煤 ...

构建信用风险综合评价体系——基于主成分与因子分析

构建信用风险综合评价体系——基于主成分与因子分析相关推荐

最新文章

热门文章