构建信用风险综合评价体系——基于主成分与因子分析
多维数据在建模过程中,会出现很多问题,在基于logit模型的客户信用风险预测一文中,有谈到关于变量降维的几种方法:(1)基于经验,简单但主观性很强;(2)基于变量的统计显著性,模型上可靠但未必实务上可用;(3)变量规约,即用因子分析、主成分分析等方法将多个变量分解或合成为少数几个聚合因子。
之前用的是(1)和(2),这篇文章讨论第三种:主成分分析与因子分析。首先解决两个问题。
- 什么是主成分分析与因子分析
同:都是统计降维方法,将多个变量浓缩为少数几个新变量(主成分或因子)
异:浓缩方法不同,主成分分析是将原变量进行聚合,新变量(主成分)表示为原变量的线性组合;因子分析是将原变量进行结构,原变量表示为新变量(因子)的线性组合。
- 主成分分析与因子分析有什么用?
(1)对解释变量进行降维处理,输出值作为下一步的输入值,作为其它建模过程的准备部分。
(2)直接作为建模主体,构建指标评价体系。
下面通过一个案例加以说明。
背景与上一篇文章相似,我们依然希望通过一些变量和数据建立起客户(银行)的风险评估体系,具体分为这几个步骤:(1)变量选择;(2)源数据与预处理;(3)数据探索;(4)因子分析;(5)结论。
(一)变量的选择、指标体系的构建
根据指标选取原则,同时参考银行行业规范,考虑从资本充足性、资产质量、流动性、盈利性和成长性5个方面来建立指标体系,具体如表1-1所示:
(二)数据的来源与处理
为了保证样本的同质性以及数据的可得性,选取的是2014—2016年在市的16家银行,具体数据可分别从各家银行的年报得到。接下来需要对数据进行预处理,根据上面的计算公式,收集财务报表上的数据,整理后的数据部分见表1-2:
(三)数据探索
这份数据有12个变量,存在明显的多重共线性,这是变量规约在处理高维数据以外另一个可以克服的问题。
(四)因子分析
这一步主要有2个目的,计算因子综合得分进而分组以对原指标体系的合理性进行证明。根据上一部分所述,具体过程如下:
1.确定待分析的原有若干变量是否适合进行因子分析
通过前面相关图的直观展示,再加上进一步KMO和Bartlett的球形检验的结果(P值接近0),可得结论:样本数据适合做因子分析。
2.构造因子变量
观察特征值和累计方差贡献率,5个因子刚好,能解释总方差的88.365%,而且最后被选入的特征值为0.903(≈1),这与我们以往根据特征值大小选取因子个数的经验做法也不违背。
3.因子变量的解释
旋转得到的载荷矩阵如表2-3所示:
观察因子载荷矩阵,除了贷存比(x7)表现得比较反常外,因子分析得到5个组合因子恰好能对应原来5个综合指标。
4.计算因子得分并排序分组
因子得分可由软件直接输出,但综合得分需自行计算,公式为:
注:VDRi为各因子对应的方差贡献度。
接下来对综合得分排序,分类,为后续的logit分析、神经网络分析做准备。分类规则为:选取一个界点,低于该值,风险较大,取1;高于该值,较为稳健,取0。因为风险高低只是一个相对概念,并不真正存在一个临界值作为两组的分界点,再者,后续会有模型校正,所有这里的界点选取可稍任意,如这里取“-0.2”
5.验证分组效果
接下来对上面的分组效果进行验证,主要是通过具体指标在两组间的区分度,对划分后两组样本做方差分析。
从方差分析结果来看,两组样本在8个指标,即资本充足率(x1)、核心资本充足率(x2)、不良贷款率(x3)、拨备覆盖率(x4)、贷款总准备金率(x5)、贷存比(x7)、资产收益率(x8)、资本利润率(x9)上区分度都很高。
(五)结论
1.指标体系的重新构建
初始的12个指标,是基于经验和历史构造的,并不一定能适用于现在的数据,所以我们用因子分析对变量做了一个重新组合,发现除x7反常外,其它基本一致。
2.因子得分下的风险度量
通过计算因子得分,度量风险大小,取值越小风险越大。
选择一个合适的阈值进行分组,这里暂不展开,但是选-0.2分为两组后,通过方差分析可证明此时分组效果是不错的。
3.另一种思路下的风险评估
因子分析的结果可作为其它建模过程的准备,通过因子分析获取的每个样本在F1到F5上的取值,是可以继续进行聚类分析的,这种方法比按因子得分选阈值更可靠(因为临界值真得不大好确定),此外,因子得分排名告诉我们综合实力谁强谁弱,但kmeans聚类也许能帮我们找到有长短明显的“偏科生”。
构建信用风险综合评价体系——基于主成分与因子分析相关推荐
- 【异常检测】基于主成分分类器的异常检测方案(文献学习)
A novel anomaly detection scheme based on principal component classifier Mei-Ling Shyu , Shu-Ching C ...
- 基于R语言的主成分和因子分析
主成分分析 主成分分析,是一种降维的分析方法,其考察多个变量间相关性的一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始 ...
- 【OpenCV 例程 300篇】237. 基于主成分提取的方向校正(OpenCV)
『youcans 的 OpenCV 例程200篇 - 总目录』 [youcans 的 OpenCV 例程 300篇]237. 基于主成分提取的方向校正(OpenCV) 主成分分析(Principal ...
- R语言实战笔记--第十四章 主成分和因子分析
R语言实战笔记–第十四章 主成分和因子分析 标签(空格分隔): R语言 主成分分析 因子分析 原理及区别 主成分分析与因子分析很接近,其目的均是为了降维,以更简洁的数据去解释结果,但这两种方法其实是相 ...
- 主成分分析二级指标权重_羡慕神仙权重?主成分与因子分析带你揭开权重的秘密...
文末领取[世界500强面试题及评点50题] 01 主成分分析 1.主成分分析流程 原始数据标准化 计算标准化变量间的相关系数矩阵 计算相关系数矩阵的特征值和特征向量 计算主成分变量值 统计结果分析,提 ...
- R语言实战(九)主成分和因子分析
本文对应<R语言实战>第14章:主成分和因子分析 主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量成为主成分. 探索性因子分析(EFA)是 ...
- 65 R 主成分与因子分析
主成分与因子分析 1 概念 2 数学模型 3 相关性分析 4 R主成分分析 三种方法 4.1方法1 princomp 方法2 princomp 未标准化 方法3 用principal 函数对原数据进行 ...
- 主成分与因子分析异同_如何做主成分分析和因子分析?它们的区别与联系在哪里?...
"主成分分析和因子分析有什么区别和联系?"这个问题其实很多朋友在后台提问过,今天将这个问题的答案写成推送分享给大家.以后有问题或需求,请在下方留言区留言.觉得解释得好的朋友,记得打 ...
- 【R实验.9】主成分和因子分析
解法并不单一,下列方法带有璇子个人的偏好,因此仅供参考.如有错误,欢迎在评论区斧正! 9.1 用主成分方法探讨城市工业主体结构.表 9-4 是某市工业部门十三个行业,分别是冶金 (1).电力(2).煤 ...
最新文章
- 真格量化——依托均线购买期权策略
- 31. 了解各种与排序有关的选择
- NetApp F3020 盘柜报警升级修复全过程
- 【error】vue-cli3 报Computed property “tableData” was assigned to but it has no setter.
- 2017-12-24 手机编程环境初尝试-用AIDE开发Android应用
- 重启tomcat服务器
- server2008服务器进不了桌面,解决windows server 2008 r2 登录进入桌面只显示一片蓝色背景...
- Ubuntu安装输入法却不能切换输入法
- 浅谈公安大数据的建设
- Buy and Resell HDU - 6438 贪心
- OpenGL 渲染正方体
- Android给文件改后缀名
- TI C2000系列TMS320F2837xD开发板(DSP+FPGA)硬件规格参数说明书
- html5视频播放器字幕,HTML5 带字幕播放器(类youtube字幕)
- springboot集成log4j2 附完整配置
- 高性能高级维修电工技能培训考核装置
- #芯片傻瓜使用宝典# 一文带你读懂DCP01xxxB系列的手册
- 工具插件:IDEA英文翻译工具(Translation)
- 【19调剂】华北理工大学2019年硕士研究生生源调剂信息
- outlook 2010 删除或保留服务器上的邮件
热门文章
- 游戏建模工作需要掌握什么3D建模软件?
- 最最完整的redis工具类(redis工具类,用这个就够了)
- 关于升华网第一次培训的心得
- ubuntu安装ssh并开机启动
- 华为思科华三锐捷各种数通资料整理
- ReferenceError: plus is not defined (提示: 请在plus ready后再调用plus api)
- 关于sip和sip的客户端
- Apache配置(Apache与PHP联系)
- java 毫秒转成日期格式_java-将字符串和毫秒值转化为日期格式的几种方法
- 想要成为架构师?夯实基础最重要