前言

在传统的信用风险预测的模型中，主要依靠的是人的主观经验判断，不够客观，很容易形成一种情况,在这个金融机构评分高，但是去其他金融机构评分较低，差异性较大。这样就不利于对个人或企业的信用风险预测不够统一，难以适应大数据时代的到来。并且过去的模式对人的要求极高，但随着大数据时代的到来和信用风险的种类不断增加，过往的信用评分模型会造成较大的误差。比如：过往贷款审批的时候，审批人手中所掌握的“工具”是一些零散的信息，比如借款人的工作单位，婚姻状况，或者大概一个月的收入是多少。常规的做法是，根据这些维度设定一个门槛标准，只要这个借款人的每个维度都满足这些条件，就准予通过。这种做法会有一些问题：

有的借款人虽然不满足某一些门槛条件，但可能另外一些条件特别优秀，单维度的强拒绝规则造成审批效率低下；如何利用零散、非结构化的信息整合成科学的核额体系是一个难题；贷后管理、资产质量分析和风险定价需要可量化的数字评价体系支持。相应的，信用评分帮助解决了以上大部分问题：具象的个体风险被标准化，分数的存在使得审批有了最简单易用的判断标准；整体的信贷资产质量也有了量化指标。
这个系列主要就是来探讨如何进行信用评分的预测模型。

”信用评分解决了生产效率的问题，也解决了生产标准化的问题“
——陈建，《现代信用卡管理》作者，现任Fair Isaac公司的亚太区技术方案总监

一、数据准备

1.文章所使用的数据都是基于下面这两个网站：

http://www.idatascience.cn/dataset
http://www.ics.uci.edu

所选取的数据是信用卡流失。总样本数量有22000+。

2.观察期和表现期

观察期→评分节点→表现期→用户申请时间
1.观察期：是变量采集期，用以采集变量数据，获取各类特征信息的时期，通常为1-3年。
2.表现期：是样本预测期，用以判断样本是否触发负面样本的条件，通常为0.5-1年。

用图来展示：

注意以下要点：

观察期是相对于观察点来变动的，是相对的概念。
观察点和观察期是衍生x变量的时点或时期，所有的衍生变量要只能在此时间点和此时间点之前生成，不能使用此时间点之后的信息，否则就会产生使用未来信息的情况。也就是说观察期和观察点之前的数据是一个过去式。客观存在的，也符合计量经济学中对数据的要求，真实，完整，可比较。
表现期需要有足够的长度，不能够太短，从而保证样本群体分类的稳定性，使账户/客户的行为充分表现出来
表现期和表现点是定义y变量的时期，这个y变量具体是什么，取巨额月分析角度。

如以下例子：
贷款申请时间为2023年1月 1日（假设观察期为3年，表现期为1年）

观察点： 2022年 1月1日

观察期： 2019年1月 1日到2021年12月 31日（输入变量：用以识别信用风险的变量）

表现期： 2022年1月 1日到2022年12月 31日（输出变量：是否违约）结论，模型生效之日就会进入识别能力的衰减期，注意防控模型失效风险。

二、数据处理

1.缺失值和异常值

由于数据或多或少都会出现空缺值和异常值，会对整体数据有一定的影响，需要在数据预处理阶段将数据整理好，如空缺值填充或删除，异常值剔除，数据标准化。

2.筛选数据

所收集的数据会有较多不符合要求的数据，需要我们去筛选，这取决于操作者的个人能力和个人经验。

三、相关性检验

单变量分析，如应用统计学方法筛选出预测能力较高的变量，获取自变量中对违约状态影响最显著的指标。经过筛选的变量将进入信用评分模型。再比如需要分析变量的分布是否大致呈正态分布，才能够满足后续分析的条件。这部分的分析可以利用聚类或AHP分析。
变量之间相关性的分析，如两两之间的相关性：pearson、spearman、kendall等、VIF多重共线性。如果变量之间相关性显著，会影响模型的预测效果。

四、特征工程

1.特征变量

特征工程是一个包含内容很多的主题，也被认为是成功应用机器学习的一个很重要的环节。如何充分利用数据进行预测建模就是特征工程要解决的问题！ “实际上，所有机器学习算法的成功取决于如何呈现数据。” “特征工程是一个看起来不值得在任何论文或者书籍中被探讨的一个主题。但是他却对机器学习的成功与否起着至关重要的作用。机器学习算法很多都是由于建立一个学习器能够理解的工程化特征而获得成功的。”——ScottLocklin，in “Neglected machine learning ideas”

数据中的特征对预测的模型和获得的结果有着直接的影响。可以这样认为，特征选择和准备越好，获得的结果也就越好。这是正确的，但也存在误导。预测的结果其实取决于许多相关的属性：比如说能获得的数据、准备好的特征以及模型的选择。所以在建模前，我们需要先看看各变量的影响大小。

五、模型构建

1.随机森林模型

2.决策树模型

3.AHP分析

总结

以上模型会在接下来的专栏一一实现。

【信用评分预测模型（一）】信用评分预测模型简介相关推荐

大数据征信｜芝麻信用、腾讯信用和51信用卡等信用评分模型解析
http://www.sohu.com/a/82958296_355147 传统个人征信的分析维度包括: 1 )个人基本数据,如年龄.性别.职业.收入.婚姻状况.工作年限. 工作状况等: 2) 信贷情 ...
笔记︱金融风险控制基础常识——巴塞尔协议+信用评分卡Fico信用分
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 本笔记源于CDA-DSC课程,由常国珍老师主讲 ...
金融风险控制基础常识——巴塞尔协议+信用评分卡Fico信用分
本笔记源于CDA-DSC课程,由常国珍老师主讲.该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营 ----------------------------------- ...
信用评分模型开发(FICO评分)
以支付宝的芝麻信用为例,其分值范围在350-950分.一般认为分值越高,信用越好,个人业务的违约率越低.这里用的也是与FICO评分类似的个人信用评分工具. FICO评分的只要思路是:多大量拥有多个属性 ...
互联网金融行业申请评分卡（A卡）简介
文章目录前言基本概念 1.信用违约风险的基本概念什么是信用违约风险: 组成部分违约的主体个贷中常用的违约定义 M0,M1,M2的定义 2.申请评分卡的重要性和特性信贷场景中的评分卡申请评 ...
金融风控-申请评分卡模型-申请评分卡介绍
从这篇博文开始,我将总结金融风控中的另外一个模型:申请评分卡模型.这篇博文将主要来介绍申请评分卡的一些基本概念. 本篇博文将以以下四个主题来进行介绍说明: 信用风险和评分卡模型的基本概念申请评分卡在 ...
淘宝启用全新信用体系，“掌柜信用”成全国首个卖家信用产品
掌柜信用正在推进与横向市场(潮电街)的市场活动门槛合作.各流量渠道的合作.预计到2017年4月底,掌柜信用将覆盖至所有卖家,在各流量渠道内增加卖家诚信经营情况的考量. 随着网购环境的日益完善和消费群体 ...
ML之回归预测：利用FSR/RiR/BasisExpand/ Lasso/DT/RF/GB算法对红酒品质wine数据集实现红酒口感评分预测(实数值评分预测)
ML之回归预测:利用FSR/RiR/BasisExpand/ Lasso/DT/RF/GB算法对红酒品质wine数据集实现红酒口感评分预测(实数值评分预测) 目录输出结果设计思路 T1.FSR(前 ...
ML之回归预测之Lasso：利用Lasso算法对红酒品质wine数据集实现红酒口感评分预测(实数值评分预测)
ML之回归预测之Lasso:利用Lasso算法对红酒品质wine数据集实现红酒口感评分预测(实数值评分预测) 目录输出结果设计思路核心代码输出结果设计思路核心代码 t=3if t==1:X ...
什么是线索评分?如何让线索评分发挥作用？
线索评分是一个有效的模型可帮助销售和营销部门确定哪些潜在客户对公司最具价值.但是线索评分系统只有在正确设置和使用的情况下才能发挥作用.否则就会浪费营销和销售的时间和资源. 什么是线索评分? 许多线索的 ...

【信用评分预测模型（一）】信用评分预测模型简介

文章目录

前言