1.评分卡模型解释

2.探索性数据分析

3.数据预处理

4.构建逻辑回归模型

数据集：数据

1.评分卡模型解释

一个用户总的评分等于基准分加上对客户各个属性的评分。客户评分=基准分+年龄评分+性别评分+婚姻状况评分+收入评分

如某客户年龄为27岁，性别为男，婚姻状况为已婚，月收入为20000，那么他的评分为:100+4+3+4+4=115

模型最低评分：100-10-4-4-10=82

模型最高评分：100+10+4+4+10=128

模型评分范围：82至128

通常情况下，即高分值代表低风险，低分值代表高风险。

2.探索性数据分析

获取数据的大概情况，例如字段的缺失情况、异常情况、平均值、中位数等分布情况，以及各字段与借贷字段二元分布，并制定合理的数据预处理方案。

本次探索性数据分析采用Tableau快速构建数据图。

代码：

3.数据预处理

3.1数据清洗

3.1.1异常值处理

一般异常值处理有基于密度的异常值处理、基于距离的异常值处理，本次采用基于距离的异常值处理对异常值处理。

3.1.2缺失值处理

删除缺失率超过某一阈值（阈值自行设定）的变量，

一般缺失值处理有均值填补、插值法、算法拟合等方法处理，本次采用随机森林算法拟合对缺失值处理。

代码：

3.2分箱变量

等频分箱：把自变量按从小到大的顺序排列，根据自变量等分成k份，每部分作为一个分箱；

聚类分箱：用k-means聚类法将自变量聚为k类;

split分箱：基于entropy，gini和 IV值进行变量分裂；

chimerge分箱：两个相邻的区间具有类似的类分布，则这两个区间合并；否则它们应保持分开。采用卡方值来衡量两相邻区间的类分布情况。

分箱过少：很难捕捉到数据的特征。分箱过多：可能是造成过度学习的原因。欠损值设为独立箱，分箱是必然会造成信息的损益。

代码：

3.3WOE与IV

3.3.1 WOE

WOE字面意思证据权重，对分箱后的每组进行。假设good为好客户（未违约），bad为坏客户（违约）。

$WOE_{i}=ln(\frac{bad_{i}}{bad_{T}}\frac{good_{i}}{good_{T}})=ln(\frac{bad_{i}}{bad_{T}})-ln(\frac{good_{i}}{good_{T}})$

WOE表示每个分箱里的坏好比相对于总体的坏好比之间的差异性。WOE越大，差异越大，WOE越小，差异越小，若WOE=0，则分箱没有预测能力。检查每个分箱（除null分箱外）里WOE是否满足单调性，若不满足，从新分箱。若相邻分箱的WOE值相同，则将其合并为一个分箱，全部相同重新分箱对变量进行变换，使其建立单调关系。将其“重新编码”到任何有序的度量，WOE变实际上是在“逻辑”尺度上对类别进行排序，人为地将变量呈线性，适配于逻辑回归模型。对于离散值变量，将这些离散值分组密集填充，可以用WOE来表达整个类别的信息，因为WOE是标准化的值，可以在不同类别和变量之间进行简单的比较。WOE可以抑制偏离值的影响。WOE是一种“单变量”的度量，因此它没有考虑到变量之间的相关性。只对一个变量进行逻辑回归，判断斜率是否为1，或者切片是否为WOE

若一个分箱内只有违约或未违约时，可对woe公式进行修正如下：

$WOE_{i}=ln(\frac{bad_{i}+0.5}{bad_{T}+0.5}\frac{good_{i}}{good_{T}})$

代码：

3.3.2 IV

IV是衡量某一个变量的信息量，表示一个变量的预测能力。根据IV值来调整分箱结构并重新计算WOE和IV，直到IV达到最大值，此时的分箱效果最好，需要注意的是当箱数增加时，IV变大。

$IV_{i}=WOE_{i}*(\frac{bad_{i}}{bad_{T}}-\frac{good_{i}}{good_{T}})$

代码：

3.4 变量筛选

基于IV值的变量筛选，如下表所示根据IV值筛选变量。

IV	预测能力
<0.03	无预测能力
0.03~0.09	低
0.1~0.29	中
0.3~0.49	高
>=0.5	极高

基于线性相关性的变量筛选，当两变量间的相关系数大于阈值（0.6）时，剔除IV值较低的变量，或分箱严重不均衡的变量。（需考虑多重共线性）

代码：

4.构建逻辑回归模型

客户违约的概率表示为p，则正常的概率为1-p，根据Logistic Regression计算公式有：

$p=\frac{1}{1+e^{-\theta^{T} x}}$

转换得到：

$\ln \left(\frac{p}{1-p}\right)=\theta^{T} x$

$\ln (odds)=\theta^{I} x=w_{0}+w_{1} x_{1}+\cdots+w_{n} x_{n}$

$score=A-B *\left(\theta^{T} x\right)=A-B *\left(w_{0}+w_{1} x_{1}+\cdots+w_{n} x_{n}\right)$ $w_{1}, w_{2}, \ldots, w_{n}$ 是Logistic Regression中不同变量 $x_{1}, x_{2}, \ldots, x_{n}$ 的系数， $w_{0}$ 是截距，A，B为常数， $A+B *w_{0}$ 为基础分值。

每个变量对应分配到的分数应为 $B *WOE_{ij}*w_{i}*\gamma_{ij}$ ,其中 $WOE_{ij}$ 为第i 个变量的第 j个分箱的WOE值， $\gamma_{ij}$ 为是0，1逻辑变量，当为1时表示变量 i取第 j个分箱。

$score=A-B *WOE_{ij}*w_{i}*\gamma_{ij}$

代码：

参考：

玩转逻辑回归之金融评分卡模型

风控模型—WOE与IV指标的深入理解应用

风控评分卡模型——逻辑回归相关推荐

python金融风控评分卡模型和数据分析
python金融风控评分卡模型和数据分析微专业课(博主录制):http://dwz.date/b9vv 作者Toby:持牌照消费金融模型专家,和中科院,中科大教授保持长期项目合作:和同盾,聚信立等外部 ...
python金融风控评分卡模型
python金融风控评分卡模型和数据分析微专业课(博主录制): [ http://dwz.date/b9vv ](https://study.163.com/series/1202875601.htm ...
python金融风控评分卡模型和数据分析(加强版)-收藏
信用评分卡信用评分是指根据银行客户的各种历史信用资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的信用分数,授信者可以通过分析客户按时还款的可能性,据此决定是否给予授信以及授信的额度和 ...
四十六.风控评分卡模型关键点理解
风控评分卡一.评分卡的模型选择 1.直观理解 2.数学角度二.WOE 三.IV值四.WOE和IV值的比较五.评分值计算一.评分卡的模型选择 1.直观理解评分卡模型一般会选择线性模型,log ...
信贷风控评分卡模型（上）_Give Me Some Credit（技术实现过程）
本帖是在2019年5月初入门python之时,选取的较为系统的练手案例,主要内容是信用风险计量体系之主体评级模型的开发过程(可用"四张卡"来表示,分别是A卡.B卡.C卡和F卡). ...
构建风控评分卡模型介绍（WOE/KS/ROC)
完整代码请关注公众号回复"评分卡"获得. 有酒有风什么是评分卡(信贷场景中) 以分数的形式来衡量风险几率的一种手段对未来一段时间内违约/逾期/失联概率的预测通常评分越高越安全 ...
【模型开发】构建风控评分卡模型介绍（WOE/KS/ROC)
原文链接:https://blog.csdn.net/htbeker/article/details/79697557 需要数据分析.风控评分卡等相关数据.代码,请添加qq群:102755159,或留 ...
【菜菜的sklearn课堂笔记】逻辑回归与评分卡-用逻辑回归制作评分卡-分箱
视频作者:菜菜TsaiTsai 链接:[技术干货]菜菜的机器学习sklearn[全85集]Python进阶_哔哩哔哩_bilibili 分训练集和测试集 from sklearn.model_sele ...
基于Python的信用评分卡模型-give me some credit数据集，AUC 0.93 KS 0.71
信用风险计量模型可以包括跟个人信用评级,企业信用评级和国家信用评级.人信用评级有一系列评级模型组成,常见是A卡(申请评分卡).B卡(行为模型).C卡(催收模型)和F卡(反欺诈模型). 今天我们展示的是 ...

风控评分卡模型——逻辑回归

目录

1.评分卡模型解释

2.探索性数据分析

3.数据预处理

4.构建逻辑回归模型

1.评分卡模型解释

2.探索性数据分析

3.数据预处理

4.构建逻辑回归模型

风控评分卡模型——逻辑回归相关推荐

最新文章

热门文章