目录

1.评分卡模型解释

2.探索性数据分析

3.数据预处理

4.构建逻辑回归模型

数据集:数据

1.评分卡模型解释

一个用户总的评分等于基准分加上对客户各个属性的评分。客户评分=基准分+年龄评分+性别评分+婚姻状况评分+收入评分

如某客户年龄为27岁,性别为男,婚姻状况为已婚,月收入为20000,那么他的评分为:100+4+3+4+4=115

模型最低评分:100-10-4-4-10=82

模型最高评分:100+10+4+4+10=128

模型评分范围:82至128

通常情况下,即高分值代表低风险,低分值代表高风险。

2.探索性数据分析

获取数据的大概情况,例如字段的缺失情况、异常情况、平均值、中位数等分布情况,以及各字段与借贷字段二元分布,并制定合理的数据预处理方案。

本次探索性数据分析采用Tableau快速构建数据图。

代码:

3.数据预处理

3.1数据清洗

3.1.1异常值处理

一般异常值处理有基于密度的异常值处理、基于距离的异常值处理,本次采用基于距离的异常值处理对异常值处理。

3.1.2缺失值处理

删除缺失率超过某一阈值(阈值自行设定)的变量,

一般缺失值处理有均值填补、插值法、算法拟合等方法处理,本次采用随机森林算法拟合对缺失值处理。

代码:

3.2分箱变量

等频分箱:把自变量按从小到大的顺序排列,根据自变量等分成k份,每部分作为一个分箱;

聚类分箱:用k-means聚类法将自变量聚为k类;

split分箱: 基于entropy,gini和 IV值进行变量分裂;

chimerge分箱:两个相邻的区间具有类似的类分布,则这两个区间合并;否则它们应保持分开。采用卡方值来衡量两相邻区间的类分布情况。

分箱过少:很难捕捉到数据的特征。分箱过多:可能是造成过度学习的原因。欠损值设为独立箱,分箱是必然会造成信息的损益。

代码:

3.3WOE与IV

3.3.1 WOE

WOE字面意思证据权重,对分箱后的每组进行。假设good为好客户(未违约),bad为坏客户(违约)。

WOE表示每个分箱里的坏好比相对于总体的坏好比之间的差异性。WOE越大,差异越大,WOE越小,差异越小,若WOE=0,则分箱没有预测能力。检查每个分箱(除null分箱外)里WOE是否满足单调性,若不满足,从新分箱。若相邻分箱的WOE值相同,则将其合并为一个分箱,全部相同重新分箱对变量进行变换,使其建立单调关系。将其“重新编码”到任何有序的度量,WOE变实际上是在“逻辑”尺度上对类别进行排序,人为地将变量呈线性,适配于逻辑回归模型。对于离散值变量,将这些离散值分组密集填充,可以用WOE来表达整个类别的信息,因为WOE是标准化的值,可以在不同类别和变量之间进行简单的比较。WOE可以抑制偏离值的影响。WOE是一种“单变量”的度量,因此它没有考虑到变量之间的相关性。只对一个变量进行逻辑回归,判断斜率是否为1,或者切片是否为WOE

若一个分箱内只有违约或未违约时,可对woe公式进行修正如下:

代码:

3.3.2 IV

IV是衡量某一个变量的信息量,表示一个变量的预测能力。根据IV值来调整分箱结构并重新计算WOE和IV,直到IV达到最大值,此时的分箱效果最好,需要注意的是当箱数增加时,IV变大。

代码:

3.4 变量筛选

基于IV值的变量筛选,如下表所示根据IV值筛选变量。

IV 预测能力
<0.03 无预测能力
0.03~0.09
0.1~0.29
0.3~0.49
>=0.5

极高

基于线性相关性的变量筛选,当两变量间的相关系数大于阈值(0.6)时,剔除IV值较低的变量,或分箱严重不均衡的变量。(需考虑多重共线性)

代码:

4.构建逻辑回归模型

客户违约的概率表示为p,则正常的概率为1-p,根据Logistic Regression计算公式有:

转换得到:

      是Logistic Regression中不同变量的系数,是截距,A,B为常数,为基础分值。

每个变量对应分配到的分数应为,其中为第i 个变量的第 j个分箱的WOE值,为是0,1逻辑变量,当为1时表示变量 i取第 j个分箱。

代码:

参考:

玩转逻辑回归之金融评分卡模型

风控模型—WOE与IV指标的深入理解应用

风控评分卡模型——逻辑回归相关推荐

  1. python金融风控评分卡模型和数据分析

    python金融风控评分卡模型和数据分析微专业课(博主录制):http://dwz.date/b9vv 作者Toby:持牌照消费金融模型专家,和中科院,中科大教授保持长期项目合作:和同盾,聚信立等外部 ...

  2. python金融风控评分卡模型

    python金融风控评分卡模型和数据分析微专业课(博主录制): [ http://dwz.date/b9vv ](https://study.163.com/series/1202875601.htm ...

  3. python金融风控评分卡模型和数据分析(加强版)-收藏

    信用评分卡 信用评分是指根据银行客户的各种历史信用资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的信用分数,授信者可以通过分析客户按时还款的可能性,据此决定是否给予授信以及授信的额度和 ...

  4. 四十六.风控评分卡模型关键点理解

    风控评分卡 一.评分卡的模型选择 1.直观理解 2.数学角度 二.WOE 三.IV值 四.WOE和IV值的比较 五.评分值计算 一.评分卡的模型选择 1.直观理解 评分卡模型一般会选择线性模型,log ...

  5. 信贷风控评分卡模型(上)_Give Me Some Credit(技术实现过程)

    本帖是在2019年5月初入门python之时,选取的较为系统的练手案例,主要内容是信用风险计量体系之主体评级模型的开发过程(可用"四张卡"来表示,分别是A卡.B卡.C卡和F卡). ...

  6. 构建风控评分卡模型介绍(WOE/KS/ROC)

    完整代码请关注公众号回复"评分卡"获得. 有酒有风 什么是评分卡(信贷场景中) 以分数的形式来衡量风险几率的一种手段 对未来一段时间内违约/逾期/失联概率的预测 通常评分越高越安全 ...

  7. 【模型开发】构建风控评分卡模型介绍(WOE/KS/ROC)

    原文链接:https://blog.csdn.net/htbeker/article/details/79697557 需要数据分析.风控评分卡等相关数据.代码,请添加qq群:102755159,或留 ...

  8. 【菜菜的sklearn课堂笔记】逻辑回归与评分卡-用逻辑回归制作评分卡-分箱

    视频作者:菜菜TsaiTsai 链接:[技术干货]菜菜的机器学习sklearn[全85集]Python进阶_哔哩哔哩_bilibili 分训练集和测试集 from sklearn.model_sele ...

  9. 基于Python的信用评分卡模型-give me some credit数据集,AUC 0.93 KS 0.71

    信用风险计量模型可以包括跟个人信用评级,企业信用评级和国家信用评级.人信用评级有一系列评级模型组成,常见是A卡(申请评分卡).B卡(行为模型).C卡(催收模型)和F卡(反欺诈模型). 今天我们展示的是 ...

最新文章

  1. RabbitMQ核心概念
  2. centos7最小安装没有 ifconfig netstat 命令
  3. mysql 安装dso命令_LAMP环境搭建
  4. double salary = wage = 9999.99错误
  5. Python,Pandas,Bokeh Cheat Sheet-Data Science
  6. 梯度下降和EM算法,kmeans的em推导
  7. 3dmax高版本转低版本插件_Fundebug前端JavaScript插件更新至1.8.0,兼容低版本的Android浏览器...
  8. c语言程序排奇数,十个数奇数升序排列偶数降序排列,用C语言程序表示
  9. 关于easyui遇到的一些问题
  10. 图文配置docker阿里云加速器教程
  11. 华为c199刷android原生,华为C199刷机教程(强刷官方固件rom包)
  12. 鲁棒控制--simulink不确定模型仿真
  13. 中国私有云发展调查报告(2018年)
  14. 如何找到CPU飙升的原因
  15. windwos上外网
  16. 微信公众号接入自己的客服系统,自定义客服系统
  17. 解决win10和ubuntu18,win10时间不同步问题
  18. 局域网服务器如何设置代理访问公网
  19. Vmware黑屏解决
  20. ovs-docker实现容器网络vlan隔离

热门文章

  1. 苹果6外音没有了怎么办_时尚高颜简约风,苹果蓝牙耳机AirPods2保护套精选
  2. Word 2010也可以屏幕取词翻译
  3. NMAP扫描器常用指令
  4. 苏州大学计算机复试python_写在2020届苏大计算机考研872初试之后
  5. 大数据Spark学习笔记—未更完
  6. 基于python的旅游系统_基于python的去哪儿网旅游数据分析
  7. 微型计算机怎么没声音,电脑没有声音是怎么回事 电脑失声怎么解决【解决方法】...
  8. ArcGIS与地理加权回归【三】
  9. ML模型特点以及区别
  10. 传统的七大质量管理工具