今天学习了一下评分卡的内容,博主自己也对这个不了解,由于业务的需求,今天自学了下相关的内容。我把自己学习的一些东西整理下,发到这个博客里面。

背景

1、先讲一下背景内容,什么是评分卡:其实评分卡呢,就是银行系统里面为了给客户进行一个风险评估的手段,它通过客户的信息来给客户打分,分越高的,说明信用越好,风险越低。信用评分卡又分为以下四种:
1)申请评分卡(A卡)
2)行为评分卡(B卡)
3)催收评分卡(C卡)
4)欺诈评分卡(F卡)

建模过程

2、接下来讲一下如何制作评分卡:首先,输入也就是制作评分卡需要的数据,有两个:一个是客户填写的信息,另外一个是客户是否违约的标签。

3、信用评分建模的基本流程?

制作评分卡需要大量客户所填的信息(特征矩阵X:包括人口特征、信用历史记录、交易记录等数据信息),以及该客户是否违约的信息(标签Y)。

(1)对特征矩阵X进行数据预处理。包括去除重复值,填补缺失值(仅有极少数样本缺失该特征可考虑直接删除该特征,可使用均值填补家庭人数,随机森林填补收入等),处理异常值(3∂原则,箱线图,散点图,基于距离,基于密度,基于聚类等一系列的方法进行离群点检测),数据一致性,数据分布特征,以及数据之间的关联性,处理样本不均衡问题(使用过采样和欠采样的方法),但是我们一般不对数据进行标准化处理(这是因为我们给出的评分卡是给业务人员看的,而客户所填信息天生就是量纲不统一的)。

(2)找出每个特征最佳分箱数和箱子边界。最佳分箱数就是使得该特征的IV值尽量在最佳IV值区间的箱子个数(尽量提高每个特征的重要性),并且使得该特征的箱内相似,箱间差异大。因此步骤是这样的:首先确定一个较大的分箱数,进行等频分箱,计算各箱证据权重(WOE)值和特征的IV值,然后依据卡方检验值合并相似箱子,再次计算各箱WOE值以及该特征IV值,直到箱子数量变为一个较小值。画出分箱数-IV值曲线,找出最佳分箱数和各箱边界。

(3)对各个特征依据最佳分箱边界进行分箱。分箱后得到特征的各箱边界以及WOE值。

(4)处理训练集和测试集的特征矩阵X。将特征矩阵中的值全部替换为对应箱子的WOE值。

(5)使用训练集进行建模,使用测试集计算模型得分,在信用评分卡建模中,用到最常用的方法就是逻辑回归(LR)。虽然是传统的模型,但是由于其自身特点,加上自变量进行了证据权重转换(WOE),Logistic回归的结果可以直接转换为一个汇总表,即所谓的标准评分卡格式,这对于区分好坏用户以及评分卡的建立非常适用。目前对于它的使用和部署上线等已经非常成熟,是很多企业的不二选择。除了LR外,神经网络,Xgboost等高级模型也会被使用,不过综合考虑LR目前能够满足大部分的需求且部署上线容易。

模型评估

(6)模型评估(对于离散型因变量)
针对信用评分卡应用的评估模型有很多,包括:ROC/AUC,KS,PSI,LIFT等一些评估方法,下面着重介绍两个ROC和KS值。

a、ROC曲线使用两个指标值进行绘制,其中x轴为1-Specificity,即负例错判率;y轴为Sensitivity,即正例覆盖率。ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高(曲线越偏左上方越好),即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别,AUC代表曲线下的面积,不依赖于阈值,AUC值越高,模型的风险区分能力越强。通常AUC在0.8以上时,模型基本可以接受了。

b、KS值表示了模型正负区分开来的能力。值越大,模型的预测准确性越好。一般,KS>0.4即可认为模型有比较好的预测准确性,KS值只能反映出哪个分段是区分最大的,而不能总体反映出所有分段的效果。一般选用最大的KS值作为衡量指标;KS=Sensitivity-(1-Specificity),通常KS>0.4即可认为模型有比较好的预测准确性。

参考资料

1、https://www.cnblogs.com/simpleDi/p/10227472.html
2、https://www.jianshu.com/p/4c55fa92a9ac
3、https://blog.csdn.net/lll1528238733/article/details/76601897
4、https://blog.csdn.net/u014033218/article/details/87798637
5、https://www.cnblogs.com/simpleDi/p/10227472.html
6、https://www.jianshu.com/p/4c55fa92a9ac
7、http://www.manongjc.com/article/51847.html
8、https://blog.csdn.net/htbeker/article/details/79697557
9、https://github.com/htbeker/Application_score_card
10、https://blog.csdn.net/q337100/article/details/80693548
11、https://github.com/LeronQ/score_logistic
12、https://blog.csdn.net/yilulvxing/article/details/87070624
13、https://blog.csdn.net/R18830287035/article/details/89329608
14、https://blog.csdn.net/lll1528238733/article/details/76602006

银行信用评分卡建模原理相关推荐

  1. 数据挖掘项目:银行信用评分卡建模分析(上篇)

    kaggle上的Give Me Some Credit一个8年前的老项目,网上的分析说明有很多,但本人通过阅读后,也发现了很多的问题.比如正常随着月薪越高,违约率会下降.但对于过低的月薪,违约率却为0 ...

  2. 数据挖掘项目:银行信用评分卡建模分析(下篇)

    以下是银行信用评分卡建模分析下篇的内容,包括特征工程,构建模型,模型评估,评分卡建立这四部分.其中如果有一些地方分析的不正确,希望大家多多指正,感谢! 上篇文章的链接:数据挖掘项目:银行信用评分卡建模 ...

  3. Python语言实现信用评分卡建模分析

    背景介绍 信用评分技术是一种应用统计模型,其作用是为信用卡申请人计算一个风险评估分值的方法. 而这种用途的统计模型就称为信用评分卡.信用评分卡可以根据客户提供的资料.客户的历史数据以及第三方平台(支付 ...

  4. woe分析_【详解】银行信用评分卡中的WOE在干什么?

    WOE & IV woe全称叫Weight of Evidence,常用在风险评估.授信评分卡等领域. IV全称是Information value,可通过woe加权求和得到,衡量自变量对应变 ...

  5. 基于Python的信用评分卡建模分析

    1.背景介绍 信用评分技术是一种应用统计模型,其作用是对贷款申请人(信用卡申请人)做风险评估分值的方法.信用评分卡模型是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使 ...

  6. 超详细用Python进行信用评分卡建模【kaggle的give me some credit数据集】【风控建模】

    1 信用评分卡模型简介 信用评分卡是一个通过个人数据对其还款能力.还款意愿进行定量评估的系统.在消费金融行业,信用评分卡主要有三种(A.B.C卡): A卡:申请评分卡,贷前阶段使用,在客户获取期,建立 ...

  7. 信用评分卡建模的工作流程

    结合阅读书籍和实际工作经验,整理一篇笔记性质的博客,供参考.能帮助到需要的人就是我的满足,更欢迎大神指导不足,谢谢! 一.流程概述 下图概况了典型的评分卡开发流程,该流程的各个步骤的顺序根据具体情况的 ...

  8. [机器学习] 信用评分卡中的应用 | 干货

    背景介绍与评分卡模型的基本概念 如今在银行.消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判.交易对手未能履行约定契约中的义务而造成经济损失的风险,即 ...

  9. 基于Python的信用评分卡模型-give me some credit数据集,AUC 0.93 KS 0.71

    信用风险计量模型可以包括跟个人信用评级,企业信用评级和国家信用评级.人信用评级有一系列评级模型组成,常见是A卡(申请评分卡).B卡(行为模型).C卡(催收模型)和F卡(反欺诈模型). 今天我们展示的是 ...

最新文章

  1. 针对不同基础学Java编程的人,提出的小建议?
  2. Spring– DAO和服务层
  3. hsweb提取页面查询参数_zabbix-基础系列(七)-zabbix用户参数
  4. Java 设计模式之 Observer 模式
  5. 如何从SQL Server中的SELECT语句更新
  6. Mongdb中常用的数据清洗
  7. 技术人观点:开发人员在处理云应用时该注意什么?
  8. 基于SNMP协议的电信网络监测系统的实现
  9. Android studio毕设制作液体动画Animation(毕业设计2048小游戏)
  10. AnyMP4 MP3 Converter for Mac(mp3格式转换器)
  11. matlab 模拟电磁学时域有限差分法,MATLAB模拟的电磁学时域有限差分法
  12. 部署 - 前端部署https服务,并配置安全证书
  13. mybatis的一级缓存和二级缓存
  14. html颜色代码 糖果色,75平米糖果色跃层家 绚丽色彩散发迷人魅力
  15. 启赟金融 CTO 马连浩:跨境支付系统架构
  16. 『WEB』web学习
  17. ​FH5202原厂2A开关式同步降压型锂电池充电电路IC
  18. html css主题,HTML+CSS=无限可能——案例详解:我的POI主题作品
  19. 鸿蒙合香丸是治胃的吗,何任大师治胃病的三个独家良方
  20. IDEA插件 -RestfulToolkit(接口自测工具)

热门文章

  1. iptv是什么意思?什么是iptv?
  2. Windows下Java下载与安装,Java第一个程序
  3. npm WARN tarball tarball data for xxxx@^0.25... npm项目依赖安装卡住,报错,尝试多次无果的解决方法
  4. Swift 2021 生态调研报告
  5. 全国 41611 个景点,用 Python 告诉你哪些地方最值得一游!
  6. Codeforces Round #360(div2)
  7. c语言输出边长为n的菱形,[c语言]输入n,分别用*输出边长为n的实心菱形和空心菱形...
  8. Linux串口测试工具
  9. 博途PLC 中位值滤波算法(FC功能块)
  10. 出大事了!IBM的数仓项目黄了,赔了好几亿!