本系列文章主要介绍信用风险评分卡制作流程,如果想对信用风险深入了解,给大家推荐如下书单:

1.《信用风险评分卡研究—基于 SAS 的开发与实施》,作者:Mamdouh·Refat

2.《互联网金融时代:消费信贷评分建模与应用》,作者:单良 ,‎ 茆小林

3.《消费信用模型:定价、利润与组合》,作者: Lyn C. Thomas

4.《消费金融真经: 个人贷款业务全流程指南(原书第2版) 》,作者:戴维•劳伦斯(David Lawrence) 阿琳•所罗门(Arlene Solomon)译者:张宇

信用风险评分模型是评估贷款人的资信状况来预测申请人未来发生违约概率的模型。本文将从数据、特征变量、模型开发、模型验证、评分卡制作等几部分介绍从数据到评分卡的基本流程。

1.数据来源

用于制作评分模型的数据有很多:电商购物交易流水、手机SDK获取的各类隐私数据(通讯录、通话记录、LBS、App列表、app行为数据)、社保、公积金、学历、社交信息、电信运营商数据、第三方的多头和黑名单等数据,还有信息维度最多的人行征信报告。本文采取的案列数据来自UCI机器学习数据库(http://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients)。当然也可以去kaggle网站寻找合适的练习数据。

2.数据描述

3.数据预处理

(1)首先需要理解数据的业务含义,比如age小于0或者超出正常水平很离谱就违背了业务常识,需要做清理;

(2)对于一些未知含义的数据作统一转换,比如婚姻状况本身只有三种,1 = married; 2 = single; 3 = others,而在源数据中却出现了婚姻状况的数据值为0,同样,在教育程度的变量中,1 = graduate school; 2 = university; 3 = high school; 4 = others,但也出现的意义不明的值,我们需要将这些值以及others统一做处理转换。

4.数据勘探

对数据进行一个基本层面的分析,以便更好地理解数据。变量分两种类型:离散型变量和连续型变量。

(1)字符型变量:主要是看数据各个类别的分布情况,主要图形方法有条形图以及饼形图,统计方法有频数分布统计等。以数据中的 EDUCATION 为例, 条形图的运行结果如下。教育程度中,大多数客户集中在 1&2, 也就是学历为 graduate school 和 university 的客户较多;

(2)数值型变量:主要看该变量的集中趋势和离散趋势,集中趋势主要统计量有均值、中位数等,离散趋势主要统计量有标准差、方差、四分位差、全距等。

5.数据处理

在对数据做基本勘探后,继续对数据做处理:

(1)缺失值,包括分析缺失值的占比,分析缺失值产生的原因,判断是否可以删除存在缺失值的sample,以及对缺失值的插补。可以根据数据是离散型和连续型,取平均数、中位数、众位数等来填充。另外还可以考虑,通过模型来预测缺失变量进行填补;

(2)异常值,遇到个别数据值偏离预期或大量统计数据值结果的情况,如果把这些数据值和正常数据值放在一起进行统计,可能会影响结果的正确性,如果把这些数据值简单地剔除,又可能忽略了重要信息。这里重要的问题是如何判断异常值,然后将其剔除。

a.如前述,根据对客观事物已有的认识,判断age值正常范围

b.统计判别法,给定一个置信概率并确定一个置信限,超过限制就属于异常值。如果数据呈正态分布,对于大于 μ+3σ 或小于 μ—3σ 的数据值作为异常值; 一般根据分位数结合箱线图进行判断处理;

c.重复值,对于重复值超过 90%的变量剔除。如果数据90%是重复的,跟90%是缺失一个意思,变量的意义不是太大。

6.数据清洗

(1)日期格式的清洗。因为在后面的衍生变量中,我们需要用到日期类的变量去衍生变量,所以日期格式的清洗就方便我们做对日期格式相加减,譬如把“2016 年 4 月 6 号”转化为“2016-04-06” ;

(2)字符变量的清洗。字符变量譬如客户地址,我们在建模中并不需要客户的地址精确到那条街那个门牌号,我们只需要客户的居住地址(精确到县),那么我们就需要对客户填写的地址清洗出那个市以及那个县,例如:”深圳市龙华新区梅林关口民乐老村99 栋”我们只需要“深圳市龙华新区”,包括银行也是,“中国银行深圳福田支行”,我们只需要“中国银行”就可以了;

(3)数值变量的清洗。譬如在数据库中有这么一个变量,居住年限,这个变量有时候是手工输入的,因为人的逻辑不一样,有些人就填是从那一年住的“2014”,有些人就填是住了几年“3”,但其实,“2014”和“3”是相同的居住年限,那么这时候就应该识别出“2014”清洗居住年限为 3 年。

以上为数据处理的主要过程(不限定顺序),在特征工程中,这些过程会经常反复进行。下文会介绍衍生变量、特征变量分析和筛选。

【采用】信用风险评分卡系列之数据处理相关推荐

  1. 数据分析之信用风险评分卡建立

    项目需求:现某金融公司想要通过建立信用风险评分卡对客户进行判断,是否发放贷款 项目描述:数据来源 kaggle 数据量 4 万条,原始字段数 33 个 项目目的: 使用机器学习构建信用卡评分模型,对新 ...

  2. 《信用风险评分卡研究——基于SAS的开发与实施》学习笔记(1)

     所有模型都要进行前期数据准备工作.在此,假设所有数据都已经准备完毕. 注:该系列文章都是学习马姆杜 雷法特著的<信用风险评分卡研究--基于SAS的开发与实施>一书时的学习记录和练手, ...

  3. ML之LoR:基于信用卡数据集利用LoR逻辑回归算法实现如何开发通用信用风险评分卡模型之以toad框架全流程讲解

    ML之LoR:基于信用卡数据集利用LoR逻辑回归算法实现如何开发通用信用风险评分卡模型之以toad框架全流程讲解 目录 基于信用卡数据集利用LoR逻辑回归算法实现如何开发通用信用风险评分卡模型之以to ...

  4. ML之LoR:基于信用卡数据集利用LoR逻辑回归算法实现如何开发通用信用风险评分卡模型之以scorecardpy框架全流程讲解

    ML之LoR:基于信用卡数据集利用LoR逻辑回归算法实现如何开发通用信用风险评分卡模型之以scorecardpy框架全流程讲解 目录 基于信用卡数据集利用LoR逻辑回归算法实现如何开发通用信用风险评分 ...

  5. 信用评分卡模型开发及评估指标

    版权声明:本文为博主原创文章,未经博主允许不得转载. 一.信用风险评级模型的类型 信用风险计量体系包括主体评级模型和债项评级两部分.主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用&qu ...

  6. 评分卡模型开发(十)--总体流程

    转自: https://blog.csdn.net/lll1528238733/article/details/76602006 一.信用风险评级模型的类型 信用风险计量体系包括主体评级模型和债项评级 ...

  7. 信用标准评分卡模型开发及实现

    一.信用风险评级模型的类型 信用风险计量体系包括主体评级模型和债项评级两部分.主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用"四张卡"来表示,分别是A卡.B卡.C卡 ...

  8. r k-means 分类结果_R语言信用评分卡:数据分箱(binning)

    作者:黄天元,复旦大学博士在读,热爱数据科学与R,热衷推广R在工业界与学术界的应用.邮箱:huang.tian-yuan@qq.com.欢迎合作交流 library(knitr) opts_chunk ...

  9. 评分卡模型开发(八)--主标尺设计及模型验证

    转自:https://blog.csdn.net/lll1528238733/article/details/76601930 上一步中开发的信用风险评分卡模型,得到的是不同风险等级客户对应的分数,我 ...

最新文章

  1. 2021年大数据常用语言Scala(十三):基础语法学习 函数 重点掌握
  2. RESTful服务最佳实践
  3. protoc支持c_protoc 命令参数
  4. 腾讯斥资3.17亿美元增持B站 持股增至12%
  5. 用localStorage实现登录时记住密码的功能
  6. mysql5.7.14 配置文件_mysql 5.7.14 安装配置方法图文教程(转)
  7. css提取页面元素唯一性_一日一技:爬虫如何正确从网页中提取伪元素?
  8. oracle 12c undo,Oracle 12C新特性-临时UNDO段(Temporary Undo Segments) | 信春哥,系统稳,闭眼上线不回滚!...
  9. tornada-数据库
  10. 字符串匹配,KMP算法
  11. 慧联A8最新检测使用教程V2.0.3
  12. Drupal 自己定义主题实体 Theming Custom Entities
  13. 数据库的 N 多骚操作了解一下?
  14. java集合系列——Map之TreeMap介绍(九)
  15. 蓝宝石会升级bios吗_浴火重生 蓝宝石HD7950 Flex测BIOS提速
  16. Android怎么实现解压文件,Android如何实现压缩和解压缩文件
  17. 在matlab中如何把两个txt文件合并到一起
  18. Python操控微信,实现微信机器人
  19. 樊氏族谱2-汝南樊银后裔家谱续谱-简书
  20. 学习pandas全套代码【超详细】数据查看、输入输出、选取、集成、清洗、转换、重塑、数学和统计方法、排序

热门文章

  1. pandas统计缺失值的个数
  2. LED 模板驱动程序的改造:总线设备驱动模型
  3. python list 去重_Python中对列表list去重
  4. mongodb 内存限制
  5. svd 分解详细证明
  6. python管理图片_Django 管理图片
  7. LightGBM安装与模型训练
  8. web浏览器录音:web audio api
  9. sklearn 笔记整理:sklearn.mertics
  10. python库整理:os