• 第二章 模型开发流程&好坏样本定义

    • 2.1模型开发流程

      • 2.1.1 评分模型流程图
      • 2.1.2流程图阐述
      • 2.2 好坏样本定义
        • 2.2.1观察期、表现期、观察点
      • 2.2.2举例说明

第二章 模型开发流程&好坏样本定义

2.1模型开发流程

2.1.1 评分模型流程图

2.1.2流程图阐述

该小结提出了一些数据指标,如果不明白没有关系,往后的文章笔者会一个个地解释这些指标的含义和计算方法

  • 数据获取:获取建模所需要的数据,一般分为内部为外部数据,内部数据例如贷款公司内部搜集存储的客户信息,例如客户在平台内部的登陆、注册、消费信息等,外部数据一般有第三方数据,例如人行征信报告、一些第三方机构提供的多头借贷等
  • EDA与数据描述,EDA全称explore data analysis,目的在于探索性地分析客户数据分布情况以及数据质量,检查数据是否为单一值、包不包含缺失以及异常数据等。同时通过各种分析手段(Gini、列联表、χ2χ2\chi^2检验、相关系数)等分析变量与目标(违约与否)的关联
  • 数据准备,准备好我们需要进行建模的样本宽表,包括数据合并、清洗、转换等工作,这也是建模中最耗费时间的一项。
  • 变量选择,在数据准备好以后,未必所有的变量都需要进入模型,否则容易出现维度灾难,就是数据集过大导致开发时间过长,根据一定方法选择最优变量进入模型就成了必要的工作,常用的有IV值,逐步回归(也就是先将一个变量纳入模型,然后逐步将其他变量一个一个纳入模型训练,剔除掉不能减少AIC的变量,然后继续加入新变量,直到AIC无法再下降为止)。另外还有假如L1惩罚项,用集成学习的方法选择变量等。
  • 模型开发,利用机器学习,训练模型,常用的模型有logsitic回归、线性回归、决策树、深度学习等。
  • 模型评估,评价模型对于好坏样本的区分能力,常用的指标有ROC曲线、RECALL、PERCISION、KS值等。
  • 评分卡创建和刻度,利用模型估计出来的参数(也就是公式)将其转化为评分规则或者是风控规则。
  • 检测和报告,监控模型是否运行稳定,常用的指标有PSI、评分迁移矩阵、kendall 秩相关系数等。
  • 评分实施,模型部署上线,用于风控系统。

2.2 好坏样本定义

开发信用评分模型的首要目标就是知道来者是好人还是坏人,他未来会不会出现逾期、失联等。所以,如何定义一个借款人的好坏十分讲究,并不是一个人有过逾期欠款他就不是好人了,毕竟发生逾期的原因总是多方面的,有的仅仅是偶尔忘了,这部分总体还是好人,而有的是中途发生财务原因暂时无力偿还,还有的严重一点就是主观上存在坏的目的,借了钱就消失赖账,甚至是身份被骗子盗用。所以,建模过程中,为了训练出一个优质的模型,需要正确地定义好坏样本。

2.2.1观察期、表现期、观察点

在这里,需要明确三个定义:观察期、表现期、观察点,可以先从如下时间轴看起。

- 观察期:就是时间轴左侧,主要是用来生成用户特征的时间区间,不宜太长也不宜太短,一般为1年到3年左右
- 观察点:这个点并是一个具体的时间点,而是一个时间区段,表示的是客户申请贷款的时间,用来搜集那些用来建模的客户样本,在该时间段申请的客户会是我们用来建模的样本
- 表现期:用来定义用户是否好坏的时间区段,一般是6月到1年左右,一般最常用的是定义为坏样本的指标有:M3+逾期、M3以内逾期中定义为失联、欺诈、身份盗用等情况,这些需要看自身业务情况而定

补充说明:
1.观察点的设计:
观察点的设计有额外的讲究,其中涉及到一个Mob的概念。而所谓Mob,全称month on book,等于观察点减去贷款发放时间。所以,观察点的设计在于贷款发放时间往后推Mob期,Mob的长短关系到模型的观察期以及观察期生成的时间切片变量。

2.观察期过长或过短的影响:
- 一个过长的观察期,可能会导致客户不在你的mob内,大批样本无法进入模型
- 一个过短的观察期,则会导致样本无法生成足够多有效的时间切片变量

3.时间切片变量:
- 时间区段的行为变量,例如过去3个月平均消费金额、过去6个月消费平均次数等

2.2.2举例说明

假如,现在我们的模型表现期为1年,观察期为1年,观察点为什么时候呢?也就是说当我们有一个客户在2018-1-1号来申请贷款,贷款机构需要用现有的模型对该申请人进行一个申请评分,评估他未来表现期内触发坏样本属性的概率,那么该模型采用的客户样本是什么时候申请进件的?
答案:因为上面定义的表现期是1年,那么往前推一年,观察点大概为2017-1-1号左右某段时间区间,因为观察期也是1年,所以再往前推1年(即观察期:2016-1-1到2017-1-1),利用这1年所有观察点内申请人一些信息建立模型的观察变量,然后再往后推一年(即表现期:2017-1-11到2018-1-1),所有在观察点内的申请人在这一年时间内的表现情况来定义违约。然后来训练出一个模型。对2018-1-1号的申请人进行评分。所以申请评分卡模型有着天然的滞后性,需要不断的对其模型进行监控。


参考文献:
[1]http://blog.csdn.net/Mr_tyting/article/details/75097681#t19
[2]信用风险评分卡研究:马姆杜.拉法特

信贷风控模型开发----模型流程好坏样本定义相关推荐

  1. 信贷风控模型开发----模型简介

    第一章 风控模型简介 1.1 为什么要建模 1.2 什么是信用评分 1.3 常用的模型 1.4 概念解析:M0,M1,M2的定义 下一章预告 参考文献 第一章 风控模型简介 本系列文章为笔者对信贷风控 ...

  2. 国内征信行业模型开发全流程详解

    1. 前言 目前国内的金融体系主要由银行.互联网消费金融.助贷机构组成,本人参与过国内外大型银行.消金.助贷机构的征信模型开发,相对而言,对当前国内的征信模型具有一定的发言权.下面,我将从技术角度全面 ...

  3. 信贷风控评分卡模型(上)_Give Me Some Credit(技术实现过程)

    本帖是在2019年5月初入门python之时,选取的较为系统的练手案例,主要内容是信用风险计量体系之主体评级模型的开发过程(可用"四张卡"来表示,分别是A卡.B卡.C卡和F卡). ...

  4. 信用卡评分模型(数据获取+数据预处理+探索分析+变量选择+模型开发+模型评估+信用评分+建立评分系统)

    最近两次遇到关于信用卡评分的题目,遂了解一波. Reference: 基于python的信用卡评分模型(超详细!!!) https://www.jianshu.com/p/f931a4df202c h ...

  5. 信贷评分卡--开发流程篇

    目录 一.评分卡介绍 二.数据收集 三.数据准备 3.1. 数据准备包括:处理异常值.缺失值.定义好坏客户.样本量.定义样本窗口期等. 3.2. 变量可视化:可助于寻找特征数据之间的关系和发现问题. ...

  6. 10分钟完成模型开发!合合信息智能文字识别服务平台亮相1024程序员节

    1024是2的十次方,也是二进制计数的基本计量单位之一,每年的10月24日因此成为了中国程序员的盛会.近期,CSDN(中国开发者网络)第三届"1024程序员节"(简称"大 ...

  7. 软件开发方法和开发模型的比较

    我搞不清软件开发方法和开发模型这两个概念. 书本上这两部分都放在<软件工程>这一章节里,但是是分开介绍的,并没有阐明二者之间的关系,比较割裂.我尝试在互联网上找找资料,但都非常少.这里先把 ...

  8. 【模型开发】风控评分模型开发流程

    [博客地址]:https://blog.csdn.net/sunyaowu315 [博客大纲地址]:https://blog.csdn.net/sunyaowu315/article/details/ ...

  9. (信贷风控九)行为评分卡模型python实现

    python信用评分卡建模(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_ca ...

最新文章

  1. 报名 | 从滴滴出行数据透视中国城市空间发展讲座
  2. ForkJoinPool框架设计与实现
  3. OpenGL exploder对象雷管的实例
  4. iframe中父子窗口的调用
  5. 【Paddle 经验分享】利用PaddleHub 2.x 完成文本分类训练的坑
  6. django-模板语言-传输各种数据类型
  7. poj 2063 Investmen 完全背包
  8. spring-boot-devtools 热部署
  9. Atom飞行手册翻译: 2.6 代码段
  10. js遍历对象的几种方法
  11. 使用Camera的几个步骤
  12. 镜像资源的使用:100倍速度提升不是梦!
  13. form表单提交serialize()方法和
  14. netkeeper客户端_中国电信创翼客户端下载
  15. tempfile.mkstemp 详解
  16. 关于unity 3d人物换装
  17. HoloLens原理分析和硬件拆解
  18. win10系统开启局域网共享
  19. 解密宝典——十招教你学会软件破解
  20. 压力测试-Jmeter自动化测试教程

热门文章

  1. PTA 1041 考试座位号 (c语言)
  2. 分类——支持向量机分类
  3. 如何防止量化策略的陷阱
  4. Chinese room是什么?
  5. No.142-HackTheBox-Linux-Curling-Walkthrough渗透学习
  6. EDI为采购商与供应链能够带来哪些帮助?
  7. C# Nut Shell 第十三章 诊断
  8. 基于FreeSurfer的海马亚区分割
  9. 2022下半年全国大学英语四六级成绩今日可查
  10. zynq AXU2CG 转接板 原理图 对应引脚图