构建信用风险类型的特征

模型处理的一般流程

数据预处理(时间格式、缺失值、机值)- >特征构造(计数、比例、距离)->特征选择(相关性、差异性、显著性)->模型参数估计(回归系数、模型复杂度)

数据预处理(时间格式、缺失值、极值)

1、数据格式处理:原始数据带有一定的格式,需要转换成正确的格式

例如:利率 %-》需要转化为浮点数 日期:nov-17需要转化为python的时间

工作年限 :‘<1 years ’-->0  '>10 years'-->11

2、文本类的数据处理方式

主题提取(NLP)

优点:提取准确、详细的信息、对风险评估非常有效

缺点:NLP的模型比较复杂,且需要足够多的训练样本

编码

优点:简单

3、缺失值

缺失的种类:完全随机缺失、随机缺失、完全非随机缺失

处理的方法:补缺、作为一种状态、删除记录或变量

连续缺失值可以取均值,离散缺失值可以取频率较高的

构建特征

常用的特征衍生

计数:过去1年内申请贷款的总次数

求和:过去1年内的网站消费总额

比例:贷款申请额度与年收入占比

时间差:第一次开户距今时长

波动率:过去3年内每份工作的时间的标准差

特征的分箱

分箱的定义

将连续变量离散化、将多状态的离散变量合并成少状态

分箱的重要性

稳定性:避免特征中无意义的波动对评分带来的波动

健壮性:避免了极端值的影响

分箱的优势

可以将缺失作为独立的一个箱带入模型中、将所有变量变换到相似的尺度上

分箱的限制

计算量大,分箱后需要编码

分箱的方法:

常用的方法:

有监督:

Best-KS

ChiMerge

无监督:

等频

等距

聚类

监督分箱法:Best-KS(针对连续变量)

原理:让分箱后组别的分布差异最大化

对于连续变量

1、排序,x={x1,x2,...xk}

2 、计算每一点的KS值

3、选取最大的KS对应的特征值xm,将x分为{xi<=xm}或{xi>xm}

对某一部分,重复2-3,直到满足终止条件之一

终止条件:

1、下一步分箱,最小的箱的占比低于设定的阈值(常用0.05)

2、下一步分箱后,该箱对应类别全部为0或者1

3、下一步分箱后,bad rate不单调

对应离散度很高的变量

1、编码

2、根据连续变量方式进行分箱

有序行的离散变量

监督室分箱法:卡方分箱法

自底向上(即基于合并的)的数据离散化方法。依赖于卡方检验;具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则

基本思想:对于精确的离散化,相对累频率在一个区间内应完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。

Best-KS(二分类情形下)  ChiMerge (多分类情形下)

卡方分箱法:

1、预先设定一个卡方的阈值

2、根据要离散的属性实例进行排序:每个实例属于一个区间

3、合并区间:

(1)计算每一对相邻区间的卡方值

(2)将卡方值最小的一对区间合并

卡方分箱法

卡方阈值的确定

根据显著水平和自由度得到卡方值

自由度和类别数量小1.例如:有3类,自由度为2,则90%置信度(10%显著水平下),卡方的值为4.6

阈值的意义

类别和属性独立时,90%可能性,计算得到的卡方值汇小于4.6,这样,大于阈值的卡方值就说明属性和类不是相互独立的不能合并。如果阈值选的大,区间合并就会进行很多次,离散后的数量少,区间大。

注意:

1、CHiMerge 算法推荐使用0.90,0.95,0.99置信度,最大区间取10到15之间

2、也可以不考虑卡方阈值,此时可以考虑最小区间或者最大区间数。指定区间数量的上限和下限,最多几个区间,最少几个区间

3、对于类别型变量,需要分箱时需要按照某种方式进行排序

对于连续型变量:

使用ChiMerge进行分箱(默认5个)

检查分箱后bad rate的单调性,倘若不满足,需要进行相邻两箱的合并,直到bad rate为止

对于类别型变量:

当类别较少时,原则上不需要分箱

当某个或者几个类别的bad rate为0时,需要和最小的非0的bad rate的箱进行合并

当该变量可以完全区分目标变量时,需要认真检查该变量的合理性

无监督分箱法:等距划分、等频划分

等距划分:W=(B-A)/N

等频划分:每一箱的占比大致相同

WOE编码

一种有监督的编码方式,将预测类别的集中度的属性作为编码的数值

优势

将特征的值规范到相近的尺度上(经验上讲,WOE的绝对值波动范围在0.1~3之间)

具有业务的含义

缺点

需要每箱中同时包含好坏两个类别

WOE编码的意义

符号与好样本的比例相关

要求回归模型的系数为负

特征信息度的计算和意义

变量挑选

在评分卡模型中,变量挑选是非常重要的工作

变量间的共线性,线性相关性

信息冗余、降低了显著性,甚至造成符号失真

加剧后期验证、部署、监控的负担

业务上含义不充分

变量挑选的依据

带约束:LASSO

特征重要性:随机森林

模型拟合优度和复杂度:基于AIC的逐步回归

变量信息度:IV

高IV表示该特征和目标变量的关联度高、目标变量只能是二分类、分箱越细、IV越高

单变量分析:

1、用IV检验有效性

2、连续变量bad rate的单调性(可以放宽到U型)

3、单一区间的占比不宜过高

多变量分析:变量的两两相关性,当相关性较高时,保留一个

可以选择iv高的、可以选择分箱均匀的

WOE相关性矩阵(基于IV>0.01的变量)

变量的多重共线性

风控项目-收集基础知识2相关推荐

  1. python入门004~创建属于自己的第一个python3项目~基础知识的讲解

    上一节带领大家成功的安装了pthon3,并且在开发者工具pycharm里配置了python,这一节就开始带领大家学习python3的基础知识了. 如果你还没有安装python3,也没有安装开发者工具p ...

  2. 风控项目-收集基础知识1

    信用违约风险的基本概念 交易对手未能履行约定中的义务而造成的经济损失的风险(时间) 违约指标: (PD)违约概率:当前没有发生未来可能发生的可能性 (LGD)违约条件下的损失率:有信贷机构催收期 (E ...

  3. 实训项目计算机基础知识实训报告,计算机应用基础(本)形考作业实训2学习实训报告.docx...

    <计算机应用基础(本)形考作业实训2学习实训报告.docx>由会员分享,提供在线免费全文阅读可下载,此文档格式为docx,更多相关<计算机应用基础(本)形考作业实训2学习实训报告.d ...

  4. JNI学习开始篇 基础知识 数据映射及学习资料收集

    JNI学习开始篇 基础知识 数据映射及学习资料收集 JNI介绍 JNI(Java Native Interface) ,Java本地接口. 用Java去调用其他语言编写的程序,比如C或C++. JNI ...

  5. 信息系统项目管理师考前冲刺第一天:项目基础知识和立项管理

    摘要:信息系统项目管理师考前冲刺共十节视频,本文针对第一天冲刺讲解,内容为:项目基础知识和立项管理. 本冲刺针对十大管理进行重点.考点回顾,听课时,注意薄弱环节,重点复习.本视频由科科过<每天一 ...

  6. (零)音视频技术基础知识,现实项目

    前言 耽误了很久,一直想写音视频开发的教程,一方面,音视频的发展正在向各个行业扩展,从教育的远程授课,交通的人脸识别,医疗的远程就医等,音视频方向已经占据一个相当重要的位置,而音视频真正入门的文章又少 ...

  7. (硅谷课堂项目)Java开发笔记4:前端基础知识(二)

    文章目录 (硅谷课堂项目)Java开发笔记4:前端基础知识(二) 一.NPM 1.NPM简介 1.1.什么是NPM 1.2.NPM工具的安装位置 2.使用npm管理项目 2.1.创建文件夹npm 2. ...

  8. 计算机基础知识在教学的应用,计算机基础知识中项目教学法的应用

    摘要: 目前正处于信息爆炸的时代,计算机技术的普及范围在不断扩大,它对人们的生活.工作以及学习都产生较大的影响.在新课程改革的大背景下,计算机基础知识的传授十分重要,特别是在职高的计算机专业课上,能让 ...

  9. Android基础知识【项目实训-实现二级导航“今日活动”及读取数据库】【5】

    [该项目实训是Android基础知识的一个综合练习,特别提示:项目中会用到一些图片素材,都是随意整理的,稍后会上传一个资源,包含该事项项目的基本功能,也含有图片素材] [项目题目]:校园订餐App设计 ...

最新文章

  1. 成为软件高手的几个忌讳
  2. 使用Epoll 能监听普通文件吗?
  3. 为什么有TCP 的三次握手 和 四次挥手
  4. 2.Liunx 系统设置
  5. 求二维数组中的最大值和最小值C语言,c语言 写一个子函数要求找出一个二维数组的最大值...
  6. HarmonyOS之常用布局DependentLayout的使用
  7. golang程序如何优雅地退出
  8. 计算机的网络技术的普及,计算机网络技术的普及与应用-网络技术论文-计算机论文(7页)-原创力文档...
  9. 计算机常见故障英语,常见电脑黑屏(有英文字母)的解决办法
  10. ArcGIS制图之地形图制作
  11. java jshell_java9系列(一)安装及jshell使用
  12. [魔兽争霸制图 UI位置]
  13. 查看浏览器内核版本测试网站
  14. 乐乐音乐播放器 功能介绍(一)
  15. int[]是什么类型?
  16. Zabbix 主动/被动 监控
  17. 《英雄无敌 V》初次接触!
  18. matlab多元回归
  19. ODX诊断数据库的由来
  20. 128M64K-40C 大家帮我看看DDR400 1G金士顿内存是真的还是水货?

热门文章

  1. Java实现Zip文件解压
  2. 安装CocoaPods
  3. 不抓包,如何学得了 TCP
  4. ssl服务器测试网站
  5. Leetcode1684. 统计一致字符串的数目[C++题解]:字符串O(n^2)简单题
  6. c语言用指针带出局部变量,关于C语言中返回局部变量和局部指针变量
  7. php 数据库查询乱码,怎么解决php数据库查询乱码问题
  8. mysql免安装版鞋子_MySQL创建用户及授权
  9. python字符串查找数字_Python Regex - 在字符串中用逗号查找数字
  10. android端与服务端差别,Android客户端和服务器端编程