风控项目-收集基础知识2
构建信用风险类型的特征
模型处理的一般流程
数据预处理(时间格式、缺失值、机值)- >特征构造(计数、比例、距离)->特征选择(相关性、差异性、显著性)->模型参数估计(回归系数、模型复杂度)
数据预处理(时间格式、缺失值、极值)
1、数据格式处理:原始数据带有一定的格式,需要转换成正确的格式
例如:利率 %-》需要转化为浮点数 日期:nov-17需要转化为python的时间
工作年限 :‘<1 years ’-->0 '>10 years'-->11
2、文本类的数据处理方式
主题提取(NLP)
优点:提取准确、详细的信息、对风险评估非常有效
缺点:NLP的模型比较复杂,且需要足够多的训练样本
编码
优点:简单
3、缺失值
缺失的种类:完全随机缺失、随机缺失、完全非随机缺失
处理的方法:补缺、作为一种状态、删除记录或变量
连续缺失值可以取均值,离散缺失值可以取频率较高的
构建特征
常用的特征衍生
计数:过去1年内申请贷款的总次数
求和:过去1年内的网站消费总额
比例:贷款申请额度与年收入占比
时间差:第一次开户距今时长
波动率:过去3年内每份工作的时间的标准差
特征的分箱
分箱的定义
将连续变量离散化、将多状态的离散变量合并成少状态
分箱的重要性
稳定性:避免特征中无意义的波动对评分带来的波动
健壮性:避免了极端值的影响
分箱的优势
可以将缺失作为独立的一个箱带入模型中、将所有变量变换到相似的尺度上
分箱的限制
计算量大,分箱后需要编码
分箱的方法:
常用的方法:
有监督:
Best-KS
ChiMerge
无监督:
等频
等距
聚类
监督分箱法:Best-KS(针对连续变量)
原理:让分箱后组别的分布差异最大化
对于连续变量
1、排序,x={x1,x2,...xk}
2 、计算每一点的KS值
3、选取最大的KS对应的特征值xm,将x分为{xi<=xm}或{xi>xm}
对某一部分,重复2-3,直到满足终止条件之一
终止条件:
1、下一步分箱,最小的箱的占比低于设定的阈值(常用0.05)
2、下一步分箱后,该箱对应类别全部为0或者1
3、下一步分箱后,bad rate不单调
对应离散度很高的变量
1、编码
2、根据连续变量方式进行分箱
有序行的离散变量
监督室分箱法:卡方分箱法
自底向上(即基于合并的)的数据离散化方法。依赖于卡方检验;具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则
基本思想:对于精确的离散化,相对累频率在一个区间内应完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。
Best-KS(二分类情形下) ChiMerge (多分类情形下)
卡方分箱法:
1、预先设定一个卡方的阈值
2、根据要离散的属性实例进行排序:每个实例属于一个区间
3、合并区间:
(1)计算每一对相邻区间的卡方值
(2)将卡方值最小的一对区间合并
卡方分箱法
卡方阈值的确定
根据显著水平和自由度得到卡方值
自由度和类别数量小1.例如:有3类,自由度为2,则90%置信度(10%显著水平下),卡方的值为4.6
阈值的意义
类别和属性独立时,90%可能性,计算得到的卡方值汇小于4.6,这样,大于阈值的卡方值就说明属性和类不是相互独立的不能合并。如果阈值选的大,区间合并就会进行很多次,离散后的数量少,区间大。
注意:
1、CHiMerge 算法推荐使用0.90,0.95,0.99置信度,最大区间取10到15之间
2、也可以不考虑卡方阈值,此时可以考虑最小区间或者最大区间数。指定区间数量的上限和下限,最多几个区间,最少几个区间
3、对于类别型变量,需要分箱时需要按照某种方式进行排序
对于连续型变量:
使用ChiMerge进行分箱(默认5个)
检查分箱后bad rate的单调性,倘若不满足,需要进行相邻两箱的合并,直到bad rate为止
对于类别型变量:
当类别较少时,原则上不需要分箱
当某个或者几个类别的bad rate为0时,需要和最小的非0的bad rate的箱进行合并
当该变量可以完全区分目标变量时,需要认真检查该变量的合理性
无监督分箱法:等距划分、等频划分
等距划分:W=(B-A)/N
等频划分:每一箱的占比大致相同
WOE编码
一种有监督的编码方式,将预测类别的集中度的属性作为编码的数值
优势
将特征的值规范到相近的尺度上(经验上讲,WOE的绝对值波动范围在0.1~3之间)
具有业务的含义
缺点
需要每箱中同时包含好坏两个类别
WOE编码的意义
符号与好样本的比例相关
要求回归模型的系数为负
特征信息度的计算和意义
变量挑选
在评分卡模型中,变量挑选是非常重要的工作
变量间的共线性,线性相关性
信息冗余、降低了显著性,甚至造成符号失真
加剧后期验证、部署、监控的负担
业务上含义不充分
变量挑选的依据
带约束:LASSO
特征重要性:随机森林
模型拟合优度和复杂度:基于AIC的逐步回归
变量信息度:IV
高IV表示该特征和目标变量的关联度高、目标变量只能是二分类、分箱越细、IV越高
单变量分析:
1、用IV检验有效性
2、连续变量bad rate的单调性(可以放宽到U型)
3、单一区间的占比不宜过高
多变量分析:变量的两两相关性,当相关性较高时,保留一个
可以选择iv高的、可以选择分箱均匀的
WOE相关性矩阵(基于IV>0.01的变量)
变量的多重共线性
风控项目-收集基础知识2相关推荐
- python入门004~创建属于自己的第一个python3项目~基础知识的讲解
上一节带领大家成功的安装了pthon3,并且在开发者工具pycharm里配置了python,这一节就开始带领大家学习python3的基础知识了. 如果你还没有安装python3,也没有安装开发者工具p ...
- 风控项目-收集基础知识1
信用违约风险的基本概念 交易对手未能履行约定中的义务而造成的经济损失的风险(时间) 违约指标: (PD)违约概率:当前没有发生未来可能发生的可能性 (LGD)违约条件下的损失率:有信贷机构催收期 (E ...
- 实训项目计算机基础知识实训报告,计算机应用基础(本)形考作业实训2学习实训报告.docx...
<计算机应用基础(本)形考作业实训2学习实训报告.docx>由会员分享,提供在线免费全文阅读可下载,此文档格式为docx,更多相关<计算机应用基础(本)形考作业实训2学习实训报告.d ...
- JNI学习开始篇 基础知识 数据映射及学习资料收集
JNI学习开始篇 基础知识 数据映射及学习资料收集 JNI介绍 JNI(Java Native Interface) ,Java本地接口. 用Java去调用其他语言编写的程序,比如C或C++. JNI ...
- 信息系统项目管理师考前冲刺第一天:项目基础知识和立项管理
摘要:信息系统项目管理师考前冲刺共十节视频,本文针对第一天冲刺讲解,内容为:项目基础知识和立项管理. 本冲刺针对十大管理进行重点.考点回顾,听课时,注意薄弱环节,重点复习.本视频由科科过<每天一 ...
- (零)音视频技术基础知识,现实项目
前言 耽误了很久,一直想写音视频开发的教程,一方面,音视频的发展正在向各个行业扩展,从教育的远程授课,交通的人脸识别,医疗的远程就医等,音视频方向已经占据一个相当重要的位置,而音视频真正入门的文章又少 ...
- (硅谷课堂项目)Java开发笔记4:前端基础知识(二)
文章目录 (硅谷课堂项目)Java开发笔记4:前端基础知识(二) 一.NPM 1.NPM简介 1.1.什么是NPM 1.2.NPM工具的安装位置 2.使用npm管理项目 2.1.创建文件夹npm 2. ...
- 计算机基础知识在教学的应用,计算机基础知识中项目教学法的应用
摘要: 目前正处于信息爆炸的时代,计算机技术的普及范围在不断扩大,它对人们的生活.工作以及学习都产生较大的影响.在新课程改革的大背景下,计算机基础知识的传授十分重要,特别是在职高的计算机专业课上,能让 ...
- Android基础知识【项目实训-实现二级导航“今日活动”及读取数据库】【5】
[该项目实训是Android基础知识的一个综合练习,特别提示:项目中会用到一些图片素材,都是随意整理的,稍后会上传一个资源,包含该事项项目的基本功能,也含有图片素材] [项目题目]:校园订餐App设计 ...
最新文章
- 成为软件高手的几个忌讳
- 使用Epoll 能监听普通文件吗?
- 为什么有TCP 的三次握手 和 四次挥手
- 2.Liunx 系统设置
- 求二维数组中的最大值和最小值C语言,c语言 写一个子函数要求找出一个二维数组的最大值...
- HarmonyOS之常用布局DependentLayout的使用
- golang程序如何优雅地退出
- 计算机的网络技术的普及,计算机网络技术的普及与应用-网络技术论文-计算机论文(7页)-原创力文档...
- 计算机常见故障英语,常见电脑黑屏(有英文字母)的解决办法
- ArcGIS制图之地形图制作
- java jshell_java9系列(一)安装及jshell使用
- [魔兽争霸制图 UI位置]
- 查看浏览器内核版本测试网站
- 乐乐音乐播放器 功能介绍(一)
- int[]是什么类型?
- Zabbix 主动/被动 监控
- 《英雄无敌 V》初次接触!
- matlab多元回归
- ODX诊断数据库的由来
- 128M64K-40C 大家帮我看看DDR400 1G金士顿内存是真的还是水货?
热门文章
- Java实现Zip文件解压
- 安装CocoaPods
- 不抓包,如何学得了 TCP
- ssl服务器测试网站
- Leetcode1684. 统计一致字符串的数目[C++题解]:字符串O(n^2)简单题
- c语言用指针带出局部变量,关于C语言中返回局部变量和局部指针变量
- php 数据库查询乱码,怎么解决php数据库查询乱码问题
- mysql免安装版鞋子_MySQL创建用户及授权
- python字符串查找数字_Python Regex - 在字符串中用逗号查找数字
- android端与服务端差别,Android客户端和服务器端编程