数据分箱:对连续变量离散化;实际上就是按照属性值划分的子区间,可以简单理解为分段处理(不同的是对特征进行分箱后,需要对分箱的每组进行woe编码进行分箱评估,才能放进模型训练);

意义:

    1.模型更稳定,特征离散化后,起到简化逻辑回归模型的作用,降低过拟合风险;

2.变量离散化后对异常数据有很强的鲁棒性;

3.将逻辑回归模型转换为评分卡形式的时候,分箱也是必须的;

分组原则:

1.组间差异大;

2.组内差异小;

3.每组占比不低于5%

4.必须有1、0两种分类;

----------------------------------------------------------------------------------------------

无监督分箱:

1.等距离(宽度)分箱:每个箱的区间范围是一个常量;

2.等频度(深度)分箱:每箱具有相同的记录数;

3.聚类分箱:基于K-means聚类,聚类过程中需要保证分箱的有序性;

4.用户自定义区间:根据需要自定义区间

有监督分箱: 分箱时考虑因变量的取值,使得分箱后达到最小熵或最小描述长度;

最小熵:熵值公式 https://blog.csdn.net/huobanjishijian/article/details/52893357;需要使总熵值最小,也就是使分箱能够最大限度区分因变量的各类别;

1.Best-KS 分箱

KS衡量好坏样本累计部分之间的差距[评分的K-S值:最大差异];KS越大,越能将1、0样本区分的程度越大;

计算方式: refer https://blog.csdn.net/hxcaifly/article/details/84593770

2.卡方分箱:

思想:判断相邻的两个区间是否有分布差异,类似类分布则可合并区间,否则分开这两区间;

判别指标:卡方统计量;衡量区间内样本的频数分布与整体样本的频数分布的差异;

[卡方值:]

 卡方分布:若K个独立的随机变量Z1~Zk满足标准正态分布N(0,1),这K个随机变量的平方和服从自由度为k的卡方分布;卡方检验以卡方分布为基础的一种假设检验方法,用于分类变量之间的独立性检验,衡量实际值与理论值的差异程度

卡方值计算公式:

                

     卡方阈值的确定:根据显著性水平和自由度得到卡方值;

阈值的意义大于阈值的卡方值说明属性和类不是相互独立的,不能合并;如果阈值选的大,区间合并会进行多次,离散后的区间数量少、区间大(合并的多,区间多样性少)

分箱步骤:

(0) 预先设定一个卡方的阈值;(1)初始化:根据要离散的属性对实例进行排序;每个实例属于一个区间;(2)合并区间:1.计算每一对相邻区间的卡方值;2.将卡方值最小的一对区间合并;

分箱限制: (1)限制最终的分箱个数;  (2)卡方阈值:迭代合并直到最小卡方值超过设定阈值为止;

refer : https://www.sohu.com/a/224569101_793685

----------------------------------------------------------------------------------------------

噪声:  一个测量变量中的随机误差和偏差,包括错误值和偏离期望的孤立点值;

进行噪声检查后,通常采用分箱、聚类、回归等方法“光滑”数据,去掉数据中的噪声;

对于箱中数据的平滑方法:

1.按平均值平滑:对同一箱值中的数据求均值,用均值代替该箱子中所有数据;

2.按边界值平滑:用距离较小的边界值代替箱中每一数据;

3.按中值平滑:取箱子的中值替代箱中所有数据;

----------------------------------------------------------------------------------------------

分箱评估:

IV 信息量  筛选特征

    Information Value: 挑选放进模型的变量,作为一个量化指标衡量变量的预测能力,类似的指标还有信息增益、基尼指数等。

计算公式(基于WOE):

N为分组个数;求出每个分组的IV值,将各分组的IV相加得到整个变量的IV值;下式中good指的是模型中预测变量取值为1的个体;

 

 

    根据IV值调整分箱结构重新计算WOE和IV,直至IV达到最大值,此时分箱最好

WOE证据权重

Weight of Evidence:对原始自变量的一种编码方式;对变量进行WOE编码前,需要对变量进行分箱处理;分箱后,对于第i组,WOE的计算公式:

也有bad占比/good占比计算得到WOE的,其实没影响;因为计算WOE的目的是计算IV从而达到预测的目的;因为后面IV计算中,会通过相减相乘的方式把负号消掉,不影响最终的IV预测结果;

意义: https://blog.csdn.net/kevin7658/article/details/50780391(也有实例解释)

---为什么使用IV值判断,而不直接使用WOE判断呢?

1.IV值是非负的(WOE对数存在负数情况);

2.IV体现出当前分组中个体的数量占整体数量的比例;

----------------------------------------------------------------------------------------------

                        

数据变换:

光滑(去掉噪声)

属性构造(特征提取)

聚集(描述性特征:求和)

标准化

离散化

数据预处理:

   A.缺省字段的处理:

1、缺失很多:直接丢弃

2、离散量缺失量适中:将Nan作为一个新类别加到特征中

3、连续量缺失量适中:给一个step(比如年龄,考虑每隔2/3岁为一个步长),然后进行离散化,再将Nan作为一个新类别加到特征中

4、缺失很少:可用均值、中位数、众数等填充;

B.异常值处理

    离群值检测:单变量离群值检测(可采用箱线图)、局部离群值因子检测、基于聚类方法的离群值检测

EDA:

分析各变量对输出结果的影响:单变量分析、多变量分析(比如python中的corr( )函数计算各变量间的相关性;

----------------------------------------------------------------------------------------------

评分卡:

常使用LR模型[LR借助WOE转变为标准评分卡格式]、决策树;

定义:

    1.以分数的形式衡量风险几率的方式;

2.对未来一段时间内违约、逾期、失联概率的预测

3.评分越高越安全

4.在信贷场景中,不同的评分卡分为:反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡【四种类型定义:refer https://blog.csdn.net/lll1528238733/article/details/76602006】

计算方式:

odds=good/bad=good/(1-good)

    score=A+B*In(odds)

若odds是 坏客户概率/好客户概率 ,odds应取倒数,再经过ln转换则B前面是减号。所以有的地方此公式B前为负号。这里的坏客户、好客户定义为是否违约,违约为坏客户

这里的In(odds)实际上就是WOE值;

如何求解A\B:

给出特定odds时的score值S0、该特定odds值翻倍时Score增加值PD0带入公式得到A、B;

分值分配:

计算各个变量的各分箱对应的分值;

refer   https://blog.csdn.net/lll1528238733/article/details/76601897

得到每个变量对应分配到的分数,接着把每个变量对应的分数分别乘以变量中每个分箱的WOE,得到每个分箱的评分结果;

refer  https://blog.csdn.net/gxhzoe/article/details/80428560

IV WOE 评分卡 分箱相关推荐

  1. 【菜菜的sklearn课堂笔记】逻辑回归与评分卡-用逻辑回归制作评分卡-分箱

    视频作者:菜菜TsaiTsai 链接:[技术干货]菜菜的机器学习sklearn[全85集]Python进阶_哔哩哔哩_bilibili 分训练集和测试集 from sklearn.model_sele ...

  2. 评分卡分箱原则及单调性

    1.分箱的原则 (1)最小分箱占比不低于5% (2)箱内不能全部是好客户 (3)连续箱单调 2.单调性 评分卡模型之特征工程中的BadRate单调与特征分箱之间的联系_Michael_Shentu的博 ...

  3. [风控] 评分卡分箱WOE,IV出现正无穷、负无穷解决方法

    问题: 当pi=0 时,WOE为负无穷 当ni=0时,WOE为正无穷 解决方法: 加上一个常数 ϵ, 范围是 [0,1], 一般的,ϵ=0.5. E = 0.5 d3['woe']=np.log((( ...

  4. WOE评分卡--WOE理论

    1.评分卡概述 最常见的用于信用评分的模型就是logistic回归,这是一种处理二分类因变量的广义线性模型.这种模型的理论基础比较扎实,但是对于不同的问题当然也存在一些特殊的处理方式. 由于制作评分卡 ...

  5. python评分卡1_woe与IV值

    本系列分以下章节: python评分卡1_woe与IV值 python评分卡2_woe与IV分箱方法 python评分卡3_woe与IV分箱实现 python评分卡4_logistics原理与解法_s ...

  6. 转:Python数据分箱,计算woe,iv

    转自:https://zhuanlan.zhihu.com/p/38440477 https://www.cnblogs.com/wzdLY/p/9853209.html https://github ...

  7. 基于logistics回归的评分卡模型【相关理论】

    评分卡模型 KS和roc曲线 KS值 ROC 曲线 AUC 评分卡 分箱 WOE IV 分箱 WOE与IV值 逻辑回归模型转化为评分卡: KS和roc曲线 TN:将负类预测为负类(真负类) FN:将正 ...

  8. 特征工程之特征分箱(决策树分箱、卡方分箱、bestks以及评价标准WOE和IV)

    特征工程之特征分箱:决策树分箱.卡方分箱.bestks以及评价标准 1.WOE和IV 2.无监督分箱 2.1等频分箱 2.2等距分箱 3.有监督分箱 3.1决策树分箱 3.2best-ks分箱 3.3 ...

  9. python woe分箱_python自动分箱,计算woe,iv的实例代码

    笔者之前用R开发评分卡时,需要进行分箱计算woe及iv值,采用的R包是smbinning,它可以自动进行分箱.近期换用python开发, 也想实现自动分箱功能,找到了一个woe包,地址https:// ...

  10. 6 机器学习 IV与WOE 分箱 过抽样与欠抽样

    机器学习 1 IV与WOE 1.1 IV IV,Information Value,指的是信息价值或者信息量. IV可以理解为特征筛选的量化指标, 用于衡量数据特征的预测能力或者在模型预测过程中对预测 ...

最新文章

  1. 中原大学 php,台湾中原大学php教程孙仲岳主讲
  2. BCH升级日期将至,社区组织开始为11月“硬分叉”做准备
  3. 前端工程基础知识点--Browserslist (基于官方文档翻译)
  4. c语言static. volatile,嵌入式系统C语言重点语法const、volatile、static、堆栈等的意义及用法...
  5. 移动APP接口安全性设计
  6. 【渝粤题库】陕西师范大学500013 物理教学论 作业(专升本)
  7. php 禁止浏览器直接访问网页_PHP禁止直接从浏览器输入地址访问PHP文件
  8. 【报告分享】2020年重点行业薪酬趋势指南.pdf(附下载链接)
  9. MTCNN——基于级联模型的人脸关键点检测网络
  10. Struts 2 之校验器
  11. 关于Mac安装破解软件,未知来源消失的问题
  12. 印象笔记Markdown样式美化
  13. Java使用word文档转换图片或pdf格式(aspose-words),无水印,亲测有效!!!
  14. 【Mybatis学习路线】day01Mybatis概述
  15. idea和搜狗输入法快捷键冲突_Win10 输入法简繁体快捷键与 IDEA 冲突
  16. 神经网络参数优化算法,神经网络损失函数设计
  17. 《大咖讲Wireshark网络分析》—再来一个很妖的问题
  18. python全国计算机,加入 Python 科目,全国计算机等级考试迎来新调整
  19. 制作映射表并替换字符串中的内容
  20. 小米手机部和平台部组织调整 前者设参谋部、触控部

热门文章

  1. NVIDIA显卡深度学习算力表
  2. 哲学家就餐问题之管程
  3. 什么是模拟信号?什么是数字信号
  4. 利用会员积分系统提升会员复购率的要点
  5. 如何提高计算机打字,如何练电脑打字速度,教你如何科学提高打字速度
  6. ACM-ICPC2018北京网络赛 Tomb Raider(暴力)
  7. 笔记本电脑怎么设置wifi热点共享
  8. linux查看gc日志,GC通用日志解读
  9. 【数学建模】复杂水平井三维轨道设计附论文和matlab代码
  10. 英特尔酷睿处理器后缀