关注 “番茄风控大数据”,获取更多数据分析与风控大数据的实用干货。

许多年前,在开发模型的时,做各个变量的分箱,基本都是用excel自己手动一个一个调变量的具体分箱。那个时候没有特别好的工具,可以帮助实现好的分箱。不像现在这样,工具特别多,算法特别高大上。我们那时也就一个逻辑回归走天下。虽然凭借一个excel,变量单分箱都需要调整好几天的时间。但是还是一样能到不错的效果。

现在的同学是幸福得多,工具也非常先进,各种python自带scorecard包、R里自带函数, sas em的手动分箱。瞬间就能将千上万个变量分裂成,效率不在话下。

好在,我们那时也大数据还没盛行。能用的数据基本也就是pboc,即使做好衍生变量,到顶了也就百来个变量以内,所以还不至于做变量分箱导致内出血的程度。

然,时代变了,技术日新月异。大数据时代爆发的数据量,刚开始那段时间的确让我们有些措手不及,但积极拥抱变化就不会被社会淘汰。我也是在大数据特别火热的时候,积极学习那些工具。

时代造就英雄,虽然我现在跟最后两个字也不不搭边。但是摆在眼前的现实,确实让我,让我们,都积极投入这场变革中,不得不拥抱这个数据维度特别丰富的金融行业。虽然行业还是这个行业,但是很多内容都发生了不少变化。大数据+移动互联网很自然为金融业务提现了非常好的落地变量。

然,在我目前基本会用各种技术的时候,各种深度学习、神经网络、xgb等算法都一一尝试,并且去跑一通模型的时,得到的模型效果似乎也并没有得到理想中特别显眼、飞跃跟质变的数据。所以我常常回顾我的模型流程里哪里出了问题。

我尝试着从算法和业务的角度出发去思考问题。

逻辑回归,算法的逻辑是最大似然估计,在对log进行相应的转换之后,各个变量之间就能成为多项式的累加。而从模型的定义就可以看出来,只要每个变量(分箱式是B/G)提升就一定会让等式LN(P/1-P)提升。

所以优化每一单变量数值,就一定会带来模型效果的提升。

回顾模型整个开发链条来看,最关键的两个部分能区分新手建模人员跟老手建模人员的就是分箱跟参数调优。当然参数调优基本算模型最后的一个步骤,把梳理好的变量统一扔进模型用算法进行参数调优,这一步骤基本也算是整个模型耗时较少一part,今天暂不列为讨论范围。

而这里契合开篇所提分箱部分,也决定着一位有经验的建模人员跟小白建模人员的差别的高低。对于某些变量,为什么是需要分5箱就是比分3箱好,为什么有些变量就是必须分出来空箱单独分成一箱,而其他变量里的空箱可以跟其他变量进行组合,还有为什么有些看起来在业务不是非常合理的变量其实分好箱后,得分却非常高?

这里提到的几个问题,我们用具体的例子跟各位一一说明。

1.空箱能单独分成一箱的情况是什么?这里有个逾期开卡数量/总贷款数量(其中:总贷款数量=开卡数量+贷款数量),我们命名为card_to_load这么一个变量。在具体的变量定义的时候,会发现当没有信用卡时候,值为0是为a类;没有信用卡和没有贷款为b类,其余有值的为c类;在以上的分析中只是基于最基本的数学逻辑分析。

这里如果再结合一下业务逻辑,思考得再深入些,我们会发现:如果信用卡只有一张时候,总贷款数量多笔时候会导致card_to_load的值非常小,而如果他还款了,并且总贷款数量没有值的时候,card_to_load的值就会达到100%,这个值会增大特别厉害;所以当有这个变量存在时候,就必须将开卡数量基数单独列出来讨论清楚,从而分箱会根据业务的含义展开得更丰富些。

所以这里,我们可以将没有信用卡时候的a类,没有信用卡和没有贷款的b类,合成一箱,证明没有借债的风险;我们将开卡数量为1列为一箱,不管他有没有还款,都只能证明有少量的风险;最后我们再将其他数值归为一大类,再对这一大类划分数值进行分箱。

2.再举一个变量在业务看起来非常不合理的例子。一个负债比Dept_rate的变量,会在模型分的箱里看起来,得分会随着负债的增加而增加。这在业务里似乎有些难以介绍得通的变量。但如果站在风险全流程来观察,这个变量又会如何?评分卡因为是放在准入之后的节点的,而在之前因为真正负债特别高的客户都已经被剔除出局了,所以剩下的都是能进到模型并且有偿债能力的客户。

Dept_rate= 负债/收入,在进入的客群里,收入一般都是被公司偏低预估,所以根据历史推断借款越多越能借到更多的钱。如果单单看这一变量,而忽略了风控政策跟产品的关系,模型开发出来的变量总是感觉有些难以理解。

风控是一个业务凌驾在模型上的一个部门,凡事让业务排在前面,模型策略都是辅助风控完善的手段。希望各位风控er做什么都多想一下业务逻辑。

---------------------- --------------------- ------------------------------------- ----------------------
十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,如果你想了解他,欢迎关注 “番茄风控大数据”一起学习一起聊!

关于模型分箱,最容易被忽略的这几点相关推荐

  1. 评分卡模型的种类及流程——数据准备、WOE分箱以及模型评估

    评分卡介绍 评分卡的种类--ABC卡 FICO信用分 1.FICO信用分简介 2.FICO信用分的评判因素 数据准备 1.需要排除异常行为 2.解释指标的选择 3.目标变量的确立 变量分箱--WOE转 ...

  2. 系统学习机器学习之特征工程(四)--分箱总结

    首先from wiki给出一个标准的连续特征离散化的定义: 在统计和机器学习中,离散化是指将连续属性,特征或变量转换或划分为离散或标称属性/特征/变量/间隔的过程.这在创建概率质量函数时非常有用 - ...

  3. 在职位招聘数据处理中使用Loess回归曲线以及分箱、回归、聚类方法 检查离群点及光滑数据【数据挖掘机器学习】

    文章目录 一.需求分析 二.使用局部回归(Loess)曲线(增加一条光滑曲线到散布图)方法处理数据 三.使用分箱.回归.聚类方法 检查离群点及光滑数据: 一.需求分析 本文主题:使用局部回归(Loes ...

  4. 《Python金融大数据风控建模实战》 第6章 变量分箱方法

    <Python金融大数据风控建模实战> 第6章 变量分箱方法 本章引言 Python代码实现及注释 本章引言 变量分箱是一种特征工程方法,意在增强变量的可解释性与预测能力.变量分箱方法主要 ...

  5. python卡方分箱_机器学习(十六)特征工程之数据分箱

    1 分箱简介 数据分箱(也称为离散分箱或分段)是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的"分箱"的方法. 例如,例如我们有一组关于人年龄的 ...

  6. pandas数据预处理(标准化归一化、离散化/分箱/分桶、分类数据处理、时间类型数据处理、样本类别分布不均衡数据处理、数据抽样)

    1. 数值型数据的处理 1.1 标准化&归一化 数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. ...

  7. 机器学习特征工程之连续变量离散化:聚类法进行分箱

    机器学习特征工程之连续变量离散化:聚类法进行分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...

  8. 机器学习特征工程之连续变量离散化:等频分箱

    机器学习特征工程之连续变量离散化:等频分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

  9. 机器学习特征工程之连续变量离散化:等宽分箱

    机器学习特征工程之连续变量离散化:等宽分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

最新文章

  1. BZOJ4543/BZOJ3522 [POI2014]Hotel加强版(长链剖分)
  2. Mysql实现企业级日志管理、备份与恢复
  3. 神经网络前向引擎内存复用技术(基于caffe)
  4. 数据分析第一步 | 做好数据埋点
  5. Flash MX游戏制作常用代码解析
  6. OOP的核心思想是什么?请简述你对OOP的理解
  7. SQLPLUS登陆命令
  8. 【渝粤教育】广东开放大学 计量基础知识 形成性考核 (48)
  9. pandas_计算夏普比率
  10. matlab整流仿真,基于MATLAB的整流电路的建模与仿真
  11. 太原计算机专业学校在哪里,太原信息技术学校在哪里
  12. 深度学习:图像的卷积原理和本质(详解)。
  13. u大侠pe系统桌面计算机,如何使用U大侠PE系统修复引导文件
  14. H.264 SVC 与H.264 AVC 有什么区别?
  15. 当前不会命中断点还未为文档加载任何符号——问题探究
  16. JAVA 日期加减计算
  17. 根据出生日期自动计算年龄
  18. Vondrak滤波及测试(python)
  19. 用 Python 爬了猫眼3000+《指环王》影评,看看20年前的魔幻电影鼻祖在当下影迷眼中的样子...
  20. English语法_不定式 - 常用句型

热门文章

  1. 安装两个mysql3308_在同一台机器上安装两个版本的MySQL
  2. elementui上传图片加参数_Vue + Element UI使用富文本编辑器
  3. 代码执行漏洞原理/防御
  4. SQLSERVER日期时间汇总
  5. js迭代器实现斐波那契数列
  6. input中autocomplete属性
  7. 现在这个时代变了,区块链,数字货币才是最火的项目
  8. 【Python】http.client库的用法
  9. 【干货】31篇关于深度学习必读论文汇总(附论文下载地址)
  10. 杭电 Let's go to play