昨天的文章我们提到了评分模型中的监控报表汇总。文章中提及的监控报表内容,大部分是跟业务指标结合的监控内容,该文章所提及的监控的维度也较为丰富,大家抽空可以学习了解。传送:评分模型的监控报表汇总。
今天我们再介绍另一种风控模型开发过程中也常出现的情况,当遇到变量维度缺失的情况下,如何挑选更合适的变量进行替换。
先谈谈变量缺失会在什么情况会出现?一般当我们开发所涉及到的数据涉及第三方外部数据源,或者渠道变更所造成的数据波动,或因为公司政策而引起的产品变动等原因都会造成数据缺失,直接结果就是现有数据维度跟我们之前开发模型所涉及的变量存在差异。
这个情况还挺常见,也是数据策略和模型开发过程中常见的情况,由此我们需要经常监控变量情况,缺失是其中最可能出现的情况。那数据缺失后,怎么处理?直接丢掉呗。在以下分析内容中,会看到,直接舍弃变量,造成模型效果的大幅下降,我们真不想看到。
不能舍弃,那就只能补充,以下我们来谈谈如何补充也即替换变量问题。

一.corr
为了帮助大家更容易理解,我们以某现金贷产品为例说明。
在模型model1跑分的过程中,我们看到前面三个变量尽管在model1中的iv跟ks的效果都还不错,尤其是iv值已经达到理想范围。

但仔细判断这三个变量都是跟通话信息相关的数据,比如第一个变量是最近7天的通话次数,这个变量数据能获取的前提是相关的数据权限可以被获取。

但当在model1上线了一段时间后,政策突然发力,强有力的特征禁止获取权限。尤其近期,这三个跟通话相关的数据获取受限,该数据的整体的命中率仅达72.34%。
于是我们需要寻找相关替换性变量。

这里为了缩短相关的模型开放时长,尽快替换相关维度,我们在替换的变量方向以CORR指标进行变量筛选维度。从以下的数据分析中观察,用充值数据跟通话数据的相关度较高。其CORR大部分都达到0.5以上的相关度。

corr是相关度指标分析,这里我们会选择corr相关度高的指标帮我们快速筛选相关变量。这里发现有些变量确实相关性很高,存在可替代的可能性。

corr解释:

|统计学中,皮尔逊积矩相关系数,用于度量两个变量X和Y之间的相关程度(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的线性相关程度。这个相关系数也称作“皮尔森相关系数r”|

sas计算相关度的方法:

PROC CORR DATA=table PEARSON SPEARMAN NOSIMPLE BEST=2; VAR x y z;
python采用numpy模块
np.corrcoef(x, y)

二.AUC

筛选到该指标后,如何判断该指标的替换是否有效?依旧我们用具体指标衡量。这里我们再引入AUC的概念。

变量替换前后对比图示:

指标解释:
从图中可知。原先红线所示的模型model1其AUC面积最大,模型的也最好。当在变量缺失后,蓝色model2所代表的曲线下探,AUC面积最小,证明变量缺失后,模型效果下降明显。
在变量缺失后,我们立马用其他维度变量进行替换,开发了model3。观察model3的图例,可见其头部仍有大幅下降,但是中部慢慢趋近于原先模型的水平,尾部水平还好于原先的模型。

综上:
一方面数据源的限制,导致特征缺失,模型效果下降了,于是我们寻找替换方案;
另一方面,从模型来看,新的替换的变量,确实有一定的区分度。

三.思考扩展
在解决了以上模型的变量的替换问题后,如果深入思考:
以上的变量维度中我们挑选了充值数据跟通话数据这两个相关度较高的维度,那为什么一开始就不使用充值数据进行model1模型的开发呢?
解决这里的问题需要理解:[变量回溯]及其相关内容。

可回顾:

~原创文章

end

风控模型中的变量替换相关推荐

  1. oracle的存储过程 替换,为什么在存储过程中,变量替换无法使用索引?

    CREATE OR REPLACE PROCEDURE ss(eff_day VARCHAR2) -- eff_day 统计日期,格式为 'yyyymmdd' AS v_year        INT ...

  2. 如何浅显得理解风控模型中的特征筛选|附实操细节(全)

    今天我们综合了星球同学的一些需求,给大家梳理了这样一篇风控建模中特征筛选,希望对所有的风控人员在模型开发上都有所启发. 本文,我们会跟大家介绍特征选择的内容,包括其中的重点问题跟注意的细节. 因为完整 ...

  3. 笔记+R︱风控模型中变量粗筛(随机森林party包)+细筛(woe包)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 本内容来源于CDA-DSC课程内容,原内容为& ...

  4. 模型中各变量对模型的解释程度

    在建立一个模型后,我们会关心这个模型对于因变量的解释程度,甚至想知道各个自变量分别对模型的贡献有多少.对于非线性模型,如 Random Forest 和 XGBoost 等由于其建模过程就是筛选变量的 ...

  5. 来啦|深度讲解风控模型中的参数调优

    大数据时代的风控体系必有模型部分的参与,用策略贯穿整个风控体系,以数据为驱动,模型一定是标配内容.于是在模型的建设上,如何精细化地输出一套有效的模型,就是在精细化管理上非常重要的一个差异点.不管传统的 ...

  6. 【回归模型中两变量相乘】交互作用,调节作用

    在一些回归模型中,我们常看到回归方程中有两个变量以相乘的形式出现,如: y p r i c e = β 0 + β 1 p r o d u c t t y p e + β 2 p r o d u c ...

  7. 风控模型中的KS-指标

    KS-指标 ks定义 ks是指通过衡量好坏样本累计分布之间的差值,来评估模型的风险区分能力.KS曲线又叫洛伦兹曲线.以TPR和FPR分别作为纵轴,以阈值作为横轴,画出两条曲线.KS曲线则是两条曲线的在 ...

  8. 风控模型中的KS指标

    ks-指标 ks定义 ks是指通过衡量好坏样本累计分布之间的差值,来评估模型的风险的区分能力. ks曲线又叫洛伦兹曲线,以TRP和FPR分别作为纵轴,以阈值作为横轴,画出两条曲线.KS曲线则是两条曲线 ...

  9. 风控模型中的五大类聚类算法介绍

    关注"金科应用研院",回复"CSDN" 领取"风控资料合集" 聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程. 聚 ...

最新文章

  1. python面试基本题(你需要的)
  2. matlab 方波_MATLAB之Simulink(二)利用switch模块将正弦信号变为方波信号
  3. selection does not contain a main type错误
  4. Raspkate - 基于.NET的可运行于树莓派的轻量型Web服务器
  5. 这个算是编码的坏习惯吧?
  6. junit单元测试不通过报documentationPluginsBootstrapper相关异常
  7. JAVA多线程(转)
  8. 20145303刘俊谦 Exp7 网络欺诈技术防范
  9. 操作Visual Studio 2010中的SQL Server数据库比较工具
  10. Oracle数据库运维方案及优化
  11. 安装svn和安装svn汉化语言包
  12. 1+5T LineageOS 谷歌相机 相关处理和链接
  13. 深刻剖析快速排序为什么不稳定?
  14. Gd-DTPA钆元素钆元素对比磁共振造影剂 氟-19磁共振/荧光双模态显影剂19F MRI
  15. 集合的三种遍历方式/集合的嵌套/产生任意范围内的随机数
  16. 微信网页开发(5)--invalid signature/permission denied/offline verifying等错误处理
  17. 最短路——大胖子走迷宫
  18. python的占位符%d %i %.nf %s
  19. JAVA从入门到起飞
  20. 契约锁助力大型能源组织“产-运-储-销-交易”文件电子签

热门文章

  1. php漏洞黑掉数据库,WDCPnbsp;add_user.php任意数据库添加任意用户漏洞分析
  2. 猜数游戏python_零基础掌握Python入门到实战
  3. ssh mysql环境搭建_Ubuntu下JDK+Tomcat+MySql环境的搭建
  4. mysql 5.7 安装_MySQL 5.7 的安装历程
  5. Windows系统cmd常用命令详解
  6. java多重继承和多继承_Java不支持多重继承,但可以通过 类实现多继承。类的继承具有 性。 (10.0分)_学小易找答案...
  7. 一个没有停止的android闹钟,一旦开始就要把歌唱完 .
  8. 主类main方法里面可以有不带public的子类 但是不能有接口
  9. MySql access denied for user错误
  10. Windows 编程[20] - 改变菜单项并换行