1、建模必要性

一个建模项目有无必要立项的核心是,能否提升现有的业务收益,比如提高通过率,降低逾期率。一般,出现以下两种情况,需要考虑是否有必要构建新模型。

(1) 模型监控

网贷市场环境变化快,评分卡生命周期短,相比传统信贷模型迭代频率高。在模型上线决策后,需要关注模型的通过率情况,当模型的通过率不稳定。同时发现入模变量发生重大偏移、当前评分与建模评分分布发生变化、模型区分能力变差、变量区分度变差。分析原因后,排除数据传输缺失、大型运营活动、渠道获客的原因,可以认为是客群的变化,此时可考虑模型的迭代。

(2) 新的数据维度

在业务的发展过程中,会不断采购或获取客户新的维度的信息。需要对新数据源进行以下维度的分析,来判断是否有必要构建新的模型。

a:数据覆盖量:理论上要求数据的覆盖量至少达到80%。如果数据缺失率高,但是特征区分度很好,可以考虑对此部分用户单独建模。

b:特征区分度:单特征ks最大值需大于15,不低于13.(具体 阈值根据实际业务场景确定)

b:特征稳定性:特征psi <0.1

d:特征共线性: 采用变量聚类、相关性分析、vif检验分析特征共线性。

在区分度和稳定性的前提下,考虑共线性。若共线性小, 可以考虑建立新模型。若共线性大,可采用变量压缩的方法(如:PCA),判断信息重叠的程度。若共线性严重(如,压缩后模型的区分度只是比最高单特征提升2-3个点),不考虑建模。

(3)市场环境变化

市场转移、行业变化、产品变化

2、 客群细分

(1)为什么要进行客群的划分

a:准确性:每个客群都有其独有的属性,同一数据维度,在不同客群上的效果也不相同,分群建模可以提高模型的预测能力。

b:稳定性:建模的数据按照来源分为两类:一类是自有数据源,比如通讯录、通话详单、日志数据、复贷客户的行为数据。一类是第三方数据源,比如,芝麻分、腾讯分等。第三方的数据会由于某种原因停止或不稳定,这些因素都是不可控的,如果混在一起建模,一旦第三方出现问题,意味着我们整个模型都需要迭代。

(2)如何划分客群

a: 根据业务经验或背景

例如:首贷、复贷分开建模。渠道、非渠道分开建模。

b:强特征

在单特征分析的时,发现某一特征iv>0.5(行业经验值),强度远高于其他特征,此时需要考虑是否要划分客群建模。

c:数据源

由于不同的数据源,缺失率和稳定性不同,为了减小模型的迭代周期和稳定性,对不同的数据源,建立不同的子模型。

3、 模型框架

在确定了是否建模,是否分群建模的问题后,还需要提前考虑,模型要在现有风控框架下,哪个环节使用,如何使用,如何与现有的模型和策略联动。确定这些问题,有助于模型的有效设计。一般来说,当模型是识别极端坏用户,可以放在模型前面的环节使用,与现有模型串联使用。当模型是稳定线性趋势,建议与现在模型并联综合决策。当模型是针对特定客群设计,也可以使用分流的方式进行决策。

4、拒绝推断

在模型设计环节,还需要考虑,是否要做拒绝推断。

(1) 为什么要做拒绝推断

a: 公司内部策略的变动或低通过率的历史数据,使得建模的数据客群,不能代表模型上线后 的应用客群。此时使用审批通过的数据进行建模可能会造成误判。

b: 利用拒绝推断可以找出被拒绝的好客户,挖掘这些客户。 因为如果不使用拒绝推断,模型的迭代始终是在好客户中选择好客户,建模的客群会越缩越小,那些被拒绝掉的好客户,永远都不在模型考虑范围中

c: 提高模型区分度。当风控做的很好,在不增加新数据维度的情况下,模型迭代会越来越难,模型区分度会越来越低。用客户在单特征的表现来说,就是只选择了整个客群的一小段,单特征强度在很大概率上是比总体小。

(2) 拒绝推断的适用场景

中低通过率适用,可以配合适当的风控策略,可以挖掘更多的优质客户。特别需要注意的是,拒绝样本要选择哪些拒绝客户,要考虑公司当前的风控策略和模型上线的应用场景。高通过率不适用,因为高通过率说明准入样本已经接近原申请样本了。

5、 目标变量的选取

开发信用评分模型的首要目标就是知道来者是好人还是坏人,他未来会不会出现逾期、失联等。所以,如何定义一个借款人的好坏十分讲究,并不是一个人在到期日没有还款,他就不是好人了,毕竟发生逾期的原因总是多方面的,有的仅仅是忘了,这部分总体还是好人,严重一点就是主观上存在坏的目的,借了钱就消失赖账,甚至是身份被骗子盗用。所以,建模过程中,为了训练出一个优质的模型,需要正确地定义好坏样本。

如何做好模型设计环节相关推荐

  1. 如何做好团队测试建设

    今天读了一篇文章,感觉写的挺好,对于测试团队建设,质量提升的观点写的很好.下面结合自己的工作经历写写自己的感想,记录下以后要如何提升自己和团队. 新接手一个业务,要怎么做? 首先要融入环境,熟悉组内工 ...

  2. 想要提高生产效率?做好物料齐套管理很关键

    ​在生产制造过程中,想要提高生产效率,除了协调好计划.物流与生产的配合关系,物料齐套管理也是必不可少的.以下场景,你是不是很熟悉? PMC部:"老王,LB5002怎么又缺料了?产线停工后果你 ...

  3. 二三类户开户风险和交易风险再讲

    承接上文 上一篇文章<银行风控业务场景大全>讨论了多种交易欺诈场景,其中有关于二三类户的交易风险场景介绍.这是基于一段新闻的文摘来展开的,介绍了二三类户的历史背景和来由,介绍了一二三类户的 ...

  4. AI解译遥感影像,商汤的“黑科技”了解一下

    6月14日-15日,中国空间信息产业最前沿.最权威的盛会"WGDC 2018地理信息开发者大会"在北京举行.全球领先的人工智能平台公司商汤科技SenseTime亮相大会,展示了前沿 ...

  5. 人脑认知科学对人工智能的启示

    开发十年,就只剩下这套架构体系了! >>>    读<怪诞脑科学:战胜焦虑.混乱.拖延的自控术>有感 最近一段时间,一直在琢磨更好的AutoML,像我这样的懒人,当然希望 ...

  6. 在哪里能找到最后的版本的示例程序? AI Studio-MNIST

    简 介: 在上面测试过程中总是时不常碰到版本不兼容的问题.这还是都是在AI STudio环境测试的结果.不知为什么,现在手头的版本还是没有能够反映出最终的软件的版本的情况下. 关键词: AI,MNIS ...

  7. 数据仓库专题(2)-Kimball维度建模四步骤

    一.前言 四步过程维度建模由Kimball提出,可以做为业务梳理.数据梳理后进行多维数据模型设计的指导流程,但是不能作为数据仓库系统建设的指导流程.本文就相关流程及核心问题进行解读. 二.数据仓库建设 ...

  8. REAL6410、OK6410、TE6410 的区别

    [答客户]REAL6410.OK6410.TE6410 的区别 http://www.gooogleman.com/forum.php?mod=viewthread&tid=71&fr ...

  9. 软件开发项目的风险管理 (转)

    原作者:李艺兰 软件开发项目的风险管理 众所周知,软件开发过程可分为:需求分析.设计.编码.测试.安装及维护等几个过程(在RUP方法中:业务建模.需求.分析设计.实施.测试.部署),实际上一个完整的软 ...

最新文章

  1. 我的世界minecraft-Python3.9编程(2)-开发环境配置(2)
  2. 在CDI应用程序中使用@Alternative
  3. mysql数据库(3)-查询
  4. 我的MVVM框架 v0.1发布
  5. (AnyWhere-)安卓版“捷径”
  6. 服务器无法分配系统页面缓冲池中的内存
  7. 从360和QQ打架看客户端的高精尖武器技术发展:自己留着,防止忘记!
  8. 振型叠加法 matlab,Ansys模态叠加法谐响应分析
  9. PaddleOCR实现车牌识别系统
  10. 编译原理:上下文无关文法 CFG
  11. 转载:破解DR.COM实现共享上网方法大搜罗(抱歉,直接转载
  12. 鸟哥的Linux私房菜
  13. 关于JAVA开发小游戏如何做读档和存档功能的这件事
  14. 群晖-虚拟机ups不断电系统
  15. 使用 Neo4j 图数据库可视化(网络安全)知识图谱
  16. 毕业两年的大专生程序员工作总结(java后端)
  17. MFC---上下文菜单(快捷菜单)管理器
  18. 【逗老师带你学IT】PRTG HTTP API获取指定传感器流量图表图片
  19. 工具学习——Linux Read-only file system NTFS
  20. .9图片制作 android-亲测

热门文章

  1. firefox apk android,firefox nightly APK
  2. 客服系统的电话录音功能作用
  3. java团购系统开发_基于jsp的团购管理系统化-JavaEE实现团购管理系统化 - java项目源码...
  4. Semantic Versioning
  5. 使用树莓派拍摄延时摄影视频
  6. php swoft 路由,Swoft 源码解读
  7. 企业微信需不需要养号?
  8. android开源的酷炫的交互动画和视觉效果:Interactive-animation
  9. Java从小白到大牛第2篇 【面向对象】-关东升-专题视频课程
  10. matlab 批量导入excel,MATLAB  批量导入excel和txt文件的方法