前言:
在模型开发过程中,或多或少都会遇到在生产过程中非常常见的问题就是模型样本开发不足。特别是在一些数据策略的冷启动阶段,而关于这些我们之前的文章都有以下内容:
①讲解经典专家评分卡怎么实操
②两种专家经验评分卡的学习

而今天关于模型冷启动阶段的相关内容,本文再介绍了一种更实操落地的方法,详情请看。

正文:
新产品上线,往往只能使用规则进行审批与授信。能不能拦住风险是一回事,老板报以不信任的目光更使得风控从业人员倍受挫折。我们提供一个迁移学习风险评分开发方案,尝试在冷启动阶段就完成风险评分的开发。
假定某家金融机构已有成熟贷款产品XFD,打算向市场投放面向小微企业主的新产品XWD。建模人员通过数据分析发现,已有借款客户里面,只有20%的客户是小微企业主。由于缺乏数据,模型应用效果不佳。
产品A数据样本:

一.开发过程:
1) 直接套用老模型
直接使用产品A的风险评分(评分A)应用到产品B客户中,KS有所下降。主要原因是小微企业主客户坏客户样本少,使用整体借款客户来开发风险评分,会让模型更多“关注“非小微企业主客群。


可以看到仅有小微企业主的客群的KS值就下降到45,所以直接加入风险评分后,反而使得模型失去使用价值。

2)推荐解决的思路
如果以上的思路不好,有没有更好的方法能解决上述难题。这里跟大家介绍我们在实操生产中用到的方法。推荐把评分A(整体客户)和评分B(小微企业主定制评分)计算分布,并交叉制作二维矩阵,对两个评分均处于高分段的非小微企业主好客户打标,并把打标客户加入到小微企业主样本中,一起开发定制评分C。
具体的思路如下:




二.细节问题
这里有个实操问题。不少同学会问为什么只能把两个评分均处于高分段的非小微企业主好客户打标,而不能把两个评分均处于低分段的非小微企业主坏客户打标,然后加入到小微企业主样本中。
答案是因为样本需要小心处理后才能使用。例如按照本数据样本,小微企业主坏客户标签只有2000个。而使用两个评分均处于低分段的非小微企业主坏客户打标,如果阈值设置较松,会有大量的非小微企业主坏样本加入到小微企业主样本中,把实际需要评价的小微企业主坏客户的浓度稀释了,导致模型应用效果不佳。
解决这个问题的方案是调整非小微企业主坏样本的浓度或调整打标阈值,另外上述问题也可以使用TrAdaBoost等迁移学习的方法解决,有需要深入了解的同学可以在知识星球提问。
本文中关于代码跟数据集的问题的,各位童鞋还可以到知识星球平台获取更全面的代码学习,希望本文对大家在模型开放的冷启动有借鉴。

~原创文章

end

如何应对数据匮乏,试试冷启动阶段开发的风险评分相关推荐

  1. 小微数字风控必学-冷启动开发风险评分(含实操)

    新产品上线,往往只能使用规则进行审批与授信.能不能拦住风险是一回事,老板报以不信任的目光更使得风控从业人员倍受挫折.我们提供一个迁移学习风险评分开发方案,尝试在冷启动阶段就完成风险评分的开发. 假定某 ...

  2. 物联网 数据驱动企业 如何应对数据洪流

    本文讲的是物联网 数据驱动企业 如何应对数据洪流,在物联网世界当中,从供热系统到生产控制系统,再到RFID标签,所有的东西都在收集着数据.如果你在企业当中,那么数据正在向你涌来. 这既是好事,也是坏事 ...

  3. 从0到1,关于产品冷启动阶段。

    冷启动是什么? 冷启动是一个产品(或者新功能)刚诞生的一个阶段,此阶段的产品面临着以下问题: 1.缺少用户及相关资源. 2.产品模式未成熟,能否满足用户,迎合市场趋势仍是未知数. 因此,在此阶段的主要 ...

  4. 数据自治开放的软件开发和运行环境

    数据自治开放的软件开发和运行环境 吴毅坚1,2, 陈士壮1,2, 葛佳丽1,2, 赵文耘1,2 1. 复旦大学计算机科学技术学院,上海 201203 2. 上海市数据科学重点实验室,上海 201203 ...

  5. 应对当今的医疗器械软件测试开发挑战,如何选择测试软件

    随着计算机科学与技术的发展,计算机软件控制技术在医疗设备中的应用越来越广泛,并已成为医疗设备的核心技术之一. 大到高端的大型医疗设备,如螺旋CT.核磁共振.直线加速器或全自动生化分析仪等,小到家用的电 ...

  6. 02 - 汽车功能安全系列之概念阶段开发 - Item Definition HARA

    更多汽车专业精彩内容尽在微信公众号: AUTO世代 本篇属于汽车功能安全专题系列第02篇内容,主要来聊聊功能安全概念开发阶段基本问题及内容的学习心得. ISO 26262 基于V模型,汽车功能安全开发 ...

  7. 推荐系统中的数据稀疏和冷启动问题

    原文链接:RS:推荐系统中的数据稀疏和冷启动问题 如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题. 冷启动问题主要分为三类:  (1) 用 ...

  8. 未来在大数据行业发展,本科阶段该选择统计学专业还是大数据专业

    首先,如果未来要进入大数据行业发展,本科阶段选择大数据专业无疑是更好的选择,原因有三方面,其一是大数据专业在知识结构上覆盖面更广:其二是大数据专业会整合更多的大数据教育资源和行业资源:其三是大数据专业 ...

  9. R语言使用hexbin包的hexbin函数可视化散点图、应对数据量太大、且有数据重叠的情况、普通散点图可视化效果变差的情况、提供了对六边形单元格的二元绑定、通过图例颜色标定每一个区域数据点的数量

    R语言使用hexbin包的hexbin函数可视化散点图.应对数据量太大.且有数据重叠的情况.普通散点图可视化效果变差的情况.hexbin函数提供了对六边形单元格的二元绑定.通过图例颜色标定每一个区域数 ...

最新文章

  1. Spring Bean的属性注入
  2. CodeForces - 1118F1 Tree Cutting (Easy Version)(树形dp)
  3. php 实现树状组织图插件,使用jstree插件实现树形结构
  4. 推荐10个优秀GitHub仓库
  5. python实现异步的原理_一篇文章理解Python异步编程的基本原理
  6. pp加速器各种问题官方最新回答
  7. 最新Hadoop的面试题总结
  8. 学前教育计算机课程设置,计算机网络背景下学前教育专业课程设置分析
  9. postman实现接口请求
  10. redis获取哈希类型的值,hget、hmget、hgetall
  11. MySql 大数据查询优化方案和超大分页的处理方法
  12. ReentrantLock 源码简单分析
  13. python--pandas长宽数据转换
  14. 【ITool】mybatis-generator-annotation
  15. HTML小说排行榜案例
  16. Win电源选项设置效果及意义(个人整理)(包含:电源设置,开启卓越模式,睡眠休眠的区别)
  17. 联合搜索:搜索中的所有需求
  18. brew 一直等待_58岁上海股神自爆交易铁则:80%时间的等待+20%的时间操作,精髓...
  19. Java web软件推荐
  20. 百度知道推出企业问答平台

热门文章

  1. oracle怎么分配表空间,oracle数据库分配表空间、创造用户、分配用户权限操作
  2. v-show组件 vue_Vue.js教程--基础(实例 模版语法template computed, watch v-if, v-show v-for, 一个组件的v-for.)...
  3. socket java 发送多次 socket 已关闭_Socket客户端循环发送多条信息给服务端,发一次socket自动关闭?...
  4. 线性代数的相关计算(numpy)
  5. linux中 在文件中写入一句话怎么写_shell文件处理笔记之插入文本到文件的方法...
  6. mpi tcp连接报错_PHP Swoole长连接常见问题总结
  7. 用python实现接口测试(八、实现序列化与反序列化)
  8. git上传到github
  9. shell中lsort,uniq,cut,wc,seq命令使用
  10. Azkaban工作流调度器(1)--azkaban的安装