风控建模十一:利用外部数据联合建模时,如何选择样本

  • 一、掺入验证样本
    • 1.1 验证数据覆盖度、准确度
    • 1.2 验证数据近期稳定性
  • 二、分布尽量均匀
  • 三、考虑样本偏差
  • 四、针对数据覆盖范围选择样本
  • 五、考虑特殊社会事件

所谓数字化风控,精细化运营,就是期望通过大数据的手段,尽可能丰富、全面地掌握客群的全貌画像,但现实状况中,数据孤岛问题一直都是制约金融科技发展的一大瓶颈。任何一家企业即便数据维度再丰富,也看不到客户的特征全貌。为了让业务中的模型能够尽可能维度丰富,尽可能贴近客户全貌特征,我们往往会通过外部数据联合建模的方式来解决内部数据单一、片面、区分度不高的问题。在大数据个人隐私保护日益趋严的趋势下,联合建模越来越多地采用联邦学习的方式,虽然安全,但也极大限制了我们对外部数据的理解与洞察。好在现在还有迂回的空间,驻场建模也是一种安全的方式,而且还能看到数据全貌,并定制化地进行特征加工。本篇文章就简单分享一下在能看到外部数据的情况下,应该如何选择建模的样本,关注哪些问题,才能让我们尽可能全面地了解外部数据并避免建模中的各种问题。

一、掺入验证样本

1.1 验证数据覆盖度、准确度

在我们对外部数据生态了解不深入的情况下,我们对外部数据反映哪些客群信息、反映的准不准都很难有一个确切的把握。除了与数据方人员深入沟通外,我们也可以通过掺入部分验证样本的方式来全面了解外部数据的获取机制、覆盖范围和准确性。比如,我们给样本的时候,可以把自己的信息加密后掺在里面,还可以在征得同意后,找一批同事的数据掺进去。自己和身边人的一些特征我们最清楚,刚好可以给数据来个反向验证。比如我们在测试一家企业的工作地址置信度的时候,把单位的地址填上去,看同事的数据情况,就能知道他这个置信度到底高不高。再比如,在测试一家企业的银行卡流水信息时,把自己的信息拿去匹配,拿自己的银行卡账单和数据相比对,就能确切地知道这家企业能获取到那些交易,这些交易一般都属于什么类型,大概能占到客户总交易笔数的百分之多少。
另外一个值得注意的是,我们给出去联合建模的样本都是信贷人群,信贷人群和大众人群还是有一些区别的。比如我们在测试一家交易数据的时候,发现这家数据在信贷客户样本上覆盖度高达90%,但在我们找的一批同事的测试样本上覆盖度只有30%。更奇怪的是,在信贷客户上面,我们发现没有被覆盖的这10%的人群风险表现明显要更好,且数据越丰富的客户,风险表现越差。后来我们通过深入了解发现,这家企业获取数据来源的很大一部分,来自于他们对多家信贷机构提供的代收代付服务,说明他们的数据覆盖的大多都是信贷人群,这就解释了为什么同事数据的覆盖度低,因为他们很少会去借纯信用贷款;这同时也解释了为什么数据覆盖越丰富的客户风险越差,因为数据越丰富,代表多头倾向越严重。正是有了这一小批同事样本的测试结果,才让我们更全面地了解了这家外部数据。如果没有这组样本的对比,我们可能就单纯地认为这家数据覆盖度就是能高达90%,也想不通为什么数据越丰富反而客户越坏。

1.2 验证数据近期稳定性

第二个问题就是数据稳定性的问题。我们选取的建模样本一般都是一段时间以前的申请客户样本,因为需要等待客户有充分的风险表现,而且所需的样本量越大,样本时间就越老,样本越老,就越面临着和当前样本不一致的风险。为了解决这个问题,我们可以在选择建模样本的时候,掺一批时间最近的申请样本,这样可以帮助我们验证模型在近期样本的稳定性,虽然这批样本没有风险表现,但可以通过看分布稳定性来帮我们筛选分布稳定的变量进行建模。这样做能够一定程度上保证模型在实际使用时,能够和建模时效果尽量一致。

二、分布尽量均匀

分布均匀,指的是在选取建模样本的时候,尽量在不同时间上、渠道上、产品上都能够有相同的坏账分布,这样一来可以掩盖自己企业坏账情况这样的敏感信息,二来也是避免建模出现问题。那分布不均匀会出现什么建模问题呢,我们看一个实际业务中碰到的状况。
两种情况会导致客户坏账率随时间不断降低:一是在定义坏样本的时候,不做固定时间窗口的限制;二是业务越来越收紧,这都会导致客户坏账率在时间上分布不均匀。如果我们选择建模样本的时候对这种情况不做处理,就有可能会有问题。比如一次联合建模,我们就在类似这样分布的样本进行了特征衍生和建模,后面发现,我们衍生的“最早交易日期距申请日天数”这一类变量,区分效果明显很好,比一些解释性更强,我们觉得应该更有区分度的变量还要好,这就引起了我们的怀疑。在通过更具体的分析后,我们发现这类变量有这样的分布特征,在该变量坏账率最高的第一箱(235-314天)中,其月份分布明显有偏,4,5月份的数据占比高过了60%;而在该变量坏账分布最低的最后一箱(682-842天)中,分布反之,7、8月份占比很大,也就是说,这个变量之所以区分度高,是因为它拟合了我们取样样本中坏账的时间分布状态,并不是特征本身的区分能力。这样的变量也只在我们选取的这部分样本上有这么高的区分度,应用在实际状况中一定会有大幅度的效果衰减。而这种状况是我们取样样本分布不均导致的,时间分布不均匀的样本状况导致了我们衍生的这一系列距今时长类变量都不能用。

为了避免这种情况,我们在选取建模样本的时候就应该让坏样本尽量均匀地分布在每个月份上,同样的道理,在不同渠道、不同产品的样本上,也应该让坏样本尽量均匀分布,让其呈现出最随机的状态,这样就可以避免在做衍生变量的时候,一些变量错误地拟合了样本分布不均的状态,从而掩盖了其本质的区分能力。

三、考虑样本偏差

考虑样本偏差的问题,即拒绝推断的问题。关于这个问题,我们已经在博客风控建模七:拒绝推断中进行了比较详述的论断,这里我们举例再来说明一下这个问题。
我们选取的有风险表现的样本,相对于整个客群,其实都是有偏样本,其偏就偏在这部分有表现的样本都是经过了策略、模型层层筛选之后的样本,各种维度的变量分布和整体客群相比都有很大差异。比如一般多头类变量在整体客群上都会呈现出轻微的U型分布状态:当多头数为0时,我们称之为白户,一般风险表现要差一点,当多头数比较少的时候,呈现出的是一个用款客户的良性借贷状态,一般风险表现最好,后面随着多头数不断增加,客户的风险表现就会越来越差。

这种趋势不是我们主观臆断的,在我们联合建模的一些数据源中就能看出这种趋势,比如有家数据源的两个多头变量呈现的坏账趋势如下:

这种趋势就刚好契合我们上面所讲的,在策略筛选过的样本上,多头变量的U型的特征。
我们选取的用款客户,一般都是经过严格的多头指标筛选过的,比如可能所有用款客户,多头数没有超过5的。如果我们用这样一批样本建模,那模型拟合的结果就会认为,客户的多头数越多,风险就越好。如果我们做的这个模型是用来在决策引擎靠后的节点做补充决策的,那模型拟合的这个趋势就问题不大,因为它应用的场景已经不会出现多头过高的客户了。如果我们做的这个模型是用来做前置客群筛选的,那问题就大了,这个模型可能会让我们把所有多头数过高的客户都当成好客户筛选进来。因为我们用有风险表现的样本做模型相当于优中选优,而让这样的模型去做前置筛选,去面对整个良莠不齐的客群,就一定会出问题。
如果要用模型做前置筛选,应该如何避免这样的问题呢?可以在选择样本的时候掺一些拒绝样本,尤其是拒绝原因比较严重的拒绝样本进去,也当成坏样本进行建模。或者可以直接选取通过、拒绝样本做好、坏样本建模,都可以很大程度上避免样本偏差问题。

四、针对数据覆盖范围选择样本

每家数据服务商都存在数据覆盖度不全的问题,或者只覆盖部分客群,或者只覆盖部分维度,大多数据商二者兼有。因而,每家数据商只有在其主要覆盖的客群和维度上,才最具数据优势。我们选择样本进行联合建模就要有针对性地最大化这种优势。
举例来说,很多做SDK服务,或者手机功能嵌入服务(比如语音服务、推送服务)的数据商,其主要数据优势一般都只在安卓设备上。这里的数据优势就指数据维度丰富、准确性高。而在IOS设备上,大多没有数据,或数据稀疏。为了能最大发挥这些数据商的数据优势,比较好的办法就是只把数据应用在安卓人群上,因而选择建模样本的时候,可以针对性地只挑选安卓设备客户样本。如果我们不加选择地选择所有设备的样本,虽然样本看起来大而全了,但也只是徒增了样本的空值率而已。
另一个例子,就是一些地方性运营商数据,比如浙江移动,这时联合建模的样本选取就要从两个维度进行筛选,一是手机归属地为浙江,二是运营商选择移动;这样才能保证建模样本的高覆盖、不浪费。
虽然这样的样本选择方式只能解决部分问题,但现实情况就是每家数据商只能够提供解决部分问题的数据,所以外部数据联合建模是一个长期的过程,只能通过一点点地解决每个客群,每个维度的问题,才能最终形成一个比较完善的数字化解决方案。

五、考虑特殊社会事件

消费金融也是社会生产、发展的一个环节,自然逃脱不了突发性社会事件的冲击和影响,尤其是对于行业有直接影响社会性事件最值得我们关注,并结合这些情况,调整我们的业务逻辑和处理方式。
举一个较为久远的例子,19年对三方数据的突发整治,直接冲击了同盾等多家多头数据机构的数据服务,包括很多以爬虫为主要手段的三方数据商。虽然自事件以来,很多机构仍然正常提供数据服务,但我们从业务上可以直接监控到,很多数据商的数据分布出现了很大的突变,可以说事件前后像是两家完全不同的数据商。自此,我们选择建模样本也陡然增加了一条时间界线,事件以前的样本,多少都不能够代表新的环境,所以在选择样本时,我们也尽量不做选取。
第二个例子要说到22年初的上海疫情封城,这次疫情情况严重,时间长久,直接导致了很大一批人的工作停滞,收入断档。相应地,很多借贷客户就不得不出现了逾期的情况。虽然给很多客户做了延期和资产重组,但也只是局部地,暂时地延缓了问题。考虑到这种情况,我们在做建模样本选择的时候,就不得不针对性地对这段时间、上海地区的逾期客户做特殊考虑,因为这部分逾期客户是突发状况导致,并不能代表一般意义的坏客户。

当然,除了以上五点问题,其它一些细节问题也应该在样本选择的时候就尽可能地解决掉,比如以下几点:
1、样本省份分布,可以考虑去掉一些偏远省份的样本;
2、一些和总体客群有明显差异的渠道、产品上的样本,也应该尽可能地不选,以此来避免噪音信号形成的干扰;
3、逾期标签可以选择多种口径,比如长期信用逾期,短期欺诈逾期,多种标签可以多方面分析外部数据具体适用于哪种业务场景;
4、携带必要信息,比如渠道号、产品号,可以在建模时做分渠道、分产品分析和建模;
总之,选择建模样本绝不是简简单单地随便选,纷繁复杂的细节是需要特别注意的,总结来说就是要尽可能全面、详细地了解样本的情况、了解外部数据的情况,并真正做到具体情况,具体分析,以使联合建模时能够尽可能少地出现问题,尽可能大地发挥数据价值。


最后,欢迎参看风控建模其它相关内容:
风控建模一:好坏标签定义
风控建模二:建模方案拟定
风控建模三:变量筛选原则
风控建模四:逻辑回归评分卡开发
风控建模五:GBM模型开发
风控建模六:变量相关性分析及筛选方法
风控建模七:拒绝推断
风控建模八:搭建模型监控体系
风控建模九:一些特征工程方法及自动化工具小结
风控建模十:传统建模方法存在的问题探讨及改进方法探索

风控建模十一:利用外部数据联合建模时,如何选择样本相关推荐

  1. Photoscan/Metashape与Contextcapture联合建模

    Photoscan与Contextcapture联合建模以及激光与影像联合建模 使用Photoscan完成影像的地理坐标与投影坐标转换 Photoscan空三结果导出 Contextcapture导入 ...

  2. 详解中小微风控中的财税票数据

    近段时间来,番茄风控上线了许多跟小微风控的内容.今天的内容之前也有跟大家谈及,小微风控究竟有哪些类型?税务数据有哪些内容?根据税务数据又可以衍生哪些风控模型?本文梳理了番茄风控以往的文章,整合相关的内 ...

  3. 数学建模学习——聚类(包含优秀建模论文中的应用)

    #聚类 ##一.目的 将具有相似特征的样本聚成一类,与其他类别进行有效区分. ##二.聚类的研究方法 ###1.基于层次的聚类 层次聚类.BIRCH算法(平均迭代规约和聚类).CURE算法(代表点CH ...

  4. 风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量

    风控建模十二:数据淘金--如何从APP数据中挖掘出有效变量 1.常识知识 2.个例分析 3.分布排查 智能手机的诞生改变了人类的生活方式,智能手机所承载的功能日臻完善.强大,人们在衣.食.住.行.工作 ...

  5. 利用Tensorflow构建RNN并对序列数据进行建模

    利用Tensorflow构建RNN并对序列数据进行建模 对文本处理处理任务的方法中,一般将TF-IDF向量作为特征输入.显然的缺陷是:这种方法丢失了输入的文本序列中每个单词的顺序. 对一般的前馈神经网 ...

  6. 大数据应用:双十一,阿里京东该如何利用大数据寻找突破?

    2017年"双11"交易额又创新高,巨额交易背后是各大平台提前数月的摩拳擦掌.这是一次全民的购物狂欢,更是一场暗流涌动的"军备竞赛",从中我们可以一窥整个零售行 ...

  7. 如何利用大数据做金融风控? 原创 2016年11月24日 17:42:03 标签: 大数据 / 金融 / 风控 1594 导语:如何通过海量数据与欺诈风险进行博弈? 随着金融科技、科技金融等概念的

    如何利用大数据做金融风控? 原创 2016年11月24日 17:42:03 标签: 大数据 / 金融 / 风控 1594 导语:如何通过海量数据与欺诈风险进行博弈? 随着金融科技.科技金融等概念的热起 ...

  8. 商汤港理工提出基于聚类的联合建模时空关系的 GroupFormer 用于解决群体活动识别问题,性能SOTA...

    关注公众号,发现CV技术之美 ▊ 写在前面 群体活动识别是一个关键而又具有挑战性的问题,其核心在于充分探索个体之间的时空交互,产生合理的群体表征 .然而,以前的方法要么分别建模空间和时间信息,要么直接 ...

  9. 利用大数据风控教你全栈式实时反欺诈

    "很久没有碰到这么大的漏洞了,你们继续,我睡了." 2019年1月20日凌晨1点半,在某"羊毛党"聚集的电报(Telegram,一款社交APP)群里,一位圈内& ...

  10. 深度粗排模型的GMV优化实践:基于全空间-子空间联合建模的蒸馏校准模型

    随着业务的不断发展,粗排模型在整个系统链路中变得越来越重要,能够显著提升线上效果.本文是对粗排模型优化的阶段性总结. 背景 在搜索.推荐.广告等大规模信息检索场景中,通常会将检索分为召回.粗排.精排三 ...

最新文章

  1. autohold有什么弊端吗_自动驻车真的好用吗?很多车主不敢用,实车演示正确用法很简单...
  2. OAF在打开的新页面中添加按钮,功能是关闭当前页面
  3. 用c语言编写一个2048 游戏,求c语言编写的2048游戏代码,尽量功能完善一些
  4. android assets 文件夹 复制,Android 中 Assets目录下 文件或文件夹的复制
  5. ICLR 2022 论文列表公布,接收率高达 32%
  6. QT分析之网络编程(七)
  7. IBM heapAnalyzer分析dump文件
  8. HDFS-windows下测试hdfs命令
  9. 谷歌浏览器、Yandex浏览器使用体验分享
  10. android照片同步到另一部手机,怎样可以把以前手机里的照片导入另一个手机?...
  11. RGB与16进制值互相转换
  12. 如何获取Intel网卡驱动的源代码
  13. 测试人的Java之编程那点事
  14. 模拟鼠标键盘操作,含硬件模拟技术。[转]
  15. 正则表达式练习题自带注释
  16. 总结:Spring boot熔断
  17. 学习计划【硬件课程设计】【课设】
  18. html 波斯语 对齐,在htm中使用波斯语字体发送大量HTML电子邮件
  19. SpringCloud( H版 alibaba )框架开发教程(中级)
  20. IT实施计划实战经验分享:避免失败

热门文章

  1. 1-docker安装
  2. 连接linux工具Mtr,Mac、linux和windows mtr路径探测工具安装使用
  3. 用计算机收传真,使用计算机发送和接收传真.doc
  4. 计算机无法关闭开机密码,Win10系统开机密码取消不掉如何解决
  5. C语言运算符的优先级与结合性
  6. maven自动部署到tomcat9
  7. [Sensor]BMI160-加速度计、陀螺仪传感器
  8. BMI160低功耗学习
  9. Xshell5 注册码 ,Xftp5 注册码,Xmanager5注册码
  10. JavaScript学习手册三:JS运算符