进入职场多年,会容易发现那些拿着稍微高薪点的同学,除了管理岗位外,在技能上都是懂技术的,不是普通技术,而是前沿技术。像十几年前,互联网兴起那会,懂开发的程序猿非常少,薪资自然非常高。看现在懂开发的人员越来越多,对技能要求也自然越来越高,甚至全栈才能拿到行业的相对高薪。供需决定价值,懂得人少,市场有需求,自然拿较高的报酬,这个也很正常。

所以目前在机器学习领域的NLP工程师、CV工程师、DM工程师,招聘市场上随便挂一个职位,都是薪资奇高的岗位。它们有一个共性就是里面的算法大概相同,因此在市场上就多了一个职位叫:算法工程师。这样一个新兴的职位的,似乎更像是前几年非常流行的一个万金油岗位:数据分析师。数据分析能解决一切业务问题,似乎算法也能解决一切模型问题。

但真正做过一些项目落地后,会发现在算法外,还有一堆工程化的问题需要解决。比如在推荐系统上,我需要考虑模型如何部署上线的问题,如何解决数据并发性的问题,如何解决系统间的数据的交互问题,总之工程化的问题会将算法抛在更靠后的位置。大家不妨看看,我们之前的那篇介绍推荐系统的文章:金融客群的个性化画像

在上述最主要跟大家表达的主题是,在职业的发展上,除了自己领域的模块,更应该上升到一个层次,去观察下自己做的内容是如何落地,有没有什么价值。毕竟做了一堆内容,最终没有产出,试问你有没有问过老板的感受。

而在这点上,在风控领域做模型的同学,更是应该关注业务的内容。也许你进入风控行业是因为之前懂算法,懂一点调参才入行的。门虽好敲,但进去后仍必须继续在业务上继续深挖、分析,才会有实际的价值变现,才能告诉老板我用模型阻断了多少的欺诈分子,拦截了多少信用不佳客群,为公司带了多少增值。

以本人的经历来讲,记得我进去互金风控,经常围绕着几个指标进行分析,分别是:
FPD10、FPD30、SPD10、SPD30…

这几个指标自然非常有业务含义,拆开来解读又非常有意思,业内统称为FSTFDPD。比如对于FPD,是首月就逾期即是欺诈指标,是业内规则。那请问spd第二个月才逾期就难道不是欺诈的指标吗?还真别说,在笔者遇到的某个逾期的信用贷的场景中,真的会出现spd的指标高于fpd的指标的情况。

这个当时我们做了,各个时期pd的逾期的情况,发现个别渠道反而出现了spd甚至是tpd走高的情况。后来私下跟这些渠道商交流,才知道渠道商在具体的消费场景上跟上游签了兜底协议,3个月内出现坏账,渠道有部分兜底承诺。

所以你如果没有在模型,规则前就熟悉这些业务,模型同学上来就来一个欺诈fpd作为坏样本,信用用dpd90+作为坏样本,效果注定是不能让你满意的。怎么做这个分析,可以参考之前我们的文章,里面详细提到了具体的分析方法:评分模型中的滚动率分析

另外在整个业务的分析过程中,还有其他需要注意的内容吗?我们列举几个常见问题跟实际策略分析常见,帮助大家理解。

一.通用模型是否存在
做过模型的同学肯定开发过不同场景的模型,基于现金贷的A模型,基于疫情期间的B模型,基于消费场景的C模型等等;所以有知识星球的同学与我交流,那有没有通用模型可以开发一个,我现在大框架上这个模型,然后再细分子模型,可以的么?
答案当然是肯定的,不过有几个原则注意:
1.因为银行、消金、互金等,样本来源也多样化,需要设计一套通用模型基准来筛选样本,需要选择的特征样本都能在上述的场景中都有同样的数据特征,比如多头确保在每个类别中都能找到数据;
2.选择出来的特殊样本需要特殊处理:比如现在疫情期间,其样本的选择可能跟疫情前的建模样本非常不同,所以假如样本充足,一定要选择疫情期间的样本,类似的还有暴雷潮、经济危机等环节下的样本,因为同样特征的收到的环境跟政策才是一样的;
3.代表性:选择的样本最好是能来自稳定跟合规的业务,这个其实是跟上述的进行补充的。有代表性的样本,其能代表所在的业务场景的数情况,并且刚提到既然代表性的,那在局部地域业务为主的样本就应该选择剔除。
4.时效性:筛选样样本的尽量选择新鲜日期的(近3个月或者半年内),当然这个得确保样本有足够的表现期。
最后一个是稳定性了,即我们挑选的样本其样本量分布情况与真实人口分布是一致;稳定性是在后续的场景中最好测试的数据,因为只要有数据就能实时监控,并且告诉我们样本的偏移情况了。当然如果有多个场景,也可以将这个当成一个变量,并且每个场景中的样本量最好都差不多。

二.下钻分析的重要性
数据分析是探索宝藏,而数据分析中的下钻分析更像是挖掘到宝藏的最后一斧,临门的最后一脚,下面这幅画应该是最能表明数据分析如此的状况。

以下我们以分析学历为例,详细说明数据分析中的下钻分析临门一脚的重要性。

在对某贷款情况的分析中,我们得到年龄的分布情况如下:

从学历层次看,整体呈现出:学历越高的客户,办理信贷的可能性越小,相对,学历越低的客户更容易表现出办理信贷行为。在此,常规的分析都能得到的结论是:
高学历的客户,其收入相对较高,且稳定,所以当发生消费信贷行为时,在银行等金融机构申请贷款时也就更容易获得通过;
而低学历客户,相对而言,收入较低,且可能存在无固定收入的风险,所以当其发生消费信贷行为时,如果是通过银行等金融机构申请贷款将会更困难一些,另外,也因为互联网消费金融公司对于客户资质的要求门槛相对较低,所以就更受低学历客户的青睐。

之后,我们定义逾期后,将下面将分析学历层次对逾期表现的影响进行画出:

统计数据显示,从博士、硕士学历到初中以下学历中,逾期基本呈现递增趋势,违约率分别为:
4%,25%,6%,8%,25%,29%,32%。
分析认为,学历层次与违约率反比,即学历越高,违约率越低。但是仅次于的博士学位的硕士人群违约率却高达25%,与高学历低违约率的趋势严重不符,这个分析结果其实是让有些出乎我们的意料的,那是不是等于说学历为硕士的这个群体会更容易逾期?

想要说明白这个问题,并且弄清楚下一步的政策,我们需要进行下钻分析。下面将对硕士的逾期表现进行单独分析。

为了分析硕士学历的逾期表现与其他学历呈现出的异常现象的原因,对各学历中各个层次的年龄分布进行统计分析,我们画出来,这个群体中的各年龄的分布:

我们发现有部分信贷客户存在学历信息造假的现象:例如一位8岁的借贷客户学历信息显示为硕士,这明显是虚假信息。

结合年龄维度,对各学历层次进行再次筛选,将22岁以下硕士的视为虚假信息,对这部分虚假学历样本单独进行分析。

统计数据显示,学历信息涉嫌造假的人员,违约率高达24%,高于平均违约率(18%)。在此,分析认为,学历造假的信贷客户本身就存在骗贷的想法,所以其逾期表现会比其他真实客户表现更差,因此建议加大对客户个人信息的审核力度,特别是学历信息,防止因学历个人信息造假给公司带来损失。

三.新老客群的策略流程
新老客户的客户介绍

新客与老客策略,相关的策略明细可以参考:风控中的新户与老户策略,具体策略的资料详情可在知识星球平台上查收相关内容:

那在具体的新客、老客的风控流程中,应该如何设计新老客流程逻辑呢?在分析具体的新老客户的策略流程时,相关流程可以拆分为以下步骤:

a.分析客群数据情况,如新老客群数量占比等;

b.在已有的数据基础上,进行策略流程化梳理;

c.在第二个步骤的基础上,根据实际跑分情况优化调优相关内容。

根据以上的步骤与流程情况,我们一一详细展开:

a.分析客群数据情况

了解样本中新老客群的占比情况,假设根据初步的样本。比如我们分析某信贷A公司的中的新老客群,统计数据显示如下:样本数据中新用户量为3523,占比为8.22%,老用户有42839,占比是91.8%。该产品已经上线两年有余,而新产品已经上线有大半年时间了。

在此,分析认为:样本数表现出高客户粘性,但是在开拓新市场、吸引新客户这方面明显存在不足。因此,分析完这样的数据,我们能理解目前公司的业务中,对新客户的拓展似乎不太给力。对老客户应注重品质服务,同时也应该尝试更多新的获客渠道,吸引更多新客户的加入。

b.根据具体的产品与数据,设计具体的策略流程

大部分公司所使用的外部数据自然非常丰富,为了说明方便,我们稍简化处理。将具体A公司所经过的产品的内外部数据,简化为两块数据内容,分别是芝麻分跟花呗分数。

有了以上的数据分值,就可以根据不同的分值对客群的风险进行量化定位,这里我们将芝麻分跟花呗分值分别划分为三个不同风险的客群:

芝麻分【<650】——低风险

芝麻分【550<X<650】——低风险

芝麻分【<550】——低风险

分呗【>2200】——低风险

分呗【500<X<2200】——低风险

分呗【<500】——低风险

于是初步我们可将新老客群的策略流程具体梳理如下:

在分析这个策略流程前,我们详细介绍该策略流程的内容:

在该策略流程中,初步策略可以解释成如下规则集合:

首先,将申请客户基本信息与历史客户数据库相匹配,如果匹配成功,则证明该客户属于老用户;如果匹配不成功,则证明该客户属于新用户。然后,针对新老用户采取不同的策略,分别如下——

(1)新用户规则集合:

规则1:匹配结果为新客户,则直接进行信用评估,并且信用评分高,则给予降额贷处理。

规则2:匹配结果为新客户,则直接进行信用评估,并且信用评分低,则给予拒贷处理。

(2)老用户规则集合:

规则1:匹配结果为老客户,并且芝麻分在650分以上,则给予全额贷处理。

规则2:匹配结果为老客户,并且芝麻分中550与650分之间,则给予按新用户处理,即进入新用户规则集合

规则3:匹配结果为老客户,并且芝麻分在550分以下,则给予按新用户处理,即进入新用户规则集合。

规则4:匹配结果为老客户,并且花呗在2000以上,则给予全额贷处理。

规则5:匹配结果为老客户,并且花呗在500与2000之间,则给予按新用户处理,即进入新用户规则集合。
规则6:匹配结果为老客户,并且花呗在500以下,则给予按新用户处理,即进入新用户规则集合。

在以上的策略流程中,我们发现在实际业务中,整体跑分上的1号蓝线是【芝麻分>600】的老客且【借呗>2000】的新客汇合集;2号绿线是【芝麻分在550与650分】的老客且【借呗>2000】的新客汇合集,这两处流程都没问题。观察3号红线,会发现【芝麻分<600】的老客群且【借呗<500】的新客,都似乎会经过一个信用评分的模型跑分节点,这个信用评分在这里的作用主要是为了捞取某些风险较低的坏客户进件。

假设读者您现在是该公司的风险策略官,分析了该公司在这套新老客群的策略流程后,手头上您再结合逾期率等情况,然后根据这些信息,您能否来判断这个策略流程是否靠谱?特别是在上述3号红线这个流程中,在最后的流程中卡入信用评分的这个节点是否合理?

c.策略优化,进一步梳理流程

在上述的这个流程中,是基于A公司已经掌握了客群的历史信用状况,因此在对老用户放贷审批时,其违约率大概为为2.8%。根据信贷的业务,可以肯定是公司已经根据历史借贷情况,建立了老客户信用数据库。并且新老客群的通过策略在最开始做审批政策的时候就不同,简而言之就是两者所用到的数据不同。但业务是业务,如何在数据上跟具体的量化指标上,进一步证实我们的观点并进行流程优化呢?

1.根据贷后数据,进行了样本的数据分析,量化指标分别是IV测试与模型准确率指标分析:

新老用户当成一个变量分析其IV数值,得到的IV数值为:

做模型的同学,肯定非常清楚IV达到0.8是什么含义。IV达到0.8足足说明这个变量非常显著,其一般可以当成业务上的规则使用。IV值的指标情况,大家可以参考以下:

2.IV值是显著的。那如果在模型中,加入这个新老客群的变量跟不加又有什么区别?我们来看一下用逻辑回归跟XGB,加入这个变量的时候,模型的指标如下:

在逻辑回归中,某些变量的系数展示如下:

可以看到,新老用户这个变量的系数远远大于芝麻信用和花呗,同样表明新老用户的区分度很强。所以当我们将新老用户的变量去除后,发现模型的效果大幅下降:

在具体的业务原因中,我们考虑是,老用户是被二次筛选之后的用户,本就是属于信用较好用户,因此老用户样本不是自然抽样的样本,而是有偏样本,如果再次采用新老用户这一标识建模,会导致模型的意义与实际情况偏离。

这也再次证明,我们之前的猜想,是根据其历史借贷情况决定是否审批借贷。所以,认为新老客户不应该作为一个区分客户逾期表现的关键影响因素。需要在上述的规则进行优化设计。因此本部分的所有测试均需要去掉新老用户这一变量。

对该流程进行相关优化,优化后的流程长这样:

优化后的新策略可以解释为如下的规则集合:
首先,将申请客户基本信息与历史客户数据库相匹配,如果匹配成功,则证明该客户属于老用户;如果匹配不成功,则证明该客户属于新用户。然后,针对新老用户采取不同的策略,分别如下:
(1)老用户规则集合
规则1:匹配结果为优质老客户,则给予直接放贷处理。
规则2:匹配结果为一般老客户,并且芝麻分在650分以上,则给予直接放贷处理。
规则3:匹配结果为一般老客户,并且芝麻分在550与650分之间,则给予降低额度处理。
规则4:匹配结果为一般老客户,并且芝麻分在550分以下,则给予按新用户处理,即进入新用户规则集合。
规则5:匹配结果为一般老客户,并且花呗在2000以上,则给予直接放贷处理。
规则6:匹配结果为一般老客户,并且花呗在500与2000之间,则给予降低额度处理。
规则7:匹配结果为一般老客户,并且花呗在500以下,则给予按新用户处理,即进入新用户规则集合。
规则8:匹配结果为重点观察老客户,则给予按新用户处理,即进入新用户规则集合。
(2)新用户规则集合
规则1:匹配结果为新客户,则根据客户信息及外部数据进行信用评估,并且评估通过,则给予直接放贷处理。
规则2:匹配结果为新客户,则根据客户信息及外部数据进行信用评估,并且评估未通过,则给予拒贷处理。
规则3:符合规则2的申请客户,则列入中重点观察客户名单,进入历史客户数据库。
规则4:符合规则1的申请客户,则记录其还款情况,进入历史客户数据库。
规则5:符合规则4的申请客户,并且存在违约的客户,则列入一般老客户名单,进入历史客户数据库。
规则6:符合规则4的申请客户,并且正常还款的客户,则进入重点观察老客户名单,进入历史客户数据库。

结语
在风控的整个策略流程中有反欺诈、授信、风险定价、催收等阶段。而风控策略又在这些不同的业务场景,通过一系列规则的并联、串联以及排序来对客群风险进行分类和筛选的过程。风控策略的相关内容,如数据分析、模型开发等内容之前都介绍很多,各位在公众号文章内搜索、翻找。另外更体系的内容补充会在番茄学院的星球视频课堂与知识星球输出。希望能为广大的从业者,在信用风险控制方面带来一些思路与启发。

本文参考内容:

《番茄风控大数据》知识星球

番茄风控大数据以往文章

~原创文章

end

互金策略若干问题(全)相关推荐

  1. 360金融产品总监赵鑫:互金产品经理应该关心这些东西

    嘉宾介绍 赵鑫,2015年以前,在360把360手机专家从零做到1000万用户,后来出去创业折腾过很多方向,2015年后加入360金融,做过360淘金(股权众筹产品)360信用卫士(信用管理工具)36 ...

  2. 和信贷财报:互金行业收缩压力之下的个体进击之道

    文|李永华 来源|螳螂财经(原潇湘财经) ​北京时间12月3日晚,在纳斯达克已上市1年有余的互金平台和信贷发布了截至2018年9月30日的2019财年Q2财报,其中净收入362万美元,符合管理层此前预 ...

  3. P2P爆雷潮后的第100天,我们复盘了整个互金倒闭史

    闪电慢谈 NO.0001 | P2P从业者众生相 第 1 夜 2018年的端午节,是许多人噩梦的开始. 就在端午节过后的两天时间里,P2P暴雷潮开始了,像多米诺骨牌一样,从6月22日爆出的13家到8月 ...

  4. 2018年Fintech金融科技关键词和入行互金从业必懂知识

    2018年过去大半,诸多关键词进入眼帘: 5G,消费降级,数据裸奔,新零售,AI,物联网,云计算,合规监管,风控,割韭菜,区块链,生物识别,国民空闲时间以及金融科技. 这些词充斥着我们的生活和时间,而 ...

  5. 互金启示录:流量思维的末路

    最近一两年,互金行业的人很忙.忙于合规,忙于转型,动作不断,前景却越来越不清晰. 一方面,巨头发力金融科技赛道.创业平台掀起上市潮,全行业加速布局汽车金融和供应链:另一方面,短暂盈利后亏损魔咒卷土重来 ...

  6. 深度解析|互金用户增长模型背后,最底层的逻辑框架

    一.当我们在讨论用户行为时,我们在说什么 1.1 从基础出发,回归初始定义 很多日常脱口而出的词,其实我们并没有思考过它真实的含义.大多数争论和错误决策的起点,也在于定义的不清晰和不一致. 互金运营是 ...

  7. “一个人”的互金企业安全建设总结

    前言 之前的一个人安全部的77大师傅把我们拉在了一起,然后逐渐发现群里大师傅们也发了建设经验文章.好吧,这么懒得我也分享下自己的经验,也就当对这2年多来的甲方经验的总结.感谢群里的小伙伴们,感谢安全圈 ...

  8. 互金场景下竞价广告投放简介

    目录 引言 实时竞价广告是什么 竞价广告的最优投放策略是什么 分层出价之如何进行人群分层 如何确定最优出价 oCPXoCPXoCPX下的最优出价 结语 引言 自2014年井喷式爆发以来,互金行业经历了 ...

  9. 强监管下 协议支付会是互金平台救命稻草?(协议支付是代扣协议的升级版)

    近期,第三方支付的快捷支付.代扣代付渠道骤然收紧,导致多个行业不同程度受到影响,互金受到的冲击最为直接明显. 尤其是消费金融和P2P网贷行业,因为对监管尺度的负面预期,情绪上的恐慌大于对业务的实际影响 ...

最新文章

  1. C# - list数据填充到Dataset里
  2. OO实现ALV TABLE 一:最简单的ALV显示
  3. Ubuntu-Python安装 scipy,numpy,matplotlib
  4. AOP联盟通知类型和Spring编写代理半自动
  5. php unset函数_PHP | 使用unset()函数从数组中删除元素
  6. 全局数据 GetGlobalDataSet
  7. SP1557 GSS2 - Can you answer these queries II
  8. supervisor-3:xml_rpc
  9. Windows 与 Linux 通过Xshell 文件互传
  10. 20 道 Redis 面试题,面试官能问的都被我找到了
  11. Java菜鸟的初次实习经历
  12. 智障Sloth的第108次启动mininet链接控制器失败的原因
  13. pacman+s+java_ArchLinux pacman安装openjdk
  14. UE4-物体围绕中心轴旋转的节点
  15. 数学建模暑期集训6:用SPSS对数据进行多元线性回归分析
  16. asynchronous socket error 10053错误及解决方法
  17. 程序员与HR博弈之:有城府的表达你的兴趣爱好
  18. 计算机病毒的自述,电脑的自述作文500字
  19. Vue项目之Element-UI(Breadcrumb)动态面包屑效果
  20. Android蓝牙开发教程(二)——连接蓝牙设备

热门文章

  1. 邢台农业计算机学校,邢台农业学校
  2. postman测试登录后的接口_中文版Postman测试需要登陆才能访问的接口(基于Cookie)...
  3. python 文件名随自变量变化_Python 求解自行车前后轮轨迹问题
  4. js页面传值php页面,不同页面,php如何js传值?
  5. python打开excel窗口_简单介绍python在CMD界面读取excel所有数据
  6. java有pyuserinput包吗_PyUserInput安装
  7. macos安装python3.6_在CentOS 7/Ubuntu 16.04/Debian 9/macOS上安装Python 3.6的方法
  8. php java 读取所有txt_paip.文件读写api php java python总结.txt
  9. cge模型可以用matlab实现么,GEMPACK软件 解决CGE模型
  10. start uml怎么自动生成代码_基于UML-RT和Papyrus-RT的系统建模与代码生成