关注 “番茄风控大数据”,获取更多数据分析与风控大数据的实用干货。   有诗云: 假亦真时真亦假, 无为有处有还无。 一畦春韭绿, 十里好多棵。 好多棵, 好多棵, 先锋网信来收割, 如葱如林,如玉如梭, 请求镰刀别乱割。 问谁腰镰胡与羌, 手起刀落断两边。 回眸凝视韭菜地, 血本无归泪数行。

又一巨头倒下。这年头,对咋老百姓来说最赚钱的买卖就是把钱存银行,哪怕只有年化2%的利息,靠得住的还是国家。大伙也别提买房,看这两年房价也基本锁死,这点升值空间哪怕一进一出的手续费,都不抵消。银行理财测试过,我就是一投资保守派。我的投资观念,可能有人不屑,但是对目前局势如此复杂、多变的当下,不亏就是赚。保持这良好的现金流才是王道,那些越快崩盘的,都是把杠杆玩到头了,这无一例外。

经常有同学抱怨,最近提数写报告,已经写到吐了。而且效率非常低,经常写着一堆数就莫名的犯困。最重要的是,不知道提完数该怎么分析,头疼…

做模型,做策略最重要的就是跟数据培养感情,找到好的入手的感觉。经常我们拿到一堆数据,无所适从,不知道该怎么入手分析。这个时候,是该向各位隔空传授绝密攻略:R-I-S-K——RISK,最好用的数据分析秘籍。

**Relativity--关联性分析**

模型有分有监督跟无监督,如果是有监督的就需要定义标签,其实说白了就是看与标签之间的相关性;怎么分析?分析跟逾期标签之间的关联度。这里可以做相关性分析,决策树等分析,需要结合具体业务进行分析。

比如在自身体系外,缺乏样本标签的时候,怎么定义一个好坏样本。在业务上,我们会用到一种近似、关联的方法,用专家定义跟贷后数据,用业务上能解释并且业内通用的准则,这都是关联性分析的范围。

这里介绍两种常见的逾期指标相关联的定义的方法:
第一:借助合适的第三方的数据,进行样本的标签定义。

这里插一个案例,最近有个同学在做授信模型,需要用到关于目标变量的定义。常规的金融公司,因为自己放款所以都会有固定的逾期指标。然而某些协助放贷的公司或者第三方征信公司,却经常没有合适的逾期指标的定义。这个时候就需要定义合适的逾期指标。

这一点在之前的文章也提及过,需要根据第三方的数据标签进行相关的定义,比如说在电话邦的数据库里是打着催收标签的第三方就是所谓的坏样本。至于具体催收多少次应该被定义为怀样本。这里你可以基于历史数据做一个简单些的数据分析,但这也得结合自家公司的风险容忍度跟产品业务。

什么是风险容忍度,比如你家公司有个产品叫员工贷,因为员工贷里你能获取到比较多客户信息。比如关系联系人等,这个时候,你可以把阈值设定得高一些。月均催收次数大于10次,才算坏客户。大部分客户不还钱的时候,我再跟他的公司上级或者亲戚联系(目前因为催收的合规性,获取联系人已经不允许做催收业务)。

而另一个线上自然流量获客的产品,如常规消费贷,因为你只能获取到简单的三要素信息。这样,你在风险阈值上就会稍微设置低一些。月均催收3次就会被定义为坏客户。所以这里就需要结合具体的产品、业务、数据具体分析,而风险容忍度就被包含在产品业务和管理层处的风险方案里。

第二:上面我们提到一个借助外部第三方数据来补充数据标签的例子。当然第三方数据也有缺乏时候,能否用自身的某些数据补充。这里再举例一个银行给企业授信的案例。请留意这是个小微信贷的评分卡模型,区别为个人评分卡模型。

我们用下达裁判文书的数据拿来定义客群作为标签。如果下达裁判文书,并且企业执行了,就是为好客户,否则就是为坏客户。

这里有模型经验的同学,会发现这里有个坑点:因为这样的定义里下达文书是否执行,就是一个被判断的关键点。所以在整个模型的建置过程中,最后的使用场景都是全体被下达过裁判文书的客户。所以这个模型的使用场景相应变窄了。是否真的这样?

但这里的业务需要稍微理解下:小微风控,特别是跟银行借贷的企业,一旦没有举债没有还款。法院一纸裁判文书马上就会上门,但如果履约了就没有任何裁判文件。所以这跟个人信贷的场景还是有差别。理解了这个点后,就会明白,模型的使用范围即被拓展了。即没有下达过文书的,也是好客户,同样下达文书并且履约的也会是好客户。

当然第二种,个人更倾向于是类似基于专家定义去定义的好坏客户,但这里具体下达裁判文书的比例的阈值还是应该结合具体的历史数据分析进一步分析。

以上两点我们会用到关联性分析,具体的指标是由关联(相关)系数等,以及基数两种共同决定。

**I——Important Infomation(重要信息)   ** 重要信息,无论做什么事情,都是需要抓住主要的矛盾,做风控数据分析也是如此。

做模型的时候,我们会在几百个特征里,运用相关算法,选取最重要的特征变量,选取IV值较大的几个或十几个变量;在机器学习里,我们用不同正则化的处理方式也是在将特征稀疏,一为防止过拟合,二为降低模型复杂度。

即使在策略里做具体的策略探索,我们用决策树工具做节点的分裂,同样是选取信息熵最大的几个值进行分裂;

抓主要的问题,是哲学体系早就定义好处理万事的准则。

在风控数据分析问题时候,如何抓最关键的信息?个人建议,需要我们入行,沉下心,多跟行业的前辈交流,并且深入思考业务的逻辑、产品跟客户的情况。

在这里我们就整个信贷流程展开,怎么在风控层面分析最主要的问题。为了说清楚这个问题,我们还跟首篇一样,以点带面,说清楚其中一两个重要问题。

整个风险信贷领域,我们普遍都将其分成两个模块,一个是个人金融,一个是企业金融;

一:个人金融
个人信贷金融,分为线上产品跟线下产品。在线上业务里最重要的风险防范自然来源于最虐心的欺诈。在整个风险把控里我们需要抵挡住羊毛党、黑产的进攻。基于这样的业务逻辑,我们会考察各种维度的用户注册申请信息数据,设备指纹、用户定位、脸部特征COR等,我们把所有的风险成本都加持了贷前。所以造成了线上流量获客、数据成本总是居高不下。

线上的产品把欺诈风险放在首位,怎么识别“我”就是“我”。

而线下的产品,欺诈的风险相对线上的风险少很多。比如线下的小贷业务,授信额度是5万到20万。由于是线下产品,业务基本都需要客户到门店签约。曾经分析做过小贷行业的业务,首逾的指标只有基本低于0.3%的(首逾是判断欺诈风险很重要数据指标)。可见,线下的产品更多的是考察具体的客户的偿还能力。“我”是不是“我”,似乎并不是这类产品应该考虑的重要信息。“我”能不能还,才是关键的考察点。

所以考察个人金融重要风险把控点是区分欺诈风险与信用风险。当然具体风控策略,更应该展开具体与个人分享,下面再来挤挤水分。以下再跟各位展开分析欺诈风险与信用风险的具体的一两个决策点。

欺诈分析的把控就是就是用设备指纹进行监控。因为在注册环节里,我们能将注册环节拆分为首次申请、登陆、绑卡、激活、脸部识别、提现等这么多小细节,如果这里每一个环节或者每两个环节间得到设备指纹数量大于一定的数量,就能怀疑该设备不是本人注册。这其中的风险就会增大。

而在信用风险分析层面,可让客户提供具体的银行流水。当然从银行流水里还不足判定客户的收入,还可以客户提供具体的房贷合同或保单合同。做过房贷业务的同学,一定非常清楚,银行的抵押放款有一个要求就是收入证明必须达到按揭房产月供的3倍。如果按照这个逻辑反推收入,也大概能推出客户具体的月均收入。用保单来推算客户的月收入,也是类似的原理。

当然收入证明可以做假,但是当有保单等多份资料同时验证时候,无意间还是累加了客户的造假成本,这也一定推高了“犯罪成本”。
二.企业金融
而在企业金融里,同样需要去判断一家企业是否有骗贷的可能性。但这里面的风险点跟上述的个人金融又非常不同。

因为企业金融,做的额度都是偏大额的放款,所以在风险把控方面,一般都有专业的外访人员把控。外访人员,会去考察场地,这里考察的内容主要包括场地跟设备等固定资产。但除此之外,做企业金融最重要的是要了解整个产业,具体行业的风险点。是否了解过产业金融,前段时间非常流行的一个词。

比如服装行业跟餐饮业就是很不一样的行业。不仅行业不同会造成非常大的差异点,就算同个行业,处在不同产业链的位置分析的重点也不同。

就拿上面提到的服装行业举例。生产衣服的企业跟销售衣服的企业来判断他们的风险点就非常不同。

在生产端,生产衣服的工厂,厂家店址可以选择在偏僻的地方,风控关注的是生产设备的价值,生成出来的成品的各项生产指标是否合格,是否保质保量的完成。而在销售端,卖衣服的零售店铺,最关键的因素就是地段、地段、地段。只有开在人流量最大的商业街,你的店铺才会有无限的潜力。比如在广州的正佳广场,一个月十几万的租金,能在这最繁华的商业街开门店,在外人看来也是实力非凡。虽然专业的风控人士考察的不止这么一定,但这确实是非常关键的。

思考这最重要的信息,这风控审单就像丈母娘选女婿。小伙,有房吗?有车?房子红本到手了吗?车子都是顶配版的吗?收入达到7位数了吗?工作稳定吗?身体健康吗?父母健在吗?家里就你一个吧?如果你的回答全是了,至于样貌比马云还丑些,这个不是最重要的东西,没关系,就你了。

---------------------- --------------------- ------------------------------------- ----------------------
十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,如果你想了解他,欢迎关注 “番茄风控大数据”一起学习一起聊!

风控分析秘籍R-I-S-K相关推荐

  1. r语言实现岭回归_预测分析:R语言实现

    预测分析:R语言实现 作者:(希)鲁伊·米格尔·福特(Rui Miguel Forte) 著 出版日期:2016年10月 文件大小:53.55M 支持设备: ¥40.00仅供试读 适用客户端: 言商书 ...

  2. 高级转录组调控分析和R语言数据可视化第十三期 (线上线下,7月底开课)

    福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.转录组线上直播课.报名参加线上直播课的老师可在365天内选择参加同课程的一次线下课 .期待和大家的 ...

  3. 高级转录组分析和R语言数据可视化第十三期 (线上线下同时开课)

    " 福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程线上直播课.报名参加线上直播课的老师可在1年内选择参加同课程的一次线 ...

  4. 高级转录组分析和R语言数据可视化第12期 (线上线下同时开课)

    " 福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程线上直播课.报名参加线上直播课的老师可在1年内选择参加同课程的一次线 ...

  5. 最后1周 | 高级转录组分析和R语言数据可视化第十一期 (报名线上课还可免费参加线下课)...

    " 福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程线上直播课.报名参加线上直播课的老师可在1年内选择参加同课程的一次线 ...

  6. 最后2周 | 高级转录组分析和R语言数据可视化第十一期 (报名线上课还可免费参加线下课)...

    " 福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程线上直播课.报名参加线上直播课的老师可在1年内选择参加同课程的一次线 ...

  7. 高级转录组分析和R数据可视化第11期(报名线上课还可免费参加线下课2020.6)

    福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程和转录组的线上直播课.报名参加线上直播课的老师可在1年内选择参加同课程的一次线下课 ...

  8. 高级转录组分析和R数据可视化第11期(课程推迟,可先报名,时间另行告知)

    封面来源:https://www.zhihu.com/question/304747766 常规转录组是我们最常接触到的一种高通量测序数据类型,其实验方法成熟,花费较低,是大部分CNS必备的技术,以后 ...

  9. 高级转录组分析和R数据可视化(2020.2,课程推迟,可先报名,时间另行告知)

    封面来源:https://www.zhihu.com/question/304747766 常规转录组是我们最常接触到的一种高通量测序数据类型,其实验方法成熟,花费较低,是大部分CNS必备的技术,以后 ...

最新文章

  1. LINUX分区空间扩容操作
  2. javascript2008
  3. 一文带你学会java的jvm精华知识点
  4. Java配置----JDK开发环境搭建及环境变量配置
  5. linux查看内核版本信息
  6. linux如何秀爱swap大小,老毛桃PE启动U盘集合CDlinux,BT5可保存设置,wifislax,sliatz中文定制版的方法[存档......
  7. 终于讲透了,史上最详细的RS485自动收发电路你一定要掌握
  8. 修改tomcat日志数据路径
  9. 初中英语多词性单词怎么办_初中英语单词按词性分类表.pdf
  10. backtracking line Serach
  11. 关于border设置无边框
  12. 华为s5720默认用户名和密码_华为S5720常用命令
  13. linux下的摄像头驱动怎么安装方法,linux下良田摄像头驱动怎么装?
  14. 笔记本电脑连接宽带的时候报错(调制解调器报告了一个错误)(1024程序节纪念一下自己的最坑)
  15. c语言在bmp图片上写字的函数,在bmp上写字
  16. vue学习日志--3-路由基础配置
  17. 浅谈数学、数学建模与人工智能(机器学习,深度学习)之间的关系?
  18. iOS Mac设置代理以及忽略部分IP代理
  19. 《设计模式之禅》-建造者模式
  20. android开发 pdf阅读器 第三方可,android pdf 阅读器开发, pdf demo, pdf第三方控件

热门文章

  1. 51单片机入门教程(5)——定时器中断
  2. linux 脚本 java_linux系统下运行java项目的脚本编写
  3. springboot获取项目路径_springboot学习
  4. net修复工具_Stimulsoft Ultimate v2020.3.2修复性更新升级!| 附下载
  5. 服务器的数据库文件是哪个文件夹,Oracle数据库服务器参数文件管理技巧是什么?...
  6. java oracle 触发器_Oracle 触发器
  7. 输出毫秒_使用AMETEK直流电源实现波形变化的输出
  8. 写代码用什么笔记本_1—2千预算,编程、写代码、办公、PS修图笔记本推荐/选购指南...
  9. Filter-Policy
  10. python(48):re.split 多分隔符