关注+星标,听说他有点意思

全文共2946字,阅读全文需8分钟

大家好,我是小一

前一段时间有参加过天池金融风控的比赛,感觉还挺有意思的。

自己抽空也对金融风控领域做了深入研究,这篇就主要是我自己对于这个领域的理解。


全文无代码

先来看张图

【图片来源网络,侵删】

解释一下:狡猾的狐狸信用不够,猫老师拒绝向其记账。


金融风控

先来说说什么是金融风控

金融风控与电商、广告等场景的风控不同,金融风控主要是涉及到钱的安全,决定了公司的营收甚至是公司的生命线。

如果一家月放款额100亿的公司违约率上升1个点,这个损失应该不算小吧。相反如果通过风控的手段将违约率降低,想必大家的工资也会有所上升。

目前金融领域有:传统金融、互联网金融和消费金融

这三个金融场景的区域是什么啊?

是这样的,传统金融一般指的是国家的四大传统金融机构,包括银行、信托、保险和证券

其中银行负责存贷、理财;信托负责投资、融资;证券负责企业上市与股票相关;保险更多的是做人寿保障之类的。

互联网金融则指的是通过互联网技术实现资金流通的金融活动,包括互联网理财公司、互联网借贷公司和互联网支付公司等。

因为互联网金融在之前并没有相关的正式金融牌照,所以像一些P2P之类的理财、借贷公司就比较疯狂,经常有暴雷事件发生。

消费金融更多的是指能够提供消费类贷款的持牌的非银行类金融机构,比如像xxx呗xx白条等都属于这种。你可以使用自己的个人信息担保,承担一定的利息进行透支消费。

消费金融更多的是使用用户个人信用,例如芝麻信用等,根据用户的历史消费情况给予一定的透支额度。

可以看到,在上面三种金融机构都可以通过风控技术做到两点:

「一是可以减少因违约等产生的坏账,二是可以通过放贷促进消费,提高企业的利润」

风控技术这么厉害的吗?它到底是怎么做到的?

先说说它的缺点,这个比较明显

「首先,风险具有滞后性。」

用户借款后至少要一个月才能知道是否会违约,甚至很多用户在还了半年甚至一年之后才违约。

再者,一般线上获客成本较高且比较麻烦,所以为了提高转化,在授信、申请、审核等环节,线上的操作一般都是实时的。

比如当你在网上提交了自己的相关申请资料,可能几分钟之内后台就会通过你的各项历史数据对你的信用情况作出评价,或因为信用分太低而拒绝你,或通过审核并且给予你一个初始借贷额度。

「其次,风控的业务性复杂」

风控领域中,数据源是非常丰富的,包括有运营商、互联网、征信等等各种数据,相当庞大。

而且,可以使用的正负样本数据的占比及其不均衡的,违约的人总是极少一部分人,否则金融机构早都被骗破产了吧。

风控也是面向业务的,最终的特征、评分等都需要能够和用户对应上,需要较强的可解释性。


总结一下

风控最原始的思路就是根据一个用户的信息,得到这个人是 “会还钱” 还是 “不会还钱”。

到后面有了根据一个用户的信息,判断该不该给他借钱,借多少合适?

以及最后需要根据用户的借贷记录,判断用户会不会还款,应不应该提醒催收等。

什么是风控?

上面我们提到的会不会还钱,该不该借钱,要不要催收都是二分类问题。

而风控的目的主要通过监督算法构建违约概率预测模型进行二分类,通常还使用无监督学习、深度学习算法进行辅助工作。

而评分卡模型其实就是希望能将一系列的个人信息输入模型,然后得到一个用户的还款概率。

概率越大,评分越高,越容易还钱。概率越小,评分越低,越容易跑路。

典型例子就是芝麻信用分。

风控的整体流程

1. 数据采集

一般的数据采集都包括免费数据和付费数据,风控也是。

免费数据包括:运营商、开源数据、网站数据等可以直接拿到的数据,当然,爬虫采集也算是免费数据。

付费数据包括:黑名单数据、征信数据、互联网公司的数据等等

2. 反欺诈

反欺诈主要包括反欺诈规则和反欺诈模型

反欺诈规则对应的是用户在借贷之前系统会先进行准入规则的筛选以及PreA模型等进行有针对性的预过滤。

例如针对抵押借贷、白户借贷等有相应的的数据分析方法和过滤规则。

而反欺诈模型也和一般模型一样,通过用户的特征属性和欺诈标签进行建模

另外也有通过深度学习、社交网络算法、在线学习等手段辅助提高反欺诈模型的准确率。

但是因为欺诈标签不好得到,难以进行有监督的模型训练,所以反欺诈这一块大多还是采用欺诈规则,也就类似于专家系统的专家规则一样。

3. 策略挖掘

策略:通过相应的分析和挖掘手段,得到不同字段、区间之间的各项指标,并找到最佳分段区间,映射成相应的用户信用分

对比芝麻信用分,我们知道用户信用评分是有一个区间,如果是落在信用很好的区间,系统一般都会直接通过。

策略挖掘主要涉及到单变量分析和关键指标计算,例如Vintage、滚动率、迁移率、WOE值、IV值等

4. 风控模型

风控模型主要包A/B/C卡模型,根据发生的时间点不同进行划分。

A卡【申请评分卡】主要部署在贷前阶段,主要作用有3个:参与决策、授信额度、初始利率

A卡是贷前审核的基础模型,一般用到的指标包括两方面:自身属性(通讯录,个人信息等)和第三方属性(历史信贷、运营商信息、消费记录、信用记录(芝麻分)、多头借贷等),通常A卡建模会使用拒绝推断

B卡【行为评分卡】主要部署在贷中阶段,主要是对用户贷中行为的评判,防控贷中风险,同时对用户额度做合理的调整。

主要用到的指标除了A卡中指标外,还包括用户的行为属性(登录、浏览、消费、借款、还款、逾期等)

C卡【催收评分卡】主要部署在贷后阶段,是对逾期用户预测催收反应的概率,从而采取相应的催收策略与措施

可以看到,三种模型产生y的方式不同。

A卡是根据用户历史逾期天数中最大的天数定义y;B卡通过多期借款中逾期最大的一次定义y;C卡一般根据业务不同而不同(例如内催、外催等)。

另外,风控模型主要是通过监督算法构建违约概率预测模型

在实际的项目中会存在样本不均衡、缺失值等各种问题,通常也会使用深度学习、无监督学习等进行辅助处理。

5. 催收

催收作为风控的最终手段,可以通过催收记录的文字描述、触达率、欺诈标签等产生很多对模型有帮助的数据,并且坏账客户会被拉入黑名单。

催收涉及的主要算法是催收模型相关的,可能是有监督、无监督算法,也有社交网络算法构造的失联模型等。

6. 部署与监控

什么是模型部署?

评分卡模型部署可以根据模型变量生成对应评分表,业务人员根据相应的变量区间对应相应的评分值,最终的分值相加即为用户得分。

集成模型因为并非所有变量具有可解释性,并且部分变量无法直观与评分值形成映射表,所以在部署的时候一般都会通过相应的参数设定阈值,在线生成用户得分

那什么又是模型监控?

主要是检测模型是否正常运行,比如,模型分数是否正确,分数以及变量值是否存储,模型分数与利率(额度)策略是否匹配等。

模型分数(概率)分布是否与模型数据集偏差较大,模型拒绝率等。

在后期积累一定线上用户后可评估线上模型的AUC、KS,并且与线下进行比较,衡量模型在线上的实际效果。

模型监控也有很多指标可以进行衡量,例如:一致性监控、PSI、CSI、排序性、区分度等等。

说点题外话

金融风控领域是数据分析领域更深入的一个应用,就好比于数据分析是树干,金融分控只是其中的某片叶子。

具体一点,像数据采集、数据清洗、特征工程这些都是数据分析领域常用的技术,只不过分析的业务不同,对应的指标、规则也发生了变化。

最后,金融风控的整体流程图如下:

- END -

历史文章

【回来了】三个月的心得收获

普及一个数分的领域,可能对你有用相关推荐

  1. 2074:【21CSPJ普及组】分糖果(candy)

    [题目描述] 红太阳幼儿园的小朋友们开始分糖果啦! 红太阳幼儿园有 nn 个小朋友,你是其中之一.保证 n≥2n≥2. 有一天你在幼儿园的后花园里发现无穷多颗糖果,你打算拿一些糖果回去分给幼儿园的小朋 ...

  2. CSP-J2021普及组T1:分糖果(candy) 题解

    题目背景 红太阳幼儿园的小朋友们开始分糖果啦! 题目描述          红太阳幼儿园有 n 个小朋友,你是其中之一.保证 n ≥ 2. 有一天你在幼儿园的后花园里发现无穷多颗糖果,你打算拿一些糖果 ...

  3. When Cyber Security Meets Machine Learning 机器学习 安全分析 对于安全领域的总结很有用 看未来演进方向...

    链接:http://ucys.ugr.es/jnic2016/docs/MachineLearning_LiorRokachJNIC2016.pdf https://people.eecs.berke ...

  4. 2020年,『小一的学习笔记』文章合集

    大家好,我是小一 花了点时间整理了 2020 年公众号的所有发布文章,一共发了 70 篇,70 篇都是原创. 其中在 6 月到 10 月这三个月时间里,由于自己的方向出了点问题,也就没有在公众号上继续 ...

  5. 同事微博涨粉200+,一顿分析真爱粉只有4个??

    ↑关注+星标,听说他有点东西 全文共2696字,阅读全文需10分钟 大家好,我是小一 事情是这样的,同事小A说他最近微博涨粉老快了,但是自己还是和以前一样就偶尔发发动态,看看新闻吃吃瓜,也没买啥涨粉包 ...

  6. 02 | 领域、子域、核心域、通用域和支撑域:傻傻分不清?

    目录 如何理解领域和子域? 如何理解核心域.通用域和支撑域? 那为什么要划分核心域.通用域和支撑域,主要目的是什么呢? 总结 DDD 的知识体系提出了很多的名词,像:领域.子域.核心域.通用域.支撑域 ...

  7. 实验4-2-3 验证“哥德巴赫猜想” (20 分)

    实验4-2-3 验证"哥德巴赫猜想" (20 分) 数学领域著名的"哥德巴赫猜想"的大致意思是:任何一个大于2的偶数总能表示为两个素数之和.比如:24=5+19 ...

  8. 解释深度学习在安全领域中的应用

    摘要: 虽然深度学习在各个领域显示出巨大的潜力,但缺乏透明度限制了它在安全或关键安全领域的应用.现有的研究试图开发解释技术,为每个分类决策提供可解释的解释.不幸的是,当前的方法是针对非安全性任务(例如 ...

  9. php实现两个数相乘,最高效的乘法:两个非常大的数字相乘迄今最快算法

    基本上,每个人都认为你在学校学习的(相乘)方法是最好的,但实际上这是一个活跃的研究领域,"法国国家科学研究中心的数学家.论文合著者约里斯·范德霍芬说道.该论文发表在法国的国家开放存取文献数据 ...

最新文章

  1. python 添加新元素时如果有重复的不进行添加_清华毕业大佬整理的Python基础22大知识点,自备热水,这货有点干...
  2. 腾讯云,搭建Docker环境
  3. 经典问题:微服务和分布式的区别
  4. linux之readelf命令
  5. android开机动画多长时间_Android系统开机动画的一生
  6. SxSW小组成员讨论了Valley调查中的Elephant
  7. Java MyBatis 别名
  8. springboot接收多对象_springboot实现邮件发送
  9. bzoj 4501 旅行
  10. 韩顺平java面向对象高级编程学习笔记
  11. 雅虎前端优化35条军规
  12. vue xlsx插件导入
  13. 蜀山剑侠传-----第二十回
  14. SharedPreferences in credential encrypted storage are not available until after user is unlocked
  15. 修改多台远程服务器,电脑默认用户名Administrator
  16. 如何给电脑硬盘分区?
  17. 测绘——如何在win10环境下安装CAD2006+CASS7.0
  18. 计算机犯罪保护现场,计算机犯罪现场.ppt
  19. android4以下的音乐播放器,动静(音乐播放器)
  20. 电赛2019年F题纸张测量FDC2214的初始化代码(含STM32f103zet6和f103c8t6)胎教式

热门文章

  1. 视频剪辑中 多视频对齐小经验
  2. 计算机维护注意安全的事项,安全注意事项
  3. 【MySQL技术内幕】64-性能优化
  4. micropython开发板性能_MicroPython支持的开发板:高性能、低成本创客首选
  5. 机器学习——分级聚类法介绍及其Python实现
  6. 花落的伤感日志分享:你想要的爱,我给不起
  7. comsol--三维图形随便画----回转
  8. 旺店通签名(python)
  9. 计算机第一启动设备改为U盘,怎么设置u盘为第一启动项bios u盘第一启动项bios设置方法【详解】...
  10. matlab黑白不同线形式,MATLAB:在黑白图像上画一条线