数据来源及分类

外部三方数据源:身份核验类数据、特殊名单类数据、行为特征类数据

内部数据源:申请单类数据、设备类数据、贷后类数据

身份核验类数据

虚假身份:个人身份认真、姓名身份证号验证

是否本人:人像识别认证、身份证OCR识别

是否本人手机号:手机三要素认证

是否本人银行卡:银行卡二要素三要素四要素

学历信息:个人学历信息查询

职业资格:职业资格整数核查

特殊名单类数据

个人失信信息:失信类型涵盖(法院信息、无照经营、工商偷税漏税、法院被执行人、股权冻结、行政处罚)

个人涉诉详情:使用于已知涉诉详情代码,有进一步了解涉诉细节需求的用户,涉诉信息完整,可用于人工审批环节

不良涉诉信息:通过任意关键词查询相关的涉诉信息,支持个人或企业模糊查询。可查询的信息类型包括(裁判文书、法院公告、开庭公告、网贷黑名单、执行公告、案件流程、失信公告、曝光台)

不良信息核查:可通过输入姓名和身份证号查询在逃、前科、涉毒、吸毒等不良信息记录,有效防范有不良记录的用户申请导致的欺诈损失

个人黑名单来源:互金小贷公司、催收公司、支付公司、三方公司整合

个人黑名单信息:被查询人是否为老赖,是否有逾期记录等黑历史、黑名单查询结果包含以下内容

-命中信保逾期名单

-网贷黑名单

-老赖账户

-失信人执行名单

-有过被催收记录

-存在多平台借款嫌疑

-金融机构逾期名单

-存在互联网信贷逾期记录

行为特征类数据

征信数据流向

征信报告的信息类别

个人基本信息:身份信息、配偶信息、居住信息等

信贷交易信息明确:资产处理信息、保证人代偿信息、贷款、贷记卡、准贷卡、担保信息等

查询记录:贷款审批、征信卡审批、贷后管理、查询明细等

信息概要:征信提示、逾期及违约信息概要、授信及负债信息概要等

公共信息明细:欠税记录、民事判决记录、强制执行记录、行政处罚记录、住房公积金参缴记录、养老保险记录、低保救助、行政奖励等

本人申明、异议标注等

银联交易变量及评分:覆盖人群全面,特征变量较多,评分是根据用户的银行卡交易情况对其消费特征的判断。可从风险水平、社会地位、财富能力、消费习惯四个方向分析客户的实际状况

个人交易特征(支付类机构):交易变量覆盖相对年轻的互联网支付的主要人群,根据个人无卡支付交易数据构造特征变量,负债评判个人信用情况。

多头借贷:通过支付机构交易类数据获取的客户从多个金融借款交易类数据聚合而成的多头数据,可以辅助评判个人共欠债等信用情况。

铁路出行:月平均乘车次数、最繁忙月份出发次数、工作日乘车比例、GDC列车车费消费总金额、车费消费平均金额、高端席别乘车比例、互联网购票比例、手机购票比例、提前24h购票比例、提前24-48h购票比例等

航空出行:最频繁使用航空公司、平均延误时间、平均折扣、平均票价、平均提前出票天数、公务舱乘机次数、国内飞行次数、最频繁乘机到达城市、头等舱乘机次数、飞行次数、总飞行里程等

移动APP运营数据:提供使用习惯,用户特征等多维度的特征

设备识别类数据:依靠SDK或JS代码在设备上植入。主动收集设备特征信息多维度的特征

内部数据源

申请单:个人基本信息、工作收入信息、教育信息、房产信息、联系人信息

贷后:个人贷还款数据、交易监测数据、催收数据

搜集:IMEI、IP、MAC、通讯录、通话记录、位置地址、短信记录

内外部数据源的接入分析及使用

• 了解风控审批流程的设计及架构

业务的适用性、风控策略的合理性、审批费用

准⼊政策-身份验证-特殊名单规则-多头规则-风控模型-信用评估

准⼊政策:年龄,地区,产品额度期限校验等

身份验证:身份证实名认证,⼿机实名认证,银⾏卡三四要素等

特殊名单:⿊名单,执⾏名单,失信名单等

多头规则:注册多头,申请多头,借贷多头等

风控模型:反欺诈模型,信用评估模型等

信用评估:收⼊,负债等

• 数据梳理

• 数据收集

样本准备

三个方面:
1. 抽样数据样本的结构(产品比例,渠道比例,时间比例等)
2. 抽样数据样本的业务目标定义(好坏定义)
3. 测试评价⽅法

数据收集

俩种收集⽅式:
1. 补查数据

线下准备⼀批有贷后数据,批量调用查取再分析。

优点:数据源使用之前准备周期短

缺点:如果所查数据源不支持回溯,补查收集的数据可能包括贷后,影响测试效果。

2. 审批时调用实时收集

如果对数据需求程度比较低,审批时对线上申请单实时调用数据,但不做规则,只是收集数据,有贷后表现后再分析使用。

优点:最真实模拟线上情况,排除因时间造成的测试数据源效果的干扰因素

缺点:数据源使用之前准备周期长
注:有些数据源不支持补查,比如需要客户实时授权数据:征信,各种爬虫数据等

• 数据源测试评估指标

数据源效果评估的常用指标:
覆盖率:查得样本数/查询样本数

命中率:针对⿊名单等数据源,命中样本数/查询样本数

IV值: 针对变量,IV衡量的是某⼀个变量的信息量

K-S: K-S值越⼤,表示模型的排序能⼒越好

AUC: AUC值越⼤,模型的排序能⼒越好
对于K-S和AUC来说,更多针对数据源是分数,比如芝麻分等。

同时可以将需要测试的变量建模,再看K-S,AUC评估数据源变量的有效性

数据评估及指标--IV

IV(information value),衡量的是某⼀个变量的信息量,从公式来看的话,相当于是自变量woe值的⼀个加权求和,其值的大小决定了自变量对于目标变量的影响程度。

⼀般来说,IV值是用来判定变量好坏预测能力的重要参数,经过初步分栏的变量按IV值排列。IV值低于0.1的变量说明几乎对好坏没有预测能力,这些变量就可以直接排除。

例: 计算方法: IV=sum((p1-p0)*ln(p1/p0)) n1:违约,n0:正常

数据评估及指标--AUC

混淆矩阵:

(1)True Positive Rate,简称为TPR,计算公式为TPR=TP/(TP+FN)——所有真实的“1”中,有 多少被模型成功选出;
(2)False Positive Rate,简称为FPR,计算公式为FPR=FP/(FP+TN)——所有真实的“0”中,有 多少被模型误判为1了; 其中最常用的是TPR和FPR。最理想的模型,当然是TPR尽量高而FPR尽量低,然而任何模型在提高正确预测概率的同时,也会难以避免地增加误判率。听起来有点抽象,好在有ROC曲线非常形象地表达了二者之间的关系。

数据评估及指标--ROC

(1) ROC曲线平面的横坐标是false positive rate(FPR),纵坐标是true positive rate(TPR)。对某个 分类器而言,我们可以根据其在测试样本上的表现得到⼀个TPR和FPR点对。这样,此分类器就可以映射成ROC平面上的⼀个点。调整这个分类器分类时候使用的阈值,我们就可以得到⼀个经过(0, 0),(1, 1) 的曲线,这就是此分类器的ROC曲线。
(2) AUC的值就是处于ROC curve下方的那部分面积的大小。AUC提供了评价模型平均性能的另⼀种方法。如果模型是完美的,那么它的AUC = 1,如果模型是个简单的随机猜测模型,那么它的AUC = 0.5, 如果⼀个模型好于另⼀个,则它的曲线下方面积相对较大。通常,AUC的值介于0.5到1.0之间,较大的AUC代表了较好的performance。

数据评估及指标--K-S

常用的模型评价还有K-S曲线,它和ROC曲线的画法异曲同工。以Logistic模型为例,首先把Logistic模型输出的概率从大到小排序,然后取10%的值(也就是 概率值)作为阀值,同理把10%*k(k=1,2,3,…,9)处的值作为阀值,计算出不同的FPR和TPR值,以 10%*k(k=1,2,3,…,9)为横坐标,分别以TPR和FPR 的值为纵坐标,就可以画出两个曲线,这就是K-S曲线。
从K-S曲线就能衍生出KS值,KS=max(TPR-FPR),即是两条曲线之间的最大间隔距离。当(TPR-FPR)最大时,也就是ΔTPR-ΔFPR=0,这和ROC曲线上找最优阀值的条件ΔTPR=ΔFPR是一样的。从这点也可以看出,ROC曲线、K-S曲线、KS值的本质是相同的。

• 数据源测试分析实例及使用

黑名单类:

1. 测试说明:

测试数据源:A,B,C,D,E

抽样数量:8997

逾期定义:term=3,max_dpd>=85

数据分析方法:命中率,逾期率

2. 数据源命中率及逾期率分析:

3. 数据源命中率及覆盖率分析:

4. 数据源逾期率分析:

变量类:

1. 测试说明:

测试数据源:A,B,C

抽样数量:9646

逾期定义:term=1,max_dpd>=7

数据分析方法:命中率,缺失率,IV

2. 数据源命中率及逾期率分析:

数据使用

数据源使用方法:

• 制定规则

• 建立模型
一般情况下,数据源返回结果比较简单,比如:是否命中黑名单,是否为法院失 信,法院执行人等可以制定规则命中就拒绝。如果数据源返回为批量变量,或者 为报告形式信息量多,可以建立模型。但是理论上都可以将数据源返回结果建模, 只要最后模型的表现效果好,都可以使用。

审批使用规则时,最好分流保留一定比例的客户不使用此规则,即将客户随机按一定比例分为两类,两类客户唯一差异为一类使用此规则,一类没有使用此规则,其他审批规则都一样。通过这两类客户的贷后差异来判断此规则是否有效,再进行逐步调优。
Test&Learn “测试与学习”是⾦融机构在少数区域或客户中测试先验假设,根据测试反馈的结果,调整优化这个假设,如此反复迭代,使假设逐步逼近真实情况的过程。

数据源后续监控分析

数据源命中和覆盖率分析

数据源逾期率分析

数据源单变量分析

方法一

规则使用有贷后表现后,选取规则拒绝与规则通过账户比较贷后:
1.如果规则拒绝账户的逾期率>规则通过账户的逾期率,说明规则有效
2.如果规则拒绝账户的逾期率<=规则通过账户的逾期率,说明规则制定的不合理,可以根据前面步骤根据业务经验重新制定,也可以暂停此规则再收集一段时间数据,如果最后结果还是这样,可以考虑将规则返过来使用

方法二

1.模型分的分布是否与开始分析时一样
2.观察模型分与逾期率是否保持单调

3.有贷后后定期计算KS、AUC,如果KS、AUC效果不是很好,累计一段时间 样本后可以考虑重新训练个模型

方法三

换入换出分析 矩阵可通过计算不同政策下的逾期和通过等情况,对两个不同的政策影响进行分析 比较。其表示形式如下:

风控数据来源及分析技巧相关推荐

  1. WPS Excel数据表格处理分析技巧

    WPS EXCEL如何分割指定的字符串 当EXCEL表格中有一列或多列字符串,你只需要其中一部分字符串,如何获取你想要的字符串呢?这需要将字符串分隔,只取出自己想要长度的字符就行,在EXCEL中可以使 ...

  2. 【工业大数据】工厂大数据之数据源分析;如何挖掘并驾驭大数据的价值,成为“大数据企业”?

    众所周知,工业大数据是工厂智能化水平提升的关键路径,而数据源的分析和管理是工厂大数据的基础,理清理顺数据源也是实施工厂大数据的第一步.本文就对工厂的数据源进行简要分析. 数据源的划分 以下从两个维度对 ...

  3. 【ArcGIS小技巧视频教程】(1):GIS数据来源下载攻略

    无论是制图还是分析,我们都离不开数据,今天我们就为大家分享一些免费下载数据的网址及下载数据的方法,文末附视频教程. 这里我们为大家提供了一些免费获取数据的网站: (1)GIS数据下载网址大全:收集了常 ...

  4. 风控数据分析师,有哪四大分析工具必须掌握的?

    信贷风控正从传统的人工时代转型进入数字风控.很多同学因为各种原因追随这个行业的步伐不够快,导致没来得及跟上行业和风向的变化,不少从业者都陷入了困境之中.自我们的平台创办以来,后台收到小伙伴询问的top ...

  5. clair、anchore、trivy开源数据库的数据来源分析

    数据来源分析 trivy trivy 分了四个仓库进行维护,分别是 trivy 负责提供cli交互程序 trivy-db 负责将处理好的数据打包成blot格式 vlun-list 负责存放处理好的原始 ...

  6. 大数据下的竞彩足球胜平负分析技巧2

    上期内容: 大数据下的竞彩足球胜平负分析技巧1_sundayhost的博客-CSDN博客 上期内容分析.证明了竞彩官方终赔时,当主队让1球同时又满足:让负赔率>平负均值赔率的情况出现了6胜3平1 ...

  7. 【论文阅读】You Are What You Do:通过数据来源分析寻找隐蔽的恶意软件

    You Are What You Do: Hunting Stealthy Malware via Data Provenance Analysis NDSS-2020 伊利诺伊大学香槟分校.德克萨斯 ...

  8. 三维数字虚拟GIS沙盘教程第30课:电子地图数据来源分析

    现在不管什么GIS平台首先要解决的就是数据来源问题,因为没有数据的GIS就是一个空壳,下面我就目前一些主流的数据获取 方式了解做如下之我见(主要针对互联网上的一些卫星图,和一些矢量瓦片图) https ...

  9. 反欺诈技术揭秘-设备指纹VS关系网络模型 此博文包含图片 (2017-05-12 10:23:52)转载▼ 标签: 设备指纹 关系网络 反欺诈 神经网络模型 分类: 风控 文章来源:网络(经整合梳理

    反欺诈技术揭秘-设备指纹VS关系网络模型 (2017-05-12 10:23:52) 转载▼ 标签: 设备指纹 关系网络 反欺诈 神经网络模型 分类: 风控 文章来源:网络(经整合梳理,仅供交流学习使 ...

  10. 脚本类恶意程序分析技巧汇总

    文章目录 前言 python样本分析 打包一个hello world 关于python文件 什么是pyc文件 什么是pyo文件 什么是pyd文件 为什么需要pyc文件 关于打包的exe位数 pytho ...

最新文章

  1. Spring PropertyPlaceholderConfigurer Usage - 使用系统变量替换spring配置文件中的变量
  2. [Vue.js] 模块化 -- 前端模块化
  3. 使用DbVisualizer导出DB2创建序列SQL
  4. PHP泡泡龙源码,JS泡泡龙游戏网页版+完整代码
  5. 对servelet路径的总结
  6. 最急救助(【CCF】NOI Online能力测试3 入门组)
  7. Video Analysis 相关领域解读之Video Captioning(视频to文字描述)
  8. CarMaker试用版许可证申请与软件安装过程
  9. 微型计算机机安装硬盘教程,台式机械硬盘怎么安装?机械硬盘安装图解教程(SATA固态可参考)...
  10. HTTP防病毒网关(包括UTM)存在的问题
  11. linux 安装pgadmin4
  12. python中怎么定义二维数组_如何在Python中定义二维数组
  13. androidstudio图片居中_android studio textView 垂直居中
  14. 英文网页翻译中文失败、QQ文件打不开、QQ系统消息打不开等
  15. 荣耀加冕,追梦不休 | 我的大学时光
  16. 1849 将字符串拆分为递减的连续值(递归)
  17. NI multism 设计单脉冲发生器实验报告
  18. 大数据分析行业发展趋势
  19. 虚拟服务器怎样做网站,怎么用虚拟主机做网站
  20. Ubuntu完全使用文档_我是亲民_新浪博客

热门文章

  1. android egl使用方法,Android EGL
  2. 哮喘病人小气道上皮细胞 (Asthma) Small airway epithelial cells 培养解决方案
  3. 第一次尝试使用Python创建季节性ARIMA模型
  4. 文件上传与下载之数据库实现
  5. 苟富贵倒萨忽然他确实
  6. Matlab数值剔除
  7. c语言三阶素数魔方阵,C语言 三阶魔方阵
  8. win版本openssl工具下载安装
  9. 13.CUDA编程手册中文版---附录I C++ 语言支持
  10. 时间序列频繁模式挖掘:GSP算法、SPADE算法