转:原文链接:https://mp.weixin.qq.com/s/jtaJWqR6SRnw5GLLC54dbw
不论是银行还是非银机构进行金融信贷产品展业过程中,都需要持续的与外界资源进行互换沟通。获客、导流、风控、委外催收,正是因为整个产业链条的分工合作,金融信贷产业才可以总体维稳、获益。

不论是金融第一梯队银行类,还是二、三梯队非银机构,风控部门在进行信贷风险控制环节都需要接入大量的第三方外部数据,以此支撑信用风险精准判断与预险。

如何选择合适的第三方数据源,保证风险可控的前提下节省数据成本,一份实操案例教你来选!

案例介绍

一份案例:现有1000个样本数据,分别测试2家黑名单,2家欺诈名单与2家多头,如何选择合适的第三方数据源?

首先要专业科普选择第三方数据源重要考察的5大指标计算公式(以黑名单为例):

1.查得率(Search rate)=查得数/样本量
2.覆盖率(Cover rate)=查得命中黑名单数/样本中命中黑名单量
3.误拒率(Error reject rate)=查得命中黑名单数/样本中通过且为Good量
4.有效差异率(Effective difference rate)=查得命中黑名单数/样本中通过且Bad量
5.无效差异率(Invalid difference rate)=查得命中黑名单数/样本中其他拒绝量

其中SR、CR、EDR指标越高越好,ERR越低越好,IDR与EDR结合起来观察,如果IDR和EDR都较高,反应的一种情况是数据源定义黑名单是广撒网式,黑名单质量相对不够精准。

其中前三个指标是重点考察,如果想更全面的测试第三方数据源,后面两个差异率指标也可以加入考核标准。

测试数据与考核指标关系图如下

数据介绍

1000个测试样本数据中,审批结果字段表示样本通过和拒绝,其中通过样本中有未逾期和发生逾期的客户样本,拒绝样本中有通过黑名单库拒绝客户,也有其他原因产生拒绝。比如,数据源1(黑名单)代表一家提供黑名单数据的数据供应商A,数据源2(黑名单)代表另一家提供黑名单数据的数据供应商B,以此类推。

分析方法

本次以黑名单数据测试为例讲解

对1000条测试数据返回结果进行整理可以总结出如上数据概要,对比看到数据源1的返回结果如下:

1.查得总量814个;
2.命中黑名单35个;
3.通过中为Good3个;
4.通过中为Bad8个;
5.其他拒绝为22个;

数据源2的测试返回情况以此类推。

采用专业考察第三方数据源的五大指标,对以上返回结果计算分析得到以下结果:

按照文章开始介绍的指标分析方法,对比数据源1和数据源2的测试结果可以得出如下结论:

1.数据供应商1的查得率、覆盖率高于数据供应商2大约5%、4%;
2.数据供应商1的误拒率低于数据供应商2大约0.3%;
3.数据供应商1的有效差异率低于数据供应商2大约8%,无效差异率低于数据供应商2大约7%;

依据五大指标分析标准,SR、CR、EDR指标越高越好,ERR越低越好,IDR与EDR结合起来观察,如果IDR和EDR都较高,反应的一种情况是数据源定义黑名单是广撒网式,黑名单质量相对不够精准!

最终分析结论:

数据供应商2虽然覆盖的黑名单比数据供应商1的更广,但其不如数据供应商1精准,更偏向选择数据供应商1的黑名单数据。

【数据来源】如何选择合适的第三方数据源相关推荐

  1. 一条案例:如何选择合适的第三方数据源

    一条案例:如何选择合适的第三方数据源 真实案例阐述 不论是银行还是非银机构进行金融信贷产品展业过程中,都需要持续的与外界资源进行互换沟通.获客.导流.风控.委外催收,正是因为整个产业链条的分工合作,金 ...

  2. 服务端指南 数据存储篇 | 选择合适的数据存储方案

    在服务端会经常遇到数据存储的选型问题,是选择使用关系型数据库 MySQL,还是选择内存数据库 Redis,还是选择文档数据库 MongoDB,还是选择列族数据库 HBase, 还是选择全文搜索引擎 E ...

  3. AI-数据与模型匹配(面对数据该怎么选择合适的模型?)

    文章目录 1.机器学习 1.1 通过内容进行年龄和性别预测 1.2 垃圾邮件分类 1.3 金融反欺诈二分类 1.4 音乐推荐系统 1.5 手写数字识别 2.深度学习 2.1 图像多分类104 2.2 ...

  4. [mongodb翻译]选择合适的shard key

    为一个集合(collection)选择合适的shard key非常重要.如果这个集合非常庞大,那么将来再来修改shard key将会很困难.如有任何疑问请到论坛或者IRC寻求帮助. 示例文档 view ...

  5. Py之scikit-learn:机器学习sklearn库的简介、六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类)、安装、使用方法(实际问题中如何选择最合适的机器学习算法)之详细攻略

    Py之scikit-learn:机器学习sklearn库的简介(组件/版本迭代).六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类).安装.使用方法(实际问题中如何选择最合适的机器学 ...

  6. R语言构建logistic回归模型并评估模型:构建基于混淆矩阵计算分类评估指标的自定义函数、阳性样本比例(垃圾邮件比例)变化对应的分类器性能的变化、基于数据阳性样本比例选择合适的分类评估指标

    R语言构建logistic回归模型并评估模型:构建基于混淆矩阵计算分类评估指标的自定义函数.阳性样本比例(垃圾邮件比例)变化对应的分类器性能的变化.基于数据阳性样本比例选择合适的分类评估指标 目录

  7. 为数据科学和机器学习选择合适的笔记本电脑,完成数据科学和机器学习任务的完美笔记本电脑的 20 个必要条件

    如果您正在学习数据科学和机器学习,那么您肯定需要一台笔记本电脑.这是因为您需要编写和运行自己的代码才能获得实践经验.当您还考虑便携性时,笔记本电脑是最好的选择,而不是台式机. 传统的笔记本电脑可能不适 ...

  8. 如何为数据中心综合布线选择合适的MPO连接器芯数?

    MPO预端接光纤跳线应用于数据中心高密度综合布线中,目前常用MPO-8和MPO-12两款方案.客户在为预端接方案选择MPO光纤跳线时,对于在布线中使用8芯还是12芯MPO光缆上总是有些疑问.本文就此问 ...

  9. 2019 年一年中蒸发量和降水量的数据(单位毫米),请你选择合适的图表来对比每个月的蒸发量和降水量,并将其画出来。

    Question: 2019 年一年中蒸发量和降水量的数据(单位毫米),请你选择合适的图表来对比每个月的蒸发量和降水量,并将其画出来. 绘制上图的代码如下: x = np.arange(3) widt ...

最新文章

  1. Spring Cloud 学习二(Eureka)
  2. 基于Lucene/XML的站内全文检索解决方案:WebLucene 【转】
  3. SAP Spartacus和product相关的标准normalizer
  4. java学习(67):匿名内部类
  5. Android4.4的init进程
  6. Echarts数据可视化series-pie饼图,开发全解+完美注释
  7. mysql查询结果输出文件_如何将MySQL查询输出保存到文件?
  8. Python程序的采样分析神器py-spy模块实践
  9. 微信小程序云开发教程-WXSS入门-常用样式
  10. 零基础入门学习Python4
  11. 视觉层次设计方法论:提升界面设计的易读性
  12. 未能联接game center服务器,game center连接不成功怎么办 有哪些修复步骤 - 驱动管家...
  13. 互动让综艺再进化,「黑科技」如何让这届年轻人身临其境做戏精?
  14. Java众神之路(2)-标志符
  15. 使用Pr时输出设备没有声音问题
  16. DS18B20数字温度计 (一) 电气特性, 寄生供电模式和远距离接线
  17. 图像处理----形态学滤波
  18. python语言编程:itertools.product的简介、使用方法(求笛卡尔积等)之详细攻略
  19. 硬件工程师都没人干了_将软件带到硬件上,到底意味着什么?
  20. 阿里云数据库MongoDB版助力吉比特《一念逍遥》游戏斩获千万玩家,运营效率成倍增长

热门文章

  1. 海外调查问卷渠道平台
  2. cf比赛A题总结(输出相同前缀数量的字符串)
  3. 203、商城业务-商品详情-环境搭建
  4. 惯性导航原理(二)-平台式+捷联式+INS精度
  5. 计算机要素--第六章 汇编编译器
  6. Linux Socket学习(十二)
  7. 八年成就开发梦——IT精英中的活雷锋郭红俊
  8. 《数据安全法》9月1日正式实施,最高可罚1000万元
  9. instanceclient安装与配置
  10. 标准光源与色温对应关系