【数据来源】如何选择合适的第三方数据源

转：原文链接：https://mp.weixin.qq.com/s/jtaJWqR6SRnw5GLLC54dbw
不论是银行还是非银机构进行金融信贷产品展业过程中，都需要持续的与外界资源进行互换沟通。获客、导流、风控、委外催收，正是因为整个产业链条的分工合作，金融信贷产业才可以总体维稳、获益。

不论是金融第一梯队银行类，还是二、三梯队非银机构，风控部门在进行信贷风险控制环节都需要接入大量的第三方外部数据，以此支撑信用风险精准判断与预险。

如何选择合适的第三方数据源，保证风险可控的前提下节省数据成本，一份实操案例教你来选！

案例介绍

一份案例：现有1000个样本数据，分别测试2家黑名单，2家欺诈名单与2家多头，如何选择合适的第三方数据源？

首先要专业科普选择第三方数据源重要考察的5大指标计算公式（以黑名单为例）：

1.查得率(Search rate)=查得数/样本量
2.覆盖率(Cover rate)=查得命中黑名单数/样本中命中黑名单量
3.误拒率(Error reject rate)=查得命中黑名单数/样本中通过且为Good量
4.有效差异率(Effective difference rate)=查得命中黑名单数/样本中通过且Bad量
5.无效差异率(Invalid difference rate)=查得命中黑名单数/样本中其他拒绝量

其中SR、CR、EDR指标越高越好，ERR越低越好，IDR与EDR结合起来观察，如果IDR和EDR都较高，反应的一种情况是数据源定义黑名单是广撒网式，黑名单质量相对不够精准。

其中前三个指标是重点考察，如果想更全面的测试第三方数据源，后面两个差异率指标也可以加入考核标准。

测试数据与考核指标关系图如下

数据介绍

1000个测试样本数据中，审批结果字段表示样本通过和拒绝，其中通过样本中有未逾期和发生逾期的客户样本，拒绝样本中有通过黑名单库拒绝客户，也有其他原因产生拒绝。比如，数据源1（黑名单）代表一家提供黑名单数据的数据供应商A，数据源2（黑名单）代表另一家提供黑名单数据的数据供应商B，以此类推。

分析方法：

本次以黑名单数据测试为例讲解

对1000条测试数据返回结果进行整理可以总结出如上数据概要，对比看到数据源1的返回结果如下：

1.查得总量814个；
2.命中黑名单35个；
3.通过中为Good3个；
4.通过中为Bad8个；
5.其他拒绝为22个；

数据源2的测试返回情况以此类推。

采用专业考察第三方数据源的五大指标，对以上返回结果计算分析得到以下结果：

按照文章开始介绍的指标分析方法，对比数据源1和数据源2的测试结果可以得出如下结论：

1.数据供应商1的查得率、覆盖率高于数据供应商2大约5%、4%；
2.数据供应商1的误拒率低于数据供应商2大约0.3%；
3.数据供应商1的有效差异率低于数据供应商2大约8%，无效差异率低于数据供应商2大约7%；

依据五大指标分析标准，SR、CR、EDR指标越高越好，ERR越低越好，IDR与EDR结合起来观察，如果IDR和EDR都较高，反应的一种情况是数据源定义黑名单是广撒网式，黑名单质量相对不够精准！

最终分析结论：

数据供应商2虽然覆盖的黑名单比数据供应商1的更广，但其不如数据供应商1精准，更偏向选择数据供应商1的黑名单数据。

【数据来源】如何选择合适的第三方数据源相关推荐

一条案例：如何选择合适的第三方数据源
一条案例:如何选择合适的第三方数据源真实案例阐述不论是银行还是非银机构进行金融信贷产品展业过程中,都需要持续的与外界资源进行互换沟通.获客.导流.风控.委外催收,正是因为整个产业链条的分工合作,金 ...
服务端指南数据存储篇 | 选择合适的数据存储方案
在服务端会经常遇到数据存储的选型问题,是选择使用关系型数据库 MySQL,还是选择内存数据库 Redis,还是选择文档数据库 MongoDB,还是选择列族数据库 HBase, 还是选择全文搜索引擎 E ...
AI-数据与模型匹配（面对数据该怎么选择合适的模型？）
文章目录 1.机器学习 1.1 通过内容进行年龄和性别预测 1.2 垃圾邮件分类 1.3 金融反欺诈二分类 1.4 音乐推荐系统 1.5 手写数字识别 2.深度学习 2.1 图像多分类104 2.2 ...
[mongodb翻译]选择合适的shard key
为一个集合(collection)选择合适的shard key非常重要.如果这个集合非常庞大,那么将来再来修改shard key将会很困难.如有任何疑问请到论坛或者IRC寻求帮助. 示例文档 view ...
Py之scikit-learn：机器学习sklearn库的简介、六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类)、安装、使用方法(实际问题中如何选择最合适的机器学习算法)之详细攻略
Py之scikit-learn:机器学习sklearn库的简介(组件/版本迭代).六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类).安装.使用方法(实际问题中如何选择最合适的机器学 ...
R语言构建logistic回归模型并评估模型：构建基于混淆矩阵计算分类评估指标的自定义函数、阳性样本比例（垃圾邮件比例）变化对应的分类器性能的变化、基于数据阳性样本比例选择合适的分类评估指标
R语言构建logistic回归模型并评估模型:构建基于混淆矩阵计算分类评估指标的自定义函数.阳性样本比例(垃圾邮件比例)变化对应的分类器性能的变化.基于数据阳性样本比例选择合适的分类评估指标目录
为数据科学和机器学习选择合适的笔记本电脑，完成数据科学和机器学习任务的完美笔记本电脑的 20 个必要条件
如果您正在学习数据科学和机器学习,那么您肯定需要一台笔记本电脑.这是因为您需要编写和运行自己的代码才能获得实践经验.当您还考虑便携性时,笔记本电脑是最好的选择,而不是台式机. 传统的笔记本电脑可能不适 ...
如何为数据中心综合布线选择合适的MPO连接器芯数？
MPO预端接光纤跳线应用于数据中心高密度综合布线中,目前常用MPO-8和MPO-12两款方案.客户在为预端接方案选择MPO光纤跳线时,对于在布线中使用8芯还是12芯MPO光缆上总是有些疑问.本文就此问 ...
2019 年一年中蒸发量和降水量的数据（单位毫米），请你选择合适的图表来对比每个月的蒸发量和降水量，并将其画出来。
Question: 2019 年一年中蒸发量和降水量的数据(单位毫米),请你选择合适的图表来对比每个月的蒸发量和降水量,并将其画出来. 绘制上图的代码如下: x = np.arange(3) widt ...

【数据来源】如何选择合适的第三方数据源

【数据来源】如何选择合适的第三方数据源相关推荐

最新文章

热门文章