解读|风控模型的客观认识与深入理解

在信贷风控场景中，我们经常接触到机器学习的分类模型，例如贷前的违约预测、贷中的风险预警、贷后的价值分层等，可以说分类模型是信贷模型体系的主要内容。对于分类模型效果的评估，我们也相对比较熟悉，常用的宏观评价指标包括KS、AUC、Accuracy、Precision、Recall、F1_score等，但在模型实际应用过程中，由于模型应用业务场景的区别，以及建模人员处理方法的差异，针对以上常见评估指标并不会同时用来综合分析，而是选择其中一项或多项来进行描述，最常见的便是指标Accuracy准确率，不仅通俗易懂，而且实现方便，在很大程度上确实可以反映模型决策的应用效果，因此是建模工程师经常采用的模型指标。

对于Accuracy的原理逻辑，是根据分类模型的混淆矩阵推理得到的，具体公式为Accuracy=(TP+TN)/(TP+FP+TN+FN)，其中TP、TN、FP、FN分别代表真正例、真负例、假正例、假负例。Accuracy的取值范围为0~1，值越大说明模型的准确性能越强，这是对模型效果的通俗理解。当然，这个客观规律是没有问题，但需要我们注意的是，模型准确率Accuracy有其一定的局限性，这在模型评价与应用的实际场景中是非常重要的。为了大家进一步理解模型的准确率，本文将结合具体样例为大家简单介绍下指标的应用的局限性。

1、准确率高不一定代表模型效果好
模型准确率指标的推导过程，前提条件是将每个样本结果是同等看待的，也就是无论模型的预测结果正确与否，从模型性能指标分析其每个样本提供的信息影响程度是相同的，此处可以理解为是一种“均匀投票”的机制，与样本数据真实标签的权重没有任何关系。
在这种情形下，现举个实际样例，假设某反欺诈分类模型的建模数据包含10000条样本，目标变量分布0:1（非欺诈/欺诈）的比例为97:3，当然这属于样本不平衡的现象，这对于信贷业务的欺诈识别、销卡预测等场景是很常见的。在此建模场景下，如果我们不对样本不平衡情况进行有效处理，那么模型最终预测结果即使将目标1（欺诈）全部判断为0，则模型的准确率Accuracy值为97%，显然这个值对于准确度指标来讲是很高的，在不深入理解建模数据分布的情况下，让人很容易误解为模型的效果很好，而实质上模型的性能很差，也就是将真实欺诈用户全部预测为非欺诈，显然这并不符合实际业务需求。
因此，模型准确率高并不代表模型的效果，具体需要分析实际业务的应用场景，以及样本数据的分布情况。在信贷风控的日常工作中，如果听到有某个模型的准确率指标可以达到多高，不要简单的认为模型效果很好，而是需要进一步了解建模的具体场景。如果客观认识到模型的Accuracy（准确率）不能有效反映模型效果的好坏，可以采用其他模型指标来进一步判断分析，例如Precision（精确率）、Recall（召回率）、F1_score（F1分数）等。

2、准确率相同不代表模型判别能力相同
以上关于“准确率高不一定代表模型效果好”的问题，是围绕建模样本数据不平衡场景来描述的，虽然属于特殊场景但也是经常遇到的。其实对于正常场景也就是建模样本数据比较平衡的情形下，模型的Accuracy（准确率）指标依然存在着明显的局限性，那就是准确率相同不代表模型判别能力相同，现结合样例进行说明。
现有一份建模样本数据，采用不同的分类模型算法（例如逻辑回归、XGBoost等），或者采用同一模型算法但不同入模参数（优化方法、迭代次数、学习率等），来建立两个分类模型，其模型预测概率的分布结果如下图所示。

图1 模型效果对比

上图展示的模型效果对比信息，为了便于分析假设建模数据只有10个样本id，true_label为样本的真实标签，predict_prob1、predict_prob2分别为两个分类模型对样本标签的预测概率，假设分类阈值threshold设置为0.5，则模型预测标签结果分别为predict_label1、predict_label2。
由模型预测结果可以看出，这两个模型的预测结果label是相同的，通过真实标签与预测标签对比可知，预测错误的样本id为N02、N08、N09，其余id预测正确，从模型指标Accuracy来分析，两个模型的准确率均为70%（7/10）。接下来便是我们想要描述的重点，若以模型Accuracy来衡量这两个分类模型的效果，那模型性能看起来是一致的。但是，我们可以进一步分析下预测标签predict_label的前提逻辑，也就是预测概率predict_prob，可以发现对于同一个样本的相同预测结果label，模型2的预测概率predict_prob表现更为优秀。例如，对于预测正确的样本N01，两个模型对应的预测概率值分别为0.871、0.962，模型2预测此样本为1的概率更高，对分类标签的判断精度更强。再例如，对于预测错误的样本N02，两个模型对应的预测概率值分别为0.173、0.469，模型2预测此样本为1的概率同样更高，虽然没达到分类阈值0.5，但相比模型1的预测精度更为合理。综合两个预测样例，可以说明模型2的分类性能是明显优于模型1，但从宏观指标准确率Accuracy是看不出的。
针对以上情况，在实际业务场景中，在两个模型准确率Accuracy一致的情况下，若不考虑其他模型指标（Precision、Recall、F1_score等），可以采用一个应用不是很广泛但特别有效的指标来进行分析，这个指标名称是“交叉熵”，简称BCE，可以直接反映分类模型自身的识别判断能力，原理逻辑公式如下：

其中，pn表示第n条样本模型预测对应真实标签label的概率（若label为1则为预测1的概率，若真实标签为0则为预测0的概率）。
模型交叉熵BCE的取值越小，说明模型对类型判别的区分能力越强。根据以上交叉熵的推导公式，可以得到模型1与模型2的BCE值，具体如下所示：

根据模型的交叉熵结果对比，由于BCE1<BCE2，说明模型1与模型2的分类判别能力是存在一定差异的，且模型2的区分能力更好，这也进一步验证了前边预测精度的分析过程与结论。因此，在实际场景中，模型的准确率相同并不代表模型判别能力相同，在多个模型的准确率Accuracy比较接近的情况下，可以考虑采用模型的交叉熵指标来分析，当然更不影响KS、AUC、Precision、Recall、F1_score的综合应用，具体需要结合场景需求以及建模经验，这也是风控的可妙之处。
综合以上内容，我们围绕实际业务场景，深入分析了模型准确率Accuracy指标应用的细节，一个是准确率高不一定代表模型效果好，另一个是准确率相同不代表模型判别能力相同，便于大家日常在建立分类模型任务中，更客观的理解模型效果与深入评价方法，从而提高自身的模型理解与分析能力。
关于风控模型相关的内容，在我们历史的会员课程跟知识星球社区平台中，也跟大家分享过不少相关干货文档跟文字。如这一期的文档内容，也得到了许多童鞋的点赞，如果还没查看，可以到知识星球平台学习这一相关内容：

关于风控模型，有兴趣的童鞋可关注：

…

~原创文章

解读|风控模型的客观认识与深入理解相关推荐

解读:信贷业务风控逾期指标及风控模型评估指标
<解读>信贷业务风控逾期指标及风控模型评估指标一.互联网金融中需要关注的风控逾期指标 1.逾期天数 DPD (Days Past Due) 自应还日次日起到实还日期间的日期数举例:DP ...
【采用】解读消金业务风控模型的6个层级
一.风控重要性如果把平台比喻为一颗树,那么需要投入足够的养分才能快速生长,而业务风险则是寄生于树木窃取养分的角色,只有能够充分抵御这种风险的才能成长为参天大树.这就是业务风险在平台发展中扮演的角色. ...
【易通慧谷】业务风控产品模型思考：解读业务模型的6个层级
一直想找个机会说说我对业务风控的一些业务及产品上的理解.由于业务敏感性,有些东西不能写的太详细,见谅. 业务风控重要性如果把平台比喻为一颗树,那么需要投入足够的养分才能快速生长,而业务风险则是寄生于 ...
风控模型师面试准备--技术篇（逻辑回归、决策树、集成学习）
原文地址:https://zhuanlan.zhihu.com/p/56175215 编辑于2019-02-12,持续更新中,有风控建模工作经验的,或者想转行风控建模的小伙伴可以互相交流下... 一. ...
风控模型师面试准备--技术篇
转载:https://zhuanlan.zhihu.com/p/56175215 一.算法逻辑回归决策树集成学习(随机森林,Adaboost,GBDT,XGBOOST,LightGbm) 二.特 ...
小微风控模型汇总与企业征信报告指南
番茄风控文章上关于小微风控模型内容,之前相关的有: 不能不知-小微最常见的两大场景模型- 当时谈到了小微风控的两类模型:营收预估模型与逾期预测模型,今天的内容会在这个基础上再介绍另外两大类模型,即欺诈 ...
【金融干货】四步教你：开发风控模型？
一.市场调研目前市面主流的风控模型 1.互联网金融前10名排行榜(数据截止日期2017-09-12) 互联网金融公司排名分别是蚂蚁金服.陆金所.京东金融.苏宁金融.百度金融.腾讯理财通.宜信.钱大掌 ...
【转需】【金融干货】四步教你：开发风控模型？
一.市场调研目前市面主流的风控模型 1.互联网金融前10名排行榜(数据截止日期2017-09-12) 互联网金融公司排名分别是蚂蚁金服.陆金所.京东金融.苏宁金融.百度金融.腾讯理财通.宜信.钱大掌 ...
如何用AI算法识别骗保行为？蚂蚁保险智能风控模型首次公开！
阿里妹导读:人生充满意外和不确定性,保险的使命,就是给人以安全感.风控是保险业务正常发展的重要环节,成长于互联网环境下的保险风控更为重要. 今天,阿里工程师正在利用跨平台体系下的海量数据资源和智能风控 ...
如何量化样本偏差对信贷风控模型的影响？
风控是信贷业务的核心,业务实践中经常会出现样本选择性偏差(sample bias),从而影响模型效果,影响信贷业务.而很多风控模型也都只能基于有偏样本建立.对于样本偏差对风控模型的影响,很多模型同学一 ...

解读|风控模型的客观认识与深入理解

解读|风控模型的客观认识与深入理解相关推荐

最新文章

热门文章