贷中客群评级的场景实现，来试试这些多维的实操方法

客户价值评估是信贷业务体系的典型场景，无论是针对风险控制，还是侧重策略营销，围绕客户群体的价值分层，始终是数据分析范围内一个重要且必要的话题。从信贷风控的角度来讲，客户价值评估可以贯穿贷前、贷中、贷后整个流程，现对风控不同阶段举几个细化的模型应用场景。
（1）贷前环节：对于申请进件新客户的价值评估，可以将客户群体进行流量分层，便于针对不同客群采取不同的风控策略，或者授予不同的额度定价；
（2）贷中环节：对于在贷存量客户的价值评估，可以量化贷中期间客户群体的风险异变或资质能力情况，有助于对客户完成贷中风险预警或交叉营销；
（3）贷后环节：对于贷款周期结束且全部还款的客户，通过价值评估分析，可以实现对价值较高客户进行二次营销或睡眠激活，从而提高客群的活跃度。通过以上几个细化场景示例初步可以了解到，客户群体的价值评估在信贷业务中发挥着非常关键的作用，对于风险定价、精准营销、客户画像等应用场景，具有极为重要的意义。

1、贷中客户价值评估
客户价值评估模型的重要度无需多言，但是根据实际业务需求，如何构建模型是一个有意思的话题，例如实际业务场景的理解、机器学习算法的选择、模型应用期望的效果等，都是建立客户价值评估模型的重要思考维度。本文围绕信贷业务的贷中场景，来具体描述下客户价值评估的意义所在。在贷中期间，存量客户群体虽然同属贷款生命周期内，但随着时间周期的推移，客户的行为表现必然会有一定变化，而这些特点在很大程度上可以体现出客户未来的价值度高低。我们若能采用模型来量化客户的价值等级，则可以有效的实施精准营销，也就是对于不同潜在价值的客户群体，采取差异化的营销策略，从而提升业务的综合收益。通常情况下，我们往往将客户价值评估模型单纯理解为是一种多分类问题，例如客户价值等级分为A、B、C、D，从A到D代表客户价值越低，采用LR、GBDT、XGBoost、LightGBM等机器学习算法，训练拟合多分类模型，在实际应用中通过模型对新老客户进行评估，输出A_{D等级的其中一类，从而实现了业务场景对客户的价值评估，也可以理解为客户群体的价值分层。当然，这个模型的应用过程与输出结果，对分析新增或存量客户的资质能力、风险定价有很好的参考价值，以上逻辑也是完全符合实际业务场景的需求，以及对客户价值评估模型的理解。但是，从模型类型或者业务问题来讲，客户价值评估模型并不是简单指多分类模型，也可以是二分类模型，还可以是回归模型，甚至可以是聚类模型，具体完全取决于建立模型的方法，以及模型输出结果的业务理解与场景应用，这些内容便是本文将要介绍的重点。围绕客户价值评估模型，我们从机器学习算法与模型场景应用的角度，大体介绍下模型类型的归属问题，以及各模型场景的原理思想，具体示例描述如下：（1）二分类问题：通过LR、GBDT、XGBoost、LightGBM、随机森林等机器学习算法，训练有监督二分类模型，模型目标变量为类别型，例如取值1、0，代表客户是、否有价值；（2）多分类问题：通过LR、GBDT、XGBoost、LightGBM、随机森林等机器学习算法，训练有监督多分类模型，模型目标变量为类别型，例如取值1、2、3、4，代表客户价值的等级，数值越大说明客户的价值越高；（3）回归问题：通过线性回归、KNN、SVR、GBDT、随机森林等机器学习算法，训练有监督回归模型，模型目标变量为连续型，例如取值0.1}1，代表客户价值的系数，数值越大说明客户的价值越高；（4）聚类问题：通过Kmeans、DBSCAN、BIRCH、OPTICS等机器学习算法，训练无监督聚类模型，模型无目标变量，通过聚类各簇（例如0、1、2）特征变量的统计分析描述指标（例如均值、极值等），围绕客户群体的画像描述来评估客户价值度的高低。通过以上对客户价值评估模型场景的分析，我们可以较为明确的了解到，针对客户群体的价值评估，并不局限于某一类模型问题，而是从二分类、多分类、回归、聚类各种机器学习模型类型来实现，主要关键点是在于各类模型的目标变量定义，以及模型输出结果的业务理解与应用逻辑。从另一个实用角度来讲，在很多实际业务场景，针对同样一份建模样本数据，假设需要构建客户价值评估模型，只要选定的目标变量在数据分布与业务理解等方面比较合适，我们可以从有无监督的分类、回归、聚类多个维度来实现。为了便于大家对此模型的原理思想有更全面且深入的理解，我们接下来将围绕具体实例的建模样本数据，来依次通过各类机器学习算法来完成客户价值评估模型。
2、建模样本数据介绍
本文选取的实例样本数据包含10000条样本和8个字段，具体数据样例如图1所示，其中ID（客户订单号）为样本主键，Credit_Index（信用指数）、Consum_Index（消费指数）、Travel_Index（出行指数）、Online_Index（网购指数）、Life_Index（生活指数）、Work_Index（工作指数）、Amount（利润金额）为特征变量池，Amount具体是指当前样本客户群体在一定且相同的信贷时间周期内，给信贷业务方带来的利润收益。

                                                            图1 建模数据样例

由于我们要从不同算法维度来建立有监督模型，因此首先需要明确目标变量的定义逻辑。同时，我们已知建模任务是客户价值评估模型，选取的指标来源必须可以反映出客户的资质能力、风险情况等相关特点，具体指标维度可以是一个或多个字段。按照以上对模型目标变量的理解，由于利润金额可以直接反映客户群体的价值度高低，因此我们这里可以选取特征Amount（利润金额），作为客户价值评估模型目标的直接来源或加工字段。我们来看下特征Amount（利润金额）的字段类型（连续int型）以及取值情况，具体可视化分布结果如图2所示，可知Amount是一系列从最小值304到最大值6280的连续数值。从数据分布角度理解，Amount的原始数据可以满足回归模型的目标类型需求，而对于分类模型，我们可以考虑结合实际业务情况，设置一个或多个阈值，将Amount的数据分布按照从小到大排序，然后将其划分为多个区间，每个区间可以归为一个类型。例如，二分类模型需要划分2个区间，多分类模型则划分多个区间，这样便可以将回归问题转化为分类问题，而且目标变量的原始数据都是来源于同一个特征字段，这也是本文通过多维度模型的实现方法，来构建贷中客户价值评估模型的核心思路与重要前提。

                                                            图2 Amount取值分布

3、模型目标变量定义
根据上文对客户价值评估有监督模型的理解，我们熟悉了不同算法模型（回归、二分类、多分类）的目标类型及其数据要求，在构建各模型之前，这里先简要梳理下各模型目标变量的取数逻辑。
（1）回归模型：目标变量flag1=Amount，数值越大代表客户的价值度越高。
（2）二分类模型：目标变量flag2根据Amount的数据分布划分2个区间，当Amount>=2000，则flag2=1（高价值）；当Amount<2000，则flag2=0（低价值）。
（3）多分类模型：目标变量flag3根据Amount的数据分布划分4个区间，当Amount<1000，则flag3=1（低价值）；当1000<=Amount<2000，则flag3=2（较低价值）；当2000<=Amount<3000，则flag3=3（较高价值）；当Amount>=3000，则flag3=4（高价值），从1到4数值越大代表客户价值度越高。
（4）聚类模型：无监督算法，无需定义目标变量。当各类算法模型的目标变量确定之后，我们简单了解下各目标变量的取值分布，其中回归模型标签flag1与Amount相同，二分类模型标签flag2与多分类模型标签flag3的分布情况如图3、图4所示。

                                                           图3二分类模型标签分布

                                                               图4 多分类模型标签分布

在明确了各类模型标签分布正常的情况下，接下来我们依次通过回归、二分类、多分类、聚类多个维度的机器学习方法，来建立贷中场景的客户价值评估模型。
4、客户价值评估回归模型
在回归模型场景下，目标变量flag1直接来源于Amount，取值分布为连续int类型。我们选取传统的线性回归算法来建立模型，模型参数均采用默认值。建模数据data通过随机拆分方式，将样本按照7:3比例分为训练集与测试集，其中训练集train用来模型拟合，测试集test用来模型预测，模型训练与预测的实现过程详见知识星球代码详情。回归模型linr针对测试集test的预测，输出标签pred_Y代表客户的预测利润金额，取值越大说明客户的价值度越高，部分数据（前10样本）结果及其可视化分布样例如图6所示。

                                                                    图6 回归模型预测

5、客户价值评估二分类模型
在二分类模型场景下，目标变量flag2根据Amount的二分区间得到。现采用传统的逻辑回归算法来建立模型，模型参数均采用默认值，与上文线性回归同理，采用70%的样本数据训练模型，采用30%的样本数据测试模型，模型训练与预测的具体详见知识星球代码详情。
二分类模型lr针对测试集test的预测，可以输出标签pred_Y（取值0/1）与概率值pred_Y_proba（范围0~1），二者的关系是根据模型默认阈值threshold（0.5），来判断pred_Y_proba从而得到标签pred_Y，也就是当proba>=threshold时pred_Y为1，否则pred_Y为0。模型预测结果为1表示当前客户为高价值，预测结果为0则为低价值，部分数据结果样例如图8所示。

                                                            图8 二分类模型预测

6、客户价值评估多分类模型
在多分类模型场景下，目标变量flag3根据Amount的4分区间得到。这里采用较流行的决策树算法XGBoost来建立模型，模型参数均采用默认值，仍然采用70%、30%的样本数据来分别训练与测试模型，具体实现过程详见知识星球代码详情。多分类模型xgb针对测试集test的预测，可以输出标签pred_Y（1/2/3/4）与概率值pred_Y_proba（范围0_{1），二者的关系是根据pred_Y_proba的4个类别概率值，取最大值对应的类别则为标签pred_Y。模型预测结果为1}4，代表客户的价值度从低到高，部分数据结果样例如图10所示。

图10 多分类模型预测

7、客户价值评估聚类模型
在聚类模型场景下，由于模型属于无监督范畴，自然无目标变量Y。现采用常见的Kmeans聚类算法来完成客户群体的分类，这里的簇类数定义为3，并采用70%的样本数据来训练模型，30%的样本数据来测试模型，具体实现过程详见知识星球代码详情。聚类模型kms针对测试集test的预测，可以输出标签pred_Y（0/1/2），这里需要注意的是，预测结果0/1/2并没有等级比较关系，仅仅是聚类各簇的标识。若在聚类模型的思想下完成对客户价值的评估，需要对各簇客户群体的特征进行画像描述。虽然模型训练过程的变量池包含7个字段，但由于Amount（利润金额）最能直接体现客户的价值，因此我们以特征Amount为例，来对客户的价值度进行评估。针对聚类各簇客户群体的分布情况，我们通过图12的实现过程，来描述聚类后各簇的样本频数分布，以及特征Amount的均值结果，具体如图13所示。

                                                            图12聚类特征画像实现

                                                             图13聚类特征画像结果

通过以上输出结果可知，聚类后各簇的客户群体数量分别为1025、304、1671，其中簇类2客户群体的平均利润金额明显较高（3382），而簇类3客户群体的平均利润金额最低（818），显然最终结论是簇类3的价值度最高，簇类1次之，簇类2的价值度最低。因此，根据聚类模型来评估客户的价值，重点思路是根据聚类各簇特征的描述性统计分析，并结合实际业务理解，来实现客户群体的价值分层。综合以上介绍，我们围绕贷中期间的客户价值评估场景，从回归、二分类、多分类、聚类共4个机器学习算法维度，依次构建了客户群体的价值评估模型。同时，根据模型应用的输出结果，可以量化判断出客户的价值度高低，从而有助于信贷业务营销策略制定及其实施。为了大家对客户价值评估模型的进一步理解与熟悉，本文额外附带了与以上内容同步的python代码与样本数据，供大家参考学习，详情请移至知识星球查看相关内容。

…

~原创文章

贷中客群评级的场景实现，来试试这些多维的实操方法相关推荐

场景欺诈的策略梳理、总结与实操
风控部门作为一个成本部门,其本身不创造业务,但却逐渐被市场上的公司所接受,并且地位越来越重要.虽然风险自宇宙诞生起,就伴随着万物而生,但真正将其量化且客观分析也就这几个世纪以来的事情.而且就目前的认知 ...
手把手实操系列|贷中逾期风险预测模型开发流程(上)
序言: 随着新客的获客成本越来越高,贷中客户的管理越来越受到放贷机构的重视,其中包括用户流失预测,营销响应预测,逾期风险预测,额度利率管理等. B卡,又称为行为评为卡,它的作用对象是老客,根据其在账户 ...
实操信贷场景中的反欺诈模型
今天的文章,关于反欺诈模型的实操,之前有跟大家分享过相关内容,部分反欺诈的领域的童鞋感觉内容比较有帮助,今天就该内容进行讲解.本文介绍的产品适合在消费零售信贷及现金场景贷中的中短期产品,其中涉及的变量 ...
手把手实操系列|贷后迁徙率模型开发（上篇）
序言: 很多关注番茄风控的老铁们都知道,番茄风控的开篇就是从系统性的贷后评分卡开始的,关于贷后相关的内容,番茄不敢说是元老级别的公众号,但再怎么说也是先行者,之前的文章比如这些经典内容,您是否都看过了 ...
手把手实操|深度剖析电商贷款风控相关细节（电商贷模型）
序言: 在电商领域中,一直都有这样的场景:对于电商企业而言,资金短缺是经常出现的问题,尤其是在目前疫情状况下,经济下行,营业额逐渐降低,现金流紧张,企业这时就会考虑去借贷融资. 有需求就有供给,目前许 ...
redis 集群实操（史上最全、5w字长文）
文章很长,建议收藏起来慢慢读! 总目录博客园版为大家准备了更多的好文章!!!! 推荐:尼恩Java面试宝典(持续更新 + 史上最全 + 面试必备)具体详情,请点击此链接尼恩Java面试宝典,34 ...
redis cluster 集群 HA 原理和实操（史上最全、面试必备）
文章很长,建议收藏起来慢慢读!疯狂创客圈总目录语雀版 | 总目录码云版| 总目录博客园版为您奉上珍贵的学习资源 : 免费赠送经典图书:<Java高并发核心编程(卷1)> 面试必备 ...
手把手系列|贷后评分(C)卡模型开发实操（全）
序言: 随着风控精细化的管理,番茄风控也就将现有的内容进一步迭代,更新贷后迁徙率模型的内容,同时也综合了星球社区中同学的一些新需求,给大家梳理了贷后迁徙率模型的文章. 希望对所有的风控人员在贷后相关的 ...
将MongoDB部署到分布式集群（实操）
本教程前面的内容基本涵盖了 MongoDB 的基本知识,现在在单机环境下操作 MongoDB 已经不存在问题,但是单机环境只适合学习和开发测试,在实际的生产环境中,MongoDB 基本是以集群的方式工 ...
破局存量客群营销，试一下客户分群管理(含聚类模型等实操效果评估)
信贷场景下的客户分群,在实际业务中有着非常重要的意义,例如存量客群营销.客户价值管理.产品精准营销.风控层次部署等,都会依据不同类别客户的合理划分.客户群体的分类,我们经常通过机器学习中的聚类算法来实 ...

贷中客群评级的场景实现，来试试这些多维的实操方法

贷中客群评级的场景实现，来试试这些多维的实操方法相关推荐

最新文章

热门文章