客户价值评估是信贷业务体系的典型场景,无论是针对风险控制,还是侧重策略营销,围绕客户群体的价值分层,始终是数据分析范围内一个重要且必要的话题。从信贷风控的角度来讲,客户价值评估可以贯穿贷前、贷中、贷后整个流程,现对风控不同阶段举几个细化的模型应用场景。
(1)贷前环节:对于申请进件新客户的价值评估,可以将客户群体进行流量分层,便于针对不同客群采取不同的风控策略,或者授予不同的额度定价;
(2)贷中环节:对于在贷存量客户的价值评估,可以量化贷中期间客户群体的风险异变或资质能力情况,有助于对客户完成贷中风险预警或交叉营销;
(3)贷后环节:对于贷款周期结束且全部还款的客户,通过价值评估分析,可以实现对价值较高客户进行二次营销或睡眠激活,从而提高客群的活跃度。通过以上几个细化场景示例初步可以了解到,客户群体的价值评估在信贷业务中发挥着非常关键的作用,对于风险定价、精准营销、客户画像等应用场景,具有极为重要的意义。

1、贷中客户价值评估
客户价值评估模型的重要度无需多言,但是根据实际业务需求,如何构建模型是一个有意思的话题,例如实际业务场景的理解、机器学习算法的选择、模型应用期望的效果等,都是建立客户价值评估模型的重要思考维度。本文围绕信贷业务的贷中场景,来具体描述下客户价值评估的意义所在。在贷中期间,存量客户群体虽然同属贷款生命周期内,但随着时间周期的推移,客户的行为表现必然会有一定变化,而这些特点在很大程度上可以体现出客户未来的价值度高低。我们若能采用模型来量化客户的价值等级,则可以有效的实施精准营销,也就是对于不同潜在价值的客户群体,采取差异化的营销策略,从而提升业务的综合收益。通常情况下,我们往往将客户价值评估模型单纯理解为是一种多分类问题,例如客户价值等级分为A、B、C、D,从A到D代表客户价值越低,采用LR、GBDT、XGBoost、LightGBM等机器学习算法,训练拟合多分类模型,在实际应用中通过模型对新老客户进行评估,输出AD等级的其中一类,从而实现了业务场景对客户的价值评估,也可以理解为客户群体的价值分层。当然,这个模型的应用过程与输出结果,对分析新增或存量客户的资质能力、风险定价有很好的参考价值,以上逻辑也是完全符合实际业务场景的需求,以及对客户价值评估模型的理解。但是,从模型类型或者业务问题来讲,客户价值评估模型并不是简单指多分类模型,也可以是二分类模型,还可以是回归模型,甚至可以是聚类模型,具体完全取决于建立模型的方法,以及模型输出结果的业务理解与场景应用,这些内容便是本文将要介绍的重点。围绕客户价值评估模型,我们从机器学习算法与模型场景应用的角度,大体介绍下模型类型的归属问题,以及各模型场景的原理思想,具体示例描述如下:(1)二分类问题:通过LR、GBDT、XGBoost、LightGBM、随机森林等机器学习算法,训练有监督二分类模型,模型目标变量为类别型,例如取值1、0,代表客户是、否有价值;(2)多分类问题:通过LR、GBDT、XGBoost、LightGBM、随机森林等机器学习算法,训练有监督多分类模型,模型目标变量为类别型,例如取值1、2、3、4,代表客户价值的等级,数值越大说明客户的价值越高;(3)回归问题:通过线性回归、KNN、SVR、GBDT、随机森林等机器学习算法,训练有监督回归模型,模型目标变量为连续型,例如取值0.11,代表客户价值的系数,数值越大说明客户的价值越高;(4)聚类问题:通过Kmeans、DBSCAN、BIRCH、OPTICS等机器学习算法,训练无监督聚类模型,模型无目标变量,通过聚类各簇(例如0、1、2)特征变量的统计分析描述指标(例如均值、极值等),围绕客户群体的画像描述来评估客户价值度的高低。通过以上对客户价值评估模型场景的分析,我们可以较为明确的了解到,针对客户群体的价值评估,并不局限于某一类模型问题,而是从二分类、多分类、回归、聚类各种机器学习模型类型来实现,主要关键点是在于各类模型的目标变量定义,以及模型输出结果的业务理解与应用逻辑。从另一个实用角度来讲,在很多实际业务场景,针对同样一份建模样本数据,假设需要构建客户价值评估模型,只要选定的目标变量在数据分布与业务理解等方面比较合适,我们可以从有无监督的分类、回归、聚类多个维度来实现。为了便于大家对此模型的原理思想有更全面且深入的理解,我们接下来将围绕具体实例的建模样本数据,来依次通过各类机器学习算法来完成客户价值评估模型。
2、建模样本数据介绍
本文选取的实例样本数据包含10000条样本和8个字段,具体数据样例如图1所示,其中ID(客户订单号)为样本主键,Credit_Index(信用指数)、Consum_Index(消费指数)、Travel_Index(出行指数)、Online_Index(网购指数)、Life_Index(生活指数)、Work_Index(工作指数)、Amount(利润金额)为特征变量池,Amount具体是指当前样本客户群体在一定且相同的信贷时间周期内,给信贷业务方带来的利润收益。

                                                            图1 建模数据样例

由于我们要从不同算法维度来建立有监督模型,因此首先需要明确目标变量的定义逻辑。同时,我们已知建模任务是客户价值评估模型,选取的指标来源必须可以反映出客户的资质能力、风险情况等相关特点,具体指标维度可以是一个或多个字段。按照以上对模型目标变量的理解,由于利润金额可以直接反映客户群体的价值度高低,因此我们这里可以选取特征Amount(利润金额),作为客户价值评估模型目标的直接来源或加工字段。我们来看下特征Amount(利润金额)的字段类型(连续int型)以及取值情况,具体可视化分布结果如图2所示,可知Amount是一系列从最小值304到最大值6280的连续数值。从数据分布角度理解,Amount的原始数据可以满足回归模型的目标类型需求,而对于分类模型,我们可以考虑结合实际业务情况,设置一个或多个阈值,将Amount的数据分布按照从小到大排序,然后将其划分为多个区间,每个区间可以归为一个类型。例如,二分类模型需要划分2个区间,多分类模型则划分多个区间,这样便可以将回归问题转化为分类问题,而且目标变量的原始数据都是来源于同一个特征字段,这也是本文通过多维度模型的实现方法,来构建贷中客户价值评估模型的核心思路与重要前提。

                                                            图2 Amount取值分布

3、模型目标变量定义
根据上文对客户价值评估有监督模型的理解,我们熟悉了不同算法模型(回归、二分类、多分类)的目标类型及其数据要求,在构建各模型之前,这里先简要梳理下各模型目标变量的取数逻辑。
(1)回归模型:目标变量flag1=Amount,数值越大代表客户的价值度越高。
(2)二分类模型:目标变量flag2根据Amount的数据分布划分2个区间,当Amount>=2000,则flag2=1(高价值);当Amount<2000,则flag2=0(低价值)。
(3)多分类模型:目标变量flag3根据Amount的数据分布划分4个区间,当Amount<1000,则flag3=1(低价值);当1000<=Amount<2000,则flag3=2(较低价值);当2000<=Amount<3000,则flag3=3(较高价值);当Amount>=3000,则flag3=4(高价值),从1到4数值越大代表客户价值度越高。
(4)聚类模型:无监督算法,无需定义目标变量。当各类算法模型的目标变量确定之后,我们简单了解下各目标变量的取值分布,其中回归模型标签flag1与Amount相同,二分类模型标签flag2与多分类模型标签flag3的分布情况如图3、图4所示。

                                                           图3二分类模型标签分布

                                                               图4 多分类模型标签分布

在明确了各类模型标签分布正常的情况下,接下来我们依次通过回归、二分类、多分类、聚类多个维度的机器学习方法,来建立贷中场景的客户价值评估模型。
4、客户价值评估回归模型
在回归模型场景下,目标变量flag1直接来源于Amount,取值分布为连续int类型。我们选取传统的线性回归算法来建立模型,模型参数均采用默认值。建模数据data通过随机拆分方式,将样本按照7:3比例分为训练集与测试集,其中训练集train用来模型拟合,测试集test用来模型预测,模型训练与预测的实现过程详见知识星球代码详情。回归模型linr针对测试集test的预测,输出标签pred_Y代表客户的预测利润金额,取值越大说明客户的价值度越高,部分数据(前10样本)结果及其可视化分布样例如图6所示。

                                                                    图6 回归模型预测

5、客户价值评估二分类模型
在二分类模型场景下,目标变量flag2根据Amount的二分区间得到。现采用传统的逻辑回归算法来建立模型,模型参数均采用默认值,与上文线性回归同理,采用70%的样本数据训练模型,采用30%的样本数据测试模型,模型训练与预测的具体详见知识星球代码详情。
二分类模型lr针对测试集test的预测,可以输出标签pred_Y(取值0/1)与概率值pred_Y_proba(范围0~1),二者的关系是根据模型默认阈值threshold(0.5),来判断pred_Y_proba从而得到标签pred_Y,也就是当proba>=threshold时pred_Y为1,否则pred_Y为0。模型预测结果为1表示当前客户为高价值,预测结果为0则为低价值,部分数据结果样例如图8所示。

                                                            图8 二分类模型预测

6、客户价值评估多分类模型
在多分类模型场景下,目标变量flag3根据Amount的4分区间得到。这里采用较流行的决策树算法XGBoost来建立模型,模型参数均采用默认值,仍然采用70%、30%的样本数据来分别训练与测试模型,具体实现过程详见知识星球代码详情。多分类模型xgb针对测试集test的预测,可以输出标签pred_Y(1/2/3/4)与概率值pred_Y_proba(范围01),二者的关系是根据pred_Y_proba的4个类别概率值,取最大值对应的类别则为标签pred_Y。模型预测结果为14,代表客户的价值度从低到高,部分数据结果样例如图10所示。

图10 多分类模型预测

7、客户价值评估聚类模型
在聚类模型场景下,由于模型属于无监督范畴,自然无目标变量Y。现采用常见的Kmeans聚类算法来完成客户群体的分类,这里的簇类数定义为3,并采用70%的样本数据来训练模型,30%的样本数据来测试模型,具体实现过程详见知识星球代码详情。聚类模型kms针对测试集test的预测,可以输出标签pred_Y(0/1/2),这里需要注意的是,预测结果0/1/2并没有等级比较关系,仅仅是聚类各簇的标识。若在聚类模型的思想下完成对客户价值的评估,需要对各簇客户群体的特征进行画像描述。虽然模型训练过程的变量池包含7个字段,但由于Amount(利润金额)最能直接体现客户的价值,因此我们以特征Amount为例,来对客户的价值度进行评估。针对聚类各簇客户群体的分布情况,我们通过图12的实现过程,来描述聚类后各簇的样本频数分布,以及特征Amount的均值结果,具体如图13所示。

                                                            图12聚类特征画像实现

                                                             图13聚类特征画像结果

通过以上输出结果可知,聚类后各簇的客户群体数量分别为1025、304、1671,其中簇类2客户群体的平均利润金额明显较高(3382),而簇类3客户群体的平均利润金额最低(818),显然最终结论是簇类3的价值度最高,簇类1次之,簇类2的价值度最低。因此,根据聚类模型来评估客户的价值,重点思路是根据聚类各簇特征的描述性统计分析,并结合实际业务理解,来实现客户群体的价值分层。综合以上介绍,我们围绕贷中期间的客户价值评估场景,从回归、二分类、多分类、聚类共4个机器学习算法维度,依次构建了客户群体的价值评估模型。同时,根据模型应用的输出结果,可以量化判断出客户的价值度高低,从而有助于信贷业务营销策略制定及其实施。为了大家对客户价值评估模型的进一步理解与熟悉,本文额外附带了与以上内容同步的python代码与样本数据,供大家参考学习,详情请移至知识星球查看相关内容。

~原创文章

贷中客群评级的场景实现,来试试这些多维的实操方法相关推荐

  1. 场景欺诈的策略梳理、总结与实操

    风控部门作为一个成本部门,其本身不创造业务,但却逐渐被市场上的公司所接受,并且地位越来越重要.虽然风险自宇宙诞生起,就伴随着万物而生,但真正将其量化且客观分析也就这几个世纪以来的事情.而且就目前的认知 ...

  2. 手把手实操系列|贷中逾期风险预测模型开发流程(上)

    序言: 随着新客的获客成本越来越高,贷中客户的管理越来越受到放贷机构的重视,其中包括用户流失预测,营销响应预测,逾期风险预测,额度利率管理等. B卡,又称为行为评为卡,它的作用对象是老客,根据其在账户 ...

  3. 实操信贷场景中的反欺诈模型

    今天的文章,关于反欺诈模型的实操,之前有跟大家分享过相关内容,部分反欺诈的领域的童鞋感觉内容比较有帮助,今天就该内容进行讲解.本文介绍的产品适合在消费零售信贷及现金场景贷中的中短期产品,其中涉及的变量 ...

  4. 手把手实操系列|贷后迁徙率模型开发(上篇)

    序言: 很多关注番茄风控的老铁们都知道,番茄风控的开篇就是从系统性的贷后评分卡开始的,关于贷后相关的内容,番茄不敢说是元老级别的公众号,但再怎么说也是先行者,之前的文章比如这些经典内容,您是否都看过了 ...

  5. 手把手实操|深度剖析电商贷款风控相关细节(电商贷模型)

    序言: 在电商领域中,一直都有这样的场景:对于电商企业而言,资金短缺是经常出现的问题,尤其是在目前疫情状况下,经济下行,营业额逐渐降低,现金流紧张,企业这时就会考虑去借贷融资. 有需求就有供给,目前许 ...

  6. redis 集群 实操 (史上最全、5w字长文)

    文章很长,建议收藏起来慢慢读! 总目录 博客园版 为大家准备了更多的好文章!!!! 推荐:尼恩Java面试宝典(持续更新 + 史上最全 + 面试必备)具体详情,请点击此链接 尼恩Java面试宝典,34 ...

  7. redis cluster 集群 HA 原理和实操(史上最全、面试必备)

    文章很长,建议收藏起来慢慢读!疯狂创客圈总目录 语雀版 | 总目录 码云版| 总目录 博客园版 为您奉上珍贵的学习资源 : 免费赠送 经典图书:<Java高并发核心编程(卷1)> 面试必备 ...

  8. 手把手系列|贷后评分(C)卡模型开发实操(全)

    序言: 随着风控精细化的管理,番茄风控也就将现有的内容进一步迭代,更新贷后迁徙率模型的内容,同时也综合了星球社区中同学的一些新需求,给大家梳理了贷后迁徙率模型的文章. 希望对所有的风控人员在贷后相关的 ...

  9. 将MongoDB部署到分布式集群(实操)

    本教程前面的内容基本涵盖了 MongoDB 的基本知识,现在在单机环境下操作 MongoDB 已经不存在问题,但是单机环境只适合学习和开发测试,在实际的生产环境中,MongoDB 基本是以集群的方式工 ...

  10. 破局存量客群营销,试一下客户分群管理(含聚类模型等实操效果评估)

    信贷场景下的客户分群,在实际业务中有着非常重要的意义,例如存量客群营销.客户价值管理.产品精准营销.风控层次部署等,都会依据不同类别客户的合理划分.客户群体的分类,我们经常通过机器学习中的聚类算法来实 ...

最新文章

  1. pwn学习总结(一) —— 常用命令
  2. [:zh]给机械课程设计的一封信[:] 2017-12-23
  3. 十大经典算法 - 转载
  4. 在Linux中查看ftp状态,linux中ftp常见操作启动ftp状态,终止ftp会话
  5. 奥运奖牌计数(信息学奥赛一本通-T1064)
  6. C语言malloc的用法和意义
  7. hibernate 各历史版本下载
  8. 基于Tensorflow的MINIST手写体识别
  9. Ubuntu下载安装CUDA
  10. 【计算机前沿知识】大数据与数据挖掘
  11. linux系统制作qcow2,制作centos的qcow2格式镜像
  12. 苹果新款MacBook Pro 2021:M1X处理器+16G内存
  13. 第一篇:爬虫基本原理
  14. 常见解压缩软件与zip格式
  15. JAVA把指定文件放入压缩包
  16. openstack部署过程4
  17. 吉利控股、李锦记、戴森、小米、嘉能可、劳埃德银行等公司高管变动
  18. android 仿去哪儿首页效果
  19. 企业服务器采用虚拟化技术的利弊
  20. 微信账户零钱冻结提取

热门文章

  1. linux版本浏览器有哪些,5款面向Linux的简单Web浏览器
  2. 移动安全-java JEB安装使用
  3. linux版本i686,在Ubuntu中'i686'是什么意思? - Ubuntu问答
  4. android 修改wifi信道,学会修改WiFi信道,让你的WIFI提速
  5. GEE学习笔记3:Landsat8 植被指数计算
  6. transCAD求解两路径问题中遇到的问题和解决方法
  7. C语言三剑客:C陷阱与缺陷、C和指针、C专家编程-----下载
  8. 三菱服务器显示rb是什么故障,​三菱伺服驱动器常见报警代码及解决办法
  9. java数组排序方法
  10. QT编译libpng