商业银行客户流失的影响因素分析—

目录
一、绪论 1
（一）研究背景及意义 1
（二）国内外研究现状 1
（三）论文研究内容与结构 2
二、准备变量 4
（一）初步筛选变量 4
1．根据数据质量筛选变量 4
2．从用户生命周期分析客户流失的可能影响因素 5
3．确定初选变量 6
（二）预测变量与目标变量的相关性 7
1．分类变量的直方图检验 7
2．分类变量的卡方检验 11
3．连续变量与目标变量的相关性检验 12
（三）预测变量之间的相关性检验 14
1．变量之间相关性检验 15
2．模型多重共线性的检测 16
三、建立模型 17
（一）主成分分析 17
（二） Logistic 回归建模 19
1． Logistic 回归 19
2． Logistic回归结果分析 20
四、模型的效果评估 23
五、减少银行客户流失的策略 25
（一）大客户营销 25
（二）个性化服务 25
（三）交叉营销 26

确定初选变量

根据数据的质量和现实直观影响考量，我们从150个变量中选出了36个变量，如表 1所示,
表 1变量列表

变量分类变量变量标签
客户基本情况 X1 开户时长
X2 是否金普卡
X3 是否标准白金卡
X4 是否豪华白金卡
X5 是否钻石卡
客户持有产品的情况 X6 客户持有的全部产品数量（24种产品）
X7 持有定期存款标志
X8 持有活期产品标志
X9 持有国债标志
X10 持有基金标志
X11 持有信用卡产品标志
X12 个贷标识
客户资产负债情况 X13 资产总额
X14 最近3个月客户月平均资产总计
X15 最近3个月客户月平均负债总计
跨行转账情况 X16 最近三个月转入金额
X17 最近三个月转出金额
X18 最近三个月客户跨行同名转入月平均金额
X19 最近三个月客户跨行非同名转入月平均金额
X20 最近三个月客户跨行同名转出月平均金额
X21 最近三个月客户跨行非同名转出月平均金额
X22 最近三个月客户跨行非同名转入月平均次数
X23 最近三个月客户跨行同名转出月平均次数
客户账户交易 X24 最近三个月内账户借方月均交易金额
X25 最近三个月内账户借方月均交易次数
X26 最近三个月内账户贷方月均交易金额
X27 最近三个月内账户贷方月均交易次数
客户理财情况 X28 是否薪资理财
X29 理财金额
X30 基金金额
X31 国债金额
X32 银保通金额
X33 贵金属金额
客户账户数量 X34 三个月月均新增存款账户数
X35 三个月月均存款账户总数
X36 累计销户数目
图表来源：根据收集到的数据绘制

X1到X5是客户的基本信息情况，例如客户价值等级和开户时长等等;X6-X12为客户持有产品情况，如果客户拥有一家银行的产品和服务种类越多，他与银行的联系就越多，客户就不会轻易离开；x13-x15是客户资产负债状况，从实际业务的角度出发，客户在该银行的资产越多，表明客户对该银行越认同，因此流失倾向越小，反之越高；X 16-X27是客户的账户交易和跨行转账信息，反映出客户的活跃程度和是否有流失倾向，如果客户存在不断转出账户金额的行为，则客户可能有流失倾向;X28-X33代表客户的理财，包含理财产品的类型、金额以及是否薪资理财等，能看出客户对该银行的产品是否满意，由此推测客户是否有流失意愿；X34-X36是客户账户数量，开户数量越多，说明该客户拥有这家银行的产品越多，客户就不会轻易离开。

（二）预测变量与目标变量的相关性

筛出的36个变量中涉及了两种变量，分别是分类变量和连续变量。我们采取直方图的方法和卡方检验来检验分类变量的预测能力，运用pearson相关系数来做检验。
1．分类变量的直方图检验
利用柱状图描述客户流失率随每个变量分类的变化，来初步推测变量对客户流失是否有较好的预测能力。

图 3 最高国际卡级别直方图

图表来源：根据收集到的数据绘制
根据现实意义，随着客户价值等级的升高，客户流失率应该是越来越低的，图 3 最高国际卡级别直方图显示随着最高国际卡的级别的上升，流失率反而越来越高。通常我们认为客户等级越高，银行给的待遇也越好，因此越不会轻易流失，但也存在另一种情况，随着客户等级越高，各个银行对该客户的争夺越激烈，客户的可选择空间也越大，导致高等级的客户更容易流失。
图 4持有活期产品直方图

图表来源：根据收集到的数据绘制
由图 4发现账户里有活期产品的客户流失率比没有活期产品的客户高，这是因为活期产品主要是一年以内的产品，如果客户单纯是开这个账户来购买活期产品，在这一期产品结束后，他们选择离开的概率也会比较高，这符合现实意义。

图 5是否薪资理财的流失百分比

图表来源：根据收集到的数据绘制
图 6可以看出，有在银行进行薪资理财的客户流失率比较低，没有进行薪资理财的客户流失率比较高，这是因为有理财的客户还需要在这个账户会进行一些交易，他们短时间不会流失。
图 6 是否持有定期存款的流失百分比

图表来源：根据收集到的数据绘制
从图 7可知，持有定期存款的客户流失率较小，与实际情况相符，因为能够把钱长期存在该银行，说明该客户对该银行的忠诚度较高。

图 7 是否持有国债的流失百分比

图表来源：根据收集到的数据绘制
从图 8可知，持有国债的客户流失率较低，由于国债的一般为3 / 5年期，客户在该银行购买了国债，至少在国债到期前不会不会轻易流失。
图 8 是否持有基金的流失百分比

图表来源：根据收集到的数据绘制
从图 9可知，持有基金的客户与没有持有基金的客户相比，更不容易流失，从一般情况来看，如果一个客户持有的一家银行基金类型的产品，说明了该客户对该银行的基金产品较为满意，因此不会轻易流失。
可以得出结论，是否持有活期产品、是否薪资理财、是否持有定期存款、是否持有国债以及是否持有基金，都对客户是否流失有影响，并且影响的方向与实际业务相符。最高卡级别与客户流失之间的关系不符合实际的业务现象，可能原因有高质量客户在各个银行之间的争夺比较激烈，因此导致客户虽然等级越高却流失率越高，具体的原因有待进一步探索。

2．分类变量的卡方检验

前面的直方图初步展示了自变量与因变量的关系，这一节用卡方检验进一步检验变量对客户流失预测能力的大小。卡方检验是用于做假设检验的一种办法，它的原理主要检验两个及两个以上的样本比率之间的存在的相似度，还有两个分类类型的变量的之间是否有关联。最基本的想法就是比较统计意义上的理论的频数和实际计数数出来的频数的吻合程度[10]。卡方检验如下表 2所示，
表 2分类变量的卡方检验
变量变量名称变量标签卡方 p
X2 CUST_GOLD_COMMON_FLAG 是否金普卡 33.193 <0.0001
X3 CUST_STAD_PLATINUM_FLAG 是否标准白金卡 407.319 <0.0001
X4 CUST_LUXURY_PLATINUM_FLAG 是否豪华白金卡 16.831 <0.0001
X5 CUST_DIAMOND_FLAG 是否钻石卡 55.182 <0.0001
X6 CUST_PRODUCT_CNT 客户持有的全部产品数量
（24种产品） 555.615 <0.0001
X7 DEP_TD_FLAG 持有定期存款标志 299.135 <0.0001
X8 DEP_SA_FLAG 持有活期产品标志 33.901 0.084
X9 BOND_FLAG 持有国债标志 3.433 0.064
X10 FUND_FLAG 持有基金标志 13.358 <0.0001
X11 CRED_FLAG 持有信用卡产品标志 51.833 <0.0001
X12 LOAN_FLAG 个贷标识 33762 <0.0001
X28 CUST_SALARY_FINANCIAL_FLAG 是否薪资理财 99.943 <0.0001
表格来源：SAS软件卡方检验输出结果
除了X9（持有国债标志）和X8（持有活期产品标志）不显著外，其余的变量都有很强的显著性。结合上一节对分类变量的直方图检验结果，客户的最高卡级别对客户流失的影响方向与现实不符合，在此处将最高卡级别的原始变量，是否金普卡、是否标准白金卡、是否豪华白金卡、是否钻石卡等四个变量剔除。X9（持有国债标志）和X8（持有活期产品标志）本来应该被剔除，但是X9（持有国债标志）虽然不显著，但是前面的直方图检验可以看出他对因变量有一定的影响，并且影响方向与实际相符，因此，此处暂时不剔除X9（持有国债标志），只剔除X8（持有活期产品标志）。
经过直方图检验与卡方检验，从12个分类变量中剔除了5个，剩下7个分类变量。

3．连续变量与目标变量的相关性检验

皮尔森相关系数（Pearson correlation coefficient）是一个通常被用来量所要研究的变量之间的线性相关的程度有多大的量，一般是用英文字母 r 来表示的。
尽管相关表或图也能获取两个变量之间是否有关系的信息，然而我们没有办法获知这个相关的程度到底有多大，而相关系数则是可以用系数的大小让我们知道两个变量之间的相关具体是多大[11]。Pearson的相关系数的公式：

若 0，通常认为X和Y之间不存在线性关系；若 1，x与y完全正相关。
24个连续类型的变量的相关性的检验的结果如表 3所示，表的第2列是自变量，第三到六列分别每个自变量的pearson的相关系数和spearman的相关系数经过检测之后得出的结果。
表 3 连续变量的相关性检验
变量变量标签 Pearson
相关系数 Pearson显著性 Spearman相关系数 spearman显著性
X1 开户时长 0.092 <.0001 0.092 <0.0001
X13 资产总额 0.01256 0.0004 0.012 0.001
X14 最近3个月客户月平均资产总计 0.01224 0.0005 0.28 <0.0001
X15 最近3个月客户月平均负债总计 0.02811 <.0001 0.008 0.031
X16 最近三个月转入金额 0.00843 0.0171 0.008 0.031
X17 最近三个月转出金额 0.00858 0.0152 0.009 0.01
X18 最近三个月客户跨行同名转入月平均金额 0.00708 0.0453 0.15 <0.0001
X19 最近三个月客户跨行非同名转入月平均金额 0.00962 0.0065 -0.028 <0.0001
X20 最近三个月客户跨行同名转出月平均金额 0 0.9993 0.001 0.796
X21 最近三个月客户跨行非同名转出月平均金额 0.00464 0.189 0.002 0.546
X22 最近三个月客户跨行非同名转入月平均次数 -0.00182 0.0171 -0.025 <0.0001
X23 最近三个月客户跨行同名转出月平均次数 -0.0014 0.0152 -0.001 0.883
X24 最近三个月内账户借方月均交易金额 0.00833 0.0184 -0.045 <0.0001
X25 最近三个月内账户借方月均交易次数 -0.00158 0.654 -0.052 <0.0001
X26 最近三个月内账户贷方月均交易金额 0.00846 0.0167 -0.027 <0.0001
X27 最近三个月内账户贷方月均交易次数 0.00141 0.6891 -0.047 <0.0001
X29 理财金额 -0.00362 0.3061 -0.034 <0.0001
X30 基金金额 -0.00446 0.2076 -0.018 <0.0001
X31 国债金额 -0.00251 0.4773 -0.016 <0.0001
X32 银保通金额 0.00637 0.0717 0.013 <0.0001
X33 贵金属金额 0.00372 0.293 0.017 <0.0001
X34 三个月月均新增存款账户数 -0.00471 0.1826 -0.005 0.188
X35 三个月月均存款账户总数 0.02268 <.0001 0.022 <0.0001
X36 累计销户数目 0.00189 <0.0001 -0.039 <0.0001
表格来源：SAS软件相关性分析输出结果
结合表 3中pearson、spearman相关系数的检验结果可以获得图2.7，该图的横轴和纵轴相交处为显著性水平0.05，右上角的点代表两种检验的结果都大于0.05。
图 9 spearman和pearson显著性检验结果

图表来源：根据表2-3绘制
基于图 9可以判定X20（最近三个月客户跨行同名转出月平均金额）、X21（最近三个月矣哉客户跨行矣哉非同名转出矣哉的月平均金额）、X22（最近三个矣哉月客户跨行非同名矣哉转入的月矣哉平均次数）、X34（三个月月均新增存款账户数）这4个变量与因变量没有显著的相关性。
剩余的20个变量符合显著性的要求，其中:X23（最近三个月矣哉客户跨行同名矣哉转出的矣哉月平均次数）、X17 （最近三个月矣哉转出的金额）、X25 （最近三个月内账户借方矣哉的月均交易矣哉次数）、 X26（最近三个月内账户贷方矣哉的月均交易矣哉金额）、X27（最近三个月内矣哉账户贷方矣哉的月均交易次数）、X29（客户理财矣哉的金额）、X30（基金金额）、X31（国债金额）、X36（累计销户数目）这9个变量的相关系数为负，表示随着这些变量变大，客户的流失可能性越大，符合实际现象；X1（开户时长）、X13（资产的总额）、X14（最近3个月客户月矣哉平均资产的总计、X15（最近3个月客户月平均负债的总计）、X16（最近三个月转入的月平均金额）、X19（最近三个月客户跨行矣哉非同名转入的月平均金额）、X24（最近三个月内账户矣哉借方月均交易的金额）、X32（银保通金额）、X33（贵金属金额）、X35（三个月月均矣哉存款账户总数）这11个变量的相关系数为正，也就是说这些变量的取值越大，客户的流失越有可能发生，这不符合实际现象。相关性只能说明某一自变量与因变量两个变量的关系，多元的回归分析还会因为变量间联系大小而产生不同的结果，好比符号方向与实际情况不相符的情况有可能就是由于收到共线性的影响。
在这11个方向与实际情况不相符的变量中，X13（资产总额）对流失率是正向影响还是反向与资产分布情况有关，比如如果该客户的资产有很高的比例属于较稳定的资产（如定期存款、国债），那么资产总额越高流失率越低，但是如果该客户的资产较稳定的部分占比较小，该客户反而会因为质量较高引来竞争对手的抢夺，并且由于稳定性较差容易被夺走进而导致资产总额大流失率越高的结果，因此该变量不被剔除。经过对其他的10个不符合现实意义的变量进行分析，发现这些变量的数据由于分布过于集中，比如X24（最近三个月内账户借方的月均交易金额）有80%的变量集中在相关系数小于或接近0.3，说明与预测变量的相关性不大，因此把这10个变量剔除，此时剩余10个连续变量。
（三）预测变量之间的相关性检验
从前面的分析中可知，初步筛选出来的36个变量中有X20最近三个月客户跨行同名转出的月平均金额、X21最近三个月客户跨行非同名转出月平均的金额、X23最近三个月客户跨行同名转出的月平均次数、X34三个月月均新增存款账的户数、X9持有国债标志等5个变量不显著，其他31个变量对因变量的影响方向有正有负，比较符合业务定义的有19个，如果没有考虑到预测变量自身之间也存在相关关系，直接将这19个变量放到模型里面，有可能会因为多重共线性而影响到模型的最终的结果。
多重共线性会发生在自变量不仅跟因变量有关系，还跟跟其他的变量有关系，而且相关的程度很大的时候。回归系数的方差变大可能是由于多重共线性的增大，而方差的增大则可能会让最后得到的方程的因子的系数变得不稳定。系数的不稳定会的后果如下[8]：

如果共线性太大，极端情况如完全的共线性，参数的估计量将不会存在；
与近似共线性不同，假如变量处在多重共线性的情形，得到的参数估计（parameter estimation）的方差会很大；
假如多重共线性很严重，那么参数估计量的经济学上面的含义会变得不合理；
1．变量之间相关性检验
由于变量的多重共线性可能造成的影响非常的大，所以接下来需要检查自变量之间的相关性。这里，我们用皮尔森相关系数（Pearson correlation coefficient）的方法来检验自变量的相关性，如表 4所示。
表 4 变量的相关性矩阵
X13 X17 X23 X25 X26 X27 X29 X30 X31 X36
X13 Pearson相關 1 0.294 0.484 0.11 0.02 0.995 0.219 0.41 0.049 0.027
顯著性（雙尾） 0 0 0 0 0 0 0 0 0
X17 Pearson相關 0.294 1 0.272 0.05 0.029 0.302 0.271 0.037 0.011 0.015
顯著性（雙尾） 0 0 0 0 0 0 0 0.003 0
X23 Pearson相關 0.11 0.05 0.147 1 0.046 0.15 0.6 0.01 0 0
顯著性（雙尾） 0 0 0 0 0 0 0.004 0.179 0.888
X25 Pearson相關 0.02 0.029 0.047 0.046 1 0.026 0.145 0 0 0
顯著性（雙尾） 0 0 0 0 0 0 0.094 0.547 0.948
X26 Pearson相關 0.995 0.302 0.497 0.15 0.026 1 0.259 0.411 0.049 0.027
顯著性（雙尾） 0 0 0 0 0 0 0 0 0
X27 Pearson相關 0.219 0.271 0.253 0.6 0.145 0.259 1 0.09 0.037 0.011
顯著性（雙尾） 0 0 0 0 0 0 0 0 0.002
X29 Pearson相關 0.41 0.037 0.086 0.01 0 0.411 0.09 1 0.092 0.027
顯著性（雙尾） 0 0 0 0.004 0.094 0 0 0 0
X30 Pearson相關 0.049 0.011 0.024 0 0 0.049 0.037 0.092 1 0.032
顯著性（雙尾） 0 0.003 0 0.179 0.547 0 0 0 0
X31 Pearson相關 0.027 0.015 0.025 0 0 0.027 0.011 0.027 0.032 1
顯著性（雙尾） 0 0 0 0.888 0.948 0 0.002 0 0
X36 Pearson相關 0.037 0.035 0.02 0.009 0 0.037 0.033 0.038 0.007 0
顯著性（雙尾） 0 0 0 0.01 0.351 0 0 0 0.046 0.885
表格来源：SAS软件变量自相关检验输出结果
其中，X17-X34代表变量最近三个月转出的金额、最近三个月客户跨行同名转出的月平均金额、最近三个月客户跨行非同名转出的月平均金额、最近三个月客户跨行非同名转入的月平均次数、最近三个月内账户借方的月均交易次数、最近三个月内账户贷方的月均交易金额、最近三个月内账户贷方月均的交易的次数、理财的金额、基金的金额、国债的金额、三个月月均的新增的存款账户数。
从表 4可以得出，这些变量本身之间具备一些的相关性。预测变量之间的关系可能会影响自变量的预测能力，导致这些变量对客户流失的影响从业务角度解释不通。
2．模型多重共线性的检测
表 5 多重共线性的检验
变量 t值显著性允差 VIF
最近三个月转出金额 1.255 .209 .011 92.991
最近三个月内账户贷方月均交易金额 -.412 .681 .010 96.327
基金金额 .037 .971 .003 310.651
表格来源：SAS软件的输出的结果
将自变量与目标量放进回归模型运行之后，我们发现有一些变量的方差膨胀因子已经超过了30（如表 5所示），这就是说它们之间的多重共线性已经很严重。假如将这些变量拿去建立模型，建立出来的模型的偏差会比较的大，因此需要变量之间的多重共线性要使用恰当的方法进行处理。在这里我们把这3个共线性很强的变量剔除，剩下7个连续变量。

三、建立模型

（一）主成分分析

经过前面对分类变量和连续变量的筛选，总共剩下14个变量（包括7个分类变量和7个连续变量），如果直接把这14个变量放进模型里面可能还会有自相关的影响，因此接下来对这些变量进行降维。
Logistic回归中，主要的降维的方式有主成分分析、联合式偏最小二乘和耦合式偏最小二乘，这三种方法都可以选择没有很大的区别，但是主成分分析有它特有的优点，它能够尽可能地获取到数据集（Data set）中方差较大的特征[12]。根据本文的实际情况，我们使用主成分的方法来降低共线性。
主成分分析是一种用来减少统计维度的方法，也就是说它能把多个指标变成少数的几个综合的指标。假设有N 个样本和P 个变量。因为这 P 个变量之间会有一定的相关，我们需要根据这 P个指标的相似程度去将几个指标综合一下，获得少数的几个综合的指标，它们能代表之前的指标能表达出来的多数信息。先将原始的变量变成标准的形式 ;然后再求相关系数矩阵 ; 接着是求解相关系数的特征值和方差的贡献比率 ;最后判断方差的贡献比率累积起来是否已经超过85%，把累积的起来的贡献率大于85%的综合指标选出来[13]。
表 6 主成分分析的特征矩阵
缩减相关矩阵的特征值：总计15.441 平均值=1.5
特征值差值比例累积
1 6.438 3.884 25.536 25.536
2 2.554 1.520 19.572 45.109
3 1.034 0.026 17.484 52.593
4 1.008 0.017 8.972 61.565
5 .991 0.034 3.083 64.647
6 .957 0.060 9.914 74.562
7 .897 0.149 10.080 84.641
8 .748 0.243 10.340 94.981
9 .505 0.197 5.051 100.033
10 .308 0.308 64.378 164.410
表格来源：SAS软件主成分分析验输出结果之一
表 6的主成分分析得到的特征矩阵中，前面8个因子的累计的贡献度大于85%，此处选择这8个因子来建模。
表 7 主成分的因子载荷矩阵
PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 PRIN6 PRIN7 PRIN8
X6 -0.898 0.074 -0.011 0.002 -0.128 -0.003 -0.015 -0.005
X7 0.002 0.002 0.041 0.992 -0.096 -0.015 -0.037 -0.096
X9 0.012 -0.015 0.134 0.002 0.003 0.002 1.035 -0.152
X11 0.001 -0.399 0.015 0.05 0.002 0.012 1.035 0.029
X12 0.001 -0.379 0.014 0.097 -0.271 -0.367 -0.002 -0.009
X13 0.012 -0.001 0.066 0.012 0.573 0.022 -0.001 -0.027
X23 -0.027 0.012 1.325 0.001 0.018 0.078 -0.271 0.032
X25 -0.009 -1.284 0.029 0.015 0.05 0.002 0.012 0.029
X27 -0.005 0.879 -0.009 0.014 0.097 -0.271 -0.367 -0.002
X28 0.003 -0.282 0.134 0.05 -0.075 -1.035 0.078 0.002
X29 0.326 -0.271 0.123 0.066 -0.063 -0.092 0.002 -0.03
X30 0.04 0.109 0.041 -0.111 -0.285 -0.152 0.002 0.367
X31 -0.373 -0.074 -0.138 -0.005 -0.748 0.032 -0.094 0.002
X36 0.199 0.306 0.306 -0.439 0.002 -0.048 0.204 -2.312
表格来源：SAS软件主成分分析验输出结果之一
说明：表 7是主成分分析的因子模式，其中各个变量的具体的名称分别为：X6客户持有的全部产品的数量（24种产品）、X7持有定期存款的标志、X9持有国债的标志、X11持有信用卡产品的标志、X12个贷的标识、X13资产的总额、X23最近三个月客户跨行同名转出的月平均次数、X25最近三个月内账户借方的月均交易次数、X27最近三个月内账户贷方月均交易次数、X28是否薪资理财、X29理财金额、X30持有基金标志、X31国债金额、X36累计销户数目。
该表格里面的因子载荷代表各个因子对哪些变量更好的代表性：

因子PRIN1中,变量客户持有产品数的因子比重比较大，说明该因子包含的大部分信息代表客户持有该银行的产品数量；
因子PRIN2中，最近三个月内账户贷方月均交易次数等变量的因子载荷比较大，代表客户在该银行的交易的情况。
因子PRIN3中，最近三个月客户跨行同名转出的月平均金额载荷比较大，代表客户的资金流向。
因子PRIN4中，持有定期存款的标志的载荷比较大，表明客户的稳定性。
因子PRIN5中，资产总额、国债金额等变量的因子载荷比较大，代表客户的资产情况，包括资金实力以及资产结构。
因子PRIN6中，是否薪资理财和理财金额的因子载荷比较大，表明客户在该银行的理财情况，也在一定程度上体现客户的理财倾向，对针对性的客户营销有参考价值。
因子PRIN7中，持有国债标志等变量的因子载荷比较大，代表客户所持有的理财产品具体是哪些类别，从中可以大致获悉客户对于哪一种理财产品更偏爱。
因子PRIN8中，累计销户数目等变量的因子载荷比较大，因此第八个因子可以解释为客户持有账户数量的变量。

（二）Logistic 回归建模

客户流失的预警模型主要有logistic回归、神经网络算法（Neural Network）、决策树算法（Decision Tree）等。决策树虽然结果很容易理解，但是在处理二值因变量的时候精确度很低；而神经网络的结果是一个“黑箱”，我们只能知道某一客户的流失的概率，但是不能知道对客户流失产生影响的具体是哪一些因素；而逻辑回归适合二值变量，还简单易于理解，并且可以直接看到各个影响因素的权重[9]。本文的侧重点是找出那些元素影响客户的流失，并且因变量是客户是否流失，属于二值变量，因此我们使用logistic回归来建立本次的模型。
1．Logistic 回归
逻辑函数的表达式：

因变量Y（bad_good）是一个二值变量，就是说它只有两种值，1跟0，1代表流失，0代表不流失。如果让Y=1的概率，假设有自变量X1,X2,…,Xm，，那么：

算式中：为截距；为的偏回归系数。
变形可得：

令，则

其中当模型中的p在0 <= p <= 1时, ，而公式里面的就是平时所说的机会比率，也就是说能使某一现象出现的机会是大还是小。
2．Logistic回归结果分析
我们通过SAS系统对主成分分析后8个正交的新变量，进行logistic回归，得到了模型的拟合估计量、模型的显著性检验、最大似然估计分析以及模型的预测概率和观测响应的关联的相应图表。在本节我们将结合这些图表的统计量说明logistic回归结果。
表 8 模型的拟合统计量

表格来源：SAS软件模型拟合效果输出结果之一
由表 8可以看出，模型通过AIC、SC、-2 Log L准则来选取符合要求的回归变量，当回归变量加入方程后AIC、SC、-2 Log L的值变小说明加入的变量能够优化模型。

表 9显著性检验

表格来源：SAS软件模型拟合效果输出结果之一
由表 9可以看出通过模型的似然比检验、评分检验、 Wald 检验的检验统计量都较为显著，这表明模型方程也较为显著。
表 10最大似然估计分析
参数自由度估计标准 Wald Pr>卡方
误差卡方
Intercept 1 5.3436 0.0521 206.400 <0.0001
PRIN8 1 -1.1461 0.0288 378.000 <0.0001
PRIN4 1 -1.0017 0.0482 353.400 <0.0001
PRIN7 1 -0.4225 0.0431 426.600 <0.0001
PRIN6 1 0.168 0.0176 575.400 <0.0001
PRIN3 1 0.1357 0.0225 387.600 <0.0001
PRIN1 1 0.1304 0.0407 606.000 <0.0001
PRIN2 1 0.1216 0.0220 489.300 <0.0001
PRIN5 1 0.1099 0.0554 366.600 <0.0001
表格来源：根据SAS软件参数估计输出结果整理
表 10为模型的参数估计，8个因子的卡方检验都比较显著，说明模型的8个变量都比较显著，由此可知本例中的方程为：
f(x)=5.3436-1.1461PRIN8-1.0017PRIN4-0.4225PRIN7+0.168PRIN6+0.1357PRIN3+0.1304PRIN1+0.1216PRIN2+0.1099PRIN5 （3.1）
P=expf(x)/(1+expf(x））（3.2）

表 11因子具体说明
因子因子影响排名含义每个因子中影响最大的变量
Intercept 常数项
PRIN8 1 账户情况累计销户数目
PRIN4 2 客户稳定性持有定期存款标志
PRIN7 3 持有产品类型持有国债标志
PRIN6 4 理财偏好是否薪资理财、理财金额
PRIN3 5 转账最近三个月客户跨行同名转出月平均金额
PRIN1 6 持有理财产品的数量客户持有的全部产品数量（24种产品）
PRIN2 7 交易情况最近三个月内账户贷方月均交易次数
PRIN5 8 资产情况国债金额、资产总额
表格来源：SAS软件参数估计输出结果整理
从模型方程（3.1）和表 11可知，对客户流失影响最大的因素是账户情况、客户稳定性、持有产品类型、理财情况等8个因素，结合第三章第一节表 7 主成分分析的因子的载荷矩阵，可知这些因素对流失率的影响方向与实际业务角度分析得出的结论一致，如在因子载荷矩阵中账户情况这个因子构成如下：
PRIN8=-0.005X6-0.096X7-0.152X9+0.029X11-0.009X12-0.027X13+0.032X23
+0.029X25-0.002X27+0.002X28-0.03X29+0.367X30+0.002X31-2.312X36
因子PRIN8中，影响最大的变量为X36（累积销户数目），为反向影响，销户数目越多PRIN8越小，而PRIN8在回归方程中系数为负，PRIN8越小流失率越大，也就是销户数目越大流失率越大，这跟实际业务角度分析得出的结果一致。
模型的输出结果为客户编号、预测的流失概率，该结果的值越大，客户的流失越有可能发生，例如表 12中某三个客户的输出结果：
表 12输出结果示例
客户编号流失概率
1 0.0214
2 0.0096
3 0.4283
表格来源：SAS软件输出结果整理

四、模型的效果评估

前面一章，针对银行的客户的流失问题进行了logistic回归建模，根据各种统计量检验了模型的有效性。这一章我们将用验证数据集（原始数据的30%，共24000个数据）来检验模型的效果，具体做法是将验证数据放到构建出来的模型，输出一个混淆矩阵，体现模型预测的是否流失与实际的是否流失之间有多大的差异。
模型能输出的结果是每一个客户流失的概率，我们设定一个了阈值p0 ，p0的意义是区分输出来的概率是多少的时候才算是流失，p>p0时，客户被划分到流失的一组；当p<p0时，客户被划分到不流失的一组。这里我们的阈值设置为0.5，只要超过0.5就认为客户有很大可能性会流失。
基于此我们通过SAS软件构建了混淆矩阵如下表所示：
表 13模型的混淆矩阵（0为未流失客户，1为流失客户）

表格来源：SAS软件模型混淆矩阵输出结果
从表 13的混淆矩阵中，我们能够知道，在验证数据集中，正确预测出bad的客户（829个）占了全部bad的客户（1097个）的75.57%，即准确率为75.57%；正确预测出good的客户（22475个）占了全部good的客户（22903个）的98.13%，准确率为98.13%，模型能很好地区别bad_good客户，效果较为理想。
表 14 预测模型和观测响应的关联

表格来源：SAS软件输出结果
表 14显示的是模型预测的概率和观测的响应之间的关联，其中有 94.9%的预测结果是对的，只有5%左右的预测失误，结果比较理想。

五、减少银行客户流失的策略

本文从最初收集到的150多个变量，经过相关性检验、主成分分析等等步骤精简为最终进入模型的8个最重要的因子，使用这8个因子进行logistic回归分析得到这些因子对客户流失的具体影响程度大小和影响方向，为银行划分重点监测指标和制定减少客户流失的方法提供参考：

（一）大客户营销

第一，我们需要定义哪些是大客户才能对大客户做出正确的应对策略，大客户是根据客户在银行的资产规模大小来定义的，每个银行有各自具体的标准，此处不做具体说明。由模型结果可知，客户在该银行的资产情况不单指客户的资产总额，还包括资产的具体分布，比如在活期与定期的分布比例，如果活期大于定期，客户的资产总额较大，反而会因为质量高引来竞争对手的争夺，并且因为该客户不稳定（即持有较长期限的产品很少）而更加容易流失；如果客户资产中期限较长的产品占比较大，那么客户的资产的总额越大客户的流失率越小。因此，在营销过程中让客户保有更多长期产品有利于客户稳定。
其次，大客户营销的关键自然是给客户带来最大的利益。为客户打造全流程的服务，为客户提高效益是最基本的。客户的基本业务需求在每一家银行都能得到满足，关键是了解客户的痛点，如为大型企业安装现金管理系统，促进企业管理业务资金的往来的效率，以此大大提高企业的效益[14]。

（二）个性化服务

由模型结果可知客户销户的数目越多客户的流失概率越大，客户销户的主要原因是账户的使用频率低，第八个因子（代表客户的账户情况）的另外两个系数比较大的变量是最近三个月内账户借方月均交易次数和最近三个月内账户贷方月均交易次数，加上第二与第三个因子（交易与转账情况），说明要降低客户销户的概率就必须想办法提高客户的交易频率。
提高客户的交易频率的方法有很多，例如价格优惠。很多时候客户会因为价格实惠二选择某一产品，在银行获得利益的同时客户也能从中获得更大的优惠，在这种情况下客户更加愿意与银行保持良好的关系，日常生活中，银行给客户提供的优惠可以体现在信用卡的免息期延长或者客户能有更高的贷款额度等等。这些都是生活中很常见的客户关系维系手段，是银行一定要做到的最基本的东西，但是正因为这些很基本，每个竞争对手都能做，因此，银行必须理解客户的详细的需求，提供更贴心的服务，比如通过观察客户一段时间内的交易习惯，了解客户的偏好，因为这些数据时客户在银行留存一段时间之后，银行通过观察获取的独有信息，因此在留住客户和防止竞争对手挖走客户方面有极大的作用，并且不能在短时间内被对手轻易模仿。
如何实现个性化服务，第一步是要获取客户独有的交易信息，从而推测出客户的交易习惯，而如何时刻观察并实时分析客户的习惯则需要利用现有的计算机与数据挖掘技术，准确而迅速地辨认客户的需求，例如使用大数据分析里面的推荐与预测技术，对客户进行针对性的产品推送与客户流失倾向的预测分析，这样才能令客户更加地满意，让客户不会轻易离开。针对一般的客户使用系统自动识别自动推荐技术为客户推荐客户感兴趣的产品；针对高级的客户，银行应该在各个方面做到最好，不仅在业务办理上有更加细致的服务，而且为客户配备实时为客户服务的专属高级理财经理，令每一个客户都能得到需求的满足[13]。

（三）交叉营销

模型的第六个因子代表客户在该银行的理财情况，相比存款，理财能为客户创造更多收益。根据模型结果和第一个因子可知，是否持有理财类型的产品，特别是薪资理财和理财的金额越多的客户，会比较难离开，交叉销售的想法就是，尽可能向顾客销售更多的产品，持有产品越多，越有可能留住客户；除了用来降低客户流失率，交叉销售也可以降低银行的营销的成本[20]。
交叉营销具体实施：根据模型结果可知，增加客户期限较长的产品的持有量，能更好地维系客户，而较长期限的产品最有效的是定期存款，方程第四个因子最关键的变量就是定期存款的标志，除此之外，方程第七个因子（持有产品的类型）也体现了这个信息，其中最关键的变量为持有国债的标志和持有国债的金额，联系初步筛选变量时直方图检验里面持有国债流失率为1.43%，反之为4.77%，由此可见，在对目标客户进行交叉营销的时候应该优先推荐定期存款与国债。但是要做好交叉营销并不容易，需要注意如下的几点：① 银行在不断优化完善产品的同时，也要注重服务质量，只有做好最基础的服务客户才会对这家银行有好感，才会在这家银行进一步购买产品，而促成成交的前提也是让客户信任销售的人员。如果客户能在网点办理业务的时候得到细心和耐心的服务，如果客户能在遇到问题的时候获得银行员工及时的帮助，银行员工在销售的过程中也会变得十分顺利。除了如何促成交易等售前服务，更能决定是否留住客户的是，售后服务，在银行体系里也就是如何处理客户的投诉，第一是要及时地反馈，在收到客户投诉的时候要以良好的态度与客户交涉，寻求解决办法，第二是要重视客户投诉是所传达的信息，通过这些信息去完善银行的产品和服务；②观察客户是否进行交易，交易的频率与交易量，除此之外，还要用科技手段记录客户现阶段持有哪些产品、以前持有哪些产品，从而分析客户购买产品的偏好变化，客户账户有多少金额以及账户金额的变动情况，通过一切与客户在银行的交易信息来预测客户的需求，如此可以让银行的营销方向更加精确；③ 银行的交叉销售首先要有“全渠道运营”，全渠道的运营就是客户使用不同的渠道时，银行都能对客户进行完善的服务，同时收集到客户的交易数据，并且使用数据，可以获知客户的偏好等，促进客户服务。[16]。

结论

本文以某一商业银行的数据为基础，使用SAS数据分析工具建立了商业银行的客户流失因素分析模型。本次模型构建的流程为数据处理、模型建立、模型验证。在这个过程中，针对变量选择的问题，本文将收集到的数据（包含大约150个变量）根据数据质量和客户生命周期等对变量进行初步筛选，获得36个初步变量；针对变量之间具有多重共线性的问题，我们使用了主成分分析的消除模型的多重共线性，再用新形成8个因子进行logistic线性回归。发现对客户流失影响最大的因素是账户情况、客户稳定性、持有产品类型、理财情况等8个因素和这几个因素对客户流失影响的大小排序。再根据这8个因素提出针对流失客户的应对策略，如大客户营销、个性化服务等。
由于本文所使用的数据是该银行经过脱敏处理的数据，虽然能保证多数信息与原始信息一致，但其中不可避免有所缺失，影响了模型的最终结果。
数据挖掘在银行业的应用十分广泛，本文仅从最常用的logistic回归技术来探索客户流失原因并探讨了如何降低客户流失率，这里还有许多问题有待进一步解决：除了逻辑回归之外，还有很多数据挖掘方法，如决策树、粗糙集理论、遗传算法等，每种方法有其优点与缺点，如何将各个方法取长补短进一步结合值得进一步探索；由于实际应用场景不同，分析样本不同，模型的准确度也会受到影响，因此需要从实际应用中不断扩大客户信息，不断完善模型，增加模型的实际可实施性。