1.引言

随着互联网业务的速发展,移动业务市场的客户流失预警成为每一个电信运营商重点关注的内容,在商务智能与机器学习快速发展的当下,运用数据挖掘的方法,实现对电信客户的挽留、转化、精准营销越来越彰显其商业价值。如何最大程度地挽留在网用户、吸取新客户,是电信企业最关注的问题之一。竞争对手的促销、公司资费软着陆措施的出台和政策法规的不断变化,影响了客户消费心理和消费行为,导致客户的流失特征不断发生变化。对于电信运营商而言,客户的流失会给电信企业带来市场占有率下降、营销成本增加、利润下降等一系列问题。在发展用户每月增加的同时,如何挽留和争取更多的用户,是一项非常重要的工作。

2.运营商客户流失因素分析

2.1 缺失值及数据冗余处理

电信客户信息中,部分属性如:VIP等级、本地主叫时长等存在数据缺失,对于这部分数据的预处理,时间上稳定的用户信息,如果数据缺失,以最近一个月的套餐信息代替;对于无法补充的用户信息,以NA替换;对于连续性信息的丢失,将该值前后时间上相邻的两个值的平均值。处理重复数据时,根据数据完整性及数据录入时间进行判断,选取完整性最高的数据或同等条件下最新的数据,剔除重复数据。

2.2 因素分析

部分属性的探索性分析过程如下:

(1)性别与用户流失

探索性数据分析作为数据挖掘前的数据处理方式,有助于分析人员摆脱条件假设的束缚,通过对原始数据的探索,寻求数据间的内在联系,从而帮助分析人员找出数据间的规律,选择适当的模型进行数据建模。

对于性别的缺失值,我们可以观察到性别中的3种标签呈现出不同的流失程度,男性流失率为0.034,女性为0.030,NA为0.021,转换为3个哑变量。其他离散性变量处理方式相同。

(2)合约时间与用户流失

用户合约到期时时间与用户流失关系如图4所示,横坐标0为NA,可以看出,合约在短期内到期或呈缺失值的用户流失程度最高,其次到合约到期时间在中等长度的用户,2019年以后合约才到期的用户流失率最低,流失率基本为0%,因此分为三个类型。

3. 客户流失预测模型

3.1 C5.0算法

C5.0算法是决策树C4.5的改进算法,在精度上采用boosting方法,以信息增益率(GainsRatio)作为样本分枝属性,增强C4.5算法多属性的分枝的健壮性,在决策树建立之前,每个输出变量属性是完全随机的,以信息熵来表示信息的不确定性为:

(1)

在决策树建立过程中,随着信宿接收到信息,考察输入变量 ,则条件熵为:

(2)

于是,信息增益为:

(3)

信息增益的物理意义在于:属性 的发生对于特征U的不确定性减少量。C4.5和C5.0算法中,将信息增益与信息熵的比值,即信息增益率来选择属性,信息增益率为:

(4)

信息增益率作为一种提升算法,更能反映出属性的信息混乱趋势,因此选择信息增益率最大的输入变量作为最佳分组变量,这主要是因为它消除信宿对信源的平均不确定性的能力最强。由此进行的样本分组,输出变量在两个组内部取值的趋同程度自高,即各组内部的 差别大。

3.2 误差分析

针对每个节点,以其中的众树类别作为预测类别。设第i个节点中包含n个样本,有 个预测错误的样本。于是,可利用观测到的错误率 ,在近似正态分布假设的基础上,对该节点的真实误差 进行估计。由于估计是在训练样本上的,因此应给出一个置信度 。于是,真实错误率的置信区间为:

(5)

其中, 为临界值。可得第i个节点真实误差的估计上限,即悲观估计为:

(6)

4.客户流失预测实例分析

4.1 多因素分析

数据属性过多造成决策树模型复杂,但通过探索性数据分析可知,一些属性对于决策树的生成并无影响,因此,在建立决策树模型前,需要对数据的各个属性进行多因素分析,从而找出重要因素,这样可以简化决策树模型,降低时间复杂度,提升模型效率。其属性权重分布如下:

通过对原始数据的多因素分析,可以得出以下结论:入网时间(INNET_MONTH)、有通话天数(CALL_DAYS)、有主叫天数(CALLING_DAYS)、短信发送条数(P2P_SMS_CNT_UP)、主叫呼叫圈(CALL_RING)和年龄(CERT_AGE)与流失呈负相关,本月费用(ACCT_FEE)和有被叫天数(CALLED_DAYS)与流失程度呈正相关。这些特征与现实生活情况相近,变量筛选力度大,因此,在建立决策树模型时,可以通过考虑这些重要客观因素来简化决策树分枝,从而高效输出决策树模型。预测变量的重要性如图所示。

4.2 分类树C5.0算法预测运营商客户流失

建立决策树模型,模型规则输出如图所示。

通过决策树模型的输出,可以得到各个属性对用户流失特征的决定作用,决策树模型的特点之一就是可视化效果好,通过决策树输出规则图可以清楚确定每一个决策分枝的分类规则,从而确定用户流失特征。

4.3结果分析

在数据建模过程中,样本数据十万余条,其中60%作为训练样本集,30%作为测试样本集,10%作为验证样本集,通过建立的决策树模型,得到的预测精度高达92.72%,其详细情况见表2。

训练  准确性  测试   准确性    验证

准确性

正确

166599

92.46%

81381

90.33%

27845

92.72%

错误

13586

7.54%

8712

9.67%

2186

7.28%

总计

180185

1

90093

1

30031

1

由此,我们根据建立的决策树模型,输出其重要属性的置信度值,通过每个属性的置信度值,可以清晰反映数据属性的重要性,在用户流失的决策树模型中可以很好的发挥其作用。

数据下载链接:https://pan.baidu.com/s/10cGtAHvoCBOPKDdSr6vgOw

【Paper Note】基于决策树算法的电信运营商客户流失预测相关推荐

  1. 通信运营商客户流失预测

    通信运营商客户流失预测 一.背景 客户流失是电信行业最重要的服务方面之一.客户流失的广义说法是因为客户自己或运营商违反服务协议而终止客户服务的行为. 然而,客户流失的最主要和最常见的原因是由于客户对运 ...

  2. 支持向量机 实战电信运营商 -客户流失预警

    python 里面zip() 函数的用法 subplot2grid 分析与准备数据-开会与讨论 4.1.1 加载数据集 Step.1 通过pandas来导入csv:查看一下数据的基本情况,可以看到, ...

  3. 机器学习案例:运营商客户流失的数据分析 #数据去重#数据分组整合#缺失值处理#相关性分析#样本平衡#决策树、随机森林、逻辑回归

    运营商客户流失分析 - 飞桨AI Studio 目录 1 数据预处理 1.1 数据集去重 1.2 数据集分组整合 1.3 缺失值处理 1.4 相关性分析 2 样本平衡 3 相关性分析 4 构建模型 4 ...

  4. 运营商客户流失率分析

    目录 1.数据集说明 2.分析思路 3.数据预处理 3.数据分析及可视化 3.1.总体流失率分析 3.2.用户属性分析 3.3.服务属性分析 3.4.合同属性分析 4.高流失率用户画像 5.结论和建议 ...

  5. 运营商客户流失分析和预测--数据分析项目

    背景 关于用户留存有这样一个观点,如果将用户流失率降低5%,公司利润将提升25%-85%.如今高居不下的获客成本让电信运营商遭遇"天花板",甚至陷入获客难的窘境.随着市场饱和度上升 ...

  6. 某电信运营商客户是否会流失的预测分析

    1.项目背景 如今通讯市场饱和,运营商之间争夺客户十分激烈,电信运营商一般会通过套餐(某种合约)的形式来吸引和绑定用户,为了保持用户粘性,会将合约的价格定得比随用随付的要优惠.比如,一个1年的套餐合约 ...

  7. 运营商客户流失预警建模与精准挽留

    客户流失属于流程类的项目 客户流失分析建模 功能实现框架流程 spass,spark,都可以做评估分类 相对来说,提高查全率 选分类

  8. 基于聚类(Kmeans)算法实现客户价值分析系统(电信运营商)

    文章目录 一.电信运营商--客户价值分析 二.使用聚类模型-分析项目需求 三.聚类模型的原理和方法 四.代码: 4.1 数据感知 4.2 数据预处理 4.3 模型建立 4.4 概率密度图 开发环境 j ...

  9. 计算机成绩统计优秀率,基于决策树算法的成绩优秀率分析与研究.pdf

    基于决策树算法的成绩优秀率分析与研究.pdf · · EraNo.122015 70 Computer DOI:10.166448.cnki.cn33-1094/tp,2015.12,019 基于决策 ...

最新文章

  1. linux救援模式无法识别分区,Linux操作系统出现严重故障后的救援模式
  2. review what i studied `date` - 2017-4-11
  3. OpenCV学习:播放avi视频文件
  4. TIMESTAMP和DATETIME哪个好
  5. 字符编码知识:Unicode、UTF-8、ASCII、GB2312等编码之间是如何转换的?
  6. Python进阶丨如何创建你的第一个Python元类?
  7. 戴尔笔记本怎么重装系统win11,win11系统安装方法
  8. 使用C++和LIBSVM实现机器学习+样本分类
  9. matlab高数数学报告,高等数学实验报告matlab参考答案
  10. DeFi中的关键——智能合约 | 白话区块链入门220
  11. 【win10】设置电脑固定IP,解除固定IP
  12. Flex 连接 FMS,测试代码。
  13. php运行模式cgi,修改DirectAdmin面板PHP运行模式为CGI
  14. matlab计算轮廓曲率半径,【转】求最小曲率半径matlab源程序
  15. C++ __builtin_函数
  16. 【web安全】SQL注入漏洞1--寻找SQL注入
  17. Materials - 使用Substance Designer制作哥特式花纹
  18. 计算机二级考试vb内容,全国计算机二级VB考试内容
  19. 1110 区块反转 – PAT乙级真题
  20. 一个轻量的工具集合 - MikuTools

热门文章

  1. 零数科技创始人林乐博士荣登“长三角G60科创走廊创业榜单—星耀G60”
  2. 服务器阵列信息恢复,DELL RAID阵列的创建恢复回原有的用户数据
  3. 非淡泊无以明志 非宁静无以致远
  4. 爬取东方财富网数据笔记
  5. web期末作业网页设计——JavaScript
  6. Vue 组件封装之 Content 列表(处理多行输入框 textarea)
  7. [DevExpress]DateEdit年月
  8. 安装 VMware workstation
  9. Socket编程5种模型——以代码说明一切,hhhhh
  10. 西门子PLC控制康耐视COGNEX相机拍照检测注意点