案例:电信用户分群精准画像
决策树应用于电商行业用户细分精准画像的案例
1、业务问题背景
2、数据理解:e8升e9的数据理解
3、确定分析对象
本环节关键点:
缩小分析基础客户群范围,从表中238万宽带客户中筛选出24万符合业务目标的e8客户,作为数据挖掘的基础客户群
具体步骤:
常用的数据挖掘基础客户群筛选维度如下:
- 客户群筛选,如宽带客户、手机客户、固话客户
- 套餐大类筛选:如e8、e9、乐享
- 特定业务规则筛选:如活动对客户网龄、套餐档位的限定
- 互斥协议等筛选:根据活动规则,对已有互斥协议的客户进行筛选
分析对象筛选流程:
以e8升e9为例,根据前期业务和数据理解,本次挖掘的基本目标客户为e8用户,且在同账户下无C网手机。
具体数据样本选取路径如下:
注,具体操作方法:
- e8客户筛选操作:选择客户“套餐类型”字段为“e8”的客户
- e8客户无C网手机筛选过程:将所有e8客户的ACC_ID字段与“CDMA单月宽表”进行关联,能关联出C网号码的即视为同账户下有C网手机。形成241243数据样本。
4、变量筛选
以e8升e9案例中变量处理为例,具体筛选流程如下:
- 通过对67个字段明显无关字段初步筛选后获得18个主要字段。
- 此后,需根据字段理解对有明显相关性的变量进行筛选合并,如下面表格中的红色字段,宽带上行流量、宽带下行流量和宽带总流量三个字段存在明显的关联关系,因此根据业务需求可直接只选择宽带总流量进行分析即可。
- 对于不确定是否有相关性的部分字段,可通过SPSS中“输出”模块中的“统计量”节点进行相关性判断。通常分析相关性结果大于0.666以上可基本判断相关性较强。例如:宽带使用流量字段与其他字段进行关联性分析,发现与宽带使用时长存在较强的相关性,因此这两个个字段可选择其中一个作为输入变量即可。
- 最终确定模型的10个主要输入变量。
5、决策树模型的建立
(1)选择模型输入变量
根据数据准备阶段字段筛选结果选择了9个字段作为模型输入变量。CHAID节点对应的目标变量和预测变量设置,见下截图。
(2)模型输出结果
运行CHAID决策树节点后,Modeler会根据样本数据和输入变量训练决策树模型。虽然输入了9个变量但是CHAID决策树节点训练的模型最终生成决策树所选择的变量只有5个,分别是宽带在网时长(PD_PROM_FEE)、固话通话时长(VO_MOU_FIX_AVG)、固话ARPU(MB_FIX_ARPU_AVG)、宽带在网时长(PD_BB_TENURE)、宽带流量(VO_BB_VOL)。可以看出,这5个变量在都是具有重要业务含义的字段,基本符合建模目标。
(3)决策树输出的初步结果
下图,是决策树模型输出的结果,树状结构末端的每个“叶子”,代表一个细分用户群体。这个决策树结果共有17个“叶子”节点。
6、模型调优
e8升级e9模型中,决策树模型验证调优流程如下:
初步结果判定:
决策树结果共有17个“叶子”节点,用户细分群体偏多,部分群体的规模小,占比不足5%,因此需要根据各叶子节点的特征,对决策树的“叶子”进行修剪合并。
比如,上图中的节点1(套餐档位<=68元的用户),这个节点中的类别“1”用户占比仅0.56%,较全样本的整体类别“1”占比0.786%较低,说明套餐档位<=68元的用户都是质量较差的部分,加装3G手机的可能性较低。从选取营销目标用户的角度,对这类用户不需要进行深入分析,因此可以把该节点下面的三层节点都剪裁合并。
模型的调整和优化—子模型的建立
如果认为决策树的某个子节点对应的决策树规则不符合业务逻辑,则可选择该决策树节点下的样本再建立一个子模型,从新选择新的变量。
比如,对上述决策树模型的结果,在套餐档位为80~98元且宽带在网时长13个月以上的样本分了四个子节点,但是这四个节点的类别“1”占比并没有递增或者递减的规律,这在业务逻辑上很难解释。因此可针对该条件(套餐档位为80~98元且宽带在网时长13个月以上)的样本数据,再单独建立一个决策树模型。
决策树子模型的建立可参见如下截图。首先,利用Modeler的样本选择节点,选择套餐档位为80~98元且宽带在网时长13个月以上的样本数据;然后,在决策树模型的节点选择输入变量时,不要选择宽带在网时长的字段,即调整输入变量;这样Modeler会根据新选择的样本和输入变量建立一个新的决策树模型(见下图)。这就建立了一个更具有业务解释性的决策树子模型。
7、模型结果解释
具体分群的数据结果如下:
根据三个主要判断分群有效的原则,选择提升倍数在1.3以上、客户群规模占比5%以上的群体作为主要目标客户,一共4个客户群。上述的群划分规则即建模变量。
通过决策树模型筛选出目标用户群后,需要进一步根据不同细分目标群体的消费行为特征来推测客户的主要业务需求。此时需要根据e8升e9的业务目标,选择主要的字段来刻画客户特征。通常对客户群各变量的均值来进行描述,具体如下:
因此,具体客户特征总结描述如下:
案例:电信用户分群精准画像相关推荐
- 标签体系、用户分群、用户画像「玩味」解读,你沦为形式主义了吗?
数据一直是各行各业的核心资产,蕴含巨大价值待挖掘,在数据→信息→知识的转化过程中,标签.指标是基础,它将抽象的数据转化为一个相对具象的信息中心,用户分群和用户画像都是在建立在信息中心上的综合应用手段, ...
- 大数据 客户标签体系_大数据场景营销之标签体系、用户分群、用户画像
大数据一直是各行各业的核心资产,蕴含巨大价值待挖掘,在数据→信息→知识的转化过程中,标签.指标是基础,它将抽象的数据转化为一个相对具象的信息中心,用户分群和用户画像都是在建立在信息中心上的综合应用手段 ...
- 用户分群模型:如何打造精细化运营基石?
众多企业追求精细化运营,用户画像.千人千面成为企业数据驱动的必谈热词,但是谈到如何落地,很多企业不得其法. 用户分群是企业精细化,数据化运营的前提,将用户信息标签化,通过用户的历史行为路径.行为特征. ...
- 用户增长分析——用户分群分析
导语在产品的增长分析当中,想关注符合某些条件的一部分用户,不仅想知道这些人的整体行为(访问次数,访问时长等),还希望知道其中差异较大的细分群体.用户分群方法,能帮助我们对差异较大的群体分别进行深入分析 ...
- 用户增长体系——用户分群分析
导语在产品的增长分析当中,想关注符合某些条件的一部分用户,不仅想知道这些人的整体行为(访问次数,访问时长等),还希望知道其中差异较大的细分群体.用户分群方法,能帮助我们对差异较大的群体分别进行深入分析 ...
- 【原创干货】用户标签/用户分群在DMP(数据管理平台)中的应用 | SG小组第一期
前言: SG小组(Study Group)是几个在杭州的产品经理小伙伴基于兴趣而自发组建的学习小组,我们每周会定期开展学习和讨论会,以期通过分享讨论各自熟悉的领域和正在进行的产品项目来达到互相提升的目 ...
- 用户行为分析模型-(行为事件分析、用户留存分析、漏斗分析、行为路径分析、用户分群、点击分析)
最近有些忙,但是看到了很好的分析模型也要跟大家分享的,这篇博客有些粗糙,主要是po上一些链接供大家学习,有时间的话,我也会写出自己关于用户行为分析的理解的. 下面是关于用户行为分析常见的分析维度,有助 ...
- 淘宝用户日志数据集的用户行为分析与用户分群
文章目录 数据集描述 一.数据清洗 1.读取并查看数据基本信息和数据的完整性 2.查看数据集中行的重复情况并删除 3.处理缺失值 4.合并month和day列组成时间类型的date列 5.划分子数据集 ...
- 用户分群模型,这么建才有用
公众号后台回复"图书",了解更多号主新书内容作者:接地气的陈老师来源: 接地气学堂 一听到用户分群呀,很多同学都来劲了,网上大量写用户分群多如牛毛.可实际工作中,经常做完分群以后被 ...
最新文章
- R语言使用ggplot2包使用geom_dotplot函数绘制分组点图(改变图例位置)实战(dot plot)
- 团队-象棋游戏-模块测试过程
- 计算机发展史的十大成就,2019中国十大科技成就:数个“第一”创造历史
- 女神节爆猛料!. NET程序员男女比例公布!
- leetcode32 最长有效括号
- 127.0.0.1和0.0.0.0地址的区别 | 文末送书
- malloc开辟的空间在哪一个区间_专业指南 | 室内设计和空间设计区别,到底该选哪一个?...
- linux 建立vnc,51CTO博客-专业IT技术博客创作平台-技术成就梦想
- java Android SDK安装与环境变量配置以及开发第一个Android程序
- python中返回上一步操作的代码_pycharm最常用的快捷键总结
- 金融衍生品数据分析_大数据_numpy,matplotlib,pandas学习
- 脑语言2500令v0.5.5
- System.BadImageFormatException:试图加载格式不正确的程序。(异常来自 HRESULT:0x8007000B)
- 英:最常用有用的英语口语900句
- 360校招编程题:内存管理
- 干货 | 使用京东云搭建视频直播网站
- Java实现10万+并发去重,持续优化!(至尊典藏版)
- python--data.dropna
- 第三章:可行性研究及需求分析
- 更换VS2015——>VS2019