网游玩家流失特征提取办法（基于C5.0算法和SPSS Modeler）

引言
网游行业的数据挖掘技术一直来说都比较神秘，除了很多业内熟知的数据指标，更多的更深层次的数据解析和挖掘一直都是一个神秘的领域，作用和指导虚拟经济的运作，挖掘玩家行为，指定运营活动方案等等，无时无刻都得利用数据作为驱动，然而过分的利用数据驱动业务则会陷入一些误区，进而会导致一些重大决策失误出现，数据终归是数据，有时候数据也会撒谎。
在网游行业的数据挖掘方面，很多电信企业的数据挖掘方案是值得参考和利用的。比如电信客户流失的特征提取，客户细分，客户流失预警，消费分析，套餐或者礼包制定模型。
今天要说的是网游产品玩家流失特征提取与分析，对于一款网游产品而言，流失率的分析要从产品上线就一直伴随着，目的在于建立一套完整的针对产品的流失预警模型，然而在建立模型之前，我们还要提取流失特征，只有这样最终才能做到防止过高流失率冲击游戏整体人气和收益，而同时针对这些特征，我们有目的的开展一些活动套餐和服务，最终稳定我们会产生较大流失的群体，附加的经过流失预警模型，彻底防范收益和人气的下滑。
在开始研究网游流失特征提取之前，先介绍一个之前模仿做过的电信客户流失特征提取案例，如果这个案例能够理解，那么网游产品的流失特征案例也就可以顺理成章的推导出来。
一、电信案例：
利用特殊算法对电信客户的属性特征进行分析，得出流失客户的基本特征，以帮助企业管理者对该类客户的行为特性进行预警分析，采取针对性的措施改善客户关系，避免客户流失或者挽留客户，达到亡羊补牢的效果。
电信客户数据非常多，其中包含一些客户个人信息，例如年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别，还包含一些客户使用电信服务信息，例如使用电信服务时间，是否开通无线服务，是否开通语音信箱服务，是否开通亲情号服务，以及上月基本话费，上月长话费，上月上网费，累计基本话费，累计长话费，累计上网费等。
举一个例子，如下客户信息表：

该信息表是把一些不重要的属性值删除，将有大量不同取值且无概化操作符的属性或者可用其它属性来代替它的较高层概念的那些属性删除。比如客户信息表中的用户标识、身份证号码等，它们的取值太多且无法在该取值域内找到概化操作符，应将其删除。
再此之后要进行属性概化（属性概化阈值控制技术沿属性概念分层上卷或者下钻进行概化），之后要把连续型属性概化为区间，这就是将数据进行了数据预处理，上述的过程通过SPSS Modeler可以自动的完成。
数据的预处理完成后，下一步就是要结合算法来进行特征的提取，这里使用C5.0构建电信客户的流失决策树。有关C5.0的介绍已经在之前的文章写过了，这里不再累述。
最后使用Modeler创建模型如下：

下面我们分析一下这个模型
利用 C5.0 所具有的函数定义将属性进行排列，具有最高信息增益的属性选作给集合 S 的测试属性。创建一个根节点，并以该属性标记，对属性的每个值创建分支，然后递归建树，可构造一个树状结果图。其中每一个节点都是属性中具有最大增益的属性，生成的树状结果图如下可见：

从树状分析结论来对某电信公司主动流失客户的具体情况进行分析，可以看出在本地通话费小于等于 4.976 分钟 / 月的人群中客户最容易流失，这是因为这一部分人大多有相对稳定的工作、收入相对较高，基本上每人都有自己的移动通信工具，孩子较大且大多在外读书或者已经上班，家中很少有人在，因使用频率低而销户。为挽留这类客户，就应该针对他们工作相对稳定并已经定性、不需要为打拼天下花大量的时间和精力、需要决策而必须了解和掌握大量信息、休闲娱乐的时间相对较多而且固定等特点，采取“固话 + 宽带”绑定的方法一定会受到他们的欢迎。

年轻 e 族（年龄 , 小于等于 39）收入少、赶新潮、思维活跃、攀比心理较强，因而用以受到新的竞争因素影响而成为易流失的客户，针对这部分人的情况，可以采用各种优惠办法，或赠送时尚彩铃，或发展为各种等级的 VIP 会员等办法，来增加对年轻人的吸引力。
比如中国移动针对年轻人的动感地带品牌套餐：

年收入低于 38950 元的低收入群体也是易流失客户，电信公司可以针对这类低收入客户，采取零月租，接听免费，赠送话费等实用措施，留住低收入客户。

相对应的就有年收入高于 51669 元的客户，可能这类客户很多竞争公司会来拉拢，这类客户会因为需要联系业务或是别的要求，经常需要打电话，所以电信可以投其所好，对这类稍高收入群开办套餐，比如 200 元包月任意打、且免除漫游费、接听免费等优惠活动。（等等可根据其他细分情况提出有针对性的挽留优惠活动）
这方面比如中国移动的全球通套餐系列服务：

另外，对易流失客户群 , 采取提高服务质量（如进行客户满意度调查、客户投诉分析、客户咨询和查询焦点分析等）、适当的优惠赠送活动等办法来提高竞争力，加强企业与客户之前的感情沟通，从而留住客户。

当我们提取了用户的特征后，我们可以根据这些特征来为用户指定详细的套餐计划，最大限度的满足用户的需求。比如中国移动的推荐套餐服务。其实这也是一种数据收集的手段，首先根据用户的消费习惯提取用户的一些特征和需求，之后制定一些套餐为用户服务，然后再根据这些特征建立BI系统分析用户的需求并推出一些个性化的定制服务。
http://www.ln.10086.cn/myfeePackage/recomm.html

二、网游产品流失用户分析
其实采取的方法和电信客户流失分析比较相近，最终根据提取的特征，进行流失预警和个性化服务的推广，玩家需要什么是通过玩家的最早需求产生的，进而玩家的整体特征就被描述出来了。
什么是玩家最早的需求？
最早的需求就是用户认知度非常高的需求，这种认知一方面要遵循行业规律，一方面要在游戏设计阶段就已经覆盖了，比如当现在置身在赌场时，你的第一想法是要去赌两把，这时的特征提取很大程度上是依据行业的标配和设计人员的设计，因为此时没有数据进行参考，只能通过一些调研工作进行大概的分析和把握，当游戏上线运营时，在初期的六个月是最佳的调整时期，因为此时用户规模比较大，结合推广和游戏本身人气的增长，快速抓取时间进行流失和用户行为特征的分析，矫正初始设计阶段的玩家特征判定，最后我们会形成类似移动个性套餐的推荐服务。

这样的推荐系统实际上也是一个BI系统，当我们在网游中进行礼包推广，VIP方案制定，搜索功能实现都可以借鉴这样的方案。
下面就简单说一下玩家流失特征提取与应用
1．属性过滤
网游中玩家身上有很多属性，但是不是所有属性都是我们需要和使用的，我们需要的只是一部分，因此在众多的属性中我们要进行过滤，流出一部分属性进行分析。要分析网游玩家的流失特征，关于玩家的个人信息是不能利用的（比如身份证，居住地，性别等等），因此要分析玩家的流失特征要大量提取游戏中的数据点，简单列了一下大概有以下的几个：

2．基于Modeler平台的C5.0算法事实特征提取
（1）利用modeler的“特征选择”节点删除无用字段，比如单个类别过大，缺失值过多，变异系数低于阈值。
单个类别过大
单个类别中的记录最大百分比筛选相对于记录总数而言，同个类别中具有过多记录的字段。例如，如果数据库中 95% 的客户开同一类型的车，则此信息无助于区分客户。任何超过指定最大值的字段都将被筛选掉。
缺失值过多
具有过多缺失值的字段，几乎不提供任何预测信息。
变异系数低于阈值
此度量值是输入字段标准偏差与输入字段均值之间的比值。如果此值接近 0，则变量值的变异性就不高，则信息无助于区分客户。
（2）利用“特征选择”节点选择重要字段
将滤除非重要性的字段。重要性是在建模之前在“特征选择”节点中定义的。
（3）利用“过滤”节点处理含有大量缺失数据的字段
在最终建模预测客户流失之前，我们还需要对整个数据进行分析，识别所有含有大量缺失数据的字段。这里运用“数据审核节”节点。
通常我们对于这种有效值比较低的字段的做法是用它的均值代替它的空值与无效值，我们用“填充”节点来实现对空值与无效值的替换。
（4）利用 C5.0 创建并分析模型
此时可以使用Modeler进行模型创建和分析，并得出结论，之后还要进行数据的审核校验，当建模和评估模型得出来的结果几乎差不多时，且准确率达到 90% 以上。表明使用该算法进行玩家流失的分析和预测是可行的和有效的，它可以帮助运营者更好地了解玩家的流失受到哪些因素的影响，以便在今后的市场营销中有针对性的对那些玩家流失率高的玩家做好服务工作，防止玩家的流失引发的经营危机，这对于提高收益和人气有重要意义。
玩家资源是网游公司的生命，保留并巩固玩家资源对网游公司来说意义重大。C5.0 节点是数据挖掘中一个常用的节点，其算法理论清晰、方法简单、适用于处理大规模的数据问题，因此是一种知识获取的有用工具。将 C5.0 算法应用于玩家流失分析，能够帮助网游公司深入了解玩家流失的原因，改进玩家服务，对提高玩家的留存率，具有十分重要的应用价值。
参考
ID3 算法在电信客户流失中的应用
IBM DeveloperWorks http://www.ibm.com/developerworks/cn/data/library/techarticle/dm-1112wuly/

网游玩家流失特征提取办法（基于C5.0算法和SPSS Modeler）相关推荐

报告称逾千万网游玩家涉及非官方渠道虚拟交易
报告称逾千万网游玩家涉及非官方渠道虚拟交易新浪科技讯 3月20日中午消息,中国互联网络信息中心(CNNIC)今日发布<中国网络游戏用户调研分析报告>,该报告指出我国有超过千万网游玩家涉及 ...
代码资源网整站完整代码，基于ripro9.0定制开发，含572条精品资源数据
许多网友都想搭建一个资源网站,有些网友购买网站vip会员,然后再每天搬运代码资源再整理上传到自己的网站上去,实在太麻烦太辛苦. 鉴于此种需求,本人决定把本站到目前为止的数据整体打包,分享给大家,让大家 ...
bp 神经网络优点不足_基于粒子群算法和BP神经网络的多因素林火等级预测模型...
森林对于生态环境以及人类生活.生产意义重大.目前世界森林面积达40亿hm2,受自然或人为因素的影响,每年全球发生森林火灾次数高达几十万次,受灾面积达几百万公顷. 20世纪80年代以来,随着全球气候持续 ...
从《梦幻西游》看网游玩家分类
前言<梦幻西游>(以下简称梦幻),是目前国内最成功的大型多人在线网络游戏了,作为一款成功的作品,导致其成功的条件是很多的,本文也不想对方方面面的成功条件做详细的汇总和分析,毕竟那是记者和枪 ...
【数字信号处理】基于matlab LMD算法和ELMD算法管道泄漏信号处理【含Matlab源码 1985期】
⛄一.局部分解理论研究局部均值分解算法(Local Mean Decomposition, LMD) 作为处理非平稳随机信号的一种手段,得到了广泛应用,并成熟地应用于机械故障诊断.信号特征提取与分析 ...
C语言基于FOC控制算法和STM32主控芯片的双路直流无刷电机控制器源码
[FOC+STM32]双路直流无刷电机矢量控制器-使用文档
macd的VB计算机程序,基于动态VWAP算法和MACD分析的程序化交易研究
摘要: 在1975年的纽约证券交易所(NYSE),出现了把不同的股票按不同的比例同时进行交易的情况,如果交易总金额超过100万美金交易数量超过15个,那么当时的NYSE就将这种交易叫做程序化交易.随着 ...
站帮网微管家为你打通微信和Discuz论坛社区
站帮网微管家是一款基于Discuz的多用户.多微信公众号,多功能的微信营销平台.关注站帮网微信公众号体验更多功能,也可以直接入住站帮网微管家,免费体验7天,体验地址: http://bbs.zb7.c ...
ID3 C4.5 C5.0
ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法也暴露出一些问题,具体如下: (1)信息增益的计算依赖于特征数目较多的特征 ...

网游玩家流失特征提取办法（基于C5.0算法和SPSS Modeler）

网游玩家流失特征提取办法（基于C5.0算法和SPSS Modeler）相关推荐

最新文章

热门文章