1、赛题链接:面向电信行业存量用户的智能套餐个性化匹配模型

2、赛题任务: 利用已有的用户属性(如个人基本信息、用户画像信息等)、终端属性(如终端品牌等)、业务属性、消费习惯及偏好匹配用户最合适的套餐,对用户进行推送,完成后续个性化服务。

3、数据解读及预处理:

  • 多分类任务–>11分类;根据service_type来划分套餐 ,一类8个,另外一类3个(下文图片里面的大宝卡以及腾讯王卡系列)。

  • 11个套餐表所对应的卡,通过对1_total_fee进行value_counts和网上套餐比较可以大致推出来。

  • 数据预处理---->清洗数据以及对1234_total_fee进行类似3sigma的进行标记。

4、特征工程:

  • 对1-2-3-4_total_fee进行min ,max ,std ,mean等操作;最后发现四个月话费的最小值是比较强的特征,从EDA来看对套餐区分是比较明显的。

  • 本月流量以及上个月流量的差值特征;并且发现某些用户上个月的流量是一个完整的数值,比方说1024,2048,3072这种数值,对这种用户进行了简单的标记。

  • 用当月费用减去超出通话时长的钱。1_total_fee - (service1_caller_time)*0.15

  • 计算每个用户的基本费用(base_fee)

  • 判断四个月的话费是否是一个整数。比方说套餐36的用户如果账单里面出现了36和36.0的话,那么后者36.0可能是其他base_fee通过开加油包等超出套餐费用叠加上来的。

  • 四个月的费用分别groupby(“complaint_fee”)进行count。

5、搭建模型:

模型: 十折的lightgbm模型 + 五折的xgboost模型

xgboost实在是太慢了,没有GPU加成的话貌似要跑差不多一个白天,但是用上GPU精度就降低了。

6、模型融合: 通过林有夕大神分享的投票代码进行融合,有一点收益但是不大。

7、处理:

  • 我们队伍是失败了,大概思路就是对模型分不开的两个套餐加一个权重。决赛队伍应该都是有分享的。

  • 还有就是植物之前ijcai2018所用过的"食之无味,弃之可惜",惜的是我们也失败了。


最后附上我们队的github链接(记得点个星星哦~)

开源代码地址:2018_CCF_BDCI_ChinaUnicom_Package_Match_Rank6

这个比赛第一名,第二名,第四名貌似都有开源,还有砍手豪大佬对植物嫁接的进一步深入在知乎上都有文章,可以进行参考。

面向电信行业存量用户的智能套餐个性化匹配模型(top6)相关推荐

  1. CCF大数据竞赛-面向电信行业存量用户的智能套餐个性化匹配模型

    题目:面向电信行业存量用户的智能套餐个性化匹配模型(2018 CCF-大数据竞赛(联通研究院举办) ) 网址:https://www.datafountain.cn/competitions/311/ ...

  2. 开源-BDCI2018面向电信行业存量用户的智能套餐个性化匹配模型Top1解决方案和代码...

    本人经过作者同意,公布了:BDCI2018面向电信行业存量用户的智能套餐个性化匹配模型数据竞赛top1解决方案和代码.该方案利用已有的用户属性(如个人基本信息.用户画像信息等).终端属性(如终端品牌等 ...

  3. 开源-BDCI2018面向电信行业存量用户的智能套餐个性化匹配模型Top1解决方案和代码

    来源 本人经过作者同意,公布了:BDCI2018面向电信行业存量用户的智能套餐个性化匹配模型数据竞赛top1解决方案和代码.该方案利用已有的用户属性(如个人基本信息.用户画像信息等).终端属性(如终端 ...

  4. CCF BDCI面向电信行业存量用户的智能套餐个性化匹配模型解题方案

    参考源码:Top2方案 原始数据 问题主要是根据如下的数据所进行的11类分类问题. 字段 中文名 数据类型 说明 USERID 用户ID VARCHAR2(50) 用户编码,标识用户的唯一字段 cur ...

  5. 一种面向电信行业基站数据的数据采集系统的设计与实现

    一种面向电信行业基站数据的数据采集系统的设计与实现 1,项目简介 本论文来源于上海电信应急指挥平台.上海电信应急指挥平台主要是采集上海所有基站的一些与应急相关的实时数据,将这些数据做统计分析工作之后, ...

  6. 数据竞赛:联通套餐个性化匹配

    机器学习是一个理论结合实践的学科,手头没有实际数据和案例的时候,看一看数据竞赛就不错.这是2018年的一个数据比赛,当年第一.第二的优秀选手都慷慨分享了他们的代码,可以根据代码回顾一下Top选手当时的 ...

  7. 解读:大数据在电信行业的五大应用

    调查结果显示,全球120家运营商中约有48%的运营商正在实施大数据业务.大数据业务成本平均占到运营商总IT预算的10%,并且在未来五年内将升至23%左右,成为运营商的一项战略性优势. 电信与媒体市场调 ...

  8. 电信行业大数据应用的四个方向

    引言 大数据无疑是近两年最热门的词语,"大数据"最早由全球知名咨询公司麦肯锡提出,麦肯锡认为[1]:大数据"是创新.竞争和生产力的下一个前沿领域",可以利用大数 ...

  9. 电信行业数据分析服务(转)

    电信行业数据分析服务(转) 转自https://www.douban.com/note/516353031/?type=rec&qq-pf-to=pcqq.group  数据分析服务 2015 ...

最新文章

  1. python替换字符串内容
  2. python教程:可变长参数(*args、**kwargs)、返回值(return)
  3. 【Android应用保护技术探索之路系列】之一:Android应用保护技术开篇
  4. iOS开发之如何跳到系统设置里的各种设置界面
  5. python中如何定义函数的传入参数是option的_python – 当使用@ click.option将命令行参数传递给函数时,如何返回值?...
  6. rvest | 网络爬虫初步——使用CSS选择器
  7. yum仓库中源的配置与使用
  8. C# 一个基于.NET Core3.1的开源项目帮你彻底搞懂WPF框架Prism
  9. 高等数学复盘 | 第七册上册第一章——第六章思维导图梳理(复习专用)
  10. linux内核编译指定驱动,linux内核编译,配置本机驱动
  11. 获取UI控件位置信息
  12. 关于Win11家庭版安装Ansys2021R1遇到的问题
  13. 【聚类】算法及其评估指标
  14. 小酌重构系列[12]——去除上帝类
  15. 细粒度的、安全高效的基于区块链数据溯源系统 Fine Grained, Secure and Efficient Data Provenance on Blockchain Systems(一)
  16. linux段错误core dumped,段错误 (core dumped) 之 core文件
  17. Matlab axis用法
  18. 连锁不平衡的计算以及LDSC分析多基因遗传
  19. 【Re】36C3CTF xmas_future
  20. 简单理解---JVM虚拟机

热门文章

  1. 2023年全国最新安全员精选真题及答案1
  2. JavaWeb项目调用QQ登录----QQ互联
  3. 虽然我不懂浪漫,不会转弯,想的很简单~~~~
  4. 【每日一词】pallor
  5. 26.18 INFORMATION_SCHEMA KEYWORDS 表
  6. 矩阵论(零):线性代数基础知识整理(2)——矩阵的秩与向量组的秩
  7. 景区旅游多商户版v18.6.9
  8. Unity lua内存泄漏与性能检测
  9. 趣味理解网关、路由等概念
  10. 定时任务的框架 quarts