针对本次2022年MathorCup大数据竞赛-赛道B初赛题是关于北京移动用户体验影响因素问题。问题一,二呈递进关系。客户语音业务和上网业务满意度研究内容方法大同小异。这里给出客户语音业务满意度研究内容方法以供参考。

首先,对数据集进行数据预处理。针对已有数据集进行缺失值识别结合附件五根据缺失原因修正。由于数据包含类别数据与数值数据,为选择有效变量首先对数值变量利用相关系数法剔除相关系数超过一定阈值的成对变量的其中一个变量。对类别数据进行数据编码,对编码后的数据利用方差过滤法剔除方差不超过一定阈值的变量,并对数据进行描述性统计,发现数据存在类别数据分布不均衡的问题。利用孤立森林,One-class SVM 等多种异常值识别算法识别异常数据。

针对问题1,推荐使用树模型进行指标权重量化。因为如果采用评价类方法,只会对选择出的重要指标进行权重判断,而忽略了其他可能不是特别重要的指标权重。考虑基于不纯度的树模型特征重要性受到从训练数据集得出的统计数据的影响:即使对于无法预测目标变量的特征,其重要性也可能很高,只要模型有能力使用它们来过度拟合。故使用置换重要性(permutation_importance)作为可以减轻这些限制的替代方法。可选择利用xgboost,随机森林,ExtraTrees来进行置换重要性计算,得到最终结果。选择重要性大于0.01的指标作为影响语音业务的主要因素。

针对问题二,选择问题一中主要因素的指标数据,连接需要预测的数据集与原始数据集相应数据进行数据预处理。训练多种机器学习模型,利用Stacking集成方法集成,得到最后的打分预测。由于数据数据存在类别数据分布不均衡的问题,可考虑重采样进行解决。

部分结果如下所示

类别计数发现类别分布不均

缺失值识别

相关系数法选变量

重要性量化

MathorCup大数据竞赛-北京移动用户体验影响因素问题思考相关推荐

  1. 2022 年 MathorCup 高校数学建模挑战赛——大数据竞赛(北京移动用户体验影响因素研究全套代码)

    赛道 B:北京移动用户体验影响因素研究      移动通信技术飞速发展,给人们带来了极大便利,人们也越来越离不开移动通信技术带来的各种便捷.随着网络不断的建设,网络覆盖越来越完善.各个移动运营商,越来 ...

  2. 2022年第三届MathorCup 大数据竞赛 赛道B 北京移动用户体验影响因素研究 完整建模方案及代码实现详解

    北京移动用户体验影响因素研究 移动通信技术飞速发展,给人们带来了极大便利,人们也越来越离不开移动通信技术带来的各种便捷.随着网络不断的建设,网络覆盖越来越完善.各个移动运营商,越来越重视客户的网络使用 ...

  3. 【大数据竞赛】2022MathorCup大数据挑战赛 B题 北京移动用户体验影响因素研究 探索性数据分析

    系列文章目录 第一章 [大数据竞赛]2022MathorCup大数据竞赛 B题 北京移动用户体验影响因素研究 题目分析 第二章[大数据竞赛]2022MathorCup大数据挑战赛 B题 北京移动用户体 ...

  4. 【大数据竞赛】2022MathorCup大数据挑战赛 B题 北京移动用户体验影响因素研究 题目分析

    系列文章目录 第一章 [大数据竞赛]2022MathorCup大数据竞赛 B题 北京移动用户体验影响因素研究 题目分析 第二章[大数据竞赛]2022MathorCup大数据挑战赛 B题 北京移动用户体 ...

  5. MathorCup大数据竞赛B题Baseline(持续更新)

    大家好,妈妈杯已经开赛了,得到赛题之后我赶忙写了个baseline给大家提供思路,主要的工作是数据预处理和简单的建模. 数据处理 大体的观察了一下数据,发现无论是语音和上网两个数据集中train和te ...

  6. 2021年MathorCup高校数学建模挑战赛—大数据竞赛A题二手车估价问题解题思路

    MathorCup高校数学建模挑战赛-大数据竞赛 A题 二手车估价问题 原题再现:   随着我国的机动车数量不断增长,人均保有量也随之增加,机动车以"二手车"形式在流通环节,包括二 ...

  7. 2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛(baseline)

    教育部<高等学校人工智能创新行动计划>教技[2018]3号,鼓励对计算机专业类的智能科学与技术.数据科学与大数据技术等专业进行调整和整合,鼓励各个领域与大数据进行深度融合,通过大数据技术促 ...

  8. 【TIANCHI】天池大数据竞赛(学习赛)--- 淘宝用户购物行为数据可视化分析

    目录 前言 一.数据集的来源和各个字段的意义 二.数据分析 1.引入库 2.读入数据 3.查看数据数量级 4.PV(Page View)/UV访问量 5.漏斗模型 6.用户购买商品的频次分析. 7.A ...

  9. MathorCup高校数学建模挑战赛——大数据竞赛 赛道A 移动通信基站流量预测baseline

    文章目录 前言 一.简单分析 二.具体程序 1.引入库 2.读入数据 3.数据处理 4.模型训练和预测 5.结果文件输出 总结 前言 本文给出2020年MathorCup高校数学建模挑战赛--大数据竞 ...

最新文章

  1. equals()与hashCode()
  2. 1132 Cut Integer (20 分)【难度: 简单 / 知识点: 模拟】
  3. Github标星1.6W+,程序员不得不知的“潜规则”又火了,早知道就不会秃头了
  4. 杭州企业“被参与”互联网攻击致半个美国网络瘫痪
  5. 由微软100题“求和不用for while”引出的static类成员的知识
  6. python实现软件的注册功能(机器码+注册码机制)
  7. 单例模式的练习-如何正确构建
  8. 国家电网面试题计算机类,国家电网招聘面试题及参考答案
  9. Windows Server 2019 安装应用商店
  10. android多屏幕共享,一种实现多人屏幕无线共享的方法技术
  11. my games / BF3 / GTA5 / NFS18 / sanguowushuang6 / RA2 / KOF97 / FIFA
  12. Android HttpClient及连接管理器
  13. win10开机后底部任务栏无响应的修复方法
  14. linux移动文件的命令是什么,linux移动文件命令
  15. VHDL实验二::半加器、一位和四位全加器(绘制原理图)
  16. Oracle 星期(周末处理)
  17. 百面机器学习 之 集成学习
  18. 宽带连接远程计算机691,电脑宽带连接错误691怎么办? 爱问知识人
  19. 洛谷P5266 【深基17.例6】学籍管理
  20. 远程桌面提示CredSSP加密数据库修正

热门文章

  1. linux:文件操作(open、write/read、lseek、close)
  2. java jurisdiction_Java Region.setJurisdiction方法代码示例
  3. VC6无负担实现XP风格界面
  4. SAP HR Schema 详解(三)工资核算基础
  5. STM32 FLASH的擦写寿命
  6. 小米4未显示4g连接服务器,小米4wifi连接上但打不开网页怎么办?
  7. 利用微软接口制作的文字转语音神器Read Aloud
  8. 与计算机内存容量密切相关的,与计算机内存容量密切相关的是( )。
  9. Android逆向工程-破解 哈皮妹-萝莉
  10. 改版后的51la统计,与旧版有何区别呢?