大家好,妈妈杯已经开赛了,得到赛题之后我赶忙写了个baseline给大家提供思路,主要的工作是数据预处理和简单的建模。

数据处理

大体的观察了一下数据,发现无论是语音和上网两个数据集中train和test的特征列是对不上的,而且数据中存在大量的缺失值,数据预处理起来还是挺麻烦的。

那么我大体的思路就是将用户描述的列删了,空缺值观察了一下使用0去填充。关于类别编码,一些类别特征使用硬编码进行编码,终端品牌和终端品牌类型选择直接删除(这个是后面实验了一下,发现这种类别特征没啥用)。

问题1

关于问题1,一般情况下直接使用主成分分析是没什么问题的,我用热力图可视化了一些相关性系数,可以看出比较重要的特征是遇到网络问题还有用户的一些反馈(所在场景比如说办公室,居民小区)

问题2

对于问题2的话,可以当成回归问题去做,也可以当成分类问题去做,测试了一下其实没什么区别。我简单的尝试了一下决策树,发现拟合效果其实一般,r2在0.029左右。随后考虑到许多特征是没用的,我采用相关性系数进行了一些特征筛选,之后r2在0.3左右(其实也是一个比较差的成绩),随后又尝试了一些其他的模型,发现其实模型的帮助不大,建议各位同学在特征工程上努努力。

还有一点就是,在训练与预测的时候是将四个要预测的labels分开进行的,后续可以尝试一下级联模型(不保证效果doge)

思路就这些,比较适合小白,如果想要代码的话直接跳链接就行

MathorCup大数据竞赛B题Baseline(持续更新)相关推荐

  1. 2021年MathorCup高校数学建模挑战赛—大数据竞赛A题二手车估价问题解题思路

    MathorCup高校数学建模挑战赛-大数据竞赛 A题 二手车估价问题 原题再现:   随着我国的机动车数量不断增长,人均保有量也随之增加,机动车以"二手车"形式在流通环节,包括二 ...

  2. MathorCup大数据竞赛-北京移动用户体验影响因素问题思考

    针对本次2022年MathorCup大数据竞赛-赛道B初赛题是关于北京移动用户体验影响因素问题.问题一,二呈递进关系.客户语音业务和上网业务满意度研究内容方法大同小异.这里给出客户语音业务满意度研究内 ...

  3. 自学it18大数据笔记-第二阶段hadoop-day11——会持续更新……

    笔记为自学时随手记录,如有错误,欢迎指正,不胜感激!现已广州转移至上海,欢迎小伙伴们加qq或微博沟通交流(QQ,微博和博客同名) 笔记分享:自学it18大数据笔记-第二阶段hadoop-day11-- ...

  4. 自学it18大数据笔记-第二阶段Hive-day4——会持续更新……

    笔记为自学时随手记录,如有错误,欢迎指正,不胜感激!现已广州转移至上海,欢迎小伙伴们加qq或微博沟通交流(QQ,微博和博客同名) 笔记分享:自学it18大数据笔记-第二阶段Hive-day4--会持续 ...

  5. 2022mathorcup数学建模大数据竞赛B题完整成品来啦!

    大家好呀,20号mathorcup大数据赛发布赛题以来,我就在知乎先是发布了选题建议及初步思路讲解,本来预计是24号完成成品的书写,但没想到最后28号才完成,之后我也录制了成品讲解视频,成品讲解视频以 ...

  6. 明翰的大数据笔记V0.2(持续更新)

    文章目录 前言 什么是大数据 大数据应用场景 `MapReduce` 大数据的HelloWorld 内部机制与原理 组合器Combiner Hadoop 优缺点 Hadoop版本 Hadoop V1 ...

  7. 大数据Notebook调研信息汇总(持续更新中)

    大数据组件 支持Spark 支持Flink 支持最新版大数据组件 备注 Zeppelin ✓ ✓ X 大概消耗1.3G内存 Jupyter ✓ 必须导入alink才支持 ✓   Databricks ...

  8. 2019年最全的大数据学习大纲总结,持续更新.....

    一,题记 要说当下IT行业什么最火?ABC无出其右.所谓ABC者,AI + Big Data + Cloud也,即人工智能.大数据和云计算(云平台).每个领域目前都有行业领袖在引领前行,今天我们来讨论 ...

  9. 2022年最新版大数据面试题全面总结-持续更新

    更新内容和时间表 2021.10-11月 [八千里路云和月 | 从零到大数据专家学习路径指南] [我在B站读大学,大数据专业]

最新文章

  1. mysql8.0 服务移除_Linux下彻底删除Mysql 8.0服务的方法
  2. 武汉理工大学c语言实验 编程解决鸡兔同笼问题,C语言程序设计实验指导
  3. Android Studio中有没有类似于Eclipse中的ctrl+2+L的快捷键? \Android Studio快捷键之代码提示...
  4. 华为云阳云计算外包给哪家公司的_长春作为东北中心,华为四大件已经配齐,绝了!...
  5. 【大话数据结构算法】直接选择排序
  6. 算法 --- 求两个集合的并集
  7. Selenium脚本编写技巧和窍门
  8. 如何恢复osd的auth表中的权限
  9. VAE【变分自编码器】
  10. GDAL源码剖析(四)之命令行程序说明一
  11. C++编程练习(14)-------“单例模式”的实现
  12. BZOJ 3231: [Sdoi2008]递归数列
  13. 基于微信小程序的学习网站源码
  14. 您的账号与服务器断开连接,节奏大师您解决服务器断开连接的方法(帐号与服务器断开连接怎么办)...
  15. 双边滤波器和高斯滤波器
  16. 西工大计算机专业研究生就业前景,2020考研34所院校就业情况解读:西北工业大学...
  17. python selenium清除缓存,Selenium Python:无法清除chrome浏览器缓存
  18. lstm token分类模型代码解析(直接传入batch数据,测试pad和pack_padded、pad_packed三函数)
  19. java stringbuilder 构造函数_java中stringBuilder的用法详解
  20. 微信公众号如何设置开发者密码(APPSecret)?

热门文章

  1. 文件操作与文件夹操作
  2. leetcode:904. 水果成篮
  3. GSM-GPRS-WCDMA-LTE-5g 的总结
  4. 初遇QT——遇见QT遇见你,不负代码不负卿
  5. 数据结构思维导图——Java版
  6. 放开后经济会变好吗?越南是怎样度过的?
  7. 【C语言】C语言库函数
  8. Java文件路径问题
  9. 云计算发展前景好不好 学了后能胜任哪些岗位
  10. java白盒测试代码_Java白盒测试