MathorCup大数据竞赛B题Baseline(持续更新)
大家好,妈妈杯已经开赛了,得到赛题之后我赶忙写了个baseline给大家提供思路,主要的工作是数据预处理和简单的建模。
数据处理
大体的观察了一下数据,发现无论是语音和上网两个数据集中train和test的特征列是对不上的,而且数据中存在大量的缺失值,数据预处理起来还是挺麻烦的。
那么我大体的思路就是将用户描述的列删了,空缺值观察了一下使用0去填充。关于类别编码,一些类别特征使用硬编码进行编码,终端品牌和终端品牌类型选择直接删除(这个是后面实验了一下,发现这种类别特征没啥用)。
问题1
关于问题1,一般情况下直接使用主成分分析是没什么问题的,我用热力图可视化了一些相关性系数,可以看出比较重要的特征是遇到网络问题还有用户的一些反馈(所在场景比如说办公室,居民小区)
问题2
对于问题2的话,可以当成回归问题去做,也可以当成分类问题去做,测试了一下其实没什么区别。我简单的尝试了一下决策树,发现拟合效果其实一般,r2在0.029左右。随后考虑到许多特征是没用的,我采用相关性系数进行了一些特征筛选,之后r2在0.3左右(其实也是一个比较差的成绩),随后又尝试了一些其他的模型,发现其实模型的帮助不大,建议各位同学在特征工程上努努力。
还有一点就是,在训练与预测的时候是将四个要预测的labels分开进行的,后续可以尝试一下级联模型(不保证效果doge)
思路就这些,比较适合小白,如果想要代码的话直接跳链接就行
MathorCup大数据竞赛B题Baseline(持续更新)相关推荐
- 2021年MathorCup高校数学建模挑战赛—大数据竞赛A题二手车估价问题解题思路
MathorCup高校数学建模挑战赛-大数据竞赛 A题 二手车估价问题 原题再现: 随着我国的机动车数量不断增长,人均保有量也随之增加,机动车以"二手车"形式在流通环节,包括二 ...
- MathorCup大数据竞赛-北京移动用户体验影响因素问题思考
针对本次2022年MathorCup大数据竞赛-赛道B初赛题是关于北京移动用户体验影响因素问题.问题一,二呈递进关系.客户语音业务和上网业务满意度研究内容方法大同小异.这里给出客户语音业务满意度研究内 ...
- 自学it18大数据笔记-第二阶段hadoop-day11——会持续更新……
笔记为自学时随手记录,如有错误,欢迎指正,不胜感激!现已广州转移至上海,欢迎小伙伴们加qq或微博沟通交流(QQ,微博和博客同名) 笔记分享:自学it18大数据笔记-第二阶段hadoop-day11-- ...
- 自学it18大数据笔记-第二阶段Hive-day4——会持续更新……
笔记为自学时随手记录,如有错误,欢迎指正,不胜感激!现已广州转移至上海,欢迎小伙伴们加qq或微博沟通交流(QQ,微博和博客同名) 笔记分享:自学it18大数据笔记-第二阶段Hive-day4--会持续 ...
- 2022mathorcup数学建模大数据竞赛B题完整成品来啦!
大家好呀,20号mathorcup大数据赛发布赛题以来,我就在知乎先是发布了选题建议及初步思路讲解,本来预计是24号完成成品的书写,但没想到最后28号才完成,之后我也录制了成品讲解视频,成品讲解视频以 ...
- 明翰的大数据笔记V0.2(持续更新)
文章目录 前言 什么是大数据 大数据应用场景 `MapReduce` 大数据的HelloWorld 内部机制与原理 组合器Combiner Hadoop 优缺点 Hadoop版本 Hadoop V1 ...
- 大数据Notebook调研信息汇总(持续更新中)
大数据组件 支持Spark 支持Flink 支持最新版大数据组件 备注 Zeppelin ✓ ✓ X 大概消耗1.3G内存 Jupyter ✓ 必须导入alink才支持 ✓ Databricks ...
- 2019年最全的大数据学习大纲总结,持续更新.....
一,题记 要说当下IT行业什么最火?ABC无出其右.所谓ABC者,AI + Big Data + Cloud也,即人工智能.大数据和云计算(云平台).每个领域目前都有行业领袖在引领前行,今天我们来讨论 ...
- 2022年最新版大数据面试题全面总结-持续更新
更新内容和时间表 2021.10-11月 [八千里路云和月 | 从零到大数据专家学习路径指南] [我在B站读大学,大数据专业]
最新文章
- mysql8.0 服务移除_Linux下彻底删除Mysql 8.0服务的方法
- 武汉理工大学c语言实验 编程解决鸡兔同笼问题,C语言程序设计实验指导
- Android Studio中有没有类似于Eclipse中的ctrl+2+L的快捷键? \Android Studio快捷键之代码提示...
- 华为云阳云计算外包给哪家公司的_长春作为东北中心,华为四大件已经配齐,绝了!...
- 【大话数据结构算法】直接选择排序
- 算法 --- 求两个集合的并集
- Selenium脚本编写技巧和窍门
- 如何恢复osd的auth表中的权限
- VAE【变分自编码器】
- GDAL源码剖析(四)之命令行程序说明一
- C++编程练习(14)-------“单例模式”的实现
- BZOJ 3231: [Sdoi2008]递归数列
- 基于微信小程序的学习网站源码
- 您的账号与服务器断开连接,节奏大师您解决服务器断开连接的方法(帐号与服务器断开连接怎么办)...
- 双边滤波器和高斯滤波器
- 西工大计算机专业研究生就业前景,2020考研34所院校就业情况解读:西北工业大学...
- python selenium清除缓存,Selenium Python:无法清除chrome浏览器缓存
- lstm token分类模型代码解析(直接传入batch数据,测试pad和pack_padded、pad_packed三函数)
- java stringbuilder 构造函数_java中stringBuilder的用法详解
- 微信公众号如何设置开发者密码(APPSecret)?