数据挖掘竞赛-北京PM2.5浓度回归分析训练赛
北京PM2.5浓度回归分析训练赛
- 简介
- DC上的一个回归题,比较简单。
- 时间原因没有细看,提交到70多名就结束了。
- 使用stacking方法结合多个回归模型。
- 过程
- 数据获取
- 官方给定。
- 数据探索
- 训练集有35746条记录,13个字段,有表头,其中pm2.5为目标。
- 叙述
- 数据预处理
- 主要对date属性进行预处理,因为其字符串属性无法参与建模。
- 利用time模块解析日期并生成新特征为年、月、日、周。
- 还可以进行一些特征组合,时间关系,我就直接强代入模型了。
- 主要对date属性进行预处理,因为其字符串属性无法参与建模。
- 数据挖掘建模
- 平时比较喜欢将一个模型调参到合适,这次由于数据原因选择了stacking构建模型,使用mlxtend库。
- 核心代码
from sklearn.linear_model import LinearRegression, Ridge, Lassofrom sklearn.tree import DecisionTreeRegressorfrom sklearn.svm import SVRfrom sklearn.neighbors import KNeighborsRegressorlr = LinearRegression()dtr = DecisionTreeRegressor()svr_rbf = SVR(kernel='rbf', gamma='auto')knr = KNeighborsRegressor()ridge = Ridge()lasso = Lasso()regression_models = [lr, dtr, svr_rbf, knr, ridge, lasso]from mlxtend.regressor import StackingCVRegressorsclf = StackingRegressor(regression_models, meta_regressor=ridge)sclf.fit(x_tra, y_tra)
- mlxtend的模型是可以使用sklearn库进行网格搜索调参的。
- 验证集拟合情况
- 数据获取
- 补充说明
- 如果继续调参会有不错的分数。
- 数据集和代码见我的Github,欢迎star或者fork。
- 附上提交时的排名(76/832)。
数据挖掘竞赛-北京PM2.5浓度回归分析训练赛相关推荐
- 机器学习实践系列(三)----达观杯--北京PM2.5浓度回归分析训练赛
1.大赛地址 北京PM2.5浓度回归分析训练赛 看了很长时间机器学习算法了,从这个博客开始打算长期更新一些算法的尝试,在实践中用起来. 先从最简单的线性回归开始吧. 2.赛题说明 数据主要包括2010 ...
- DC算法竞赛——北京PM2.5浓度回归分析
北京PM2.5浓度回归分析 比赛结果(118/1150) 一. 概述 1.项目来源:https://www.dcjingsai.com/static_page/cmpList.html 2.给定数据字 ...
- R语言:北京PM2.5浓度回归分析
竞赛信息及数据来源: https://www.pkbigdata.com/common/cmpt/北京PM2.5浓度回归分析训练赛_竞赛信息.html # 读入数据 data <- read.c ...
- 北京PM2.5浓度回归分析
姓名 学号 陈聪 20185109043 张一帆 20185109045 罗凯 20185110010 刘文博 20185109044 任务 由给定一段时间内的北京天气相关指数数据和北京PM2.5指数 ...
- 数据挖掘竞赛-美国King County房价预测训练赛
美国King County房价预测训练赛 简介 DC上的一个回归题(正经的回归题). 比较简单. 时间原因(暂时没什么时间看国内旧赛),看了一下网上的解答,改善了一下神经网络就提交了. 过程 数据获取 ...
- 线性回归、Lasso回归、岭回归预测北京PM2.5浓度
一.项目背景 北京PM2.5浓度回归分析训练赛 1.数据 数据主要包括2010年1月1日至2014年12月31日间北京pm2.5指数以及相关天气指数数据. 数据分为训练数据和测试数据,分别保存 ...
- 数据挖掘竞赛-轴承故障检测训练赛
轴承故障检测 简述 DC上的一个训练赛,简单的多分类问题.说实话,还是比较有意思的,虽然很多人正确率都达到了1(也就是测试集预测结果全过),但是如果训练集和测试集数据量加大,那么这个结果可能就不是这样 ...
- Linux作业 北京各监测站的PM2.5浓度
完整代码: curl http://www.pm25china.net/beijing/ | awk '/更新时间/{print $0}/<td>/{print $0}' | sed 's ...
- 基于Keras的LSTM多变量时间序列预测(北京PM2.5数据集pollution.csv)
基于Keras的LSTM多变量时间序列预测 传统的线性模型难以解决多变量或多输入问题,而神经网络如LSTM则擅长于处理多个变量的问题,该特性使 ...
最新文章
- oracle读书笔记之Oracle 11g R2 DBA操作指南(前三章)
- 使用@Async异步注解导致该Bean在循环依赖时启动报BeanCurrentlyInCreationException异常的根本原因分析,以及提供解决方案
- 设置跳转到新的actvity之后不可返回
- 低代码发展专访系列之七:低代码的火爆需要不一样的声音么?
- react跳转到网络异常页面_React错误边界处理
- php7扩展开发教程,Laravel 7 扩展开发教程
- 简单python脚本实例-30个Python 小例子,帮你快速上手Python
- 怎样给家庭组计算机授权,steam如何设置家庭共享?steam设置家庭共享方法
- android qq 邮箱格式,qq邮箱怎么填写格式 qq邮箱格式写法介绍
- python中数字转英文_python:将数字转换成用英文表达的程序
- 梦三国则么修改服务器时间,梦三国如何窗口,梦三国设置
- 杜绝焦虑,如何提高执行力改变生活?
- 电磁场与仿真软件(28)
- 《Leaflet 进阶知识点》- L.polygon 多边形绘制详解
- 微信小程序实现瀑布流实例
- Java对接快递100
- 穷爸爸与富爸爸读后感(3)
- 音频立体声转单声道(音频双通道转单通道)
- Android Studio设置HTTP代理地址
- 把windows里面的文件复制到linux系统中