北京PM2.5浓度回归分析训练赛

  • 简介

    • DC上的一个回归题,比较简单。
    • 时间原因没有细看,提交到70多名就结束了。
    • 使用stacking方法结合多个回归模型。
  • 过程
    • 数据获取

      • 官方给定。
    • 数据探索
      • 训练集有35746条记录,13个字段,有表头,其中pm2.5为目标。
      • 叙述
    • 数据预处理
      • 主要对date属性进行预处理,因为其字符串属性无法参与建模。

        • 利用time模块解析日期并生成新特征为年、月、日、周。
      • 还可以进行一些特征组合,时间关系,我就直接强代入模型了。
    • 数据挖掘建模
      • 平时比较喜欢将一个模型调参到合适,这次由于数据原因选择了stacking构建模型,使用mlxtend库。
      • 核心代码
        •   from sklearn.linear_model import LinearRegression, Ridge, Lassofrom sklearn.tree import DecisionTreeRegressorfrom sklearn.svm import SVRfrom sklearn.neighbors import KNeighborsRegressorlr = LinearRegression()dtr = DecisionTreeRegressor()svr_rbf = SVR(kernel='rbf', gamma='auto')knr = KNeighborsRegressor()ridge = Ridge()lasso = Lasso()regression_models = [lr, dtr, svr_rbf, knr, ridge, lasso]from mlxtend.regressor import StackingCVRegressorsclf = StackingRegressor(regression_models, meta_regressor=ridge)sclf.fit(x_tra, y_tra)
          
        • mlxtend的模型是可以使用sklearn库进行网格搜索调参的。
      • 验证集拟合情况
  • 补充说明
    • 如果继续调参会有不错的分数。
    • 数据集和代码见我的Github,欢迎star或者fork。
    • 附上提交时的排名(76/832)。

数据挖掘竞赛-北京PM2.5浓度回归分析训练赛相关推荐

  1. 机器学习实践系列(三)----达观杯--北京PM2.5浓度回归分析训练赛

    1.大赛地址 北京PM2.5浓度回归分析训练赛 看了很长时间机器学习算法了,从这个博客开始打算长期更新一些算法的尝试,在实践中用起来. 先从最简单的线性回归开始吧. 2.赛题说明 数据主要包括2010 ...

  2. DC算法竞赛——北京PM2.5浓度回归分析

    北京PM2.5浓度回归分析 比赛结果(118/1150) 一. 概述 1.项目来源:https://www.dcjingsai.com/static_page/cmpList.html 2.给定数据字 ...

  3. R语言:北京PM2.5浓度回归分析

    竞赛信息及数据来源: https://www.pkbigdata.com/common/cmpt/北京PM2.5浓度回归分析训练赛_竞赛信息.html # 读入数据 data <- read.c ...

  4. 北京PM2.5浓度回归分析

    姓名 学号 陈聪 20185109043 张一帆 20185109045 罗凯 20185110010 刘文博 20185109044 任务 由给定一段时间内的北京天气相关指数数据和北京PM2.5指数 ...

  5. 数据挖掘竞赛-美国King County房价预测训练赛

    美国King County房价预测训练赛 简介 DC上的一个回归题(正经的回归题). 比较简单. 时间原因(暂时没什么时间看国内旧赛),看了一下网上的解答,改善了一下神经网络就提交了. 过程 数据获取 ...

  6. 线性回归、Lasso回归、岭回归预测北京PM2.5浓度

    一.项目背景 北京PM2.5浓度回归分析训练赛 1.数据   数据主要包括2010年1月1日至2014年12月31日间北京pm2.5指数以及相关天气指数数据.   数据分为训练数据和测试数据,分别保存 ...

  7. 数据挖掘竞赛-轴承故障检测训练赛

    轴承故障检测 简述 DC上的一个训练赛,简单的多分类问题.说实话,还是比较有意思的,虽然很多人正确率都达到了1(也就是测试集预测结果全过),但是如果训练集和测试集数据量加大,那么这个结果可能就不是这样 ...

  8. Linux作业 北京各监测站的PM2.5浓度

    完整代码: curl http://www.pm25china.net/beijing/ | awk '/更新时间/{print $0}/<td>/{print $0}' | sed 's ...

  9. 基于Keras的LSTM多变量时间序列预测(北京PM2.5数据集pollution.csv)

                                 基于Keras的LSTM多变量时间序列预测 传统的线性模型难以解决多变量或多输入问题,而神经网络如LSTM则擅长于处理多个变量的问题,该特性使 ...

最新文章

  1. oracle读书笔记之Oracle 11g R2 DBA操作指南(前三章)
  2. 使用@Async异步注解导致该Bean在循环依赖时启动报BeanCurrentlyInCreationException异常的根本原因分析,以及提供解决方案
  3. 设置跳转到新的actvity之后不可返回
  4. 低代码发展专访系列之七:低代码的火爆需要不一样的声音么?
  5. react跳转到网络异常页面_React错误边界处理
  6. php7扩展开发教程,Laravel 7 扩展开发教程
  7. 简单python脚本实例-30个Python 小例子,帮你快速上手Python
  8. 怎样给家庭组计算机授权,steam如何设置家庭共享?steam设置家庭共享方法
  9. android qq 邮箱格式,qq邮箱怎么填写格式 qq邮箱格式写法介绍
  10. python中数字转英文_python:将数字转换成用英文表达的程序
  11. 梦三国则么修改服务器时间,梦三国如何窗口,梦三国设置
  12. 杜绝焦虑,如何提高执行力改变生活?
  13. 电磁场与仿真软件(28)
  14. 《Leaflet 进阶知识点》- L.polygon 多边形绘制详解
  15. 微信小程序实现瀑布流实例
  16. Java对接快递100
  17. 穷爸爸与富爸爸读后感(3)
  18. 音频立体声转单声道(音频双通道转单通道)
  19. Android Studio设置HTTP代理地址
  20. 把windows里面的文件复制到linux系统中

热门文章

  1. 搭建自己的Docker Harbor
  2. 对称加密-DES解密
  3. MybatisPlus入门之快速入门
  4. SpringBoot_入门-HelloWorld细节-自动配置
  5. 摩根斯坦利面试题库_经验 | 金融公司摩根士丹利从笔试到实习的全程经验
  6. JavaFX 中的像素、分辨率与缩放比
  7. 吉林推出百项政策扩开放
  8. [20180428]DNS与ORA-12154错误.txt
  9. 【UI自动化测试】Mac下进行Monkey测试
  10. 『教程』Batch Normalization 层介绍