https://tianchi.aliyun.com/competition/entrance/231693/introduction

偶然看到一句话:最重要的是提特征,特征决定上限,模型只是无限逼近上限。

版本记录:

1. result-11.6-v1.txt---------svr, KRR2, lgbm 0.115

2. result-11.11-v1.txt ---------svr, KRR2, lgbm, nn 0.115

3. result-11.11-v2.txt---------svr, KRR2, line, lasso ?

4. result-11.13-v4.txt--------- 0.1514

5. result-11.13-v3.txt---------0.85

代码如下:

1、2、3代码为:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.3f9274ff5jgjLC&postId=60069

4代码为:https://blog.csdn.net/Soft_Po/article/details/90291908

5代码为:https://blog.csdn.net/yili_sha11/article/details/99999795

0.115模型流程:

1. 导入训练集、测试集

2.去掉异常特征"V5", "V9", "V11", "V17", "V22", "V28"(测试集和训练集特征分布不同)

3.归一化之最小最大值标准化-MinMaxScaler,所有值归一化为0到1

4.V0、V1、V6、V7、V8取值变成exp(x),V30取值变成log1p

5.数据集的标准化,scaled之后的数据零均值,单位方差

6.计算数据偏度(???)

7.特征选择。方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。

https://blog.csdn.net/weixin_39938915/article/details/83040594

8. 选择最佳的18个特征。特征选择之SelectKBest: 返回k个最佳特征。

9. 构建svr, line, lasso, ENet, KRR1, KRR2, lgbm, xgb, nn模型进行训练。

10.模型集成。

接下来思路:在上边代码的基础上按照1st提供的思路调整特征提取方式。

1. 原始svr, KRR2, line, lasso上的结果: 0.1280 (0.0224) 测试集上0.1172

2. svr, KRR2, line, lasso+去掉相关度小的特征结果:0.1280 (0.0224)

3. svr, KRR2, lgbm, nn+去掉相关度小的特征结果:0.1237 (0.0258)

4.

天池比赛:工业蒸汽量预测相关推荐

  1. 【机器学习】阿里云天池竞赛——工业蒸汽量预测(5)

    机器学习经典赛题:工业蒸汽量预测(5) 机器学习经典赛题:工业蒸汽量预测(5):模型验证(赛题实战) 5.3 模型验证与调参实战 5.3.1 模型过拟合与欠拟合 5.3.2 模型正则化 5.3.3 模 ...

  2. 【机器学习】阿里云天池竞赛——工业蒸汽量预测(2)

    机器学习经典赛题:工业蒸汽量预测(2) 机器学习经典赛题:工业蒸汽量预测(2) 3.1 特征工程的重要性和处理 3.2 数据预处理和特征处理 3.2.1 数据预处理 3.2.2 特征处理 3.3 特征 ...

  3. 【机器学习】阿里云天池竞赛——工业蒸汽量预测(1)

    机器学习经典赛题:工业蒸汽量预测(1) 1. 赛题理解 1.1 背景 1.2 目标 1.3 数据概览 1. 数据描述 2. 数据说明 1.4 评估指标 1.5 赛题模型 1. 回归预测模型 2. 分类 ...

  4. 【机器学习】阿里云天池竞赛——工业蒸汽量预测(4)

    机器学习经典赛题:工业蒸汽量预测(4) 机器学习经典赛题:工业蒸汽量预测(4):模型验证(模型评估与调参) 5.1 模型评估的概念和方法 5.1.1 欠拟合与过拟合 5.1.2 模型的泛化与正则化 5 ...

  5. 【机器学习】阿里云天池竞赛——工业蒸汽量预测(6)

    机器学习经典赛题:工业蒸汽量预测(6) 机器学习经典赛题:工业蒸汽量预测(6):特征优化 6.1 特征优化的方法 6.1.1 合成特征 6.1.2 特征的简单变换 6.1.3 用决策树创造新特征 6. ...

  6. 【机器学习】阿里云天池竞赛——工业蒸汽量预测(3)

    机器学习经典赛题:工业蒸汽量预测(3) 机器学习经典赛题:工业蒸汽量预测(3) 4.模型训练 4.1 回归及相关模型 4.1.1 回归的概念 4.1.2 回归模型训练和预测 4.1.3 线性回归模型 ...

  7. 天池竞赛——工业蒸汽量预测(完整代码分享)

    @[By 爱吃肉的小吃货] 给自己定个小目标,榜上有名.从刚开始的1263到目前的395,小目标达成. 目录 一.赛题描述 赛事链接:https://tianchi.aliyun.com/compet ...

  8. 天池竞赛——工业蒸汽量预测(完整代码详细解析)

    目录 1 赛题理解 1.1 赛题背景 1.2 赛题目标 2 数据探索 2.1 导库 2.2 获取数据 2.3 查看数据 2.4 可视化数据分布 3 特征工程 3.1 异常值分析 3.2 归一化处理 3 ...

  9. python建模大赛算法_Python数据分析kaggle-Titanic+天池-工业蒸汽量预测建模算法

    做数据分析许久了, 简单写写比赛的数据分析项目思路 一 使用逻辑回归/随机森林等对kaggle比赛项目 "给出泰坦尼克号上的乘客的信息, 预测乘客是否幸存"进行简单的数据分析过程, ...

  10. 天池学习赛:工业蒸汽量预测5——特征优化

    上一篇<天池学习赛:工业蒸汽量预测4--模型验证> 目录 1 特征优化的方法 1.1 合成特征 1.2 特征变换 1.3 用决策树创造新特征 1.4 特征组合 2 赛题特征优化代码 1 特 ...

最新文章

  1. Udacity机器人软件工程师课程笔记(六)-样本搜索和找回-基于漫游者号模拟器-优化和样本找回
  2. 北京出台自动驾驶新规:自动驾驶车辆须配备司机应急
  3. Flask入门 表单Flask-wtf form原生与Bootstrap渲染(七)
  4. ​KDD 2020 开源论文 | 图神经网络多变量时序预测
  5. mac 下配置连接Linux服务器方法,上传下载文件操作
  6. Facebook 开源 Skip,面向对象+函数式编程语言
  7. 计算机二级考试题停车收费,计算机二级考试真题-Excel-停车场调整收费标准
  8. python字符串内建函数_python字符串内建函数
  9. 45 MM配置-采购-条件-定价过程-定义定价计算方案
  10. Web前端开发基础三剑客学习知识分享
  11. PHP常用设计模式汇总
  12. android studio 自定义生成BuildConfig文件,形成打包配置
  13. 车机没有carlife可以自己下载吗_雷克萨斯NX 原车carlife转换无线carplay
  14. python美化excel_python3哪个库可以实现格式美化?
  15. python调用百度地图,通过经纬度定位
  16. 时间和天数相加并格式化
  17. 小米9开发版自带root吗_小米手机MIUI9开发版开启ROOT权限方法,这些经验不可多得...
  18. 5T的资源大礼包整合,总有你想要的!
  19. 精通Flash 8中文版视频教程
  20. c语言中字符串最后一位,C删除字符串中的最后一个字符

热门文章

  1. 小程序获取头像昵称最新版本
  2. 上海住房公积金账号系统及查询
  3. HTML5七夕情人节表白网页(爱心雨-满屏爱心飘落)HTML+CSS+JavaScript
  4. 架构必备:Rate limiting 的作用和常见方式
  5. windows 下 搭建 ElasticSearch 环境
  6. 《绝版游戏之信长之野望12—“统一日本的游戏“》
  7. Python爬虫-selenium爬取网易云歌单
  8. Flutter 修改App Logo图标
  9. GTS全局事务测试-单DRDS跨库事务
  10. 谈谈 2020 年程序员收入报告