天池比赛:工业蒸汽量预测
https://tianchi.aliyun.com/competition/entrance/231693/introduction
偶然看到一句话:最重要的是提特征,特征决定上限,模型只是无限逼近上限。
版本记录:
1. result-11.6-v1.txt---------svr, KRR2, lgbm 0.115
2. result-11.11-v1.txt ---------svr, KRR2, lgbm, nn 0.115
3. result-11.11-v2.txt---------svr, KRR2, line, lasso ?
4. result-11.13-v4.txt--------- 0.1514
5. result-11.13-v3.txt---------0.85
代码如下:
1、2、3代码为:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.3f9274ff5jgjLC&postId=60069
4代码为:https://blog.csdn.net/Soft_Po/article/details/90291908
5代码为:https://blog.csdn.net/yili_sha11/article/details/99999795
0.115模型流程:
1. 导入训练集、测试集
2.去掉异常特征"V5", "V9", "V11", "V17", "V22", "V28"(测试集和训练集特征分布不同)
3.归一化之最小最大值标准化-MinMaxScaler,所有值归一化为0到1
4.V0、V1、V6、V7、V8取值变成exp(x),V30取值变成log1p
5.数据集的标准化,scaled之后的数据零均值,单位方差
6.计算数据偏度(???)
7.特征选择。方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。
https://blog.csdn.net/weixin_39938915/article/details/83040594
8. 选择最佳的18个特征。特征选择之SelectKBest: 返回k个最佳特征。
9. 构建svr, line, lasso, ENet, KRR1, KRR2, lgbm, xgb, nn模型进行训练。
10.模型集成。
接下来思路:在上边代码的基础上按照1st提供的思路调整特征提取方式。
1. 原始svr, KRR2, line, lasso上的结果: 0.1280 (0.0224) 测试集上0.1172
2. svr, KRR2, line, lasso+去掉相关度小的特征结果:0.1280 (0.0224)
3. svr, KRR2, lgbm, nn+去掉相关度小的特征结果:0.1237 (0.0258)
4.
天池比赛:工业蒸汽量预测相关推荐
- 【机器学习】阿里云天池竞赛——工业蒸汽量预测(5)
机器学习经典赛题:工业蒸汽量预测(5) 机器学习经典赛题:工业蒸汽量预测(5):模型验证(赛题实战) 5.3 模型验证与调参实战 5.3.1 模型过拟合与欠拟合 5.3.2 模型正则化 5.3.3 模 ...
- 【机器学习】阿里云天池竞赛——工业蒸汽量预测(2)
机器学习经典赛题:工业蒸汽量预测(2) 机器学习经典赛题:工业蒸汽量预测(2) 3.1 特征工程的重要性和处理 3.2 数据预处理和特征处理 3.2.1 数据预处理 3.2.2 特征处理 3.3 特征 ...
- 【机器学习】阿里云天池竞赛——工业蒸汽量预测(1)
机器学习经典赛题:工业蒸汽量预测(1) 1. 赛题理解 1.1 背景 1.2 目标 1.3 数据概览 1. 数据描述 2. 数据说明 1.4 评估指标 1.5 赛题模型 1. 回归预测模型 2. 分类 ...
- 【机器学习】阿里云天池竞赛——工业蒸汽量预测(4)
机器学习经典赛题:工业蒸汽量预测(4) 机器学习经典赛题:工业蒸汽量预测(4):模型验证(模型评估与调参) 5.1 模型评估的概念和方法 5.1.1 欠拟合与过拟合 5.1.2 模型的泛化与正则化 5 ...
- 【机器学习】阿里云天池竞赛——工业蒸汽量预测(6)
机器学习经典赛题:工业蒸汽量预测(6) 机器学习经典赛题:工业蒸汽量预测(6):特征优化 6.1 特征优化的方法 6.1.1 合成特征 6.1.2 特征的简单变换 6.1.3 用决策树创造新特征 6. ...
- 【机器学习】阿里云天池竞赛——工业蒸汽量预测(3)
机器学习经典赛题:工业蒸汽量预测(3) 机器学习经典赛题:工业蒸汽量预测(3) 4.模型训练 4.1 回归及相关模型 4.1.1 回归的概念 4.1.2 回归模型训练和预测 4.1.3 线性回归模型 ...
- 天池竞赛——工业蒸汽量预测(完整代码分享)
@[By 爱吃肉的小吃货] 给自己定个小目标,榜上有名.从刚开始的1263到目前的395,小目标达成. 目录 一.赛题描述 赛事链接:https://tianchi.aliyun.com/compet ...
- 天池竞赛——工业蒸汽量预测(完整代码详细解析)
目录 1 赛题理解 1.1 赛题背景 1.2 赛题目标 2 数据探索 2.1 导库 2.2 获取数据 2.3 查看数据 2.4 可视化数据分布 3 特征工程 3.1 异常值分析 3.2 归一化处理 3 ...
- python建模大赛算法_Python数据分析kaggle-Titanic+天池-工业蒸汽量预测建模算法
做数据分析许久了, 简单写写比赛的数据分析项目思路 一 使用逻辑回归/随机森林等对kaggle比赛项目 "给出泰坦尼克号上的乘客的信息, 预测乘客是否幸存"进行简单的数据分析过程, ...
- 天池学习赛:工业蒸汽量预测5——特征优化
上一篇<天池学习赛:工业蒸汽量预测4--模型验证> 目录 1 特征优化的方法 1.1 合成特征 1.2 特征变换 1.3 用决策树创造新特征 1.4 特征组合 2 赛题特征优化代码 1 特 ...
最新文章
- Udacity机器人软件工程师课程笔记(六)-样本搜索和找回-基于漫游者号模拟器-优化和样本找回
- 北京出台自动驾驶新规:自动驾驶车辆须配备司机应急
- Flask入门 表单Flask-wtf form原生与Bootstrap渲染(七)
- ​KDD 2020 开源论文 | 图神经网络多变量时序预测
- mac 下配置连接Linux服务器方法,上传下载文件操作
- Facebook 开源 Skip,面向对象+函数式编程语言
- 计算机二级考试题停车收费,计算机二级考试真题-Excel-停车场调整收费标准
- python字符串内建函数_python字符串内建函数
- 45 MM配置-采购-条件-定价过程-定义定价计算方案
- Web前端开发基础三剑客学习知识分享
- PHP常用设计模式汇总
- android studio 自定义生成BuildConfig文件,形成打包配置
- 车机没有carlife可以自己下载吗_雷克萨斯NX 原车carlife转换无线carplay
- python美化excel_python3哪个库可以实现格式美化?
- python调用百度地图,通过经纬度定位
- 时间和天数相加并格式化
- 小米9开发版自带root吗_小米手机MIUI9开发版开启ROOT权限方法,这些经验不可多得...
- 5T的资源大礼包整合,总有你想要的!
- 精通Flash 8中文版视频教程
- c语言中字符串最后一位,C删除字符串中的最后一个字符
热门文章
- 小程序获取头像昵称最新版本
- 上海住房公积金账号系统及查询
- HTML5七夕情人节表白网页(爱心雨-满屏爱心飘落)HTML+CSS+JavaScript
- 架构必备:Rate limiting 的作用和常见方式
- windows 下 搭建 ElasticSearch 环境
- 《绝版游戏之信长之野望12—“统一日本的游戏“》
- Python爬虫-selenium爬取网易云歌单
- Flutter 修改App Logo图标
- GTS全局事务测试-单DRDS跨库事务
- 谈谈 2020 年程序员收入报告