赛题名称

Baidu KDD CUP 2022

赛题链接

https://aistudio.baidu.com/aistudio/competition/detail/152/0/introduction

赛题背景

1

目标

预测风力涡轮机未来42小时的功率

2

数据

每 15 分钟采样一次数据。

数据包括:

时间信息;

气候信息:风速、风向、温度;

涡轮机信息:涡轮转子速度、发电机温度、轮毂温度;

地理位置信息:涡轮机空间分布矩阵。

3

评价指标

RMSE(均方根误差)和 MAE(平均绝对误差)的平均值。

赛题解析-数据预处理

1. 数据标签(发电机功率)中发现有负数,似乎不符合逻辑,需要进一步和主办方确认。

2. 对于标签为连续型变量的场景,可以尝试对标签先进行变换,预测获得结果后再重新逆操作回来,例如先取log1p,预测获得结果后再取expm1(注意log操作只能对大于0的数进行)。

3. 时序预测场景需要考虑训练集的时间范围。假设主办方给了半年的数据,可能只用最近一个月的数据来构造训练集,效果比全量数据好。

赛题解析-特征工程

特征工程主要包括四大块。

对于时变的特征,例如赛题里的涡轮机功率,温度等,可以构造的特征包括lag信息,历史窗口内的统计特征,一阶差分等。

时间特征方面,包括星期几、小时等。

空间特征主要是和TurbID相关的信息,可以考虑把target encoding加进来,以及当前TurbID相邻的涡轮机信息。

其他特征例如做特征交叉,gbdt特征等。

赛题解析-模型

模型包括三大类。

树模型可以使用light和xgboost,这里常用的有两种建模方式。第一种是迭代预测,每次往前预测一步,然后把预测结果纳入进来构造特征,不断地往前迭代,达到预测多步的目的。第二种是非迭代预测,非迭代预测中也有两种建模方式:一是对数据扩充N倍(N表示多步预测的预测步长,本赛题N为168),这种方法可以在数据构造时加上一列,表示往前预测多少步;二是训练N个模型,每个模型各自负责往前预测多少步。

深度学习模型可以考虑的包括:LSTM、Dilated cnn、DeepAR、N-BEATS等。

统计模型常见的包括ARIMA以及facebook的prophet。

赛题解析-线下验证

线下验证尽量和测试集的构造方式保持一致。

例如训练集给定1-7天,预测未来42小时,最后24小时用来计算结果。我们可以将1-5天的数据拿来训练,预测未来42小时,最后24小时作为线下验证集。

赛题解析-模型融合

模型融合可以使用stacking以及加权平均、调和平均等方法。

赛题解析-后处理

后处理可以查看一下预测结果是否超出了合理范围;以及使用一些魔法系数等。

baseline

我们的开源项目AutoX提供了本赛题的baseline代码:

https://github.com/4paradigm/AutoX/blob/master/autox/autox_ts/demo/kdd_cup_2022_autox.ipynb

预测结果示例

开源项目地址

https://github.com/4paradigm/AutoX

参赛选手可以关注下面公众号,后台回复“KDDCUP”即可进群。

KDD Cup大赛Baseline思路开源了!相关推荐

  1. Baidu KDD Cup 2022 官方赛题解读,内附 Baseline 开源代码

    KDD Cup(国际知识发现和数据挖掘竞赛)是 ACM 协会 SIGKDD 分会主办的数据挖掘研究领域的国际顶级赛事,从1997年开始,每年举办一次,有着数据挖掘领域「世界杯」之称,是该领域水平最高. ...

  2. KDD Cup 2019 AutoML Track冠军深兰科技DeepBlueAI团队技术分享 | 开源代码

    作者丨罗志鹏 单位丨深兰北京AI研发中心 近日,KDD Cup 2019 AutoML Track 比赛结果出炉,本次赛题是第五次 AutoML 挑战赛,由第四范式.ChaLearn 和微软联合举办, ...

  3. KDD Cup 2022风力发电baseline—使用因果膨胀卷积进行时序预测

    赛题名称: KDD CUP 2022 赛题链接: https://aistudio.baidu.com/aistudio/competition/detail/152/0/introduction 赛 ...

  4. KDD Cup 2021:时间序列异常检测问题开源方案

    KDD Cup 2021:时间序列异常检测 本次赛题的数据为时序数据,针对每条时序记录,需要选手完成具体的异常点定位. 文件的命名即分割了训练集和测试集,如下所示 <id>_<nam ...

  5. (干货)各大AI竞赛 Top 解决方案开源汇总+大牛经验(Kaggle,Ali,Tencent、JD、KDD Cup...)

    各大AI竞赛 Top 解决方案开源汇总 现在,越来越多的企业.高校以及学术组织机构通过举办各种类型的数据竞赛来「物色」数据科学领域的优秀人才,并借此激励他们为某一数据领域或应用场景找到具有突破性意义的 ...

  6. KDD Cup风力发电赛题详解-附baseline代码【时间序列相关赛题方案】

    shiji按序列 赛题名称 Baidu KDD CUP 2022 赛题链接 https://aistudio.baidu.com/aistudio/competition/detail/152/0/i ...

  7. (干货转)各大AI竞赛 Top 解决方案开源汇总+大牛经验(Kaggle,Ali,Tencent、JD、KDD Cup...)

    各大AI竞赛 Top 解决方案开源汇总 现在,越来越多的企业.高校以及学术组织机构通过举办各种类型的数据竞赛来「物色」数据科学领域的优秀人才,并借此激励他们为某一数据领域或应用场景找到具有突破性意义的 ...

  8. KDD CUP 2020之Debiasing赛道方案 (Rush)

    " 本文介绍了Rush团队在KDD CUP 2020的Debiasing赛道中的解决方案,涵盖了在召回,粗排以及精排阶段的问题思考和总结,并针对核心算法模块给出了清晰的代码实现,全程干货,推 ...

  9. KDD Cup 2020多模态召回比赛亚军方案与搜索推荐业务的业务应用

    ACM SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)是世界数据挖掘领域的顶级国际会议.今年,KDD Cup共 ...

最新文章

  1. 深思考人工智能蝉联SMP2018多轮语义对话冠军,报告解读多轮人机对话实现过程...
  2. 网站优化中站点为什么会出现404页面?
  3. Facade Pattern
  4. 【转载】如何在归档后启用归档信息系统
  5. mac电脑如何与手机同步复制粘贴_苹果换安卓手机如何同步手机自带备忘录便签?...
  6. Goland设置Go相关环境
  7. Linux下C++的多线程编程---(转载)
  8. OpenGL研究, GUI框架分析, 虚拟机比较, Win10历险记, WxWidget, uboot, WireShark
  9. 详解python3如何调用c语言代码
  10. LockSupport的源码实现原理以及应用
  11. 敏捷开发FAQ[转]
  12. 好好学习 天天编程—C语言之我的第一个hello world(二)
  13. 指针知识(四):指针数学计算
  14. 【超详细转】VMware 9 安装 Mac OS X 10.8 Mountain Lion 图文全程
  15. PHP1c型GNAS,【临床研究与实践】儿童假性甲状旁腺功能减退症20例临床特征与GNAS基因缺陷分析...
  16. SDUT —— 计算组合数
  17. SpringBoot整合极光推送
  18. 优麒麟这款工具,助你提高60%的工作效率
  19. 小视频源码,设计模式单例模式
  20. 当前电子计算机发展的局限性,当前高中信息技术教学现状及教学改革探究

热门文章

  1. 自然语言生成技术现状调查:核心任务、应用和评估(4)
  2. 按关键字搜索淘宝商品 API 返回值说明
  3. 轨道列车救援VR模拟仿真系统
  4. dota2起源1和2引擎区别_DOTA2正式启用起源2引擎 加入全新等级系统
  5. 测试人生 | 从外包到测试开发,薪资一年翻三倍,连自己都不敢信
  6. AI性能测试:一向发烧的小米MIX 2S落败荣耀10原因究竟在哪?
  7. 拆解PowerApps - 请假申请 -1
  8. 支付宝沙箱环境下支付接口的错误
  9. iOS 12已正式推送,流畅度提升了,值得体验!
  10. 闲鱼项目如何操作?日收入1000+详细讲解!