背景

大数据可能过时了,所以这个延续5年的比赛也换了名字,但我还是习惯叫工业大数据。之前文章介绍过,我做了风力预测赛道但排不进排行榜。这里介绍一下队友在配件预测赛道的方案,方案很简单,不到50行代码,取得决赛29th的成绩。其实,我也做了一点,入手了一个LGB模型,但是效果一直没有超过全0,尴尬的放弃了。
任务是预测未来三个月的配件需求,评价指标类似MAPE,所以准确预测小目标才是关键。
代码地址:https://github.com/hongyingyue/Data-science-demos
方案

##第1个月

第1个月使用VAR模型。由于零件中有很多的销量非常稀疏,增加一个后处理,将48个月均销量小于1的零件销量直接调整为0。

import pandas as pd
import numpy as npfrom statsmodels.tsa.vector_ar.var_model import VAR
from sklearn.linear_model import LinearRegression
from statsmodels.tsa.deterministic import DeterministicProcess# VAR
v_model = VAR(ts_df)
v_model_fit = v_model.fit(3)
lag_order = v_model_fit.k_ar# forecast for the 1st month
y_fore1 = v_model_fit.forecast(ts_df.values[-lag_order:], 1)
y_fore1[y_fore1 < 0] = 0

第2/3个月

第2-3月使用线性回归模型,这里的特征是超出我预料的。只使用了月份还有月份的平方作为特征,直接用线性模型预测结果。

# LR model
y = ts_df.copy()# Create trend features
dp = DeterministicProcess(index=y.index,  # dates from the training dataconstant=True,  # the interceptorder=2,        # quadratic trenddrop=True,      # drop terms to avoid collinearity
)
X = dp.in_sample()  # features for the training data
X_fore = dp.out_of_sample(steps=3)X['mon']=X.index.month
X_fore.set_index([pd.to_datetime(['2020-7-1','2020-8-1','2020-9-1'])],inplace=True)
X_fore['mon']=X_fore.index.month# Fit trend model
model = LinearRegression(fit_intercept=False)
model.fit(X, y)y_fore_l = pd.DataFrame(model.predict(X_fore),index=X_fore.index,columns=y.columns,
)
y_fore_l[y_fore_l<0] = 0

以上就是吊打我方案的全部代码了,非常简单高效。数据量比较小,评价指标不是很合理,就要根据数据和指标多做些针对性的调整了,希望下一届能取的好成绩。
我是YueTan,谢谢关注。

第五届工业互联网大数据:配件需求29th方案与代码相关推荐

  1. 清华大学软件学院院长王建民:以数字基建为契机,加强工业互联网大数据软件建设...

    来源:中国电子报 作者:清华大学软件学院院长王建民 本文约3250字,建议阅读5分钟 工业互联网大数据软件基础设施建设对工业领域激活大数据资产.导入智能化技术具有重大基础支撑作用. 编者按:3月4日, ...

  2. “新基建”提速,工业互联网大数据发展迎新机遇

    云栖号资讯:[点击查看更多行业资讯] 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 近期,中央政治局密集召开会议研究新冠肺炎疫情防控工作,部署统筹做好疫情防控和经济社会发展工作, 5 ...

  3. 物联网、车联网、工业互联网大数据平台,为什么推荐使用TDengine?

    物联网.车联网.工业互联网大数据平台,为什么推荐使用TDengine? 大数据有很多处理工具,最流行的当属Hadoop系统.Hadoop生态包括HDFS, HBase, Hive, YARN, Sto ...

  4. 物联网、工业互联网大数据的特点

    物联网.工业互联网大数据的特点 随着数据通讯成本的急剧下降,以及各种传感技术和智能设备的出现,从手环.共享出行.智能电表.环境监测设备到电梯.数控机床.挖掘机.工业生产线等都在源源不断的产生海量的实时 ...

  5. KubeEdge在国家工业互联网大数据中心的架构设计与应用

    摘要:在18年的时候,工信部开展了一个叫国家创新发展工程,这个工程中提出了要建立一个国家工业大数据中心,中国移动在其中承担了边缘协同与数据采集相关功能的研发.本文将从该项目背景下面临的问题与挑战.技术 ...

  6. 深掘工业互联网大数据五大维度

    我国尚未形成统一的工业互联网大数据管理.服务和安全体系,工业互联网大数据资源存在孤立.分散.封闭等问题,数据价值未能得到有效利用,数据主权和数据安全面临重大威胁.当前,我国正在推进以国家工业互联网大数 ...

  7. 工业互联网大数据中心使用 KubeEdge 实践

    项目背景 2018年,工信部启动了国家创新发展工程,建设工业大数据中心.中国移动在该项目中承担了边缘协同和数据采集相关功能的研发. 要求和挑战 要求 从工厂收集生产和运行数据并将数据发送到云端 云中的 ...

  8. 试点来了!应急部发布《“工业互联网+危化安全生产”试点建设方案》

    近日,应急管理部办公厅关于印发<"工业互联网+危化安全生产"试点建设方案>的通知. 方案建设目标:坚持系统谋划.试点先行,打造一批应用场景.工业APP和工业机理模型,力 ...

  9. 互联网大数据在工业七大应用解析

    在工业企业中,生产线处于高速运行状态,工业设备产生.采集和处理的数据量远远大于企业计算机和人工生成的数据,其中大部分是数据类型中的非结构化数据,生产线的高速运行也需要更高的实时数据,因此,工业大数据所 ...

最新文章

  1. Linux Shell高级技巧(目录)
  2. 【转】NG:垂枝桦基因组图谱构建(2+3组装)及重测序分析
  3. 读取手机联系人,并用listview显示
  4. centos7装机教程
  5. 高端计算机教室,又一所高端学校来了,能住校师资力量强大
  6. ajax async
  7. 信息学奥赛一本通(C++)在线评测系统——基础(一)C++语言——1080:余数相同问题
  8. 单独使用modelsim进行仿真
  9. 修改 cmd 字体为 Consolas
  10. Java中按位运算符
  11. [大数据之Sqoop] —— 什么是Sqoop?
  12. 【bzoj 3131】[Sdoi2013]淘金
  13. Delphi创建ActiveX控件,实现安全接口及无界面代码
  14. Fiddler使用过程中无法抓取https的解决方法
  15. google bert deeping watch
  16. 计算机主机总线,什么是计算机总线,计算机总线包括什么?
  17. python+nodejs+Vue体检信息管理系统项目源码
  18. 数字小人时钟windows电脑屏幕保护
  19. IMAX Enhanced:让沉浸式家庭影音娱乐体验不再抽象
  20. NATAPP vscode SSH远程连接Linux服务器出现couldn‘t establish connection

热门文章

  1. 《精通Spring4.X企业应用开发实战》读后感第五章(注入参数详解)
  2. React程序结构介绍-Hello world
  3. Asp.net mvc 添加Jquery UI
  4. Android 4.4(KitKat)表格管理子系统 - 骨架
  5. 依赖注入容器Autofac的详解[转]
  6. node.js--exports和module.exports
  7. 软件设计之UML—UML中的六大关系
  8. xml web service
  9. 团队开发项目--校园知网 nabcd 需求分析
  10. css中padding和magin的区别