来自 | 知乎 作者 | BINGO Hong

链接 | https://zhuanlan.zhihu.com/p/67832773

已经得到作者授权,仅作学术交流,请勿二次转载

1. 时间序列基本规则法-周期因子法

a. 提取时间序列的周期性特征进行预测

参考:时间序列规则法快速入门 https://www.jianshu.com/p/31e20f00c26f?spm=5176.12282029.0.0.36241491UUhnZE

  • 计算周期因子factors

  • 计算base

  • 预测=base*factors

b. 观察序列,当序列存在周期性时,可以用周期因子法做为baseline

  • 在天池竞赛-资金流入流出预测-挑战Baseline-天池大赛-阿里云天池,周期因子可以取得110分+的成绩,排名进500妥妥的。(后面有机会再贴代码)

    挑战baseline比赛链接:https://tianchi.aliyun.com/competition/entrance/231573/introduction?spm=5176.12281949.1003.6.493e24486tbptc

2. 线性回归-利用时间特征做线性回归

a. 提取时间的周期性特点做为特征,此时训练集每条样本为"时间特征->目标值",时间序列的依赖关系被剔除,不需要严格依赖滑窗截取训练样本。常见是将时间用0-1哑变量表达,有以下若干种特征:

  • 将星期转化为了0-1变量,从周一至周天,独热编码共7个变量

  • 将节假日转化为0-1变量,视具体节假日数目,可简单分为两类,"有假日"-"无假日",独热编码共2个变量;或赋予不同编码值,如区分国庆、春节、劳动节等使用1、2、3表示

  • 将月初转化为0-1变量,简单分两类表示为"是月初"-"非月初",共2个特征

  • 类似的月中、月初可以转化为0-1变量

  • 控制时间粒度,区分是weekday or weekend

b. 观察序列,当序列存在周期性时,线性回归也可做为baseline

  • 在天池竞赛-资金流入流出预测-挑战Baseline-天池大赛-阿里云天池,线性回归可以取得100分+的成绩,应该还没到500,多调节下特征就能进去了。

3.传统时序建模方法,ARMA/ARIMA等线性模型。

参考:

  • 写给你的金融时间序列分析:基础篇

    https://zhuanlan.zhihu.com/p/38320827

  • 自回归/滑动平均阶数判断 Identifying the orders of AR and MA terms in an ARIMA model(https://people.duke.edu/~rnau/411arim3.htm)列举了11条一般原则,其中提到:

    • 差分方法可消除正相关但同时引入负相关

    • AR项可消除正相关,MA项消除负相关

    • AR项和MA项作用会相互抵消,通常包含两种要素时可尝试减少某项,避免过拟合

4.时间序列分解,使用加法模型或乘法模型将原始序列拆分为4部分。

a. 拆分为4部分:长期趋势变动T、季节变动S(显式周期,固定幅度、长度的周期波动)、循环变动C(隐式周期,周期长不具严格规则的波动)和不规则变动I。参考:

  • 时间序列分解法 - MBA智库百科(https://wiki.mbalib.com/wiki/时间序列分解法)

  • 时间序列分解(https://www.jianshu.com/p/e6d286132690)

b. 乘法模型中SCI均为比例,加法模型中SCI与T有相同量纲。

c. 循环变动C较为复杂,短期不体现或归入趋势变化中。

d. 两类平滑方法:

  • 以滑动平均作为平滑方法提取趋势的seasonal_decompose朴素分解。statsmodels.tsa.seasonal.seasonal_decompose(https://www.statsmodels.org/dev/generated/statsmodels.tsa.seasonal.seasonal_decompose.html#statsmodels.tsa.seasonal.seasonal_decompose)

  • 以鲁棒局部加权回归作为平滑方法的STL分解。statsmodels.tsa.seasonal.STL

e. 季节性分析。数据中有季节性因素,与整体趋势相比显得比较弱。原文: Investigating Seasonality in a Time Series: A Mystery in Three Parts (https://data.blog/2018/07/24/investigating-seasonality-in-a-time-series-a-mystery-in-three-parts/);中文:干货 | 季节性的分析才不简单,小心不要在随机数据中也分析出季节性

f. 在天池竞赛-资金流入流出预测-挑战Baseline-天池大赛-阿里云天池,时间序列分解方法也能取得很好的成绩。(后面有机会试试这种方法)

  • 【天池大数据赛题解析】资金流入流出预测(附Top4答辩ppt) - 止战 - 博客园(https://www.cnblogs.com/zhizhan/p/4868411.html)

5. 特征工程着手,时间滑窗改变数据的组织方式,使用xgboost/LSTM模型/时间卷积网络等。

参考:

  • kaggle商品销量预测1st的思路:特征工程+LGBM/LSTM, 1st place solution | Kaggle (https://www.kaggle.com/c/favorita-grocery-sales-forecasting/discussion/47582)

  • kaggle商品销量预测5th的思路:特征工程+LGBM/CNN-DNN/seq2seq,5th Place Solution | Kaggle (https://www.kaggle.com/c/favorita-grocery-sales-forecasting/discussion/47556)

6. 转化为监督学习数据集,使用xgboot/LSTM模型/时间卷积网络/seq2seq(attention_based_model)。

参考:

  • 如何用Python将时间序列转换为监督学习问题 - 云+社区 - 腾讯云

    https://cloud.tencent.com/developer/article/1042809

  • Keras中带LSTM的多变量时间序列预测 - 云+社区 - 腾讯云

    https://cloud.tencent.com/developer/article/1041442

  • 时间卷积网络(TCN) 总结:时序模型不再是递归网络(RNN) 的天下,但作为信息粗暴提取的一种方法,请不要神话CNN !

    http://nooverfit.com/wp/时间卷积网络tcn-总结:时序模型不再是递归网络rnn

  • 算法上可以引入注意力机制的seq2seq模型,见过纯粹的seq2seq解法,结合注意力机制的还没见过开源代码(可能是搜索不够仔细)。

  • seq2seq代码:Kaggle-Competition-Favorita/seq2seq

    https://github.com/LenzDu/Kaggle-Competition-Favorita/blob/master/seq2seq.py

  • 注意力机制资料:

    • 台大-李宏毅《Attention_based_model》

    • 他们只说注意力机制(Attention Mechanism)不练,还是我来给大家撸代码讲解(https://juejin.im/post/5bbf41c3f265da0af16160d2#heading-0)

    • 《Attention is All You Need》浅读(简介+代码)(https://kexue.fm/archives/4765)

    • 川陀学者:Attention机制详解(二)——Self-Attention与Transformer(https://zhuanlan.zhihu.com/p/47282410)

    • The Illustrated Transformer (https://jalammar.github.io/illustrated-transformer/)

    • Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention)

7.Facebook-prophet,类似于STL分解思路,因为觉得在控制程度和可解释性上比传统时序模型更有优势,所以单独列车。

参考:

  • 官网说明(英文)

    https://facebook.github.io/prophet/docs/quick_start.html#python-api

  • 官网notbook(英文)

    https://github.com/facebook/prophet/blob/master/notebooks/trend_changepoints.ipynb

  • 中文推荐 @张戎 的文章,从原理到使用都有介绍,很良心。

    张戎:Facebook 时间序列预测算法 Prophet 的研究

    https://zhuanlan.zhihu.com/p/52330017

  • 个人理解,想进一步用好,可以好好看看论文和官网,有空撸遍python的源码

  • 理解prior_scale在代码中如何实现控制趋势项、季节项和节假日项

  • 对于趋势项参数changepoint_range、changepoint_prior_scale如何影响模型拟合和泛化程度

  • 趋势项中的Uncertainty-Intervals(interval_width参数)如何在预测结果使用

  • 论文中的"Simulated Historical Forecasts"对应prophet的Diagnostics工具,可以利用该工具做时间序列的交叉验证评价模型准确程度,如何利用该工具调整模型

8. 深度学习网络,结合CNN+RNN+Attention,作用各不相同互相配合。目前也只是看了论文,有代码的顺便给出代码链接,代码还没细看。

主要设计思想:

  • CNN捕捉短期局部依赖关系

  • RNN捕捉长期宏观依赖关系

  • Attention为重要时间段或变量加权

  • AR捕捉数据尺度变化(没太搞懂啥意思~)

方法:

  • LSTNet:适用于自相关图表现出有明显周期的时间序列,否则与传统方法相当。LSTNet-Pytorch、LSTNet-Keras、LSTNet-Gluon(Mxnet)。

  • TPA-LSTM:改进了attention机制,侧重选择关键变量,而非选择时间步;实验效果说是对周期不明显的时间序列也能有不错效果。TPA-LSTM-Tensorflow

代码的坑填上。

  • LSTNet代码解读, BINGO Hong:LSTNet详解(https://zhuanlan.zhihu.com/p/61795416)

  • TPA-LSTM注意力机制, BINGO Hong:TPA注意力机制(TPA-LSTM)

    (https://zhuanlan.zhihu.com/p/63134630)

9.将时间序列转化为图像,再应用基于卷积神经网络的模型做分析

a. Gramian Angular Field (格拉姆角场GAF)

  • 方法描述:将笛卡尔坐标系下的一维时间序列,转化为极坐标系表示,再使用三角函数生成GAF矩阵。

  • 计算过程:

    • 数值缩放:将笛卡尔坐标系下的时间序列缩放到[0,1]或[-1,1]区间

    • 极坐标转换:使用坐标变换公式,将笛卡尔坐标系序列转化为极坐标系时间序列

    • 角度和/差的三角函数变换:若使用两角和的cos函数则得到GASF,若使用两角差的cos函数则得到GADF

  • 优势:

    • 极坐标中半径表示时间戳,角度表示时间序列数值

    • 通过半径r保持序列的时间依赖性

    • 极坐标保留时间关系的绝对值(翻译得不好,大家可看原文:polar coordinates preserve absolute temporal relations)

    • 每个序列产生唯一的极坐标映射图

    • 可通过GAF矩阵的主对角线,恢复笛卡尔坐标下的原始时间序列

  • 缺点:

    • 当序列长度为n时,产生的GAF矩阵大小为n*n,因此作者建议使用分段聚合近似(Piecewise Aggregation Approximation)保留序列趋势同时减少序列大小。

  • 参考:

    • GAF方法的具体介绍见《Imaging Time-Series to Improve Classification and Imputation》(https://arxiv.org/pdf/1506.00327.pdf)

    • GAF的使用工具见pyts.image.GramianAngularField

    • 案例:波动率预测:基于CNN的图像识别策略(附代码) - 云+社区 - 腾讯云(https://cloud.tencent.com/developer/article/1610107)

b. Short Time Fourier Transform (短时傅里叶变换STFT)

  • 通用的语音信号处理工具。在我毕业论文里就有使用到,论文还没上知网,链接后面再补吧。

  • 将时间序列转为时频图像。


工具:

  • tslearn:开源的时间序列机器学习python工具包

  • tsfresh:开源的时间序列特征提取python工具包

  • pyts:开源的时间序列分类Python工具包。提供预处理工具及若干种时间序列分类算法

难点:

  • 理解时间序列预测问题是要用历史数据预测未来数据

  • 时间序列问题的训练集、测试集划分

  • 特征工程方法及过程(方法2的过程很有趣)

  • 如何转化为监督学习数据集

  • LSTM计算过程理解,包括输入输出维度、参数数量等

  • seq2seq过程的理解,decoder实现

  • attention注意力机制的原理及实现,包括encoder-decoder attention, self attention, multi-head attention等

  • 时间卷积网络的含义,顾名思义就是将CNN方法用于时间序列中,主要是dilated-convolution and causal-convolution

  • prophet预测原理,各参数对模型拟合效果、泛化效果的影响

  • TPA侧重选择关键变量

  • 时间序列基本规则法中周期因子得计算过程

  • 传统方法如周期因子、线性回归、ARMA等的预测结果表现为,预测趋势大致正确,但对波动预测不理想,体现在波动的幅度差异、相位偏移。

  • 时间序列分解方法。理解加法模型和乘法模型,判断分解模型的选取及分解技巧。

公众号:AI蜗牛车保持谦逊、保持自律、保持进步个人微信
备注:昵称+学校/公司+方向
如果没有备注不拉群!
拉你进AI蜗牛车交流群

【时间序列】时间序列预测方法总结(对应文章给出详细链接)相关推荐

  1. 【数据分析】基于时间序列的预测方法(2021-01-08)时间序列预测

    时间序列预测 目录 时间序列预测 1.时间序列介绍 2.原始数据集 3.导入数据 4.检测时间序列的平稳性 5.如何使时间序列平稳 5.1 估计和消除趋势 5.1.1 对数转换 5.1.2 移动平均 ...

  2. 【数据分析】基于时间序列的预测方法

    时间序列预测 目录 时间序列预测 1.时间序列介绍 2.原始数据集 3.导入数据 4.检测时间序列的平稳性 5.如何使时间序列平稳 5.1 估计和消除趋势 5.1.1 对数转换 5.1.2 移动平均 ...

  3. 定量预测方法总结及案例实践

    文章目录 1 前序 2 预测方法及案例 2.1 回归分析 2.1.1 含有哑变量的线性回归分析案例 2.1.2 自变量之间有交互作用的回归分析案例 2.1.3 非线性回归分析--预测第三产业国内生产总 ...

  4. 基于关联分析与机器学习的配网台区重过载预测方法

    基于关联分析与机器学习的配网台区重过载预测方法 张国宾,王晓蓉,邓春宇 中国电力科学研究院,北京 100192 摘要:针对配电网运行中长期存在的台区重过载问题,提出基于关联规则挖掘的重过载影响因素分析 ...

  5. 时间序列预测方法最全总结!

    时间序列预测就是利用过去一段时间的数据来预测未来一段时间内的信息,包括连续型预测(数值预测,范围估计)与离散型预测(事件预测)等,具有非常高的商业价值. 需要明确一点的是,与回归分析预测模型不同,时间 ...

  6. 时间序列预测方法_让我们使用经典方法预测您的时间序列

    时间序列预测方法 时间序列预测 (Time Series Forecasting) 背景 (Background) We learned various data preparation techni ...

  7. 机器学习 11 种经典时间序列预测方法

    文章目录 一.时间序列预测方法 二.用法讲解及python程序 1.AR 2.MA 3.ARMA 4.ARIMA 5.SARIMA 6.SARIMAX 7.VAR 8.VARMA 9.VARMAX 1 ...

  8. 解读:Informer——比Transformer更有效的长时间序列预测方法

    写在前面 下面这篇文章的内容主要是来自发表于AAAI21的一篇最佳论文<Informer: Beyond Efficient Transformer for Long Sequence Time ...

  9. 11种常见的时间序列预测方法

    参考内容:4大类11种常见的时间序列预测方法总结和代码示例 代码地址: https://github.com/SeafyLiang/machine_learning_study/blob/master ...

最新文章

  1. 【转】DHCP工作过程详解
  2. 李德毅院士:未来交通——自动驾驶与智能网联
  3. 汉诺塔的实现 c++
  4. Linux 命令之 tree -- 以树状图列出目录的内容/查看目录内容
  5. [转]前端构建工具gulpjs的使用介绍及技巧
  6. 常染色体的隐性疾病数学建模(代数模型)
  7. java系统管理员停用,为什么犯错让我成为一个更好的系统管理员
  8. 数组乱码_python 爬虫随笔-土办法治乱码
  9. Linux中pam认证详解,linux中pam认证解析
  10. 王乐园 php_见到海贼王主题乐园的雕像,感觉认知回不去了,索隆是认真的?...
  11. 【通信电子电路】谐振功率放大电路multisim仿真
  12. 【线性代数之二】矩阵与行列式
  13. 打破认知:程序设计=算法+数据结构?
  14. linux常用命令、linux系统、linux属于什么操作系统、linux系统安装、linux怎么读、linux和windows的区别、linux配置ip地址、linux系统一般用来,在线查询工具
  15. 华为OD机试题:英文输入法单词联想
  16. IBM期望通过牺牲连通性以完成量子计算的规模化; QQCI宣布成立QUBT大学 | 全球量子科技与工业快讯第三十二期
  17. Composer 基础使用
  18. lda主题模型python实现篇_主题模型TopicModel:通过gensim实现LDA
  19. 软件测试实战教程系列—接口测试用例和报告模板|收藏版
  20. 去哪儿网pre,__m__,以及headers里面随机参数生成思路讲解

热门文章

  1. 禁止静态文件缓存的方法,可用于JS与CSS文件上
  2. 给伸手党的福利:Python 新手入门引导
  3. macOS npm -g 安装路径
  4. 7-14 十六进制转十进制 7-15 十进制转十六进制
  5. Nginx通过GeoIP模块获取IP所在地理位置
  6. STC8学习--看门狗
  7. openwrt 7621内核启动异常,解决办法记录
  8. 在Linux内核模块中使用CMA内存分配
  9. 信息系统项目管理师必背核心考点(七十)安全审计功能
  10. 小程序分类功能的实现