每天给你送来NLP技术干货!


来自:北邮 GAMMA Lab

题目: MixSeq:从微观数据到宏观时序预测的桥梁

会议: NeurIPS 2021

论文链接: https://arxiv.org/abs/2110.14354

近期,蚂蚁集团公开了一个全新的时序预测方法MixSeq。MixSeq本身并不进行时序预测,它是一个基于混合神经时序模型的聚类方法,是连通微观数据和宏观时序预测的桥梁。具体来说,MixSeq利用了组成宏观时序的、海量的微观数据,对宏观时序进行拆分,并在理论上证明了时序拆分满足什么样的性质能够提升宏观时序的预测精度。该工作的相关论文《MixSeq: Connecting Macroscopic Time Series Forecasting with Microscopic Time Series Data》已被NeurIPS 2021录用。此外,MixSeq已作为解决方案服务于蚂蚁集团的金融流动性预测业务。

1 背景

时间序列预测(Time series forecasting)广泛地应用于商业决策。例如,零售平台的销量预测能够指导库存管理,最大化利润;金融机构的贷款预测可以辅助融资计划,降低流动性风险。实际上,很多我们关注的时序变量都是“宏观变量”,如金融机构的每日放款总额、电商平台的GMV等。通常情况下,这些宏观变量可以被拆分为“微观时序变量”,即各个用户在金融机构的支用情况以及各个用户在电商平台的消费等等。宏观变量对应的时序数据称为宏观时间序列(Macroscopic time series),而微观变量对应的时序数据则称为微观时间序列(Microscopic Time Series)。

现有的时间序列预测模型,例如ARIMA、Prophet、状态空间模型或者深度神经网络模型等,虽然已经被广泛地应用,不过它们多是研究如何更好地预测一个宏观时序,并且没有考虑宏观时序与其内在的微观时序之间的关联。我们期望能够更加合理地利用微观时序数据辅助预测宏观时序预测。从混合模型的角度出发,我们发现通过合理地将微观时序数据聚类形成聚合时间序列(Clustered Time Series),再利用时序模型预测聚合时间序列,最终汇总得到宏观时序预测结果的方式能够提升宏观时序预测性能。基于此,我们提出了一种基于混合神经时序模型的聚类方法MixSeq。MixSeq从混合模型的角度首次在理论上验证了时序拆分满足什么样的性质能提升“宏观时序”的精度;并基于卷积Transformer构建了一个端到端的混合模型实现时序聚类,从而对宏观时序做拆分达到优化宏观时序预测的目的。此外,MixSeq的目标是将服从相同神经网络时序模型的数据聚在一起,同组时序数据具有一定的同质性,因此该方法也可服务于效应估计。

2 “宏观时序预测”问题定义

“宏观时序”在现实中普遍存在,且往往是人们真正关心的预测目标。例如,在新冠疫情爆发期间,我们始终关心并预测各个国家的新冠疫情传播情况,这一数据是各个国家不同地区感染人数的汇总;对于银行等金融机构来说,准确地预测未来的放款总量十分重要,可以明确资金需求,进行更合理的资金安排,这里放款总量是各个用户支用情况的汇总。因此,虽然我们在很多实际场景关心的目标是“宏观时序”,不过它们都是由许多更细粒度的“微观时序”汇总聚合的结果。

对于“宏观时序”和“微观时序”的关系,有如下描述:给定宏观时间序列,其中,是宏观时序变量在时刻的值;该宏观时序由个微观时序组成,即,其中,是第个微观时序在时刻的值。目标是预测宏观时序未来个时间步长的值,即。如果仅利用宏观时序自身,可以构建如下形式化模型

其中,是宏观时序在区间的取值。如果考虑微观时序数据,我们期望将个微观时序数据划分为组,并形成个聚合时间序列,其中,是类别变量,是第类对应的聚合时序变量在时刻的值,由属于第类的所有微观时序数据汇总获得。此时可以对各个聚合时间序列进行建模,并汇总得到宏观时序结果。后续分析表明,在最优聚类前提下,上述方式能够提升宏观时序预测性能。

3 为什么利用“微观时序”可以帮助“宏观时序”预测?

假设组成“宏观时序”的“微观时序”数据的真实分布是混合概率分布(不同微观数据的产生来自于不同成分的概率分布),即,其中,是数据整体在第个成分上的先验,是第个成分的概率分布,那么有如下定理。

定理:假设混合分布的概率密度:,在混合概率分布和各成分分布存在一阶矩和二阶矩的前提下,即存在和,且 存在和,那么有

上述定理说明,混合概率分布的方差大于等于每个成分方差的期望。这意味着:合理拆分,每类样本的方差的期望更小;样本独立情况下,总体方差更小。也就是说,在微观数据相互独立的情况下,如果我们能够知道微观数据的真实生成过程,即每个数据来自于混合分布的某个成分,那么对于宏观数据建模而言,对各个成分的聚合数据分别建模再汇总是一种更准确的方式,具有更小的不确定性。下面给出一个仿真实验说明。

仿真实验说明

这里给出一个上帝视角的时序拆分预测实例说明,在已知混合分布(mixture of ARMA或者mixture of Gaussian Process)的前提下,从混合分布的每个成分分别生成个微观时序数据。所有微观时序汇总得到对应的宏观时序数据,每个成分的个微观时序汇总得到对应的聚合时序数据。针对宏观时序预测目标,对比如下两种策略的性能:1)直接对宏观时序进行建模预测,结果记为macro results;2)分别对聚合时序数据建模预测,再汇总预测结果得到宏观时序预测,结果记为clustered results。相同区间的滑动窗口方式进行滚动回测,评测结果(smape)如下:clustered results要优于macro results,表明合理的时序拆分预测有助于提升宏观时序的预测性能。

图1 不同混合时序模型下的仿真宏观时序预测实验结果

4 一种新的“宏观时序”预测方法:MixSeq

我们整体的“宏观时序”预测方法分为两个步骤:

  1. 依据混合概率分布假设将个微观时序数据分为组,并形成个聚合时间序列,其中,;

  2. 对各个聚合时间序列分别建模,获得预测结果,并汇总得到宏观时序预测。

下面重点讲解第一个步骤,即如何对微观时序聚类得到聚合时间时序(clustered time series)。基于第3节的分析,假设个微观时序数据服从某个混合概率分布。那么,对于任意微观时序数据(这里省略了不同微观时序下标),其混合模型概率生成描述如下

其中,是离散隐变量,是混合模型的成分数目,是样本类别的先验分布,是微观时序由类别对应的成分生成的概率。得益于Seq2Seq模型对序列数据的建模能力,我们利用卷积Transformer来实例化各个成分,这里不再对其结构进行详细描述。此时,上述混合模型的不同成分分量来自于由不同参数确定的神经网络,其期望全部微观时序数据可以划分为多组,每组分别遵从不同参数化的神经网络时序模型。最终混合模型的参数为。

对于上述混合神经网络模型而言,我们期望能够高效的求解参数并完成后验分布的推断。然而,在对似然函数取之后,无法直接完成求解。这里采用AEVB(stochastic auto-encoding variational Bayesian algorithm)方法。对于单个微观时序数据,其变分下界(LB)如下

其中,是时序的近似后验分布。AEVB方法的优点是可以利用神经网络作为编码器来计算。这里同样基于卷积Transformer来提取时序特征,并将时序特征输入MLP获得后验概率。

Mode collapsing

实际测试发现,优化上述变分下界可能面临这样一个问题:编码器容易将所有样本判定为同一类别,并没有像预期的一样将样本进行有效划分。在这种情况下,编码器没有能够提取时间序列中有区分度的信息,即。为避免上述情况,在变分下界的基础上添加,期望模型能够在隐变量中学到区别不同输入时序的信息。此时,全部训练样本下的优化目标如下:

其中,表示所有样本的总体后验分布。上述目标在尽可能重构样本的同时,期望可以最小化KL散度,即期望整体样本的隐变量分布与先验分布尽可能一致。实际优化过程中,可以利用mini-batch数据来近似,即。

Annealing tricks

对于长时序数据而言,上述优化目标中的样本重构损失和KL散度损失两部分数值的数量级会差别比较大,可能会导致KL散度作用减弱,进而影响模型效果。因此,对上述目标函数进行调整得到如下最终损失函数:

其中,和分别是KL散度和正则项的损失权重。加入卷积Transformer模型参数的正则项是为了相对简化模型,避免学习到过于复杂的神经网络。同时,利用退火策略动态地调整的值,使得随着训练不断减小。在模型训练完毕后,每个微观时序数据会分配到后验概率最大的组别,完成分组聚类任务。

5 实验

为验证MixSeq方法的有效性,分别在仿真数据和实际数据上进行了实验。仿真数据实验的目的是分析在具有ground truth的数据上,MixSeq能否区分出遵从不同模型的微观时序数据;实际数据实验则是为了验证基于MixSeq的时序拆分在宏观时序预测任务上的有效性。

仿真数据实验

利用相同结构不同参数的时序模型(ARMA或者DeepAR)生成多组微观仿真时序,每组包含一万条长度为100的时序样本。利用MixARMA和MixSeq对仿真时序进行聚类,同时对于MixSeq而言,在模型训练后,会依据数据生成过程重新生成新的样本并直接infer新样本的类别,从而判断MixSeq模型是否学到了生成模型的规律(该部分记为MixSeq-infer)。评测指标为RI(Rand Index),详细结果如下:

  • 对于ARMA仿真时序,MixARMA和MixSeq两个方法都能够获得较好的聚类性能;

  • 对于DeepAR仿真时序,MixSeq性能优于MixAR,原因是ARMA模型难以刻画非线性的DeepAR时序;

  • MixSeq-infer的评测结果与MixSeq性能相当,说明MixSeq方法能够挖掘时序数据的规律从而区分时序。

图2 不同混合时序模型下的仿真时序数据聚类结果

真实数据实验

在三个实际时序数据集上测试了基于MixSeq的宏观时序拆分预测性能,包括Rossman销量数据,M5数据和Wiki流量数据。对比时序聚类方法包括DTCR和MixARMA,也测试了直接在宏观数据上建模的预测性能(记为Macro)。对于每个聚类方法,分别结合ARMA、Prophet、DeepAR、TCN和卷积Transformer完成各部分的时序预测任务。具体结果如下,绝大多数情况下,基于MixSeq的拆分预测都能获得最优性能。

图3 不同方法在真实数据上的宏观时序拆分预测性能对比(评测指标为smape)

图4 不同方法在真实数据上的宏观时序拆分预测性能对比(评测指标为-loss)

类簇数目影响分析:下图给出了三个数据集在不同类簇数目下的预测性能,其中,表示直接对宏观时序进行预测,不采用拆分预测的策略。与一般聚类任务相似,基于MixSeq的时序拆分预测会受到类簇数目的影响。只有在合适的类簇数目下才能获得最优的时序预测性能,可以依据专家经验进行设定或者在验证集上进行搜索。

图5 不同类簇数目下基于MixSeq的宏观时序拆分预测性能

6 总结

本文探索如何利用微观时序数据辅助宏观时序预测。从混合模型角度出发,首次在理论上验证了时序拆分满足什么样的性质能提升“宏观时序”的精度,即合理地刻画数据的混合分布并实现微观数据聚类;基于此,我们提出了MixSeq,一种端到端的混合神经网络模型,从而对宏观时序做最优拆解以达到优化宏观时序预测的目的。仿真实验验证了MixSeq能够捕捉混合模型中不同成分的特征,较好地还原仿真数据真实类簇结果;公开数据上的预测实验表明,基于MixSeq的拆分预测能够提升宏观时序预测性能。


本期责任编辑:杨成

本期编辑:刘佳玮


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易,还望给个在看!

NeurIPS'21|MixSeq:从微观数据到宏观时序预测的桥梁相关推荐

  1. 西南科技大学计算机技术专硕,西南科技大学法律专硕考研怎么样?看了21考研报录数据,太良心了...

    原标题:西南科技大学法律专硕考研怎么样?看了21考研报录数据,太良心了 西南科技大学 法律(非法学)报录数据分析.通过21考研的报录数据以及20年的招生情况,能很清楚的了解到西南科技大学法律非法学的情 ...

  2. 如何借助大数据进行宏观经济分析

    在经济发展新常态下,我国的经济面临着更加复杂的形势和更加艰巨的任务,对及时.准确的分析宏观经济发展趋势也提出了更高的要求.如今,在大数据时代的背景下,借助大数据进行宏观经济分析就成为了促进经济社会发展 ...

  3. 微积分小课堂:积分(从微观趋势了解宏观变化)

    文章目录 引言 I. 预备知识: 积分效应 1.1 闯黄灯 1.2 公司利润(飞轮效应) 1.3 飞轮效应 II 积分 2.1 积分的计算 2.2 积分思想的本质 引言 微分解决的问题是从宏观变化了解 ...

  4. R语言使用econocharts包创建微观经济或宏观经济图、ptvalue函数可视化前景理论价值函数(Prospect theory value function)

    R语言使用econocharts包创建微观经济或宏观经济图.ptvalue函数可视化前景理论价值函数(Prospect theory value function) 目录

  5. R语言使用econocharts包创建微观经济或宏观经济图:需求曲线、供给曲线、供需曲线、无差异曲线、Laffer曲线、前景理论价值函数曲线、税收图、生产可能性边界线、劳动力供给曲线、计算曲线交叉点等

    R语言使用econocharts包创建微观经济或宏观经济图:需求曲线.供给曲线.供需曲线.无差异曲线.Laffer曲线.前景理论价值函数曲线.税收图.生产可能性边界线.劳动力供给曲线.计算曲线交叉点等 ...

  6. 微观架构和宏观架构论

    http://blog.csdn.net/jdream314/article/details/18041391 微观架构和宏观架构论 以下内容纯属自己YY,纯属自己更加自己经历有感而发.希望大家不要较 ...

  7. 大数据教你实现预测未来,这不是梦

    随着数据挖掘与人工智能技术的发展,越来越多的企业将大数据运用到生产实践与决策指导中.其中,构建合适的模型对未来的趋势进行预测,是数据挖掘中十分重要的一部分. 本文将通过一个小案例教会你如何利用数据挖掘 ...

  8. SSM基于校园大数据的学业表现预测及行为分析 毕业设计-源码64653

    摘  要 科技进步的飞速发展引起人们日常生活的巨大变化,电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用.信息时代的到来已成为不可阻挡的时尚潮流,人类发展的历史正进入一个新时代 ...

  9. opta球员大数据预测胜负_足球财富:德甲联赛双盘结合大数据——胜负盘口预测篇...

    原标题:足球财富:德甲联赛双盘结合大数据--胜负盘口预测篇 德甲联赛自5月16日回归以来,受到了广大彩民朋友们极大的青睐,截止笔者写稿时,德甲联赛已经进行到了第30轮,剩下的4轮比赛将在6月份全部赛完 ...

  10. IDC公布2017年亚太地区数据中心10大预测

    IDC亚太区发布了最新题为<IDC FutureScape:2017年全球数据中心预测:APeJ影响>的报告,强调数据中心内一系列成熟的技术,对于那些寻求数字化转型的企业机构来说至关重要. ...

最新文章

  1. Nmap安装和扫描(一:Nmap安装和扫描基础知识点总结)
  2. R语言ggplot2可视化绘制多条基本线图(Basic line plot)、使用gghighlight包突出高亮其中的某一条线图(highlight line plot)
  3. sklearn中train_test_split函数中的random_state有什么用?
  4. Cissp-【第4章 通信与网络安全】-2021-3-12(446页-475页)
  5. Redis 4.x/5.x未授权访问漏洞
  6. 2018GDKOI——记录
  7. linux网络编程——客户端编程
  8. 【英语学习】【WOTD】reverberate 释义/词源/示例
  9. 地理空间数据云下载的DEM数据拼接问题
  10. 密码学算法之 SM2国密算法
  11. VLAN详解系列:(6)VLAN间路由详解
  12. 2021年中国大企业创新百强排行榜:华为位居榜首,北京上榜企业最多(附年榜TOP100详单)
  13. PAT甲级 1125
  14. 解答,修正(JAVA+=运算程序诡异事件 )
  15. 在苹果Macbook Pro上安装Windows 7
  16. Educational Codeforces Round 61 (Rated for Div. 2) D. Stressful Training //二分
  17. [转]在低调中修炼自己
  18. 基于遗传算法解决城市TSP问题
  19. win7 关闭计算机休眠,技术编辑教您win7下怎么关闭休眠
  20. Economics 345 “Applied Econometrics”

热门文章

  1. 一文搞懂synchronized原理
  2. 工具 | Axure基础操作 No.6
  3. python类与对象的内置函数大全(BIF)
  4. 用dockers实现mysql主从同步
  5. import sun.misc.BASE64Decoder;import sun.misc.BASE64Encoder; 报错的解决方法
  6. 英语笔记-some words about description of girl
  7. Java学习(8):贪吃蛇游戏
  8. Windows上SVN服务器搭建【转】
  9. 乱码插入mac mysql汉字乱码问题解决
  10. 基于MapWinGis开发探索(一)