新南威尔士大学发表在IJCAI 2019的一篇论文,题目标题为STG2Seq: Spatial-temporal Graph to Sequence Model for Multi-step Passenger Demand Forecasting,谷歌学术目前引用量为10。

Abstract

现存的问题:
多步乘车需求预测是车辆共享服务中的一个重要问题,其非线性和动态的时空依赖性具有挑战性。
本文的解决方案:
本文提出一种基于图的模型来建模城市的多步乘车需求预测,并使用分层的卷积结构来同时捕获空间和时间关联。本文提出的模型包括三个部分:(1)一个历史的长期编码器来对历史乘客需求进行建模;(2)产生多步预测的下一步预测的短期编码器;(3)一个基于注意力机制的输出模块来建模动态时间和通道间的信息。

Introduction

预测乘客需求预测存在两个挑战,非线性和动态时空关联。因为未来某一时刻的乘车需求不仅受该区域历史需求的影响,也受城市其他区域的影响。
传统的方法使用RNN及其变体LSTM或GRU来捕获时间关联,基于CNN来捕获空间关联,这些方法存在一些局限:

  • 基于CNN的方法,包括ConvLSTM,通常把城市划分成规则的网格区域,但这并不总是成立的。这些方法只能捕捉到欧式空间中相邻区域的影响,而非欧式空间中距离远的区域不能很好捕获其关联性(CNN卷积核每次只能对局部进行特征提取)。
  • 现有的方法严重依赖RNN类似的迭代结构来捕获时间关联,这在长距离的时间序列中会造成信息的损失,和错误的累计(RNN固有的缺陷,梯度消失和多步预测错误累计)
  • 现有的方法没有捕获时间关联的动态依赖性,只能反应历史数据的集体影响。

    上图显示了时间依赖的动态性,t1,t2,t2,t3对t4的影响各不相同,与t5,t6,t7对t8的影响模式也不同。

本文的贡献:

  1. 提出在一张图表上列出了全市的旅客需求,使用基于GCN的sequence to
    sequence模型来建模城市范围的多步乘车需求预测。(首次应用图卷积用于多步预测)
  2. 提出了一个基于注意力的输出模块,以捕捉最具影响力的历史时间步长对预测需求的影响以及这些关系所固有的动态性。

Methodology

问题定义:
将城市划分成N个区域,r1,r2,...,rN{r_1,r_2,...,r_N}r1​,r2​,...,rN​为t时刻的N个区域,2D矩阵DtD_tDt​∈RN×dinR^{N×d_{in}}RN×din​代表t时刻的城市乘客需求;
向量EtE_tEt​∈RdeR^{d_e}Rde​代表时间步t的特征,包括一天中的时间,一周中的第几天,和节假日信息。
文章的问题就是给定历史乘客需求序列{D1,D2,...Dt}\{D_1,D_2,...D_t\}{D1​,D2​,...Dt​}和时间特征{E1,E2,...Et}\{E_1,E_2,...E_t\}{E1​,E2​,...Et​}来学习一个预测函数,预测未来τ步时间的乘车需求量:

定义图G(v,ξ,A)G(v,ξ,A)G(v,ξ,A),v是节点集合,代表N个区域r1,r2,...,rN{r_1,r_2,...,r_N}r1​,r2​,...,rN​,ξ是边集合,A是领接矩阵,邻接矩阵根据不同区域之间的乘客需求相似性定义,ε为控制矩阵稀疏性的阈值:

使用皮尔逊相似性计算区域间的乘客需求相似度,计算两个区域i,j历史时间0~t的需求相似度公式如下:

长期编码器和短期编码器:
多步预测中,通常把上一时刻的输出当作下一时刻的输入,这会导致错误的累积,加速模型的崩溃。本文提出同时利用依赖与长期编码和短期编码来达到多步预测,并未使用RNN结构。
多步预测类似于NLP中的文本生成任务,如机器翻译或文本摘要,大多基于Sequence-to-Sequence框架,使用前一步输出当作后一步输入,会导致文本生成不准确性,因此利用注意力机制的上下文向量对输入输出进行相似度计算从而进行对齐,每步输出的上下文向量都不相同。
整个模型由长期编码器、短期编码器、基于注意力机制的输出模块组成:

长期编码器的输入为h步历史数据:h×N×dinh×N×d_{in}h×N×din​的3D的立方体,h为时间步,N为节点个数,dind_indi​n为节点特征维度。其中,长期编码器由多个GCCM模块组成,其中每个GGCM捕获所有N个区域之间的空间相关性和k(斑块大小,超参数)时间步长之间的时间相关性。长期编码器总共需要迭代h−1k−1\frac{h-1}{k-1}k−1h−1​步来捕获历史h步数的时间关联,
长期编码器的输出为一个h×N×douth×N×d_{out}h×N×dout​的矩阵YhY_hYh​

短期编码器用于为多步预测集成已经预测的需求,使用一个大小为q的滑动窗口来捕获时空相关性,q与h类似,其输入为q×N×dinq×N×d_{in}q×N×din​ 3D tensor,输出为q×N×doutq×N×d_{out}q×N×dout​的矩阵YqY_qYq​长短期编码器的区别仅在与编码的历史数据的长度。

模型的重点就是GGCM模块了,长短期编码器都使用了这一模块来捕获时间关联,类似RNN中的Cell。

GGCM使用图卷积提取时空特征,在输入的h×N×Clh×N×C^lh×N×Cl 3D tensor先paading一层(k−1)×N×Cl(k-1)×N×C^l(k−1)×N×Cl ,(padding是为了做图卷积),输入变成(h+k−1)×N×Cl(h+k-1)×N×C^l(h+k−1)×N×Cl的3D tensor,

GCN的堆叠,类似于CNN的堆叠,越高层的GCN感受域越大,输入的最上两层为padding

图卷积如下,A~=A+I\widetilde{A}=A+IA=A+I,Pii~=∑j=1NAij\widetilde{P_{ii}}=\sum_{j=1}^N{A_{ij}}Pii​​=∑j=1N​Aij​表示对邻接矩阵按行求和对角化的度矩阵,XlX^lXl∈RN×(k⋅Cl)R^{N×(k·C^l)}RN×(k⋅Cl)为reshape后的需求矩阵

使用了重新设计的门控来建模非线性,下面公式中左边为线性变换,右边为门,控制哪些信息流入下一层,中间为点积:

GGCM输出的Xl+1X^{l+1}Xl+1的维度为h×N×Cl+1h×N×C^{l+1}h×N×Cl+1 。
基于注意力的输出模块:
将长期和短期编码器的输出进行拼接,得到一个维度为R(h+q)×N×doutR^{(h+q)×N×d_out}R(h+q)×N×do​ut的3D tensor,然后用channel wise(通道注意力机制)进行重要时间戳的提取,提高预测的准确度。

实验

在三个数据集上进行实验,结果优于基线

去除各个组件的消融实验,证明了各个组件的有效性:

总结

基于门控的长短期编码器的GGCM模块,堆叠GGCM可以减少时间的迭代,捕获时空关联;输出模块将长短期编码器的输出进行contanacate,其chanel wise的attention设计可以捕获对预测结果更相关的时间戳输入。总体感觉用堆叠的门控机制可以代替RNN,IJCAI 2018的STGCN中GLU也是类似的设计,IJCAI 2019 Graph Wave net那篇的GTCN也是通过堆叠门控CNN使用扩散图卷积捕获了时间上的关联。这种基于门控的堆叠GCN或CNN的设计比RNN更有效,一定程度防止了梯度消失和预测过程中错误的累计,其训练速度也更快。

STG2Seq:多步乘车需求预测的时空图序列模型相关推荐

  1. 【AAAI】用于网约车需求预测的时空多图卷积网络

    #AAAI# 今天分享的是AAAI 2019的一篇论文<用于网约车需求预测的时空多图卷积网络> 原文链接:https://ojs.aaai.org//index.php/AAAI/arti ...

  2. 如何建立Multi-Step(多步预测)的LSTM时间序列模型(以对家庭用电预测为例)

    译自How to Develop LSTM Models for Multi-Step Time Series Forecasting of Household Power Consumption~ ...

  3. 佛学“五蕴”与层级时空记忆模型算法(HTM)过程上是多么巧合?

    佛学"五蕴"与层级时空记忆模型算法(HTM)过程上是多么巧合? 一.佛学"五蕴" 我们读佛经时,经常遇到"五蕴"一词,如<般若波罗蜜多 ...

  4. 应用层级时空记忆模型(HTM)实现对时序数据的异常检测

    一.什么是层级时空记忆模型 世界上的许多数据都是流式的时间序列数据,在这些数据中,异常在关键情况下提供了重要的信息.然而,检测流式数据中的异常是一项艰巨的任务,需要探测器实时处理数据,并在进行预测的同 ...

  5. 时空快照模型snapshots

    时空快照(Snapshots) 时空快照模型是由一系列不同时间内的空间数据模型所组成.就像拍照一样,对一个运动目标进行连续快照.我们在资源动态监测中,常常寻找一个基准时间内资源的现状,然后获取不同时间 ...

  6. 应用层级时空记忆模型(HTM)实现对实时异常流时序数据检测

    应用层级时空记忆模型(HTM)实现对实时异常流时序数据检测 Real-Time Anomaly Detection for Streaming Analytics  Subutai Ahmad SAH ...

  7. 【NeurIPS】神经成像时空回归模型的有效分层贝叶斯推理 Efficient Hierarchical Bayesian Inference

    #NeurIPS # 今天分享的是NeurIPS 2021的一篇论文<神经成像时空回归模型的有效分层贝叶斯推理> 原文链接:https://arxiv.org/abs/2111.01692 ...

  8. 【论文泛读12】用于网约车需求预测的时空多图卷积网络

    贴一下汇总贴:论文阅读记录 论文链接:<Spatiotemporal Multi-Graph Convolution Network for Ride-Hailing Demand Foreca ...

  9. 【金融干货】四步教你:开发风控模型?

    一.市场调研 目前市面主流的风控模型 1.互联网金融前10名排行榜(数据截止日期2017-09-12) 互联网金融公司排名分别是蚂蚁金服.陆金所.京东金融.苏宁金融.百度金融.腾讯理财通.宜信.钱大掌 ...

最新文章

  1. 提高性能:用RequireJS优化Wijmo Web页面
  2. JavaScript的编译模式
  3. 如何在自动驾驶的视觉感知中检测极端情况?
  4. python爬取百度百科词条-python简单爬虫爬取百度百科python词条网页
  5. boost::geometry::dissolver用法的测试程序
  6. document.compatMode的CSS1compat
  7. GDI+用PNG图片做半透明异型窗口
  8. SpringBoot集成Flowable_Jsite办理任务菜单报403
  9. IO流和集合的交集Properties类的介绍。
  10. Struts2 过滤器与拦截器
  11. 谷歌,IE,火狐浏览器内核
  12. 数据分类分级指南分级方法
  13. excel各种填充的总结
  14. 黑客学习路线(送给那些在学习路上迷茫的人)
  15. [PAT] PAT注意点
  16. ftp服务器为我方,对方发送数据,巡检光衰数据导入es
  17. 一阶常微分方程(二)|全微分方程+线性方程+常数易变法+伯努力方程
  18. iOS开发小记:初次接入环信SDK3.0时遇到的问题及解决办法汇总
  19. svm松弛变量与惩罚因子
  20. var fd = new FormData();传不了数据解决方案

热门文章

  1. 关于ScrollView嵌套RecyclerView时RecyclerView不显示的问题
  2. log4j漏洞分析及总结
  3. HTTP长连接,短链接,持久连接的区别
  4. [macOS]_[Shell]_[获取App的签名证书有效期]
  5. WNDR4300刷OpenWrt手记
  6. 程序员最好掌握的两个思维模式
  7. W800/W801学习记录网络部分(一):WIFI的扫描和连接
  8. 刘韧马杰花总:诗歌小说电影游戏都是元宇宙
  9. 切换日语输入法找不到MicrosoftIME键盘选项了
  10. 配制ubuntu - 使用大全整理 (其中有转载内容,如果有您的文章,请与我联系,我将加入你的名称)