AAAI2019

0 摘要

交通流数据通常有很高的非线性和很复杂的特征。目前很多交通预测的方法缺乏对交通数据时空相关性的动态建模。

本文提出了一种基于注意力的时空图卷积神经网络(ASTGCN)来解决交通预测问题

ASTGCN包括三个独立的部分,分别对交通流的三种时间属性进行建模:

1)当前相关性(recent dependencies)

2)每天的周期性(daily-periodic dependencies)

3)每周的周期性(weekly-periodic dependencies)

每个独立的部分都包含了以下两块:

1)时空注意力机制,可以捕捉交通数据中动态的时空相关性

2)时空卷积,可以同时将图卷积应用于交通数据中,来捕获时间和空间特征

单个独立部分的结果将被加以权重地结合起来,来生成最终的预测结果

1 introduction

图1体现了交通数据的时空相关性,不同的位置,不同的时间,各点交通流量之间的影响是不一样的——》交通数据在空间和时间维度都展现出了强大的动态特征

早期模型的缺点

时间序列分析模型 难以解决数据的不稳定行和非线性
传统机器学习

1)难以同时考虑高维交通数据集中时空相关性

2)十分依赖特征的选择和建立

一些深度学习模型 仍然难以同时建模交通数据中时间和空间特征的相关性

ASTGCN:

1)使用空间注意力机制来建模空间层面复杂的相关性

2)使用时间注意力机制来捕获不同时间之间的动态时间相关性

3)使用图卷积来捕获交通图中的空间特征;以及不同时间篇之间的依赖关系

2 相关工作

2.1 交通预测

统计模型 HA、ARIMA、VAR 这些模型需要数据满足一些假设,但是交通数据过于复杂,无法满足这些假设,所以这些模型在交通预测领域的表现不尽人意
机器学习模型 KNN,SVM 这些模型需要进行自己的特征工程
深度学习模型 ST-ResNet、CNN+LSTM 数据必须是标准的2D,3D表格数据

2.2 GNN

spatial methods 直接在图上进行卷积计算
spectral methods 使用图拉普拉斯矩阵(切比雪夫多项式进行优化)

3 Preliminaries

3.1 交通网络

G=(V,E,A) 无向交通图
V 点集
E 边集
F 每个点的观测特征维度

3.2 交通流预测

问题描述

4 ASTGCN

4.1 整体框架

ASTGCN由三个部分组成(前面在abstract说的recent、daily-periodic和weekly-periodic),三个部分的结构几乎是一样的。

为了优化训练的效率,我们在每个ST模块上添加了一个残差连接

4.2 recent、daily-periodic和weekly-periodic数据集划分

我们分别设置提取数据集的时间片段长度Th,Td和Tw,表示recent、daily-periodic和weekly-periodic的数据集划分间隔,Th,Td,Tw都是原始数据集时间间隔的整数倍

4.2.1 recent 临近时间片段

预测时间段之前的一小段时间片段

4.2.2 daily 日周期片段

预测时间片段之前几天相同的时间片段

4.2.3 weekly 周时间片段

预测时间片段之前几周相同的时间片段

4.3 时空注意力机制

  • 在空间维度,不同区域的交通状况相互影响,这种相互影响有很强的动态性
  • 在时间维度,不同的时间片段的交通流量存在相关性

4.3.1 空间注意力机制

通过注意力机制捕获以上两种关系,此处以recent 模块为例:

这里  是第r层ST-块的输入

是第r层每个点每一时刻特征的维度(当r=1时,也就是原始输入,等于F)

是第r层时间维度的长度(当r=1的时候,对于recent来说,就是;对于daily来说,就是;对于weekly来说,就是

都是N×N的矩阵,是对attention结果的加权/bias

对应的是attention里面Q,K,V的权重,其中

机器学习笔记:Transformer_UQI-LIUWJ的博客-CSDN博客_机器学习transformer

、 都是可学习的参数

σ是激活函数

由此我们便动态地算出了本层ST模块的空间注意力矩阵,这个矩阵根据当前层ST模块的数据计算而得。

表明了点i和点j之间的相关联程度,使用softmax使得相关联程度之和为1

之后的图卷积模块中,我们会将这个空间注意力矩阵S和邻接矩阵A一起考虑,来动态调整点与点之间的影响权重

4.3.2 时间注意力机制

和空间注意力机制类似,我们有:

其中,这五个矩阵都是可学习的

表明了时间i和时间j之间的相关联程度,使用softmax使得相关联程度之和为1

之后的图卷积中,我们直接将标准化的时间注意力矩阵应用到数据集上

来动态调整输入数据

4.4 时空卷积

之前时空注意力模组让网络更关注一些更有用的信息。调整后的输入被喂入时空卷积中

时空卷积网络由一个空间维度的图卷积(来捕获邻居节点之间的依靠关系)和一个时间维度的卷积(来捕获相邻时间片之间的依靠关系)

4.4.1 空间维度的图卷积

这里使用谱图卷积(spectral graph convolution)。图结构的属性可以通过分析图拉普拉斯矩阵及其特征值来获得

拉普拉斯矩阵L=D-A,D是度矩阵(对角矩阵),A是邻接矩阵

标准拉普拉斯矩阵

对拉普拉斯矩阵进行特征值分解,我们有:

(这里因为是无向图,所以拉普拉斯矩阵一定对称,所以后面一项可以是U的转置)

其中: 是特征值组成的对角矩阵

U是傅里叶基

我们记图上的一个点的信号为x,那么这个信号x经过图傅里叶变化之后,变为:

因为拉普拉斯矩阵是对称矩阵,所以U是一个正交矩阵,所以信号x的逆拉普拉斯矩阵为

基于上面的部分,信号x和图上的filter 图卷积后的结果为:

*G表示了一个图卷积计算

我们可以把上述方程看成:先把信号x和经过傅里叶变化变换到谱图域中,然后将他们进行乘法操作,最后在通过你傅里叶变化得到最州的谱图卷积结果

然而,当图很大的时候,计算拉普拉斯矩阵的特征值开销是很大的,于是,我们可以使用切比雪夫多项式来进行近似:

这时候的参数θ就是切比雪夫多项式的系数了。

是拉普拉斯矩阵最大的特征值。

切比雪夫多项式为

我们进行0~k-1的切比雪夫多项式的相加,相当于计算0阶~k-1阶邻居节点对于中心节点的影响(影响的大小由卷积核决定)

图卷积的觉果使用RELU进行激活,即

而我们在4.3.1引入了空间注意力机制,得到了一个空间注意力矩阵S‘,怎么使用那个矩阵呢?

对于切比雪夫多项式中的,我们让他和S’做哈达玛积(对应位置元素相乘),即:

那么“有价值”的点,获得的权重更多;“没有价值”的点,获得的权重就少

因此,在引入了空间注意力机制后,用切比雪夫多项式近似的谱图卷积可以写为:

4.4.2 时间维度的卷积

在图卷积之后,我们使用时间卷积来更新点的信号

4.4.3 ST卷积模块总结

时空注意力模块+时空卷积模块,组合成了一个ST卷积模块

我们可以叠加多个ST卷积模块,以进一步提取更大“感受野”的关联信息。

最后,添加一个全连接层,以保证输出与目标有相同的维度和形状,最后的全连接层使用 ReLU 作为激活函数。

4.5 Mult-component fusion:将recent、daily-periodic和weekly-periodic模块结果结合

这一个部分很简单

即三组可学习的参数分别与recent、daily-periodic和weekly-periodic模块的结果及逆行哈达玛积。

5 实验部分

5.1 数据预处理:

1)去除了冗余的观测点,使得相邻观测点之间的距离大于等于3.5英里(不知道为什么。。。)

2)缺失的点使用线性插值填充

3)数据用zero-mean来进行标准化

5.2 实验结论

1)传统的时间序列分析方法(HA、ARIMA)通常并不理想

——>这些方法在建模交通数据的非线性和复杂性上是欠佳的

2)相比于传统的时间序列方法,有些深度学习的方法得到的结果会好很多

3)在深度学习方法中,同时考虑了时间和空间属性的模型(STGCN、GLU-STGCN、GeoMAN、我们的模型)效果比LSTM和GRU(只考虑了空间属性的模型)好

4)GeoMAN模型效果比STGCN和GLU-STGCN效果好

——>注意力机制是有效的

5)对我们的模型MSTGCN(没有注意力机制的模型)已经比原有的模型要好了;加了注意力机制之后的模型ASTGCN效果更好

随着我们的预测间距的增大,预测的难度也在增加,预测误差也随之增加

只考虑时间属性的模型,在短期预测任务中通常有不粗的表现(HA、ARIMA、LSTM、GRU等),但是,随着预测区间的增发,这些模型不适用于预测长期的内容

相比而言,同类型模型的VAR准确率下降得就慢了很多。(因为VAR同时考虑了时间和空间的相关性,这个在长期预测任务中是很关键的),但是随着交通网络规模的增大,我们需要考虑更多的交通时序信息,,VAR的预测误差就上去了(如图6所示,VAR在PeMSD4的准确度小于其在PeMSD8的准确度)

我们的模型在任何时候都比其他的模型效果好,尤其是在长期预测问题中。这说明了使用注意力机制+图卷积操作可以更好地挖掘交通数据中动态的时空特征

图7在说明注意力机制有什么用处,论文选取了PeMSD8中的10个点,对他们之间的attention矩阵进行了可视化。

以点9为例,权重大的是点3和点8,这是很合理的

6 展望

未来可以考虑一些外部影响因素,例如天气因素和大型事件,进一步提高预测精度。

交通预测论文笔记《Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting》相关推荐

  1. 论文笔记:ICML 2019 Simplifying Graph Convolutional Networks

    前言 随着2017年GCN概念的提出,近年来越来越多的GCN方法被提出.由于GCN本身的提出来源于深度学习中CNN和RNN的概念,因此可能会继承其中一些不必要的复杂度和冗余计算,本文提出了一种简化的图 ...

  2. 论文笔记:Semi-Supervised Classification with Graph Convolutional Networks

    Semi-Supervised Classification with Graph Convolutional Networks 1.四个问题 要解决什么问题? 半监督任务.给定一个图,其中一部节点已 ...

  3. 论文笔记--Spatial-Temporal Fusion Graph Neural Networks for Traffic Flow Forecasting

    在交通预测问题上,现有的框架通常利用给定的空间邻接图和复杂的机制来建模空间和时间关联.作者认为使用给定的空间邻接图会限制模型的有效时空相关性学习,并且它们通常使用单独的模块来实现空间和时间相关性,或者 ...

  4. 【论文笔记】Simple and Deep Graph Convolutional Networks

    该论文由中国人民大学.复旦大学.阿里巴巴合作完成,第一作者为中国人民大学研究生陈明,通讯作者为中国人民大学教授魏哲巍. 1. 摘要 Graph Convolutional Network via In ...

  5. 【论文翻译】GCN-Semi-Supervised Classification with Graph Convolutional Networks(ICLR)

    学习总结 传统深度学习模型如 LSTM 和 CNN在欧式空间中表现不俗,却无法直接应用在非欧式数据上.因此大佬们通过引入图论中抽象意义上的"图"来表示非欧式空间中的结构化数据,并通 ...

  6. 论文阅读_Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

    Abstract 人体骨架动力学为人体动作识别提供了重要信息.传统的骨架建模方法通常依赖于手工制作的部件或遍历规则,从而导致表达能力有限和泛化困难.在这项工作中,我们提出了一种新的动态骨架模型,称为时 ...

  7. 论文阅读笔记: Modeling Relational Data with Graph Convolutional Networks

    arXiv:1703.06103v4 文章目录 1.Introduction 2.神经关系建模(Neural relational modeling) 2.1 关系图卷积网络(Relational g ...

  8. 论文阅读 Modeling Relational Data with Graph Convolutional Networks

    Modeling Relational Data with Graph Convolutional Networks 使用图卷积网络建模关系数据 发表于 [stat.ML] 26 Oct 2017 摘 ...

  9. 交通预测论文笔记:Spatio-Temporal Graph Convolutional Networks: A Deep Learning Frameworkfor Traffic Forecast

    0 abstract 由于交通数据极强的非线性和复杂性,传统方法很难进行中长期的交通预测. 我们提出了STGCN结构来解决交通领域的预测问题.我们的模型建立在卷积之上,有更快的训练速度和更少的参数. ...

最新文章

  1. ElasticSearch使用总结
  2. 《快速构建Windows 8风格应用》系列文章汇总
  3. lncrna研究,2021最新相关资料合集
  4. oracle12c安装卡住_12C rac安装卡住了
  5. 输出第二个整数(信息学奥赛一本通-T1002)
  6. 学习ssm框架一般要用多少时间
  7. TNS-12535: TNS: 操作超时_win7
  8. BZOJ 1406: [AHOI2007]密码箱( 数论 )
  9. [书籍分享]0-006.App营销解密:移动互联网时代的营销革命
  10. android 三星截长屏,三星如何截屏手机长图,三星四种截图方法介绍
  11. 本草纲目pdf彩图版下载_本草纲目pdf下载|本草纲目彩色插图版PDF完整版_ - 极光下载站...
  12. Python实现一键翻译英文论文,实现了pdf文档英译汉,pdf格式不变
  13. 专利代理人资格考试怎么准备
  14. PCB电源 - 开关电源介绍、工作原理、电路图
  15. leetcode 没有php,Leetcode PHP题解--D99 860. Lemonade Change
  16. 数据可视化Error:matplotlib is required for plotting when the default backend “matplotlib“ is selected
  17. html网页文字链接的若干问题
  18. 微信小程序微信授权登录的昵称头像授权数量上限,如何删除
  19. 广域网(WAN)简介
  20. DA (分布式算法)

热门文章

  1. tomcat、腾讯云主机和微信
  2. YII用户注冊和用户登录(五)之进行session和cookie分析 ,并在前后区分session和cookie...
  3. 《C语言及程序设计》程序阅读——文件操作
  4. 《BREW进阶与精通——3G移动增值业务的运营、定制与开发》连载之31---LBS基于BREW的位置服务...
  5. python中的矩阵运算
  6. 动态规划习题,关系式推导和求模技巧
  7. 计算机基础考试系统怎么使用,计算机基础课程考试系统使用说明.doc
  8. python调用pyd_Python生成pyd文件
  9. vue 监控元素宽度_Vue入门系列之Vue实例详解与生命周期
  10. array python 交集_NMS原理(非极大值抑制)+python实现