Learning Dynamic and Hierarchical Traffic Spatiotemporal Features with Transformer

原文，见这里
作者：Haoyang Yan, Xiaolei Ma
期刊：
关键字：

摘要

交通预测是智能交通系统不可缺少的组成部分，长期全网精确交通速度预测是最具挑战性的任务之一。近年来，深度学习方法在这一领域越来越受欢迎。由于交通数据在物理上与道路网络相关联，大多数提出的模型都将其视为一个时空图建模问题，并使用基于图卷积网络(GCN)的方法。这些基于GCN的模型高度依赖于一个预定义的和固定的相邻矩阵来反映空间依赖性。然而，预定义的固定相邻矩阵在反映交通流的实际依赖关系方面存在局限性。本文提出了一种新的交通变压器模型，用于时空图建模和长期交通预测，以克服这些局限性。Transformer是自然语言处理(NLP)中最流行的框架。Traffic Transformer将其应用于时空问题，通过多头注意和蒙面多头注意机制对数据进行分层动态提取时空特征，并融合这些特征进行交通预测。此外，通过分析注意力权重矩阵可以发现路网中有影响的部分，从而更好地了解交通网络。在公共交通网络数据集和实际交通网络数据集上的实验结果表明，该模型的性能优于现有模型。

1 Introduction

城市交通系统满足了旅客的需求，保证了城市的运行。但随着城市化进程的不断加快，交通拥堵等问题越来越难以解决。智能交通系统有助于缓解交通拥堵，而交通速度预测是智能交通系统的基础。交通速度是反映交通状况最关键的指标之一。许多研究者针对交通速度预测提出了不同的方法，并取得了很大的成功。

近年来，深度学习方法在这一领域得到了广泛的应用，它可以让研究人员建立数据驱动的模型来提取时空特征。路网交通流数据具有两类特征:空间特征和时间特征。时间特征可以通过不同的时间序列模型提取，但空间特征还没有一个通用的提取方法。一开始，研究人员忽略了空间特征，只关注单一的道路。以往的深度学习模型通常将交通网络转化为类网格结构，并将其视为图像，利用 卷积神经网络(CNN) 提取空间特征。然而，这些转换显然丢失了大量信息，并彻底破坏了网络关系。例如，同一网格中的道路被合并，不能进行分析。由于交通数据与道路网络的物理关联，最近提出的模型将其视为一个时空图建模问题，并使用基于图卷积网络(GCN)的方法。这些基于GCN的模型的关键是邻域矩阵。邻接矩阵定义了图的节点和边之间的关系，从而允许模型卷积收集邻接节点中的信息。基于gcn的模型在全网络流量预测方面取得了巨大的成功。然而，这些基于GCN的模型仍然存在一些局限性。

⭐️1.1 Limitations in GCN-based models

(a). 定义一个完美的邻接矩阵对人类来说是困难和昂贵的。相邻矩阵表示在图中传递的消息，但流量的传播是复杂的，不是简单地基于距离，有些节点可以看作是抽象的连接。例如，市中心路口的传感器可以在一定程度上代表网络的服务水平。该传感器具有一定的影响，可以看作是抽象地与大多数传感器相连。

(b).相邻矩阵在模型中是固定的。固定的相邻矩阵无法处理周、周末、早高峰、晚高峰等不同情况下的动态流量。此外，如(a)所示，相邻矩阵中存在不可避免的错误。例如，在无左转弯路口，左转弯路线的上下游传感器在空间上是近的，但在逻辑上是远的。固定的邻域矩阵意味着这些错误会一直影响模型。

针对上述挑战，我们发现空间特征提取和自然语言处理(NLP)有相似之处，并借鉴了NLP的先进方法。

1.2 Similarity between spatial feature extraction and NLP

Fig.1 空间特征提取与自然语言处理的相似性。(a):自然语言数据和交通数据可视为顺序数据;(b):改变序列的顺序会改变含义;(c):高依赖性可能存在于序列中甚至很远的地方;(d):含义是动态的，并取决于其他部分。

空间特征提取与自然语言处理不仅在数据特征上相似，而且在挑战和困难上也相似。如图1 (a)所示，自然语言数据和交通数据都可以看作是顺序数据。自然语言数据是单词的序列，交通数据是传感器的序列。如图1 (b)所示，绝对位置和相对位置很重要。改变序列的顺序会改变意义。如图1 ©所示，长期依赖在NLP中很常见，推断明天的日期必须回到文章的开头。交通网络中的每个传感器无论远近都可以对传感器产生抽象的影响。如图1(d)所示，依赖关系是动态的，单词的意义取决于上下文。即使两个句子中的单词“it”是完全相同的，两个单词的意思是不同的。同样，中心节点的流量状态相同，但节点的空间依赖关系不同。

Transformer解决了上述的挑战和困难，在自然语言处理领域取得了巨大的成功，是一个健壮的序列学习框架。考虑到相似性，本文提出了一种新的交通变压器模型，用于时空图建模和长期交通预测，以克服基于GCN模型的局限性。我们将Transformer应用于交通预测问题。利用Transformer的多头注意机制，通过数据动态提取每对节点的关系。堆叠变压器层允许我们的模型分层提取特征。通过注意机制融合特征。在公共交通网络数据集METR-LA和我们自己生成的两个真实交通网络数据集上的实验结果表明，我们提出的模型具有比现有模型更好的性能。我们工作的主要贡献总结如下:

我们提出了一种新的交通变压器模型，用于时空图建模和长期交通预测。它提取和融合了全网交通流的全局和局部空间特征，显著提高了预测精度，尤其是在长期预测方面。
在Traffic Transformer中，提取的空间依赖依赖于输入数据是动态的。对于不同的输入数据的不同情况，Traffic Transformer给出了不同的空间关系，以通过注意力机制更好地进行预测。
Traffic Transformer中分层提取特征。不同的层和块学习不同的特征并分层融合，帮助我们更好地学习交通网络和交通流的传播。
实验结果表明，即使邻域矩阵是未知的，该模型仍能达到良好的预测效果。

本文的其余部分组织如下:第2节介绍了交通速度预测方法的文献综述。第3节展示了交通预测问题的制定和我们提出的交通变压器网络。第4节提供实验来评估我们的模型的性能，以及对所提取的动态和分层交通时空特征的解释。最后，我们总结了我们的论文，并在第5部分介绍了我们的进一步工作。

2 Literature Review

在过去的几十年里，研究人员提出了许多不同的交通预测方法。这一领域的文献旨在提高准确性。为了实现这一目标，现有的方法是提取和建模交通数据的空间和时间关系。我们将前者的研究分为三个不同的阶段 :(a)传统研究方法;(b)基于网格的深度学习;©基于图的深度学习。这种划分取决于空间特征的提取方式 。以下是对这三个阶段的简要文献综述。正如我们前面提到的，空间特征提取和NLP不仅在数据特征上相似，而且在挑战和困难上也相似。我们正在将NLP的先进方法应用于交通预测。因此，对序列建模在自然语言处理中的应用进行简要的文献综述如下。

2.1 Traditional approaches

早在1976年，Box和Jenkins就提出了自回归综合移动平均线(ARIMA)。1979年，ARIMA被应用于交通预测(Ahmed and Cook, 1979)。ARIMA是一种参数化方法，它假设交通状态的分布是已知的，可以用多个参数估计。通过对ARIMA进行改进，考虑更多对交通系统的影响，ARIMA的V个变种表现出更好的性能。例如，季节性ARIMA（SARIMA）（Williams&Hoel，2003）考虑了交通系统中的周期性影响，KARIMA（V an Der V oort，Dougherty，Watson 1996）将kohonen地图与ARIMA相结合用于交通预测，Lee和Fambro使用ARIMA子集进行短期高速公路交通量预测。其他参数方法包括指数平滑(ES) (Ross, 1982)和卡尔曼滤波(Okutani和Stephanedes, 1984)。但由于交通状态分布的复杂性和动态性，这些参数化方法对于交通系统中的突发性变化(如高峰时段)可能不能很好地发挥作用。

为了提高学习精度，提出了一些先进的非参数机器学习方法。k-NN（Davis and Nihan 1991；Cai et al.，2016）是一种非参数惰性模型，通过找到输入的k个最近邻域来预测未来状态。贝叶斯网络（Sun、Zhang和Y u 2006）使用因果网络来表示变量的概率。支持向量机（SVM）（V anajakshi和Rilett，2004；Zhang和Xie，2008）定义支持向量并通过支持向量进行预测。随机森林（RF）（Leshem和Ritov，2007）和梯度提升决策树（GBDT）（Zhang和Haghani，2015）是套袋或提升决策树的集成方法。小波包自相关函数（Jiang和Adeli，2004）使用离散小波包变换来表示信号的其他细微细节，人工神经网络（ANN）（Adeli，2001；Dharia和Adeli，2003；Vlahogianni等人，2007）模拟生物神经元来构建神经网络，建立输入和输出之间的关系。然而，这些方法都侧重于常规时段的短期交通预测。由于交通流的高度动态性和非线性，这些模型在高峰时段和长期交通预测中表现不佳.

2.2 Grid-based deep learning

由于深度学习模型具有很强的非线性和特征提取能力，近年来备受研究人员的关注。深度神经网络(DNN)可以提取隐藏在交通流数据中的时空特征，显著提高模型的性能。许多文献提出了不同的基于DNN的模型，深度学习方法在土木工程领域得到了广泛的应用(Rafiei和Adeli,2016, 2018;Rafiei, Khushefati, Demirboga和Adeli,2017)。DNN模型可用于空间和时间特征提取。例如，Ma等人(2015)使用长短期记忆(LSTM)网络来预测走廊上的速度演化。M. Zhou等人(2017)提出了一种基于递归神经网络(RNN)的微观车辆跟随模型来预测未来的交通振荡。Ma等人(2017)将交通动态转换为热图图像，并使用深度卷积神经网络(CNN)进行速度预测。H. Y .等。提出了一种用于交通预测的时空递归卷积网络(2017)。S. Chen、Leng和Labi(2019)开发的混合CNN-LSTM算法考虑了人类先验知识和时间信息。M. Zhou, u yu, Qu(2020)将强化学习与汽车跟随模型相结合，改进了互联和自动驾驶汽车的驾驶策略。这些神经网络在特征提取和预测方面具有较高的准确性和鲁棒性。然而，这些方法的输入数据都局限于欧氏结构。全网交通数据是一种时空数据。时间维度自然是欧几里得结构，但空间维度不是。虽然交通数据自然地与图域联系在一起，但这些方法需要将图数据转换为类似网格的欧氏结构，在转换过程中会丢失大量的信息。例如，相同网格中的节点被认为是相同的，它们的信息将丢失。此外，粒度是这些“图到网格”转换方法的超参数，通常难以定义。

2.3 Graph-based deep learning

由于交通动态与路网自然地联系在一起，我们希望可以直接在图上分析问题。将卷积算子扩展到图卷积(Kipf和Welling, 2017)，称为图卷积网络(GCN)。GCN可以更好地提取全网空间特征，因为交通数据自然是用图形表示的。例如，Li等人(2018)提出了扩散卷积递归神经网络(DCRNN)，它结合了扩散卷积和门控递归单元(GRU)。Y u等人(2018)将空间图卷积和时间门控卷积结合到全网络流量预测中，即所谓的时空图卷积网络(STGCN)。Y u等人(2019)将U - Net和STGCN结合起来，提取了多层次的时空特征，即ST-UNet。这些模型有一个限制，这些模型的空间依赖性是预定义的，并在训练后保持固定。通常考虑距离和上下游关系，最后计算相邻矩阵并将其应用到模型中。针对上述局限性，提出了从数据中学习空间相关性的新模型。Zhang等人(2018)提出门控注意网络(GaAN)通过图注意(GA T)机制从数据中学习动态空间相关性(V eličković et al.， 2018)。Wu等人提出了Graph Wave Net (GWN)，并利用源向量和目标向量从数据中嵌入和学习相邻矩阵。这些“适应邻接矩阵”方法的成功表明，交通的空间依赖性不仅仅局限于道路网络，远距离空间依赖性存在，路口的节点可以看作是连接到整个网络的。然而，虽然这些方法中的邻域矩阵是可学习的，但训练后邻域矩阵仍然是固定的。

2.4 Sequence modeling in NLP

自然语言处理一直是人工智能领域中最受关注的领域之一。自然语言处理中大部分数据都是序列数据，序列建模是自然语言处理的基础。序列到序列(seq2seq)是 NLP 的基本任务之一，seq2seq2意味着模型的输入和输出都是序列，序列的长度是不确定的。例如，机器翻译的输入是长度不确定的句子，机器翻译的输出也是长度不确定的句子。类似的任务包括回答问题、生成文本等。Sutskever出版社。2014年提出了一种带有神经网络的seq2seq模型，将输入编码为向量，并将向量解码为输出。注意机制被提出并与seq2seq模型相结合，表现出了巨大的性能。注意机制可以将查询向量和一组键值对向量映射到输出。输出作为值的加权和计算，其中分配给每个值的权重是通过查询与相应键的兼容函数计算的。注意力机制允许模型返回到作品的输入序列，并在输出时找到重要的部分。注意力机制目前被广泛应用于包括交通预测在内的大多数深度学习任务中。例如，Q. Liu等人提出了一种基于注意卷积神经网络的短期交通速度预测方法。

长期以来，研究人员认为CNN或RNN是序列建模中不可缺少的一部分，可以处理序列数据中长度不确定的部分，但V aswani等人(2017)提出了Transformer，完全放弃了CNN和RNN。Transformer只使用注意机制和完全连接的前向神经网络对序列进行建模。Transformer及其变体实现了大多数最先进的性能。结果表明，Transformer具有强大的时序性和非局部建模能力，非常适合于交通网络空间特征的提取。最近，许多研究人员基于Transformer的想法提出了不同的模型，以适应其他领域的任务，包括Computer V版本(Dosovitskiy等人，2021年)和Point Could (M. Guo等人，2021年)，这些变体在他们的领域取得了最先进的性能。这意味着Transformer具有可转移性，可以广泛应用于交通运输中的交通预测等多个领域。然而，很少有交通预测模型考虑使用Transformer。

3 Methodology

本节介绍Traffic Transformer框架，它将Transformer应用于全网交通速度预测。该模型不仅具有良好的性能，而且对理解分层交通时空特征具有良好的可解释性。

3.1 Problem statement

全网流量动态可以很自然地写成一个时空图:

3.2 The Overall Architectures

如图2所示，流量转换器由两个主要部分组成。一种叫做全局编码器，另一种叫做全局局部解码器。多个全局编码器和全局局部解码器块堆叠在一起，形成分层特征的深度模型。Global Encoder和Global- local Decoder分别提取全局空间特征和局部空间特征。全局-局部解码器融合了全局编码器提取的全局空间特征和全局-局部解码器提取的局部空间特征。此外，时间嵌入块在模型开始时提取时间特征。然后，位置编码和嵌入块帮助模型理解节点的绝对位置和相对位置。最后，一个密集神经网络将学习到的特征聚合起来进行最终的预测。通常有两种不同的方法来训练模型。以往的交通预测模型通常认为交通预测是一个自回归问题，并逐步进行预测，这导致了误差累积问题。因此，我们的模型放弃了自回归方法，同时进行多步预测。这样既提高了长期预测的准确性，又缩短了推断时间。

3.3 Global Encoder

本小节集中讨论全局空间特征，即每个节点与所有其他节点之间的特征。每个Global Encoder块有两个部分。第一个是多头注意块，第二个是完全连接的前馈层。在每个子层周围加入残差连接，然后进行层归一化，以稳定梯度，有助于更好地训练模型。我们将通过下面的部分进一步阐述如何提取全球空间特征。

1) Multi-head attention

注意函数可以将query向量和一a set of key-value pairs vectors组键值对向量映射到输出。输出作为值的加权和计算，其中分配给每个值的权重是通过查询与相应键的兼容函数计算的。缩放点积注意(scaling Dot-Product Attention)是变压器中常用的方法，可以写成

In Global Encoder, 矩阵 $Q, K, V$ 都来自于相同的输入特征。利用不同的可学习前馈神经网络将输入特征投影到不同的潜在子空间。可以写成

Fig.3 注意权重矩阵来自每对节点。

如图3所示，注意权值矩阵可以表示每对节点之间的依赖关系。注意权值矩阵会根据输入数据动态变化。**多头注意**使用不同的学习前馈神经网络对Q、K、V进行h次线性投影。它允许模型在不同位置共同关注来自不同表示子空间的信息。它可以写成

2) Fully connected feed-forward layer

一个完全连接的前馈层可以在每个位置单独地、相同地进一步改进模型。层由两个线性投影组成，中间有ReLU激活，用作

总之，Global Encoder全局编码器中的多头注意将输入节点投影到三个不同的子空间中。通过缩放点积注意学习每对节点之间的关系。无论节点之间的距离是远还是近，它们都以相同的方式处理。因此，甚至可以提取两个遥远节点之间的隐藏空间特征。提取的空间特征是全局的，并且根据不同的输入动态变化。

3.4 Global-Local Decoder

本小节主要关注两件事。首先提取局部空间特征，然后将局部空间特征与全局特征进行融合。每个全局局部解码器都有一个掩码多头注意、一个多头注意和一个前馈神经网络。还将在每个子层周围添加剩余连接，然后进行层归一化，以稳定梯度并帮助更好地训练模型。

Mask Multi-head attention是多头注意的一种变体，它使用mask忽略非局部节点来提取局部空间特征。它使用K-hop邻接矩阵作为掩码来定义局部和非局部，它可以表示为

全局局部解码器中的多头注意与全局编码器中的多头注意相似，但全局编码器的输出用作键和值，即,

[论]Learning Dynamic and Hierarchical Traffic Spatiotemporal Features with Transformer相关推荐

时空特征--Learning Spatiotemporal Features with 3D Convolutional Networks
Learning Spatiotemporal Features with 3D Convolutional Networks ICCV 2015 http://vlg.cs.dartmouth.ed ...
【论文阅读】Learning Spatiotemporal Features with 3D Convolutional Networks
[论文阅读]Learning Spatiotemporal Features with 3D Convolutional Networks 这是一篇15年ICCV的论文,本篇论文提出的C3D卷积网络是 ...
Learning Spatiotemporal Features with 3D Convolutional Networks 读书笔记
最近读了Learning Spatiotemporal Features with 3D Convolutional Networks这篇文章,下面对文章内容进行简要概括. 摘要摘要主要介绍在大规模 ...
视频分类论文阅读笔记——Learning Spatiotemporal Features With 3D Convolutional Networks
论文:Learning Spatiotemporal Features With 3D Convolutional Networks 作者:FaceBook AI研究院来源:ICCV2015 代码: ...
动作识别经典C3D论文Learning Spatiotemporal Features with 3D Convolutional Networks的介绍
关于论文Learning Spatiotemporal Features with 3D Convolutional Networks的介绍这篇论文提出了一个比较高效的C3D网络来提取视频的空间时间 ...
Machine Learning for Encrypted Malware Traffic Classification
Machine Learning for Encrypted Malware Traffic Classification: Accounting for Noisy Labels and Non-S ...
【论文笔记 · RL】Learning Phase Competition for Traffic Signal Control
Learning Phase Competition for Traffic Signal Control 摘要 FRAP模型基于交通信号控制中相位竞争的思想:当两个交通信号出现竞争时,应该给交通流动 ...
Machine Learning for Encrypted Malware Traffic Classification Accounting for...阅读笔记
Machine Learning for Encrypted Malware Traffic Classification Accounting for Noisy Lables and Non-St ...
论文笔记：Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features
论文笔记:Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features(通过 ...
论文笔记之C3D（Learning Spatiotemporal Features with 3D Convolutional Networks）
通过构造了对称的3×3×3卷积核来利用3D卷积学习时空特征,计算效率高. 论文地址:http://vlg.cs.dartmouth.edu/c3d/c3d_video.pdf 1. 摘要本文提出了一 ...

[论]Learning Dynamic and Hierarchical Traffic Spatiotemporal Features with Transformer