Dynamic Spatiotemporal Graph Convolutional Neural Networks for Traffic Data Imputation with Complex Missing Patterns

期刊：
关键字：交通数据归因·时空相关性·缺失模式·图卷积神经网络·循环神经网络

提示：该文章是应对缺失数据的动态图神经网络，

摘要

数据缺失Missing data是智能交通系统中交通数据采集不可避免且普遍存在的问题。尽管对交通数据的归因进行了大量的研究，但仍存在两方面的不足:一是现有方法未能捕获交通数据中复杂的时空相关性，尤其是随时间变化的动态空间相关性;其次，以往的研究主要集中在随机缺失模式上，而其他更复杂的缺失场景较少被讨论。为了填补这些研究空白，我们提出了一种新的深度学习框架，称为动态时空图卷积神经网络Dynamic Spatiotemporal Graph Convolutional Neural Networks(DSTGCN)，以估算缺失的交通数据。该模型将循环架构与基于图的卷积相结合，对时空相关性进行建模。此外，我们引入了一种图结构估计技术来模拟实时交通信息和道路网络结构的动态空间依赖性。基于两个公共交通速度数据集进行了广泛的实验，以比较我们提出的模型与最先进的深度学习方法在四种类型的缺失模式。结果表明，我们提出的模型在各种缺失场景下的性能优于现有的深度学习模型，图结构估计技术有助于模型性能的提高。我们进一步将我们提出的模型与一个张量分解模型进行比较，发现不同的模型族在不同的训练方案和数据可用性下有不同的行为。

1 Introduction

来自真实交通系统的交通数据在交通研究和应用中起着至关重要的作用，如交通状况预测、驾驶路线规划、交通流优化等。交通数据主要通过两种传感器采集，一种是固定传感器(如环路探测器)，另一种是移动传感器(如GPS探头)。然而，无论是静止还是移动传感器，数据缺失 都是一个不可避免的问题。固定传感器容易出现探测器故障、通信故障、停电等设备问题，而移动传感器采集的数据通常稀疏，空间和时间分辨率[1]非常不稳定。数据缺失问题严重影响了交通状况的实时监控，并进一步限制了其他下游应用。因此，如何估计缺失数据，或交通数据插补，成为一个关键问题。

交通数据的插补问题 traffic data imputation problem越来越受到人们的关注。早期研究主要将各个位置的交通数据建模为时间序列，忽略了交通数据的空间信息[2,3]。最近的研究利用邻域传感器/位置提供的局部空间信息来提高 imputation 精度[4,5]。虽然这些研究显示了利用空间相关性的有效性，但未能充分利用全局时空信息。最近，矩阵(或张量)分解方法被引入到交通数据的 imputation 中，并被证明在检索不同维度的相关性方面是有效的[6,7]。然而，这些方法仅依赖于全局低秩结构global low-rank structure，通常不明确地建模潜在的局部一致性，如道路网络的空间约束和时间平滑性。因此，这些模型在充分捕捉交通数据中时空相关性的复杂性方面可能受到限制。随着深度学习模型在广泛任务中被证明的成功，基于神经网络的方法也被用于数据 imputation 问题，包括Autoencoders[8,9]，递归神经网络(RNNs)[10,11]和卷积神经网络(CNNs)[12,13]。最近的研究已经开始使用图神经网络(GNN)来重构交通数据[14,15]，并证明了GNN在网络层面捕获空间依赖关系的有效性。尽管有大量的研究来解决数据缺失问题，我们认为仍然存在两个重要的研究空白。

首先，现有的方法无法捕获交通数据中复杂的时空相关性。尽管GNN的研究结果很有前景，但现有的研究通常假设空间依赖性是由距离决定的，且严格地随时间变化。然而，以往的研究表明，空间依赖性不仅由距离决定，还由道路等级、人的流动性等其他因素决定。此外，交通网络的空间依赖性不是恒定的，可以随着时间的推移而变化。近年来，人们提出了一些基于gnn的新方法来对交通数据中的真实依赖关系和动态依赖关系进行建模，但这些方法都是针对具有完整数据的预测任务开发的[17,18]。如何从不完整的异构数据中揭示动态变化的时空模式，准确地重构交通信息仍然是一个具有挑战性的问题。

其次，大多数现有方法都是针对随机缺失场景开发的，可能无法在其他复杂缺失模式中提供健壮的结果。随机缺失场景是基于缺失数据点彼此完全独立的假设，但缺失值有可能是时间或空间相关的。在这种情况下，连续时间间隔或空间相邻位置的值缺失，由于缺失值没有空间或时间上的相邻信息，imputation 将更加困难。

为了解决上述问题，我们提出了一种新的深度学习体系结构，称为动态时空图卷积神经网络(DSTGCN)，为不同的缺失模式提供准确和稳健的 imputation 结果。它由多个时空块组成，每个块包括一个捕获时间相关性的双向递归层、一个建模动态空间相关性的图结构估计层和一个捕获空间相关性的图卷积层。为了验证我们模型的有效性，我们在两个公共数据集上进行了实验，一个来自加利福尼亚州洛杉矶的高速公路网络，另一个来自华盛顿州西雅图的城市道路网络。我们进行了大量的实验，以比较我们提出的模型与几种最先进的深度学习模型在四种具有广泛缺失比例的缺失模式类型上的差异。结果表明，在不同的数据缺失场景下，DSTGCN 具有较好的性能。为了分析不同模型族的适用性，我们进一步将我们的模型与具有代表性的张量分解模型 BGCP [7]在两个实验设置下进行比较，并根据是否有完整的训练数据。研究发现，当训练数据足够多时，深度学习模型显示出明显的优势，而当训练数据稀疏且缺失模式相关时，张量分解方法更适合。

该研究的主要贡献如下:
1)提出了一种新的深度学习框架，用于揭示交通网络中复杂的时空相关性，并准确、稳健地重构缺失的交通数据;
2)我们设计了一种基于实时交通信息的图结构估计技术来估计网络结构的动态空间依赖性;
3)基于两类真实交通数据进行了综合实验，结果表明，在不同的缺失场景下，我们的模型显著优于现有的深度学习方法;
4)对深度学习模型和张量分解模型在不同实验设置下进行了比较分析，并说明了不同模型族在不同情况下的适用性。

2 Literature Review

以往的研究针对不同类型的交通数据开发了基于不同缺失模式的多种归责方法。特定的缺失模式或数据类型会极大地影响方法的性能。因此，在本节中，我们首先回顾交通数据插补的方法，然后总结文献中使用的不同缺失模式和交通数据。此外，我们还回顾了各种流量应用中基于GCN的模型，以更好地定位我们的论文。

2.1 Traffic Data Imputation Methods

早期的交通数据估算模型主要依赖于时间模式，很少利用交通数据的空间结构。最简单的方法是Historical Average，它基于过去[2]中相同时间间隔的平均值来填充缺失的值。[19]使用贝叶斯网络从观测数据中学习概率分布，并使用最佳拟合来估算缺失数据。[20]引入了一种概率主成分分析(PPCA)技术，利用交通数据的日周期性和间隔变化。最近的研究将空间信息融入到缺失数据重建中。[21]将支持向量回归(SVR)与遗传算法相结合，捕捉交通网络中的空间和时间关系。基于[4]算法，提出了一种改进的基于路段几何形状的k-最近邻(KNN)算法。[5]引入了一种空间上下文感知模型，利用周围传感器信息重构交通数据。这些模型表明，空间信息有助于交通数据的估算。然而，它们主要集中在利用邻域位置的局部空间信息，而未能充分利用全局时空信息。

近年来，矩阵(或张量)分解方法被引入到交通数据的 imputation 中，它将交通数据构造为一个多维矩阵，并对不完全矩阵进行低秩逼近 low-rank approximation。[6]将交通数据形成4向张量a 4-way tensor，并采用张量分解HaLRTC算法来恢复丢失的数据。[7]将贝叶斯概率矩阵分解扩展到高阶张量，并将其应用于不完全交通数据的估算。[22]将低秩矩阵分解与向量自回归过程相结合，提出了一种时间分解框架。与以往的模型相比，张量因子分解 更擅长捕获多维结构依赖关系，从而在网络层面进行估算。但它只适用于低秩的统计数据，需要对每一批新的不完整数据[23]从头学习。此外，考虑到交通数据时空相关性的非线性和复杂性，张量分解模型可能难以完全检索交通特征，并提供具有不同缺失模式和缺失比例的鲁棒 imputation。

随着深度学习的最新进展，许多深度神经网络模型也被开发出来，以解决交通数据的 imputation 问题。与 张量分解方法相比，深度学习模型不需要对数据进行额外的假设，当提供足够的训练数据时，可以进行预训练，用于在线应用。[10]采用双向RNN作为生成模型来填补文本数据的缺失。[8]引入了一种名为去噪叠加自编码器的神经网络模型来解决数据缺失问题。虽然这些方法证明了深度学习在数据imputation领域的有效性，但它们很少考虑空间信息。为了利用空间相关性，[11]提出了一种多视角学习方法，采用LSTM获取时间相关性，SVR获取空间相关性。[12]提出了一种卷积递归自编码器，利用多量程CNN来建模空间相关性。虽然在网格结构数据(如图像)中，CNN可以很好地处理欧氏相关性，但在不规则道路网络中，却没有考虑到非欧氏关系。近年来，GNN在嵌入交通系统的图结构方面表现出了良好的效果。在此基础上，[14]开发了一种基于图卷积网络(GCN)的模型来恢复未观测到的传感器数据(即kriging)，并使用由距离预定义的固定加权邻接矩阵来表示空间依赖关系。[15]采用图注意网络(GATs)自适应学习相邻传感器之间的空间依赖关系。然而，它们预先假定空间依赖只存在于距离较近的传感器/位置之间，无法捕捉整个交通网络的真实和动态关系。

2.2 Missing Patterns and Traffic Data Types in Previous Studies

缺少模式和数据类型会严重影响方法的性能。以往的研究一般将缺失数据的模式分为三类:完全随机缺失(missing at Random)、随机缺失(missing at Random)和不随机缺失(Not missing at Random)[24]。在此基础上，[11]将智能交通系统中的缺失模式分为四类:
1)Random missing随机缺失 (RM)(图1a)，其中缺失值相互独立;
2)时间相关缺失Temporallycorrelated Missing(TCM)(图1b)，缺失值具有时间相关性;
3)空间相关缺失Spatially correlated Missing(SCM)(图1c)，缺失值与其空间相邻读数相关;
4)块缺失(Block Missing, BM)(图1d)，缺失值在时间和空间上都是相关的，形成块。
我们的研究也采用了这种分类。根据缺失比例，缺失模式还可以分为不完全缺失和完全缺失。这项研究集中在非完全缺失模式，其中至少有一个观测数据在空间和时间维度存在。完全缺失的模式包括完全的TCM[14]和完全的SCM[25]。在完全 TCM 中，有些传感器/位置是完全观察不到的，而在完全 SCM 中，有些时点是观察不到信息的。本文不考虑这些情况。还可以区分交通数据类型。由于数据采集方法和底层道路网络的不同，交通数据一般可分为高速公路数据freeway data(FD)和城市道路网络数据urban road network data(UD)。FD 通常在高速公路网上用固定传感器采集，而 UD 则在城市公路网上用移动传感器(如探测车辆)采集。通常，前者具有更高的时间粒度，而后者具有更高的空间覆盖率。

Fig.1 丢失数据的模式

表1总结了文献中的交通数据类型、缺失模式和缺失比例。我们可以发现，RM 是最常被研究的缺失模式，而其他具有时间或空间相关缺失值的缺失模式则较少被讨论。与 RM 相比，其他模式由于缺乏空间或时间上的相邻信息而更具挑战性。因此，为随机缺失值开发的方法可能不适用于其他缺失模式。此外，以往的研究通常是在高速公路网络或城市道路网络上进行的。但是，由于道路设计和功能的不同，这两类数据可能会表现出不同的交通特征。针对 FD 优化的方法不一定适用于 UD 。缺失比例也会影响模型的性能。以前的一些模型是针对低缺失率而开发的，当缺失率很高时可能无法显示稳定的性能。因此，需要一种通用的方法来为各种缺失比例下的不同缺失模式和数据类型提供准确和稳健的结果。

2.3 Graph Neural Networks in Traffic Research

GNN已成功应用于交通研究中的各种预测任务，包括交通速度预测[29]、网约车需求预测[30]、地铁客流预测[31]。为了联合提取隐藏在交通网络中的时空特征，研究人员通常使用GNN来捕获网络层面的空间关系，同时使用时间轴上的RNNs或CNNs来提取时间相关性。

通过将循环架构与扩散图卷积层相结合，[32]引入了一种用于交通预测的深度学习框架。

[29]提出了一种纯卷积架构，利用图卷积提取空间特征和门控cnn提取时间特征。

[30]将循环层与多图卷积网络结合起来，对区域之间的多层次空间相关性进行编码。

这些方法都是在固定和预先确定的图结构上提取空间特征。为了揭示隐藏在交通网络中的真实和动态依赖关系，

[17]开发了一个自适应邻接矩阵来表示隐藏的空间依赖关系，并通过节点嵌入学习矩阵。
[16]将张量分解合并到图卷积中来估计依赖矩阵的变化。

近年来，注意力机制被引入到随时间演变的时空依赖性模型中。

[18]应用转换注意机制从交通特征中自适应学习空间和时间依赖。

[33]通过引入前哨向量来控制不相关的特征，发展了一种新的空间注意机制。

然而，这些方法都是为预测任务而开发的，可能不适用于交通数据的估算问题。与预测任务相比，imputation问题由于观测数据有限和缺失模式的多样性而具有挑战性。一个稳健的技术来建模复杂的时空依赖从不完整和异构的交通数据仍然需要。

3 Methodology

在本节中，我们首先介绍我们的问题陈述，然后提出一个新的深度学习架构来重建缺失的交通数据。

3.1 Problem Statement

3.2 Network Architecture

在本节中，我们将详细介绍我们所提议的模型的体系结构。如图2所示，DSTGCN 由S个时空块(ST-blocks)和一个输出层组成。ST-blocks 用于从观测到的交通数据中检索时空模式。每个ST-block包含三个模块:捕获时间特征的双向循环层、建模动态空间相关性的图结构估计(GSE)层和捕获空间特征的图卷积层。输出层是一个前馈网络，它将ST-blocks 的输出表示映射到 imputation 结果。各模块的详细描述如下。

Fig.2 DSTGCN的框架

3.2.1 Bidirectional Recurrent Layer to Capture Temporal Features

我们利用RNN来捕获临时依赖项。具体来说，我们使用长短时记忆(LSTM)网络，这是rNN的一种有效变体，用于捕获序列数据中的长期和短期依赖关系。基本的LSTM网络是单向的，它只能利用缺失时间间隔之前的时间信息，不适合交通数据的归责问题。为了解决这个问题，我们将单向LSTM扩展为双向LSTM (BLSTM)，使用两个LSTM网络，一个在正向时间方向，另一个在反向时间方向。通过这种方式，该模型能够同时利用过去和未来[10]的信息。

3.2.2 Graph Convolution Layer to Capture Spatial Features

先前的研究表明，交通数据的空间相关性与交通网络上的方向相关[34]。为了捕捉不同方向上的随机空间相关性，我们采用了Difusion GraphConvolutional Network（DGCN）[32]，该网络将交通流建模为扩散过程。DGCN 的工作机制是：

DGCN层分别应用到每个时刻的数据，且参数共享。对每个时刻ttt来说，DGCN 层的输入是从BLSTM层学习来的节点的特征集合 Mt′={mt′1,mt′2,⋯,mt′N}M'_t=\{m'^1_t,m'^2_t,\cdots,m'^N_t\}Mt′={mt′1,mt′2,⋯,mt′N}.该层通过公式(5)会产生一个新的节点的特征集合Mt′′={mt′′1,mt′′2,⋯,mt′′N}M''_t=\{m''^1_t,m''^2_t,\cdots,m''^N_t\}Mt′′={mt′′1,mt′′2,⋯,mt′′N}。与原始DGCN在不同时间使用固定转移矩阵Af、AbA_f、A_bAf、Ab不同，我们为每个时隙生成不同的转移矩阵Af,t、Ab,tA_{f,t}、A_{b,t}Af,t、Ab,t。矩阵Af,t、Ab,tA_{f,t}、A_{b,t}Af,t、Ab,t从GSE层学习，将在下一节中介绍。

3.2.3 GSE Layer to Model Dynamic Spatial Dependencies

GSE层的目标是从网络GGG和实时交通信息中生成动态和有向的转移矩阵Af,t、Ab,tA_{f,t}、A_{b,t}Af,t、Ab,t。转移矩阵中的每个元素表示两个节点之间扩散的可能性。扩散可能性较高的两个节点可能具有更强的空间相关性。GSE层由三个步骤组成：

步骤1：从G的邻接矩阵A计算固定转移矩阵Af，AbA_f，A_bAf，Ab，使用：
步骤2：使用两个完全连接的前馈网络，一个用于正向，另一个用于反向，计算每个时隙的动态转移矩阵A~f,t，A~f,t\tilde{A}_{f,t}，\tilde{A}_{f,t}A~f,t，A~f,t。前馈网络的输入是从BLSTM层输出的一组节点特征Mt′M'_tMt′。每个前馈网络由两个线性变换组成，中间有一个ReLU激活。
步骤3：每个时隙有两种过渡矩阵，即来自GGG网络类型的Af、AbA_f、A_bAf、Ab和来自实时交通信息的A~f,t,A~b,t\tilde{A}_{f,t}, \tilde{A}_{b,t}A~f,t,A~b,t。采用门机制gated mechanism融合两类转移矩阵。以前进方向为例

DGCN 层使用Af,t、Ab,tA_{f,t}、A_{b,t}Af,t、Ab,t作为转换矩阵，从BLSTM层更新节点特征，如下所示：

3.2.4 Residual Connection

训练 BLSTM 和 DGCN 层的速度很慢。为了提高训练速度，我们在每个ST块的末尾使用剩余连接，然后进行层归一化以稳定模型参数[36]：

3.2.5 Output Layer

输出层 是一个完全连接的前馈网络，它将表示为MoutlastM_{out}^{last}Moutlast的最后一个ST-block的输出映射到插补结果X^\hat{X}X^。前馈网络由两个线性层和中间的ReLU激活组成。

3.3 Model Setup

3.3.1 Loss Function

为了使我们的训练模型更适用于交通网络中的所有节点，我们的损失函数定义为以下[14]中观测值和缺失值的重建误差：

3.3.2 Training Data Generation

为了使我们的模型对不同的缺失率更具鲁棒性，我们使用Alg.1根据训练数据生成随机训练样本。其关键思想是随机生成训练数据的子集XsampleX_{sample}Xsample和用于模型训练的二进制掩码矩阵EsampleE_{sample}Esample。Xtrain=Xsample⊙EsampleX_{train}=X_{sample} \odot E_{sample}Xtrain=Xsample⊙Esample 以便将缺少的值屏蔽为零。表示按元素的乘法运算。

4 Experiments

4.1 Data Description

在本研究中，我们在两个公共交通数据集 上进行了实验，一个收集在高速公路网络上，另一个收集在城市道路网络上。

INRIX-SEA【38】是一个交通速度数据集3，从多个数据源收集，包括西雅图市中心道路网络上的GPS探头、道路传感器和手机数据。数据范围为2012年1月1日至2012年12月31日，采样率为5分钟。在本研究中，我们选择了一个由223条连接的道路组成的道路网络样本进行实验。邻接矩阵AAA由[38]提供，是一个二进制矩阵，表示道路连接的连通性。如果链接iii和jjj已连接，则Aij=1A_{ij}=1Aij=1，否则为0。

4.2 Missing Pattern Generation

在[11]之后，我们定义了四种类型的缺失模式。A中描述了生成不同缺失模式的方法。
随机缺失(RM)(图1a):缺失值之间是完全独立的，并显示为每个传感器(或道路)随机分散的点。这可能是由于静止传感器的临时故障(例如，停电，通信错误)和移动传感器运动的不确定性。

时间相关缺失(TCM)(图1b):缺失值在时间维度上具有依赖性，对于每个传感器(或道路)以连续的时间间隔出现。对于固定式传感器，这可能是由长期的物理损坏和维护积压造成的。对于移动传感器来说，这可能发生在道路长时间没有GPS探头经过时。

空间相关缺失(SCM)(图1c):缺失值在空间维度上是依赖的，并且出现在每个时隙的相邻传感器或连接的道路连接处。对于固定的传感器，这可能是由于区域停电或通信问题。对于移动传感器来说，这种情况可能发生在交通流量较小的城市地区。

块缺失 (BM)(图1d):缺失值在空间和时间维度上都是相关的。在这个场景中，连续的时间间隔和空间邻近位置的值是缺失的。对于固定的传感器来说，这通常是由局部长期故障引起的。对于移动传感器来说，这种情况在午夜时分很常见，因为那时很少有GPS探头在道路网络上工作。

4.3 Baselines

在数值实验中，我们比较了DSTGCN和几种最先进的基于深度学习的方法。其中包括两组基线。第一组包含已有的归责方法:

去噪自编码器Denoising Autoencoder(DAE)[8]:一种深度学习策略，将每个传感器(或道路)的交通状态作为矢量，利用堆叠的DAE进行缺失值的估算。
双向LSTM (BiLSTM) 4[10]:一种循环架构，利用LSTM模型同时在正向和反向时间方向预测缺失值。
卷积双向LSTM (CNN-BiLSTM)[12]:一种卷积循环自编码器，使用多范围卷积学习空间信息，使用双向LSTM层学习时间信息。

第二组包含最先进的基于gcn的交通研究模型。请注意，这些模型是为预测任务而设计的，我们已经尽一切努力将这些基线模型用于估算问题

STGCN[29]:卷积框架，利用GCNs提取空间特征，门控cnn提取时间特征。在该模型中，邻接矩阵被认为是先验知识，在整个训练过程中都是固定的。
GWNET[17]:一个图神经网络，它捕获广义扩散图卷积层的空间依赖性和扩张卷积层的时间依赖性。通过节点嵌入学习自适应邻接矩阵来捕获交通数据中隐藏的空间相关性。
GMAN[18]:一个图多注意网络，它使用注意机制来捕捉空间和时间相关性。提出了一种基于实时交通信息和图结构的空间注意机制来建模节点之间的动态相关性。

4.4 Experiment Settings

所有实验都是在NVIDIA 1080 Ti GPU上进行的。我们使用前60%时间段的数据作为训练集，接下来的20%作为验证集，最后的20%作为测试集。我们选取T = 72个时间步长(即5min × 72 = 6小时)作为imputation窗口。在训练过程中，我们使用Alg. 1从训练集中随机生成训练样本;在验证和试验中，采用滑动窗口法对[t,t+t)、[t+t,t+2T)、[t+2T,t+3T)[t, t + t)、[t + t, t + 2T)、[t + 2T, t + 3T)[t,t+t)、[t+t,t+2T)、[t+2T,t+3T)等进行imputation。模型使用初始学习率为0.0001、批大小为4的Adam优化器进行训练。通过大量的实验，我们确定了我们所提出的模型的超参数为:ST-block 的S=2S = 2S=2, DGCN层的扩散步长K=2K = 2K=2, BLSTM层的隐藏状态维dh=128d_h = 128dh=128, LSTM和DGCN层的输出维do=64d_o = 64do=64。对于BiLSTM，我们在我们提出的模型中使用与BLSTM层相同的设置进行公平比较。对于基线中的其他深度学习模型，我们使用它们最初建议的默认设置。平均绝对误差（MAE）、均方根误差（RMSE）和平均绝对百分比误差（MAPE）用于评估模型性能：

4.5 Performance Analysis

在本节中，我们比较了DSTGCN与基线模型在不同的缺失模式和缺失比例(从20%到80%)下的性能。图3和图4 分别展示了不同模型对metro - la数据和INRIX-SEA数据的imputation性能。我们可以发现，在大多数缺失场景中，DSTGCN取得了明显优于基线模型的结果。对于metro - la数据，DSTGCN在所有缺失模式和缺失比例方面都比基线方法表现得更好。对于INRIX-SEA数据集，DSTGCN在缺失模式RM和TCM的归算性能方面取得了显著提高。对于SCM和BM, DSTGCN在缺失率为20% ~ 70%的情况下优于现有方法，当缺失率达到80%时，DSTGCN 与BiLSTM具有相似的竞争性能。这表明，对于不同的缺失模式和流量数据类型组合，DSTGCN 可以提供比现有方法更准确、更稳健的结果。这可能是因为与基线模型相比，我们的模型可以更好地捕捉隐藏在交通数据中的复杂时空相关性。在我们的模型中，非线性时间关系通过双向递归捕获，网络级空间相关性通过有向图卷积捕获。我们还利用了图结构估计层，它有效地模拟了随时间变化的动态空间依赖性。需要注意的是，对于INRIX-SEA数据的SCM和BM，随着缺失率的增加，DSTGCN 相对于基线模型(即BiLSTM)的优势逐渐减小。这可能是因为在城市道路网络中，交通信号的普及往往会对附近道路连接之间的空间相关性产生调节作用。与高速公路网络相比，GCNs在获取城市道路网络空间信息方面存在较大困难，特别是在缺乏大规模空间相邻信息的情况下。图5给出了缺失率为50%的DSTGCN在不同缺失场景下的归算结果示例。可以看出，DSTGCN 能够在各种缺失模式下重构缺失值。

fig3,fig4,fig5 见图片部分

除了我们提出的模型之外，我们还研究了基线模型在不同缺失模式下的性能，这在文献中还没有得到充分的讨论。
DAE :尽管DAE在RM中表现良好，但在其他缺失模式中，它的性能会随着缺失比例的增加而急剧下降。DAE在TCM场景中性能较差，可能是因为DAE将每个节点的数据作为一个向量，适合修复孤立的缺失数据点，但无法恢复连续的缺失间隔。此外，DAE几乎不利用空间信息，因此在SCE和BE场景中表现很差。

BiLSTM :虽然BiLSTM在INRIX-SEA数据上提供了具有竞争力的结果，但在METRLA数据上表现相对较差。这表明城市路网的交通状况表现出较强的时间相关性，而高速公路路网的交通状况在时间轴上的规律性较低。与其他方法相比，BiLSTM 方法在不同的缺失率下具有最稳定的性能，显示了双向递归网络对数据imputation的鲁棒性。

CNN-BiLSTM:与BiLSTM相似，CNN-BiLSTM 对于各种缺失模式表现出稳定的性能，且缺失率范围广泛。然而，CNN-BiLSTM的性能始终不如 BiLSTM。这表明CNNs不能有效地捕捉交通网络的空间依赖性，甚至会对模型性能产生负面影响。

STGCN: STGCN对 METR-LA 数据性能较好，但对 INRIX-SEA 数据效果不理想。这可以解释为，STGCN依赖于由道路连接预先确定的固定邻接矩阵来建模空间相关性，而无法捕捉城市道路网络中真正的空间依赖性。对于 METR-LA 数据，STGCN对于 TCM 和 BM 的表现相对较差，这说明当缺失数据存在时间相关性时，卷积层无法有效提取时间信息。

GWNET:对于 METR-LA 数据，GWNET 在 RM 和 TCM 场景下性能优于STGCN，但在 SCM 和 BM 场景下性能相对较差。这表明，通过节点嵌入学习到的邻接矩阵在空间相关场景中不能很好地工作。对于 INRIX-SEA 数据，在大多数情况下其性能不如STGCN，这说明自适应邻接矩阵并不适用于城市道路网络。

GMAN:虽然有报道称GMAN在流量预测任务上优于STGCN和 GWNET，但在两种数据集的各种缺失模式中，GMAN的表现都不如STGCN和 GWNET。这表明，尽管注意机制能够建模完整交通数据的时空依赖关系，但它无法为不完整和异构的交通数据提供可靠的结果。

总之，在高速公路和城市道路网络中，没有一个基线模型可以提供具有竞争力的不同缺失模式的结果。对于空间相关的缺失模式，DAE 处理效果不佳，而对于时间相关的缺失模式，STGCN处理效果不佳。对于不同的数据类型，BiLSTM 和 CNNBiLSTM 在高速公路网络中的表现较差，而现有的基于gcn的模型，包括STGCN、GWNET 和 GMAN，在城市道路网络中不能提供有竞争力的结果。这可以用城市路网的异质性来解释，由于交通灯的调控作用，连接的路段具有不同的交通特征。研究表明，现有的gnn通常具有强同质性，不能推广到异质网络[39]。与STGCN相比，GWNET 和 GMAN 不能在不同的缺失场景下提供一致的改进，这表明现有的图结构估计技术可能无法很好地解决数据不完整和异构的 imputation 问题。相对于基线，我们提出的模型在高速公路和城市道路网络的不同缺失场景中都获得了较高的精度。这验证了我们所提出的模型在用有限的观测数据捕捉复杂的时空依赖关系时的鲁棒性，包括同质网络和异质网络。

4.6 Ablation Analysis

本节的目的是进行广泛的烧蚀研究，以理清所提出模型中不同组分的贡献。由于RM是文献中最常研究的缺失类型，我们使用RM场景进行实验。我们建议的模型的不同组件被丢弃以构建变体，这些变体将被测试并与完整的模型进行比较。各组成部分如下:
BLSTM层:BLSTM层用于提取时间相关性。随着BLSTM层的烧蚀，它被替换为线性层。

GSE层 :GSE层用于对随时间变化的动态空间依赖性进行建模。随着GSE层的消融，我们使用固定的转移矩阵Af、Ab来表示不同时间的空间依赖性。

DGCN层 :DGCN层用于提取空间相关性。去除DGCN层后，将其替换为线性层。

烧蚀分析ablation analysis 结果如图6所示。BLSTM 层对这两个数据集都是至关重要的，提供了减少37.3%-38.0%的RMSE对于metra数据和减少29.2%- 41.1%的RMSE对于INRIX-SEA数据。这表明时间相关性在高速公路和城市道路网络的交通数据归算问题中都扮演着重要的角色。GCN层对这两个数据集也很有帮助。去除GCN层后，METR-LA 数据的 RMSE增加13.8% ~ 19.8%，INRIX-SEA 数据的RMSE增加4.0% ~ 6.2%。与BLSTM层相比，我们可以发现时间相关性在交通数据插补问题中的贡献大于空间相关性，尤其是对于城市道路网。此外，GCN层对METR-LA数据的贡献比INRIX-SEA数据更显著，这与我们的假设一致，即高速公路网络的空间相关性比城市道路网络更显著。我们提出的图结构估计层也提高了模型性能，对于metra数据，MAPE降低了4.8%-5.6%，对于INRIX-SEA数据，MAPE降低了4.0%-7.3%。这验证了GSE层在捕获交通网络上的动态空间依赖关系方面的有效性。
fig.6

4.7 Interpretation Analysis

本节旨在探讨DSTGCN如何捕捉时空相关性。为了实现这一点，我们将从GSE层学到的动态和定向转移权可视化。

图7显示了学习到的不同时间的METR-LA 数据中传感器A与其他传感器之间的转移权值。转移权使用Softmax函数进行规范化。每个彩色的点代表一个传感器，点的颜色越浅，A 与传感器之间的过渡权值越高。回想一下，转移权表示传感器之间的扩散可能性，更高的转移权表示更强的空间相关性。如图7所示，空间相关性并不严格由距离决定。例如，在正向18:00时，与A不相邻的传感器B与A表现出高度的依赖关系。对比不同时间的转移权值，我们可以发现传感器B与A在不同时间具有不同的相关性，说明空间依赖关系是随时间动态变化的。此外，即使在同一时间槽，传感器在向前和向后方向显示不同的空间依赖性。这证实了以定向方式捕获空间相关性的必要性。

4.8 Comparison with Tensor Factorization

近年来，张量因子分解已成为一种流行的交通数据归责方法。一般情况下，张量分解方法假设多变量和多维时间序列可以用一个共享潜在因子[22]的低秩结构来表征。由于其基本模型结构和假设与前面章节中讨论的深度学习模型明显不同，因此正式比较不同模型族的性能和行为是很有价值的。在这一节中，我们将基于是否有完整的训练数据，在两种不同的条件下，比较我们提出的深度学习模型与具有代表性的张量分解模型的性能。具体地，我们将 DSTGCN 和 BGCP [7]作为张量分解模型的一个例子进行比较。

在前面的部分中，我们使用完整的历史数据进行模型训练。预计，当提供足够完整的数据时，深度学习模型与其他方法相比具有明显的优势:首先，它们可以捕获隐藏在道路网络中的复杂时空依赖关系，其次，它们可以进行预训练，用于在线应用。请注意，交通数据的缺失比例经常会随着时间而变化。例如，当安装新的交通传感器时，数据接近完成，但它的缺失率可能会随着传感器的退化而增加。在这种情况下，我们可以在开始时利用(近)完整的数据来训练一个深度学习模型，以便稍后进行归责。然而，并不总是能够获得足够完整的数据来训练深度学习模型。如果交通传感器长时间(如几个月)被损坏，或者只有少数车辆安装了GPS设备，则只能获得不完整的交通数据。在这种情况下，张量分解模型可能会提供更稳健的结果，因为它们直接从不完整的数据中学习低秩结构，而不需要单独的模型训练。

由于要比较的两个模型的拟合方式非常不同，我们的实验设置设计如下。当有完整的训练数据时，我们使用4.4节描述的方法训练DSTGCN。BGCP使用整个数据集(连接训练集、验证集和测试集)作为输入，一次性生成恢复结果。当只提供不完整数据时，我们假设整个数据集有均匀的缺失分布。例如，在RM 60%的场景中，训练集和测试集都有60%的随机缺失值。对于DSTGCN的训练，将带掩码数据的训练集交给Alg. 1生成训练样本。需要注意的是，在整个训练过程中，被蒙住的数据被保留为“缺失”，因此DSTGCN只能使用观察到的信息进行模型训练。对于BGCP，使用具有相同缺失分布的整个数据集作为输入。通过大量实验，将BGCP模型的metric - la数据设为40,INRIX-SEA数据设为45。

图8显示了缺失比例为20% ~ 60%的DSTGCN和BGCP在使用完全或不完全训练数据时的imputation性能(RMSE)。可以发现，在提供完整的训练数据的情况下，DSTGCN在各种缺失模式和缺失比例上都明显优于BGCP，这说明在有足够训练数据的情况下，深度学习模型是有效的。在没有完整训练数据的情况下，DSTGCN在RM模式中对于所有缺失比率的表现仍然优于BGCP。在TCM和SCM中，DSTGCN在缺失率为20% ~ 40%时性能优于BGCP，而BGCP在缺失率为60%时性能优于BGCP。在BM中，当缺失率较低时，DSTGCN和BGCP的性能相近，而BGCP的性能优于DSTGCN，且随着缺失率的增大，两者之间的差距增大。该结果表明了张量分解方法在处理具有复杂缺失模式的不完全训练数据方面的优越性。这是合理的，因为深度学习模型更为数据驱动，而张量因子分解不需要大量高质量的训练数据。综上所述，深度学习模型和张量分解模型适用于不同的情况:深度学习模型在提供完整的训练数据或缺失模式相对简单的情况下表现更好，而张量分解方法在缺乏足够训练数据的复杂缺失场景下更受欢迎。
fig.8

5 Conclusion

交通数据缺失是智能交通系统不可避免的问题。尽管有许多研究在解决这一问题，但存在两个重要的局限性:第一，现有的方法不能捕捉交通网络中动态变化的空间和时间依赖性;其次，以往的研究大多基于随机缺失模式，而对其他复杂缺失模式的考虑较少。为了填补这些研究空白，本文引入了一种新的基于深度学习的框架DSTGCN来重建缺失的交通数据。该方法由多个时空块组成，实现时空信息的相干捕获。每个块包含捕获时间相关性的双向递归层和捕获空间相关性的扩散图卷积层。此外，我们还引入了一个图结构估计模块来模拟随时间变化的动态空间依赖性。我们进行了大量的实验，以比较我们提出的模型与几种最先进的深度学习模型在四种类型的缺失模式，使用两个公共交通速度数据集。结果表明，我们提出的模型在不同的缺失模式下取得了优于现有方法的性能，并提供了具有广泛缺失率范围的鲁棒结果。通过烧蚀分析验证了不同模型分量的贡献，并说明了模型结果的可解释性。此外，我们比较了提出的模型与张量分解方法在不同的训练数据可用性。研究发现，深度学习模型显著优于具有高质量训练数据的张量分解方法，而张量分解更适合处理具有复杂缺失模式的不完整数据。

今后的工作方向有几个。首先，DSTGCN模型可以适应其他时空问题，如交通预测、路线规划等。其次，对于缺乏足够训练数据的复杂缺失场景，深度学习模型无法很好地工作。将迁移学习技术应用于交通数据归算问题，使我们能够利用在数据丰富的环境中训练的模型来解决缺乏足够训练数据的场景。第三，现有的imputation研究通常基于环路传感器或GPS探头的交通数据。环路传感器提供的交通数据采样率高，但空间覆盖有限，而GPS探头覆盖的空间范围大，时间分辨率低。通过同时考虑来自GPS探头和环路传感器的交通数据，可以恢复高时空分辨率的交通数据。

A、 Methods for Missing Pattern Generation

假设缺失比为rrr, imputation时间窗为[1,T][1,T][1,T]，我们使用以下方法生成缺失模式:

B 、The imputation performance of DAE for SCM and BM with INRIX-SEA data

图9显示了 DAE 在 SCM 和 BM 模式中对 INRIX-SEA 数据的 imputation 性能。

参考文献

[17]Graph wavenet for deep spatial-temporal graph modeling,Graph WaveNet,《csdn博文》，《B站视频》
[18]⭐️GMAN: A graph multi-attention network for traffic prediction.《csdn博文》
[32]Diffusion convolutional recurrent neural network: Data-driven traffic forecasting,DGCN

图片

[论]【DSTGCN】Dynamic SpatiotemporalGraph Convolutional Neural Networks for Traffic Data Imputation相关推荐

#论文阅读CTG The Use of Convolutional Neural Networks in Biomedical Data Processing
DOI 10.1007/978-3-319-64265-9_9 所属期刊 ITBAM 2017 论文发表时间 2017年07月26日记录时间 2023年01月03日记录人 Troye Jcan T ...
基于CNN的动态手势识别：Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks
Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks论文解读 1. 概述 2. ...
Exploring the Regularity of Sparse Structure in Convolutional Neural Networks（在卷积神经网络中探索稀疏结构的规律性）
作者提出基于论文Learning both weights and connections for efficient neural network修剪的方法在保留精度以及实现更高的压缩率方面确实很 ...
【论文阅读笔记】Ristretto： Hardware-Oriented Approximation of Convolutional Neural Networks
概念 MAC:multiplication-accumulation operations 2. Convolutional Neural Networks 2.2.1 Normalization l ...
Ristretto Hardware-Oriented Approximation of Convolutional Neural Networks
Ristretto: Hardware-Oriented Approximation of Convolutional Neural Networks 文章目录 Ristretto: Hardware ...
keras构建卷积神经网络（CNN(Convolutional Neural Networks)）进行图像分类模型构建和学习
keras构建卷积神经网络(CNN(Convolutional Neural Networks))进行图像分类模型构建和学习全连接神经网络(Fully connected neural networ ...
Graph Convolutional Neural Networks for Predicting Drug-Target Interactions
1. 摘要 2. 数据集 DUDE数据集改进 DUDE-chemBl负样本数据集最大无偏数据集(MUV) 3. 图构建 pocket graph molecuar graph 4. 口袋pretra ...
【文本分类】Deep Pyramid Convolutional Neural Networks for Text Categorization
·阅读摘要: 本文提出了DPCNN(深度金字塔CNN)模型.在transformer.bert还没兴起的年代,模型越深效果越好,但是模型的复杂度会随着深度提升.粗略地说,DPCNN就是为了解决CN ...
【文本分类】Recurrent Convolutional Neural Networks for Text Classification
·摘要: 从模型的角度,本文作者将RNN(Bi-LSTM)和max_pooling结合使用,提出RCNN模型,应用到了NLP的文本分类任务中,提高了分类精度. ·参考文献: [1] Recur ...

[论]【DSTGCN】Dynamic SpatiotemporalGraph Convolutional Neural Networks for Traffic Data Imputation