Learning to Estimate the Travel Time（翻译）

滴滴在KDD2018，发表的一篇ETA文章，内容很不错，分享给大家：

摘要：

车辆行程时间估计或估计到达时间（ETA）是最重要的基于位置的服务（LBS）之一。它变得越来越重要，并已广泛用作导航系统和智能交通系统的基本服务。本文提出了一种基于浮动车数据预测车辆行驶时间的新型机器学习解决方案。首先，我们基于大量有效特征将ETA表示为纯粹的时空回归问题。其次，我们调整不同的现有机器学习模型来解决回归问题。此外，我们提出了一种宽 - 深度递归（WDR）学习模型，以准确预测在给定出发时间沿给定路线的旅行时间。然后，我们联合训练宽线性模型，深度神经网络和递归神经网络，以充分利用这三种模型的优势。我们使用数百万历史车辆旅行数据离线评估我们的解决方案我们还在Didi Chuxing的平台上部署了提议的解决方案，该平台为数十亿的ETA请求提供服务，每天为数百万客户提供服务。我们的广泛评估表明，我们提出的深度学习算法明显优于最先进的学习算法，以及领先的行业LBS提供商提供的解决方案。

关键词：基于位置的服务，预计到达时间，广泛深度复发学习

1引言

近年来，共享经济的繁荣正在各方面改变着我们的生活。一个代表是广泛使用的汽车共享和在线乘车移动应用程序，它重新定义了人们的移动方式。一些独角兽公司正在迅速发展，例如Uber，Lyft和Didi Chuxing，它们帮助人们有效地使用这些车辆并使每天有数百万人受益。该行业领域的快速扩张使得基于位置的服务（LBS）成为一个日益重要的问题，因为高效精确的LBS是乘车平台为顾客提供高质量的运输服务和愉快的旅行体验的基础之一。

在本文中，我们将估计到达时间（ETA）视为一对起点和目的地位置之间的旅行时间估计，如图1所示。它是一种重要的基于位置的数字地图和导航系统服务。 ETA在乘坐平台上找到了广泛的应用，因为旅行时间是驾驶员和乘客达成交易的关键问题之一。因此，必须准确估计旅行开始前的旅行时间。准确的ETA将提高运输系统的效率，降低用户的旅行成本，节省能源消耗并减少机动车污染。因此，ETA已成为影响在线乘车过程不同阶段决策的核心组成部分，包括路线选择，车辆调度，拼车等。

图1：估计到达时间（ETA）是指沿给定路线（绿线）的一对原点（绿色别针）和目的地（红色别针）之间的估计行程时间。它是数字地图和导航系统最重要的基于位置的服务之一。它也是骑车应用程序最重要的后端服务之一。

旅行时间估计已在地理信息系统（GIS）[1,2,6,8,13,15,19,20,22]中得到广泛研究。并且已在社区中建立标准解决方案。现有的解决方案可以分为两类。第一类是基于路线的解决方案，其使用直观的物理模型表示旅行时间：给定路线的总旅行时间被表示为通过每个路段1的旅行时间和每个交叉路口的延迟时间的总和。旅行时间估计y表示为

其中ti是为第i个路段估计的行程时间，cj是第j个交叉路口的延迟时间估计。该解决方案已在研究领域和工业应用中广泛采用。它将整个路线的行程时间估计划分为若干子问题，包括估计每个路段的行程时间和每个交叉路口的延迟时间。在文献中研究这些子问题已经引起了很多关注。引入了各种GIS相关数据来估计路段或路段的行程时间[11,15,18]。机器学习算法，例如回归和张量分解算法，也被用来预测道路网络上的旅行时间或交通速度[20]。其他探索的重点是使用更一般的子路径来近似给定路线的行程时间，这可能是给定路线的任意部分[15,21]。但是，问题仍然难以妥善解决。这种经典类型的解决方案具有若干固有缺点：1）尽管可用数据量和数据源的多样性显着增加，但可用数据的空间 - 时间覆盖仍然非常稀疏。监控整个道路网络的实时交通模式远远不够; 2）运输系统是一个动态系统。很难以明确的形式对未来的移动模式进行物理建模。例如，当车辆在未来时间到达时，很难预测特定路段中的交通状况是什么以及特定交叉路口处的交通灯是什么。因此，对于每个ti和cj，可能无法保证高估计精度; 3）（1）中的模型将整个旅行时间分为几个部分。这可能导致估计误差的累积，并且对整体估计精度有害; 4）个性化是ETA的一个非常重要的因素。对于不同的驾驶员和骑车者，特定旅行的旅行时间可能会有很大差异。但是，它在现有的作品中被忽略了。

第二类是数据驱动的解决方案。最近，数据仓库的扩展使机器学习成为处理预测问题的有力工具。除了在基于路线的解决方案中使用机器学习来预测每个路段的交通速度和行驶时间之外，还进行了多次探索以基于其历史旅行直接预测未来时间段的整个路线的行驶时间。有几种方法将给定路线在不同时间段的旅行时间建模为时间序列[6,22]。然后将ETA的问题表述为多变量时间序列预测问题。 [19]中的方法提出使用其相邻行程的加权平均来估计查询路线的行进时间，其指的是具有相似起点和目的地位置的行程。这种方法具有更好的可扩展性。然而，上述第二类解决方案具有以下缺点：1）仍然存在不充分的数据覆盖问题。在所查询的路线或甚至类似的路线的所有历史时间段都难以获得旅行时间。因此，这种方法主要是在高速路上进行调查，路段很少，交通状况更稳定，数据覆盖更好; 2）旅行时间预测限于几条固定路线。难以概括为未见的路径，这限制了问题的可扩展性; 3）在这些方法中忽略了许多关键信息，例如交通信息和个性化信息，这使得它们无法获得高预测精度。随着大规模历史数据和机器学习工具在旅行时间估计问题中的广泛使用，基于路径的方法和数据驱动方法的边界变得模糊。然而，数据覆盖不足，泛化能力弱和信息使用不足的根本缺点限制了现有方法的有效性。

在本文中，我们提出了一种系统的旅行时间估计机器学习解决方案，克服了现有方法的缺点。我们为基于位置的数据建立了丰富有效的特征系统，包括浮动车数据，道路网数据和用户行为信息。基于提取的特征，我们将ETA制定为回归问题。这个问题可以通过流行的机器学习方法来解决，例如梯度提升决策树（GBDT）[9]和分解机器（FM）[17]。此外，我们建立了一个新颖的深度学习模型来解决这个问题。在这个模型中，我们联合训练宽线性模型，深度神经网络和递归神经网络，以结合它们的好处。它平衡了一个模型中的记忆，泛化和表示能力，有效地缓解了现有方法的局限性。大规模旅行数据和实时在线系统的结果表明，所提出的解决方案优于最先进的旅行时间估计解决方案。建议的解决方案已部署在滴滴出行的平台上，每天为数十亿的ETA请求提供服务。

本文的主要贡献包括：

• 我们将ETA问题表述为纯回归问题。

• 我们提出了一种新颖的深度学习模型来解决ETA学习问题。所提出的方法优于现有方法。

• 我们为基于位置的数据构建了精心设计的功能系统。

• 我们使用Didi Chuxing的大规模历史数据和实时在线查询来评估我们的算法。所有结果表明，所提出的解决方案明显优于最先进的解决方案。

本文的其余部分如下：第2节将ETA问题重新表述为端到端的机器学习问题，并介绍了提出的解决方案，第3节介绍了相关的工作，第4节提供了大规模的离线实验和严谨的在线A / B测试验证了所提出的解决方案的优越性能，我们在第5节中总结了本文。

2方法

在本文中，我们将旅行时间估计问题定义如下：

定义2.1（ETA学习）。假设我们有一个旅程数据库，D = {pi，si，ei} N i = 1，其中pi是第i次旅行的轨迹路径，si是出发时间，ei是到达时间。实际的旅行时间是通过-si。给定查询q =（oq，dq，sq），我们的目标是估计具有给定原点oq，目的地dq和出发时间sq的旅行时间tq。

2.1特征提取

实时导航应用程序和在线驾驶应用程序的广泛使用每天产生大量的浮动车数据。如此大量的数据通过使用机器学习方法使得准确的旅行时间预测成为可能。然而，在传统的数据驱动方法中，实现良好性能的障碍之一是模型训练中使用的特征数量有限。为了确保机器学习算法的有效性，我们首先系统地为基于位置的数据构建丰富的特征，并为它们建立高维特征映射。我们将这些特征概括为几种类型：空间信息，时间信息，交通信息，个性化信息和增强信息。

空间信息：旅行时间与车辆行驶的路线和行程发生的地理区域高度相关。因此，我们根据地理空间信息提取特征集。我们首先将车辆轨迹映射到基础道路网络，并获得路段和交叉口的顺序。然后我们提取构成路线的所有构建块的特征，例如路段，交叉路口和交通灯信息。例如，我们将提取我们可以获得的所有路段特征，包括路段的长度，宽度和坡度，段中的车道数，道路网中段的索引号等。人。我们还在路线经过的区域内提取POI信息。

时间信息：时间信息是影响车辆行驶时间的另一个关键因素;例如，特定路线的行程时间通常在高峰时段比非高峰时段长得多。因此，我们用不同的特征来指示旅行的出发时间，包括一年，一个月和一天的时间段，假期指示器和高峰时间指示器等。

交通信息：交通网络中的交通状况对旅行时间有直接影响。我们建立了一个交通监控和预测系统，每两分钟为我们提供交通网络中每个路段的实时交通速度估算。然后我们在每个路段中使用几种类型的行驶速度，例如实时估计速度，平均速度和自由流速等。

个性化信息：旅行时间是特定于个人的，因为不同的人可能具有非常不同的驾驶偏好。因此，我们在功能中引入个性化信息，包括驾驶员档案，车手档案和车辆档案等。

增强信息：所有其他可用信息用作增强功能，包括天气信息和交通限制等。

提取的特征包括实数值，离散值和高维一热特征形式的连续和分类特征。经过复杂的特征工程，我们获得了数百个类别和数百万维度的一组特征。

2.2学会估计旅行时间

基于精心设计的功能，我们以标准机器学习形式重写ETA学习问题。让我们将y = [y1，y2···，yN]表示为每个样本的地面实况标签，其中，y = ei-si∈R+是已知的行程时间，其计算为到达时间ei和时间间隔之间的时间间隔。让我们用X = [x1，x2，...，xN]来表示样本，其中每个样本xi∈Rd将沿着道路网络中的路径pi的轨迹解码为广告尺寸向量。我们的目标是训练一个模型，该模型可以准确地预测未来看不见的数据xq X的旅行时间。

在旅行时间估计中，估计间隙的用户容差根据总旅行时间而变化。因此，对于我们这个问题，平均绝对百分比误差（MAPE）是一个更合理的指标。我们的目标是直接将MAPE最小化为

其中f（xi）是路径xi的ETA，函数f是回归模型。为了保证对看不见的数据的良好预测性能，我们需要通过引入额外的正则化术语来控制过度拟合来约束模型的复杂性。因此，ETA学习问题的一般优化目标变为：

其中Ω（f）是控制模型f复杂性的正则化项。可以通过使用适当的机器学习模型来学习。例如，我们可以使用梯度增强决策树（GBDT）[4]，这是现实世界中最常用的学习算法之一。另一种高效实用的模型是分解机（FM）[17]。

在GBDT中，预测模型可以表示为加性树模型

T是树的数量。 ft（x）= wtu（x）是基础树模型，其中wt是叶子上得分的向量，u是将每个数据点分配给相应叶子的函数。因此，给定输入样本x，树模型返回x所属的叶子的分数。 GBDT模型f的复杂性是由树的结构控制。树的复杂性定义为

其中γ是可调参数，L是叶数[4]。通过在目标中引入特定的GBDT模型和正则化项，优化问题变为：

这是一个凸优化问题。然而，目标是不平滑的，因为MAPE功能是不可微分的。我们可以使用Huber损失来近似MAPE函数或采用次梯度方法来解决优化问题（3）。

FM将分解模型的高预测精度与特征工程的灵活性相结合。它已被广泛应用于推荐系统和在线广告系统[5,17]，它们与我们的问题类似，因为这两个问题都旨在为未来预测找到最合适的用户偏好。 FM使用分解交互参数模拟所有嵌套交互，直到x中的d个输入变量之间的顺序k。阶数k = 2的模型定义为，

vj∈Rm是与m <d的相互作用的嵌入变换。通过替换预测函数和必要的模型复杂度控制项，优化目标变为：

问题通过梯度方法解决。我们遵循MF的在线优化算法之一，使用自适应次梯度法（AdaGrad）[7]更新V，并使用跟随正则化领导者（FTRL）更新w [16]。

2.3广泛深度复发学习

在实际应用中，我们发现GBDT和FM不是解决ETA学习问题的最佳选择。 GBDT很难适应大型功能集。并且FM的性能高度依赖于特征的表示，并且模型表示能力是有限的。另一方面，我们拥有大量具有复杂数据分布的历史数据。这使我们能够使用更复杂的模型来解决问题。因此，我们将深度学习技术应用于这个问题。

广泛和深度学习[5]被提出用于推荐系统，它联合训练宽线性模型和深度神经网络，以结合记忆和学习系统的泛化能力的好处。该模型具有双块结构，如图2所示。

图2：广泛和深度学习的模型结构：宽线性模型位于左侧，深层神经网络位于右侧。

宽模型首先将输入要素投影到高维特征空间中。这可以通过计算输入要素的交叉积来实现，这类似于FM中的特征交互。可以在叉积变换之后应用仿射变换y = w·x + b。宽模型可以解释为广义线性模型，类似于传统的推荐算法，如逻辑回归。与深模型相比，宽模型可以被认为是浅模型。

深度模型首先使用要素嵌入层将稀疏输入要素转换为密集要素。该嵌入是通过紧凑的特征向量（在out设置中大小= 20）来表示高维稀疏特征的每个类别。然后，密集输入特征与嵌入特征连接，并馈入前馈神经网络（FNN），也称为多层感知器（MLP）。顶层的回归量结合了宽模型和深模型的输出，以提供最终预测。通常，稀疏特征用于表示分类信息，密集特征用于表示数字信息。例如，driver-id是稀疏特征，而路由长度是密集特征。

所有上述模型都要求每个样品中的特征对齐。我们只能根据此要求提取行程的统计信息，因为不同行程中的路段数量通常不同。广泛和深入的模型能够捕获车辆行驶的路线和地理空间区域之间的全球统计信息。但是，他们不擅长捕捉每个路段的当地交通信息。因此，我们需要引入额外的网络结构来捕获路段的本地信息。在地图数据中，道路网络已被划分为不同的道路段，并且这些段可被视为路线的构建块。沿着每条路线的路段具有明确的顺序结构。这类似于自然语言处理的情况，其中单词是句子的构建块。这激励我们引入递归神经网络。

长短期记忆（LSTM）[10]是特定的递归神经网络（RNN）。它在顺序数据的几个学习任务中取得了巨大成功，例如神经机器翻译[3]。 LSTM可以捕获每个段的本地信息以及序列中的长期依赖性。因此，我们引入它来模拟我们问题中的路段序列。标准的LSTM结构如图4所示.LSTM通过使用附加存储单元为梯度通过提供高速公路，并使用多个门来进一步控制信息流，从而缓解RNN的梯度消失和爆炸问题。在LSTM的每个推理步骤中，输入门，遗忘门，输出门和调制输入更新为：

其中σ（·）是Sigmoidfunctionσ（u）= 1 /（1 + e-u）.Eachequation由仿射变换和非线性激活组成。

然后将存储器单元和隐藏状态更新为：

其中⊙表示元素乘法。

图3：建议的宽深度递归网络结构。

图4：长短期记忆的结构。

广泛深度循环学习：我们将广泛，深入和复发模型结合在一起，构建我们的深度学习模型，用于学习估计旅行时间。模型结构如图3所示。该模型继承了其祖先的优势，并有效利用了密集特征，高维稀疏特征和沿路段序列的局部特征。它能够正确使用ETA学习问题中的所有可用信息。

WDR模型有三个主要模块：1）宽模型类似于Wide＆Deep网络中的宽模型。我们使用二阶交叉积转换，然后进行仿射变换得到256维输出; 2）深度模型将稀疏特征嵌入到20维空间中，然后通过具有ReLU [14]激活的3隐藏层MLP处理级联特征以获得256维输出。 MLP中所有三个隐藏层的大小为256; 3）复发模型是标准RNN的变体。每个路段的特征首先通过完全连接的层投影到256维空间中，其中ReLU作为激活函数。然后将变换的特征馈送到具有单元大小256的标准LSTM .LSTM的最后隐藏状态hT被输入到顶部回归器，其中T是道路序列的长度。

WDR模型中的所有参数在MAPE损失下使用反向传播（BP）进行联合训练。由于三个模块的组合，很难找到合适的全球学习率。因此，我们选择Adam [12]，一种具有自适应步长和动量的随机梯度下降法，以优化模型。我们将Adam的学习率设置为0.001，并按照[12]中的指南初始化其他超参数。

2.4整体管道

我们总结了用于学习估计图5中的行程时间的解决方案管道。在数据聚合模块中，我们首先将GPS轨迹与道路网络匹配，以获得相应的路段序列。然后，特征提取器聚合道路网络信息，轨迹信息，订单上下文信息和增强信息，以产生用于训练模块的输入数据。在特征提取之后，我们基于大规模历史数据开始离线训练。然后，我们使用一组最新生成的数据进一步微调模型，以确保模型适应最新的数据分布。一旦完成微调，模型就会被推送到在线服务器。

图5：ETA服务管道概述。

3相关工作

在本文中，我们将旅行时间估计问题制定为时空回归问题，并提出WDR学习来解决它。人工神经网络，包括MLP和RNN，已被采用来解决文献中的旅行时间估计问题[6,22]。然而，这些传统方法应用标准深度学习模型来解决时间序列预测问题。在这些工作中，神经网络的主要输入特征是查询路线的历史行程时间。由于这么小的特征集，很难充分利用深度学习模型。此外，这些解决方案在多步预测情况下不能很好地工作，这是时间序列预测中的常见问题。据我们所知，拟议的WDR学习模型是第一个专门设计的深度学习模型，用于解决旅行时间估计问题。我们通过类比自然语言处理（NLP）来解决道路轨迹挖掘问题。每条路线都被视为一个句子，并且每个路段都以相应的交互作为一个词。 WDR网络通过宽和深模型捕获行程的整体统计特性，并通过循环模型捕获顺序路段的详细特征。精心设计的功能的丰富性和有效性保证了学习型深度学习模型的泛化能力，可以用来准确预测任何时间开始的道路网中任何看不见的旅行的旅行时间。

在本文中，我们还采用GBDT和FM来解决相关的时空回归问题。两者都表现出竞争力。我们试图通过简要地比较和分析我们在本文中使用的三种模型来解释这个结果：GBDT，FM和WDR网络。 GBDT基于决策树将非线性变换引入到模型表示中。它可以被视为一个简单的深层模型。当可用的训练数据和特征集都受到限制时，GBDT是一个合理的选择。 FM可以看作是两个部分的模型组合：一个是线性模型部分，它是一个宽线性模型;另一部分代表非线性特征交互，它相当于一个两层MLP，也可以看作是一个简单的深层模型。因此，FM是一种简化的宽和深模型。当训练数据和特征集大小时，可以使用它。在WDR学习中，深度和宽度模型部分具有比FM更高的复杂度，如果可以使用足够的训练数据训练模型，则具有更好的表示能力。循环模型部分引入了更多表示每个路段的详细信息的能力。通过利用更多信息，WDR学习获得了更好的预测性能。我们相信随着可用数据和功能的增加，所提出的解决方案更有希望。除了上述所有优点外，WDR模型还可应用于更一般的序列学习问题。

4实验

我们根据经验评估了大规模在线数据集的建议解决方案。我们还基于此解决方案构建实时ETA服务，并将其与主要ETA服务提供商进行比较。

4.1数据集

我们将于2017年1月1日至5月31日在DiDi平台上收集北京的浮动车数据。然后根据驾驶员的工作状态将数据分成两种不同的类型 - 拾取数据和行程数据。当驾驶员响应骑车者的请求直到他/她拿起骑车者时，收集取样样品。当骑车人在船上直到骑车者到达目的地时收集旅行样本。从现实世界场景收集的车辆轨迹可能非常复杂。例如，一条路线可能包含城市高速公路，当地街道和住宅社区的私人道路。图1展示了DiDi平台的典型示例，该平台从当地街道开始，经过几条高速公路，最后驶入机场的内部道路。准确预测这种路线的旅行时间是一个具有挑战性的问题。

表1：离线数据集的统计信息

在以非常短的行程时间（<60s）或极高的行驶速度（> 120km / h）移除异常情况后，我们在拾取数据集中获得了大约5700万个样本，在行程数据集中获得了6200万个样本。表1列出了这两个数据集的统计数据。请注意，轨迹分布在北京的整个道路网络中，它们在拾取和行程数据集中覆盖了50万个独特的路段。并且从每个数据集的40万个驱动程序中收集数据。

由于大多数ETA模型都存在数据稀疏性问题，因此我们分析了给定数据集上数据覆盖的统计数据。我们绘制了图6中一整天的平均链路覆盖范围。结果表明，一般情况下，行程轨迹的覆盖范围比拾取轨迹更好。旅行数据的统计数据显示，DiDi驾驶员的轨迹在白天覆盖了大约45％的道路连接。覆盖率在黎明前降至最低。

4.2竞争方法

在离线数据集上，我们将我们的解决方案与几个竞争对手进行比较，包括代表性的基于路线的解决方案路线-ETA和文献中的两种最先进的方法 - TEMP rel [19]和PTTE [20]。我们还使用不同的模型评估我们的ETA机器学习解决方案，例如GBDT，FM以及WD网络与MLP的组合。在线评估期间，我们通过严格的A / B测试将基于WDR模型的实时服务与三家领先的行业LBS提供商进行比较。

Route-ETA是实时地图服务和导航系统中广泛使用的解决方案。在该解决方案中，给定路线的ETA是每个路段中的行驶时间与每次交互时的延迟时间的加权和。 Route-ETA通过将其长度除以该段上的实时交通速度来估算每个路段的行程时间。每个路段的交通速度和每个交叉口的延迟时间由实时交通监控服务提供。

TEMPrel [19]是一种无路线方法，可根据相邻行程估算查询行程的行程时间。如果两个行程的起点之间的距离小于某个阈值，则认为它们是邻居。查询旅行的ETA是通过平均其邻居的旅行时间获得的。 TEMPrel的结果仅限于测试数据的子集，因为TEMPrel要求测试样本在训练集中至少有一个邻居。子集包含用于拾取数据集的大约68％的样本和用于行程数据集2的61％的样本。

PTTE [20]将ETA构建块建模为3D张量中的元素，这是每个驾驶员在每个时段中每个路段的行驶时间。它通过使用低秩张量完成算法来估计该张量中的缺失元素。然后使用动态编程来查找作为ETA结果的两个给定位置之间的最小行程时间。

为了验证路段之间顺序依赖在估计行程时间中的重要性，我们比较了我们框架下的不同机器学习模型，包括GBDT，FM和名为WD-MLP的WDR网络变体。在WD-MLP中，MLP用于替换循环模块。 MLP应用于每个链路，然后输出向量通过路径上的所有链路进行平均。我们对此MLP使用相同的输出模块输出大小。

图6：道路覆盖的可视化。与每条曲线相关联的数字表示DiDi驾驶员重复穿过每条道路的时间。

4.3评估指标

我们在实验中使用多个评估指标。对于离线实验，我们采用三个经典度量，包括平均绝对百分比误差（MAPE），平均平均误差（MAE）和均方误差（MSE）来评估竞争方法。对于在线比较，我们使用四个评估指标，

包括MAPE，APE20，不良案例率和低估率。最后三个指标在工业中广泛用于评估实时ETA服务的性能。它们的详细定义如下：

• APE20：绝对百分比误差（APE）小于20％的预测百分比（越高越好）。

• Badcaserate：预测值的百分比超过50％或绝对误差（AE）大于180秒，测量极端不良情况的百分比（越低越好）。

• 低估率：低估预测的百分比（越低越好）。

表2：拾取数据集的结果。标记为*的结果是在TEMPrel要求的子集上获得的。

表3：旅行数据集的结果。 by *是在TEMPrel要求的子集上获得的。

4.4离线结果

我们使用TensorFlow工具箱在Python中实现WDR模型，并将4个NVIDIA Tesla P100 GPU卡上的培训并行化。典型的培训过程在拾取数据集上需要10个小时，在行程数据集上需要45个小时。表2和表3总结了竞争结果，表明我们的WDR学习解决方案在拾取和旅行数据集方面优于所有竞争对手。

我们观察到我们框架下的纯机器学习方法（WDR，GBDT，FM和WD-MLP）优于基于路由的方法（route-ETA）。这证实了我们可以通过使用基于大规模历史数据的机器学习模型来准确预测旅行时间。作为无路径方法，TEMPrel不会充分利用历史数据中的可用信息。因此它的表现并不令人满意。结果还表明WDR优于PTTE。这可能是由于数据稀疏性，因为张量完成的性能受数据稀疏性的严重影响。在PTTE [20]的原始工作中，他们收集了北京出租车的数据，这些数据在历史张量中具有0.4％的非零值。但是，使用我们的浮动车数据构造张量时，我们只有0.012％的非零值。

我们通过比较WDR和WD-MLP模型来评估沿路段建模顺序信息的影响。这两个模型共享相同的功能集和相同的WD网络结构。唯一的区别是WDR使用共享的RNN结构对路段序列进行建模，但WD-MLP使用MLP结构分别对每个段进行建模。 WDR模型在拾取数据集上的MAPE间隙为0.75％，在行程数据集上的差距为1.77％时优于WD-MLP模型，这证实了引入递归神经网络结构的好处。该证据还表明，旅行数据集的好处大于拾取数据集。主要原因是行程路线通常比拾取路线长，并且当路线中有更多段时，顺序相关性信息有助于更多。我们还发现，我们模型的微调在MAPE方面引入了0.5％的增益。

图7：一天中MAPE随时间推移的趋势（拾取）。蓝色基线分别代表工作日和周末的MAPE为20.80％和20.89％。

图8：一天（旅行）中MAPE随时间的变化趋势。蓝色基线分别代表工作日和周末的MAPE分别为11.38％和11.91％。

图9：MAPE相对于段号的趋势。 MAPE随着段数的增加而减少。

在图7和图8中，我们绘制了一天中不同出发时间段的MAPE曲线。不同时段的MAPE模式为我们提供了更详细的模型性能演示。这些数据表明，与高峰时段相比，我们的模型在非高峰时段具有更好的性能，这与高峰时段的交通状况无法预测的常识一致。通常在周末或假期没有早上高峰时段。然而，在我们的实验中，在周末的旅行数据中观察到早晨的MAPE峰值。这是由于数据收集期间劳动节假期早上交通量的不规则增加造成的，这恰好发生在今年的一个周末。图7中的结果表明拾取数据的性能模式更加规则。

除了时间模式，我们进一步分析轨迹长度的影响。图9显示了MAPE相对于路径中段号的曲线。在大多数情况下，包含更多路段的路线更长。对于我们的WDR模型，MAPE随着段数的增加而减少。

路线偏差：众所周知，如果驾驶员为同一起点和目的地对选择不同的路线，实际行驶时间可能会有所不同。但是，在实际应用中，我们无法知道行程开始前的确切路线。虽然这超出了本文的范围，但我们通过考虑路线规划的影响来调整我们的解决方案以提高ETA预测的准确性。我们不是沿着历史GPS轨迹提取特征，而是沿着伪路线提取特征，该伪路线由路线规划器为每个起始和目的地对提供。我们将在历史GPS轨迹上训练的模型表示为WDR-GPS，并且将在伪路线上训练的模型表示为WDR-RP。在测试数据集上获得结果，其中沿着路线规划器给出的伪路线提取特征。表4中的比较结果表明，WDR-RP比WDR-GPS获得了更好的结果。

表4：WDR-GPS与WDR-RP的比较结果。

4.5在线结果

除了离线实验，我们还根据DiDi平台上提出的WDR解决方案评估我们构建的实时服务的性能。我们在测试平台上将我们的解决方案与三家领先的行业LBS供应商进我们使用com1，com2和com3的名称作为三个竞争对手。在实验中，我们随机抽样实时订单请求并从竞争服务中查询ETA。然后通过与所有订单完成后记录的地面实际旅行时间进行比较来获得预测准确度。

我们在图10中的7天内绘制了所有竞争服务的MAPE，APE20，不良案例率和低估率的价值。结果表明我们的解决方案提供了显着更低的MAPE和更高的APE20。在现实世界的场景中，极端情况会严重损害用户体验。因此，我们比较了不良案例率。结果表明，我们的系统在该指标中获得了最先进的性能。我们系统中的不良案例主要是由非常短的路线引起的，图9中的MAPE通常较高。竞争结果也表明我们的系统获得低水平的低估率，与其中一个竞争者共享领先地位。

图10：在线竞争结果，包括MAPE，APE20，不良案例率和低估率。

5结论

在本文中，我们提出了一种用于旅行时间估计的系统机器学习解决方案。为了克服现有方法的缺点，我们为基于位置的数据建立了丰富有效的特征系统，并将每条路线表示为高维特征向量。基于这个精心设计的特征表示，我们将ETA表示为纯回归问题。我们首先采用几种现有的回归算法来解决问题，然后我们构建了一种新的深度学习模型来解决这个问题。该模型包括宽，深和重复的组件，旨在处理高维稀疏特征，真正的价值特征和路段特征。我们使用大型车辆行驶数据离线评估我们的解决方案。我们还通过在DiDi平台上构建实时服务系统来评估建议的解决方案。两个结果都表明，在解决ETA学习问题时，所提出的模型比现有的深度学习模型更强大。我们相信，通过丰富特征系统和引入更强大的学习模型，可以进一步提高ETA学习的准确性。虽然提出了新的深度学习模型用于ETA学习，但该模型可以应用于一般回归问题。我们计划采用这种模式来解决未来其他重要的基于位置的问题。

REFERENCES

[1] Pouria Amirian, Anahid Basiri, and Jeremy Morley. 2016. Predictive analytics for enhancing travel time estimation in navigation apps of Apple, Google, and Microsoft. In Proceedings of the 9th ACM SIGSPATIAL International Workshop on Computational Transportation Science.

[2] MohammadAsghari,TobiasEmrich,UgurDemiryurek,andCyrusShahabi.2015. Probabilistic Estimation of Link Travel Times in Dynamic Road Networks. In Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geo- graphic Information Systems.

[3] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural machine translation by jointly learning to align and translate. In International Conference on Learning Representation (ICLR ’15).

[4] Tianqi Chen and Carlos Guestrin. 2016. XGBoost: A Scalable Tree Boosting System. In Proceedings of the 22Nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’16).

[5] Heng-Tze Cheng, Levent Koc, et al. 2016. Wide & Deep Learning for Recom- mender Systems. In Proceedings of the 1st Workshop on Deep Learning for Recom- mender Systems (DLRS ’16).

[6] Yanjie Duan, Yisheng Lv, and Fei-Yue Wang. 2016. Travel time prediction with LSTM neural network. In IEEE 19th International Conference on Intelligent Trans- portation Systems (ITSC ’16).

[7] John Duchi, Elad Hazan, and Yoram Singer. 2011. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. Journal of Machine Learning Research 12 (jul 2011), 2121–2159.

[8] C.deFabritiis,R.Ragona,andG.Valenti.2008.TrafficEstimationAndPrediction Based On Real Time Floating Car Data. In 2008 11th International IEEE Conference on Intelligent Transportation Systems.

[9] Jerome H Friedman. 2001. Greedy function approximation: a gradient boosting machine. Annals of statistics (2001), 1189–1232.

[10] SeppHochreiterandJürgenSchmidhuber.1997.Longshort-termmemory.Neural computation 9, 8 (1997), 1735–1780.

[11] Erik Jenelius and Haris N Koutsopoulos. 2013. Travel time estimation for urban road networks using low frequency probe vehicle data. Transportation Research Part B: Methodological 53 (2013), 64–81.

[12] Diederik Kingma and Jimmy Ba. 2015. Adam: A Method for Stochastic Optimiza- tion. In International Conference on Learning Representations (ICLR ’15).

[13] M. Kormáksson, L. Barbosa, M. R. Vieira, and B. Zadrozny. 2014. Bus Travel Time Predictions Using Additive Models. In IEEE International Conference on Data Mining (ICDM ’14).

[14] AlexKrizhevsky,IlyaSutskever,andGeoffreyEHinton.2012.Imagenetclassifica- tion with deep convolutional neural networks. In Advances in Neural Information Processing Systems (NIPS ’12).

[15] Wang-Chien Lee, Weiping Si, Ling-Jyh Chen, and Meng Chang Chen. 2012. HTTP: A New Framework for Bus Travel Time Prediction Based on Historical Trajectories. In Proceedings of the 20th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems.

[16] H. B. Mcmahan. 2016. Follow-the-Regularized-Leader and Mirror Descent: Equiv- alence Theorems and L1 Regularization. In Proceedings of the Fourteenth Interna- tional Conference on Artificial Intelligence and Statistics (AISTATS ’11).

[17] SteffenRendle.2010.Factorizationmachines.InIEEE10thInternationalConference on Data Mining (ICDM ’10). IEEE, 995–1000.

[18] Raffi Sevlian and Ram Rajagopal. 2010. Travel Time Estimation Using Floating Car Data. arXiv preprint arXiv:1012.4249 (2010).

[19] Hongjian Wang, Yu-Hsuan Kuo, Daniel Kifer, and Zhenhui Li. 2016. A simple baseline for travel time estimation using large-scale trip data. In Proceedings of the 24th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems.

[20] Yilun Wang, Yu Zheng, and Yexiang Xue. 2014. Travel Time Estimation of a Path Using Sparse Trajectories. In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’14).

[21]JianchengWeng,ChangWang,HainanHuang,YueyueWang,andLedianZhang. 2016. Real-time bus travel speed estimation model based on bus GPS data. Advances in Mechanical Engineering 8, 11 (2016), 1687814016678162.

[22] Chun-Hsin Wu, Jan-Ming Ho, and D. T. Lee. 2004. Travel-time prediction with support vector regression. IEEE Transactions on Intelligent Transportation Systems 5, 4 (Dec 2004), 276–281.

Learning to Estimate the Travel Time（翻译）相关推荐

联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记
联邦学习笔记-<Federated Machine Learning: Concept and Applications>论文翻译个人笔记摘要今天的人工智能仍然面临着两大挑战.一是在大 ...
Paper：可解释性之VI/PFI《All Models are Wrong, but Many are Useful: Learning a Variable’s Importance》翻译与解读
Paper:可解释性之VI/PFI<All Models are Wrong, but Many are Useful: Learning a Variable's Importance by ...
Deep Learning（深度学习）中文翻译
https://github.com/exacity/deeplearningbook-chinese 在众多网友的帮助和校对下,草稿慢慢变成了初稿.尽管还有很多问题,但至少90%的内容是可读的,并且 ...
《A Survey on Transfer Learning》迁移学习研究综述翻译
迁移学习研究综述 Sinno Jialin Pan and Qiang Yang,Fellow, IEEE 摘要: 在许多机器学习和数据挖掘算法中,一个重要的假设就是目前的训练数据和将来的训练数据 ...
SCAN Learning to Classify Images without Labels(翻译)
SCAN Learning to Classify Images without Labels 概览 Approach: A two-step approach where feature learn ...
《Gradient-based learning applied to document recognition》翻译
1 引言 2 用于孤立字符识别的卷积神经网络 3 结果与其他方法的比较 4 多模块系统和图变换网络 5 多目标识别: HOS 6 图变换网络的全局训练 7 多对象识别:空间位移神经网络(SDNN) 8 ...
Joint Discriminative and Generative Learning for Person Re-identiﬁcation 论文翻译
Joint Discriminative and Generative Learning for Person Re-identiﬁcation 概要介绍相关工作方法生成模块自我身份生成(s ...
SySeVR: A Framework for Using Deep Learning to Detect Software Vulnerabilities（翻译）
深度学习框架检测软件漏洞--翻译记录深度学习不需要人类专家定义特征本文首先提出框架SySeVR--基于语法Syntax-based.基于语义Semantics-based和向量表示Vector R ...
DeepSpectra: An end-to-end deep learning approach for quantitative spectral analysis翻译
深度光谱:一种用于定量光谱分析的端到端深度学习方法 Highlights 带有初始空间模块的深度光谱被开发用于定量光谱分析. 深度光谱在原始光谱分析上优于其他CNN方法. 预处理策略对深度光谱模型性能 ...

Learning to Estimate the Travel Time（翻译）

Learning to Estimate the Travel Time（翻译）相关推荐

最新文章

热门文章