摘要

在自动驾驶中,基于目标的多轨迹预测方法最近被证明是有效的,它们首先为候选目标打分,然后选择最终的一组目标,最后根据选定的目标完成轨迹。 然而,这些方法通常涉及基于稀疏预定义锚点的目标预测。 在这项工作中,我们提出了一种名为 DenseTNT 的无锚模型,它为轨迹预测执行密集目标概率估计。 我们的模型实现了最先进的性能,并在 Waymo 开放数据集运动预测挑战赛中排名第一。 项目页面位于 https://github.com/Tsinghua-MARS-Lab/DenseTNT。

引言

由于人类行为固有的随机性和多模态,轨迹预测是自动驾驶中一项极具挑战性的任务。 为了对这种高度的不确定性进行建模,一些方法通过从潜在变量表示的分布中采样来预测多个未来轨迹,例如 VAE [7] 和 GAN [6]。
其他方法生成固定数量的轨迹,但仅在训练期间对最近的轨迹进行回归 [6, 8, 2],即使用多样性损失。 Multipath [1] 和 CoverNet [9] 通过对模板轨迹进行分类,将问题视为分类问题。
最近,基于目标的方法 [14, 10, 11, 13] 越来越受欢迎并取得了最先进的性能。 他们的关键观察是端点携带了轨迹的大部分不确定性,因此他们首先预测了代理的目标,然后进一步为每个目标完成了相应的完整轨迹。 他们通过对预定义的稀疏锚点进行分类和回归来获得最终目标位置,如图 1 左下部分所示。例如,TNT [14] 将锚点定义为在车道中心线上采样的点; 其他一些 [13] 将车道段作为锚点并预测每个车道段的目标。
这些基于目标的方法的预测性能很大程度上取决于目标锚的质量。 由于一个anchor只能生成一个目标,模型不可能围绕一个anchor进行多条轨迹预测。 此外,同一车道段上的不同位置具有不同的局部信息,例如与最近车道边界的相对距离。 基于稀疏锚的方法不能利用这种细粒度的信息。
在这项工作中,我们提出了 DenseTNT,一种无锚点的基于目标的轨迹预测方法。 它在不依赖启发式预定义目标锚的质量的情况下,在很大程度上提高了目标估计的性能。 我们首先提取稀疏场景上下文特征,然后采用密集概率估计来生成目标候选者的概率分布。 最后,轨迹完成模块根据一组选定的目标输出轨迹。

方法

2.1场景上下文编码
场景上下文建模是行为预测的第一步。 它提取车道和代理的特征并捕获它们之间的交互。 稀疏编码最近提出了一些方法 [5, 8](也称为矢量化方法)。 与将车道和代理光栅化为图像并使用 CNN 提取特征的密集编码方法相比,稀疏编码方法将所有地理实体(例如车道、交通灯)和车辆抽象为折线,更好地捕捉高 定义图。
2.2密集目标概率估计
在场景上下文编码之后,我们对地图上的目标进行概率估计。 TNT [14] 定义了道路上的离散稀疏锚点,然后为其分配概率值。 我们的关键观察是稀疏锚不是道路上真实概率分布的完美近似,因为(1)一个锚只能产生一个目标,我们不能围绕一个锚进行多轨迹预测; (2) 道路上有很多普通点(远离车道中心或边界的那些)没有很好地建模:同一条道路上的不同普通点具有不同的局部信息,即到最近车道边界的相对距离。
因此,我们改为在地图上执行密集目标概率估计。 具体来说,就是使用一个密集的目标编码模块,在一定的采样率下提取道路上所有位置的特征。 然后,预测密集目标的概率分布。
密集目标编码模块使用注意力机制来提取目标和车道之间的局部信息。 我们将第 i 个目标的特征表示为 Fi ,它是通过 2 层 MLP 获得的,MLP 的输入为第 i 个目标的二维坐标。 目标和车道之间的局部信息可以通过注意力机制获得:
公式(1)(2)

公式(3)
其中可训练函数 g(·) 也是用 2 层 MLP 实现的。 用于训练场景上下文编码和密集概率估计的损失项是预测目标分数和真实目标分数之间的二元交叉熵:
公式(4)
其中 ψi 是第 i 个目标的真实得分。 离最终位置最近的球门的真实得分为1,其他为0。
2.3. 目标选择
在密集概率估计之后,我们使用非极大值抑制(NMS)算法来选择目标。
NMS 迭代地选择概率最高的目标,并移除接近所选目标的目标。
前 K 个选定目标是预测目标。
2.4. 轨迹补全
与 TNT 类似,最后一步是完成以选定目标为条件的每个轨迹。 我们只有一个真实的轨迹,因此我们通过在训练期间提供真实的目标来应用教师强制技术 [12]。
损失项是预测轨迹 sˆ 与真实轨迹之间的偏移
公式(5)
2.5. 长期预测
前面的步骤已经可以在短期(例如 3s)运动预测任务中取得良好的性能。 然而,长期预测仍然具有挑战性,因为概率分布可能会在很长一段时间内发散。 受自然语言处理中句子生成的启发,我们以自回归的方式生成目标的概率分布,分别在 3s、5s 和 8s。
由于我们的目标是分 3 个步骤推出密集概率估计,因此我们在模型架构中开发了三个分支。
这三个分支在场景上下文编码中为子图模块共享相同的权重,并且对其他部分具有独立的权重,例如 场景上下文编码和密集概率估计中的全局图模块。
通过在 3 秒、5 秒和 8 秒自回归的 N 个目标选择,我们获得 N3 个目标集。 我们根据它们的概率分数对前 K 个目标集进行排序,然后完成它们以获得 K 个轨迹。
更具体地说,对于每个目标集,我们使用上面的密集目标编码模块来获取 3 个目标的特征。 然后将特征传递给轨迹完成模块,该模块是一个 2 层 MLP。 输出是一个完整的轨迹[s1,s2…st]
实验

实验

3.1实施细节
代理和地图编码 为了对地图进行归一化,我们以目标车辆的最后位置为原点,以目标车辆的方向为 y 轴。 由于每个场景的地图都比较大,我们只编码了一个中心为(0, 30m),半径为80m的子地图
遵循 VectorNet [5],代理被转换为向量序列。 每个向量包含起点、终点、起点和终点的时间戳以及相应代理的属性。 车道被转换成车道段序列。 每个车道段包含 ​​10 个相邻的车道点及其对应车道的属性。 例如,将 50 个车道点的车道转换为 5 个车道段。 由于相邻两个点之间的采样距离约为1m,因此10个车道点的车道段约为10m。
密集目标抽样 密集目标采样旨在对目标车辆的所有可能目标进行采样。
仅需要对密集位于道路和停车场的目标候选对象进行采样。 两个相邻目标之间的距离,即采样密度,设置为 1m。
我们不会对位于上面定义的子图之外的目标进行采样。
培训详情。 我们的模型在批量大小为 64 的训练集上进行训练。我们使用 Adam [3] 优化器训练 16 个 epoch,初始值为 0.001 的学习率每 5 个 epoch 衰减 0.3 倍。 特征向量的隐藏大小设置为 128。不使用数据增强,例如随机扰动或地图缩放。
共有三种代理类型,即行人、车辆和骑自行车的人。 我们为每个人训练一个模型,因为不同的代理类型具有不同的行为特征。
3.2. 结果稀疏和密集的目标 我们在 Argoverse 预测数据集上比较和评估稀疏和密集目标概率估计。 如表 1 所示,密集模型的性能优于稀疏模型,即普通 TNT。
Waymo 开放数据集运动预测挑战赛我们评估了 DenseTNT 在 Waymo 开放数据集运动预测挑战赛中的有效性。 如表 2 所示,我们的方法在排行榜上排名第一。 官方指标是 mAP,它提供了模型性能的全貌 [4]。 每个类别的细分性能如表 3 所示。
3.3. 定性结果 在 DenseTNT 中,目标候选者密集地分布在地图上。 我们可视化基于所选目标的密集目标和预测轨迹的概率。 如图 3 所示,DenseTNT 给出了多种预测,例如直行、左/右转弯和 U 形转弯。

结论

在本报告中,我们提出了一种无锚轨迹预测模型,名为 DenseTNT。 通过删除启发式预定义的目标锚,它优于以前的基于目标的方法。 DenseTNT 实现了最先进的性能,并在 Waymo 开放数据集运动预测挑战赛中排名第一。

长篇---------------------------------------------------------------------------------------------------------

DenseTNT:来自密集目标集的端到端轨迹预测

摘要

由于人类行为的随机性,预测道路代理的未来轨迹对自动驾驶具有挑战性。 最近,基于目标的多轨迹预测方法被证明是有效的,它们首先对过采样的目标候选者进行评分,然后从中选择最终集。 然而,这些方法通常涉及基于稀疏预定义锚和启发式目标选择算法的目标预测。 在这项工作中,我们提出了一种名为 DenseTNT 的无锚和端到端轨迹预测模型,该模型直接输出来自密集目标候选者的一组轨迹。 此外,我们引入了一种基于离线优化的技术,为我们最终的在线模型提供多个未来的伪标签。
实验表明,DenseTNT 实现了最先进的性能,在 Argoverse 运动预测基准上排名第一,并在 2021 年 Waymo 开放数据集运动预测挑战赛中获得第一名。
对于安全顺畅的自动驾驶系统,一项必不可少的技术是预测道路参与者的未来行为。 例如,了解其他车辆是否打算更好地切入有助于我们做出刹车决定。 然而,由于人类行为固有的随机性和多模态,运动预测是一项极具挑战性的任务。
为了对这种高度的不确定性进行建模,一些方法通过从潜在变量表示的分布中采样来预测多个未来轨迹,例如 VAE [18, 36] 和 GAN [12]。 其他方法生成一组轨迹,但仅在训练期间对最近的轨迹进行回归 [12, 20, 8],即使用多样性损失。
然而,基于抽样的方法不能输出预测未来的可能性,并且品种损失对输出缺乏可解释性。
最近,基于目标的方法 [39, 30, 37] 越来越受欢迎并取得了最先进的性能曼斯。 他们的关键观察是目标(端点)携带了轨迹的大部分不确定性,因此他们首先预测代理的目标,然后进一步完成每个目标对应的完整轨迹。 最终目标位置是通过对预定义的稀疏锚点进行分类和回归获得的,如图 1 左下部分所示。例如,TNT [39] 将锚点定义为在车道中心线上采样的点; 其他一些 [37] 将车道段作为锚点并预测每个车道段的目标。 这些方法通常采用的另一种技术是应用基于规则的算法来选择最终的少量目标。 最值得注意的算法是非最大抑制(NMS)[39],其中只选择局部高分目标。
这些方法的局限性有两方面。 首先,这些方法的预测性能在很大程度上取决于目标锚的质量。 由于一个anchor只能生成一个目标,一个模型不能围绕一个anchor进行多个轨迹预测。 此外,稀疏基于锚点的方法无法捕获细粒度信息,即同一车道段上的不同位置包含不同的局部信息,例如与最近车道边界的相对距离。 此外,在估计稀疏目标的概率后,使用 NMS 启发式选择目标集,这是一种贪心算法,鉴于问题的多峰性,不能保证找到最优解。
为了解决这些问题,我们提出了 DenseTNT,一种无锚和端到端的多轨迹预测方法。 DenseTNT 首先从场景上下文中生成具有概率的密集目标候选者; 根据目标概率,它进一步采用目标集预测器来生成最终的轨迹目标集。 与之前的方法相比,DenseTNT 更好地为目标候选者建模并摆脱了后处理。
DenseTNT 中的目标集预测是一个多标签预测问题,需要多个标签作为训练目标。
然而,与天生具有多个标签框作为监督 [2] 的对象检测不同,在轨迹预测中,我们只在每个训练样本的许多可能的未来中观察到一个真实的未来,这使得监督模型极具挑战性。 为了解决这个问题,我们设计了一个离线模型来为我们的在线模型提供多个未来的伪标签。 与上述在线模型相比,离线模型使用优化算法代替目标集预测器进行目标集预测。 优化算法从目标的概率分布中寻找最优目标集; 然后将目标集用作在线模型训练的伪标签。
DenseTNT 在自动驾驶轨迹预测任务中取得了最先进的性能,在 Argoverse 运动预测基准中排名第一,在 2021 Waymo 开放数据集运动预测挑战赛中排名第一。

相关工作

由于代理的意图和行为未知,未来的预测是高度不确定的 [14、33、17、21、28、38]。 在自动驾驶领域,为了对高度的多模态进行建模,隐式使用潜在变量是一种流行的方法 [15, 35, 27, 29]。 DESIRE [18] 使用条件变分自动编码器 (CVAE),SocialGAN [13] 使用对抗性学习使预测更加真实。 一些方法旨在解决模式崩溃 [25, 36, 23, 10, 3]。 最近,基于目标的多轨迹预测方法因其卓越的性能而广受欢迎。 我们将在本节后面讨论它们的详细信息。
地图编码 地图编码方法可以分为两类:光栅化编码和矢量化编码。 光栅化编码方法将高清地图元素与代理一起光栅化为图像,并使用 CNN 对图像进行编码。 基于光栅化编码,崔等人。 [9] 超越了单一轨迹并预测了多个轨迹及其概率。
IntentNet [4] 开发了一个由 CNN 组成的检测器,不仅可以从光栅图像中提取特征,还可以从 LiDAR 点中提取特征。 Multipath [5] 使用 CNN 从光栅图像中提取特征,然后预测 K 个预定义锚轨迹的概率和锚状态的回归偏移。 梁等人。 [19] 在图上设计了多尺度位置编码和卷积 RNN,用于地图编码。 为了捕捉远程人类轨迹预测的不确定性,Jain 等人。 [16] 预测和更新空间位置上的离散分布。 由于卷积的形状,这些光栅化方法无法捕获高清地图的结构信息,并且不允许对目标点进行非网格采样。
近年来,能够更好地捕捉高清地图结构信息的稀疏(矢量化)编码方法发展迅速。 他们将每个实体(车道或代理)视为一组稀疏元素,并使用图神经网络来提取实体的特征以及不同实体之间的交互。 VectorNet [11] 是第一个直接合并车道和代理的矢量化信息的网络。 LaneGCN [20] 构建了一个车道图,并使用带有邻接矩阵的图卷积来捕获车道图的复杂拓扑。 LaneRCNN [37] 不是通过特征向量来表示每个代理,而是为每个代理提出了基于图的表示,并通过对图到图的交互进行建模来捕获代理之间的交互。 TPCN [34] 采用点云学习策略将预测学习任务建模为空间模块和时间模块之间的联合学习。 与这些仅考虑高清地图的车道中心线或车道边界的矢量化方法不同,我们对道路上的密集空间位置进行建模。
基于目标的轨迹预测 雷德等人。 [24] 将行人的目标作为潜在变量引入,从而将预测问题转化为规划问题。
TNT [39] 首先从道路地图中采样锚点并生成以这些锚点为条件的轨迹。 然后对轨迹进行评分,并使用非最大抑制 (NMS) 来选择最终的一组轨迹。 与 TNT 类似,LaneRCNN [37] 的解码管道将车道段视为锚点并输出每个锚点的概率,如果两个预测太接近,则使用 NMS 去除重复目标。 DROGON [7] 专注于不同的任务,即给定单个代理的有意目的地。 他们创建了一个轨迹预测数据集来研究面向目标的行为,并使用条件 VAE 框架来预测多个可能的轨迹。
基于目标的思想也被用于寻找自动驾驶的最佳规划策略 [1]。 此外,在人类轨迹预测中,Tran 等人。 [31]考虑行人对旅程目的地的意图,设计了一个双通道神经网络,包括目标通道和轨迹通道,用于长期人类轨迹预测。 与之前的作品相比,DenseTNT 是一种无锚的基于目标的模型,可以以端到端的方式学习。

方法

DenseTNT 是一种无锚的端到端轨迹预测方法,它直接从密集目标候选者中输出一组轨迹。 我们首先利用稀疏(矢量化)编码方法来提取特征,它捕获高清地图的结构特征(第 3.1 节)。
然后我们使用一个密集的目标编码器来生成目标的概率分布(第 3.2 节)。 最后,目标集预测器将目标的概率分布作为输入并直接生成一组目标(第 3.3 节)。
为了训练我们的模型,更具体地说是目标集预测器,我们设计了一个基于优化的离线模型,该模型生成用于监督的伪标签。
3.1. 稀疏上下文编码
场景上下文建模是行为预测的第一步。 它提取车道和代理的特征并捕获它们之间的交互。 最近提出了稀疏编码方法 [11, 20](也称为矢量化方法)。 与将车道和代理光栅化为图像并使用 CNN 提取特征的光栅化编码方法相比,稀疏编码方法将所有地理实体(例如车道、交通灯)和车辆抽象为折线,更好地捕捉高层次的结构特征。 定义图。
由于其出色的性能,我们在这项工作中采用了 VectorNet [11]。 VectorNet 是由子图模块和全局图模块组成的分层图神经网络。 子图模块用于对车道和代理的特征进行编码,全局图模块使用注意力机制来捕获车道和代理之间的交互。 在上下文编码之后,我们得到一个二维特征矩阵 L,其中每行 Li 表示第 i 个地图元素(即车道或代理)的特征。
3.2. 密集目标概率估计
在稀疏上下文编码之后,我们对地图上的目标进行概率估计。 TNT [39] 定义了道路上的离散稀疏锚点,然后为其分配概率值。 我们的关键观察是稀疏锚不是道路上真实概率分布的完美近似,因为(1)一个锚只能产生一个目标,我们不能围绕一个锚进行多个轨迹预测; (2) 基于稀疏锚点的方法不能捕捉细粒度信息,即同一车道段上的不同位置包含不同的局部信息,例如到最近车道边界的相对距离。
因此,我们改为在地图上执行密集目标概率估计,以便目标预测是无锚的。 具体来说,就是在一定的采样率下,使用一个密集的目标编码器来提取道路上位置的特征。 然后,预测密集目标候选的概率分布。
车道得分。 在目标概率估计之前,我们采用车道评分模块来预测目标将落在的车道以减少目标候选者的数量。 作为更高的抽象层次,每条车道上都有数十个目标。 通过对车道进行评分,我们可以过滤掉不在候选车道上的目标候选,减少后期的计算。
车道的评分被建模为一个分类问题,并使用二元交叉熵损失 Llane 进行训练。 离地面真实目标最近的车道的地面真实得分为1,其他为0。距离在在车道 l 和真实目标 ygt 之间定义为 d(l, ygt) = min(||l1 -ygt||2 , ||l2 -ygt||2 , . . , ||lt -ygt| |2)。
概率估计。 密集目标编码器使用注意力机制来提取目标和车道之间的局部信息。 我们首先通过使用 MLP 编码目标的 2D 坐标来获得目标的初始特征矩阵 F。 目标和车道之间的局部信息可以通过注意力机制获得:
公式(1)
公式(2)
其中 WQ,WK,WV ∈ R dh×dk 是线性投影矩阵,dk 是查询/键/值向量的维度,F,L 是密集目标候选和所有地图元素(即车道)的特征矩阵 或代理),分别。
第 i 个进球的预测得分可以写成:
公式(3)
其中可训练函数 g(·) 也是用 2 层 MLP 实现的。 用于训练稀疏上下文编码器和密集概率估计的损失项是预测目标分数 φ 和真实目标分数 ψ 之间的二元交叉熵损失:
公式(4)
离最终位置最近的球门的真实得分为1,其他为0。
3.3. 目标集预测
通过上面的密集概率估计,我们获得了一个热图,表明轨迹的最终位置的概率分布。 我们的目标是在不同的模式中选择最可能的目标,即热图中的一些独特的峰值。 典型的基于目标的轨迹预测管道采用非极大值抑制(NMS)进行目标选择。 但是,NMS 无法灵活处理各种情况,因为不同的热图具有不同的最佳 NMS 阈值,如图 4 所示。
我们的发现是,目标选择可以建模为一个集合预测任务,因此我们设计了一个目标集预测器,将这个热图作为输入并以端到端的方式生成目标集。 然而,与具有多个标签框 [2] 的目标检测不同,在轨迹预测问题中,我们只能从许多可能的未来中观察到一个真实的未来。 为了解决这个问题,我们设计了一个离线模型来为我们的在线模型(更具体地说,目标集预测器)提供多个未来的伪标签。 离线模型由与在线模型相同的编码模块组成,但使用优化算法代替目标集预测器。 下面,我们首先介绍优化算法,然后详细介绍我们的目标集预测器。 目标集预测器的训练过程如图 3 所示。
优化(离线) 从上述步骤获得的热图由来自 C = {c1, c2, … 的映射 h 表示。 . . , cm} 到 [0, 1] ⊂ R,其中 ci ∈ R 2 是地图上的第 i 个目标。 设Y为最终位置坐标的随机变量,其概率分布满足P(Y = ci) = h(ci)。 给定一个预测目标集y = {y^1, y^2, . . . , yˆK} 和真实目标 ygt,ˆy 的误差为 d(ˆy, ygt),例如,最小最终位移误差 (FDE) 为:
公式(5)
由于我们不知道 ygt 的确切值,因此很难获得误差 d(ˆy, ygt)。 但是,我们可以使用 Y 的概率分布来获得 ˆy 的期望误差:
公式(6)
我们将目标函数定义为 f(y) = E[d(y, Y )]。
我们的目标是找到最小化 f(y) 的全局最优解 ˜y。 优化算法是通过比较各种解决方案来迭代执行直到找到最佳或令人满意的解决方案的过程。 我们在本文中采用了爬山算法,这是一种迭代算法,每一步都试图对当前解决方案进行增量更改。 该算法的细节在算法 1 中描述。 然后我们可以得到非常接近全局最优解 ˜y 的 ˆy:
公式(7)
其中 Y 是优化过程的搜索空间。
现在对于训练集中的每个 x,我们可以使用上述步骤生成热图 h,然后使用优化算法得到 ˆy。
目标集预测器(在线)。 集合预测器是由 DETR [2] 引入的,它将目标检测视为集合预测问题,并基于匈牙利匹配设计损失。 在这个多未来预测问题中,我们也将其视为集合预测问题,并使用离线模型的输出作为伪标签来训练在线模型的目标集预测器。 我们没有在预测目标集和伪标签之间执行匈牙利匹配,而是在训练期间执行离线优化,使用每个优化的伪标签来监督其对应的预测目标。
让我们将 y˙ = {y˙i} K i=1 表示为在当前训练步骤由目标集预测器生成的 K 个预测目标集。 我们使用上述优化算法为这个训练步骤生成伪标签 ˆy。 优化算法的初始目标集设置为预测目标集 y˙。 优化算法只搜索 y˙ 的邻居,而不是搜索最优解。 具体来说,我们运行 L(L = 100) 次随机扰动以获得 L 个目标集。 当前训练步骤中目标集预测器的伪标签 ˆy 是具有最低预期误差的目标集。
损失项是预测目标集 y˙ 和伪标签 ˆy 之间的偏移:
公式(8)
其中 Lreg 是两个目标之间的标准 1 损失。
由于热图指示的概率分布是多样的,单个回归量很难处理。 目标集预测器有多个头,可以同时预测 N 个目标集。 具体来说,每个头会预测2K+1个值,包括K个进球的二维坐标和这个头的置信度。 每个头部由一个热图编码器和一个解码器组成。 热图编码器是一个单层自注意力机制,然后是一个最大池化,而解码器是一个输出 2K + 1 个值的两层 MLP。 共享所有头部的热图编码器的参数以减少计算。
在训练过程中,优化算法只为预期误差最低的头部生成伪标签,目标集预测器只对这个头部进行回归。 为了预测多个头的置信度,我们使用二元交叉熵损失:
公式(9)
其中 µ 是头部的预测置信度,ν 是置信度标签。 对于具有最低预期误差的头部,νi = 1,对于其他头部,νi = 0。 在推理过程中,我们将置信度最高的头部作为目标集预测器的输出。
3.4. 轨迹完成 与 TNT 类似,最后一步是完成以预测目标为条件的每个轨迹。 我们首先计算类似于上述密集目标编码的每个目标的特征,然后将其传递给解码器即 2 层 MLP。 解码器的输出是整个轨迹 [ˆs1, sˆ2, … . . , 英石 ]。
我们只有一个真实轨迹,因此我们通过在训练期间提供真实目标来应用教师强制技术 [32]。 损失项是预测轨迹 ˆs 和真实轨迹 s 之间的偏移:
公式(10)
其中 Lreg 是两点之间的平滑 1 损失。 在推理过程中,该轨迹完成模块用于同时生成 K 个目标的 K 个轨迹。
3.5. 学习
我们方法的训练过程有两个阶段。 在第一阶段,我们使用真实轨迹训练除目标集预测器之外的所有模块:
公式(11)
第二阶段,我们在训练集上训练目标集预测器,由离线模型(编码+优化算法)生成的伪标签监督:
公式(12)

实验

4.1数据集
Argoverse 预测数据集 Argoverse 预测数据集 [6] 是具有代理轨迹和高清地图的数据集。 给定目标车辆在过去 2 秒的轨迹,以 10Hz 采样,我们需要预测未来 3 秒的未来轨迹。
有 333,000 个真实世界的驾驶序列位于十字路口或拥挤的交通中,每个序列包含一个用于预测的目标车辆。 训练、验证和测试集分别包含 205942、39472 和 78143 个序列。
Waymo 开放运动数据集 Waymo 开放运动数据集是迄今为止最多样化的交互式运动数据集。
它包含超过 1750 公里道路的 570 多个小时的独特数据,超过 100,000 个场景,每个场景长达 20 秒。 数据集中有三种类型的代理,即车辆、行人和骑自行车的人。 给定目标代理的 1 秒历史轨迹,需要预测 8 秒的未来轨迹。
指标 我们遵循 Argoverse 基准并使用最小平均位移误差 (minADE)、最小最终位移误差 (minFDE) 和未命中率 (MR)。每个轨迹由随时间变化的一系列点表示。 ADE 是预测轨迹的每个点与其对应的真实点之间的平均位移。 minADE 是预测的 K 个轨迹的最小 ADE,minFDE 是 K 个最终位置与地面真实最终位置之间的最小位移。 遗漏率是根据最终位移误差预测的轨迹均不在地面实况 2.0 米范围内的场景的比率。
4.2. 实施细节
目标候选抽样 我们首先对距离目标车辆 50m(曼哈顿距离)内的车道进行采样。
然后我们对密集分布在这些车道上的候选目标进行采样。 因此,采样目标候选的数量取决于目标车辆周围的车道。 对于以车道中心线表示的车道,采样距离中心线3m以内的候选目标,而对于以车道边界表示的车道,则采样边界内的候选目标。 两个相邻目标之间的距离,即采样密度,设置为 1m。
训练详情 我们的模型在训练集上训练,批大小为 64。在第一阶段,我们训练除目标集预测器外的所有模块 16 个 epoch,初始值为 0.001 的学习率每衰减到 30% 5个时代。 在第二阶段,我们训练目标集预测器 6 个 epoch,初始值为 0.001 的学习率每个 epoch 衰减到 30%。 特征向量的隐藏大小设置为 128。我们的目标集预测器的头数是 12。没有使用数据增强。
4.3. 基准的结果
Argoverse运动预测基准我们在Argoverse验证集上评估DenseTNT,并在表1中报告结果。可以看出,Densett的表现大大优于文献中流行的模型。还值得注意的是,我们的在线模型(Densett w/目标集预测器),虽然是根据离线模型(Densett w/optimization)可获得与离线模型相当的结果。我们进一步将Densett与表1中Argoverse排行榜上表现最好的公司进行了比较。由于第1、第3和第4种方法的细节尚未披露,我们无法对它们进行定性比较。与使用NMS进行后处理的PRIME(第二)和LaneRCNN(第五)相比,我们的方法可以在实时使用期间以端到端的方式生成轨迹。我们在官方排名指标MR上取得了优异的性能,这验证了我们方法的有效性。对于另一种流行的度量minFDE,我们还可以通过将其用作优化目标来实现最先进的性能。
图5显示了我们的在线模型产生的定性结果。在某些情况下,目标的概率分布是多模态的,这使得NMS很难在后处理阶段处理。我们的模型在热图覆盖率较高的情况下进行了不同的轨迹预测。
**Waymo开放数据集运动预测挑战。**我们为2021年Waymo开放数据集运动预测挑战赛开发了Densett的变体,并获得了第一名。挑战排行榜如表3所示。我们的技术报告1中讨论了该变体的详细信息。
模型架构我们对模型的主要部件进行烧蚀研究。这些组件是密集概率估计、生成伪标签的优化算法和目标集预测器。有不同的指标来衡量生成最可能轨迹的性能。我们在不同的优化目标下测试了我们的方法的有效性,如表2所示。
每个组件在我们的方法中都扮演着重要的角色。
密集概率估计的性能比稀疏概率估计要好得多,因为密集概率估计提供了更细粒度的局部信息。
此外,稀疏概率估计只能与基于规则的启发式算法NMS相结合。NMS的超参数是去除相邻点的阈值,即两个距离小于阈值的点被视为同一点。为了公平比较,我们展示了在不同度量下NMS的最佳结果。在线模型的结果与离线模型基本一致,证明了目标集预测的有效性。变化损失是一种传统的端到端轨迹预测方法,它生成固定数量的轨迹,但在训练期间仅对最近的一条进行回归。我们的端到端方法大大优于它。
目标密度为了表示最终位置的概率分布,我们在车道上对候选目标进行密集抽样。目标的采样密度对我们方法的性能有影响,我们在表4中显示了这一点。这表明在达到饱和点之前,密度越高,性能越好。
优化给定一个指示车辆最终位置概率分布的热图,使用优化算法寻找全局最优解。
每个实例的优化算法的最大运行时间对性能有影响。表5显示了随时间变化的优化性能。在t=100ms之前,性能急剧提高,而在t=200ms之后,性能几乎保持不变。

结论

在本文中,我们提出了一个无锚和端到端的轨迹预测模型,称为Densett,它直接从稠密的候选目标输出一组轨迹。此外,我们引入了一个基于优化的离线模型,以提供多个未来的伪标签来训练在线模型。Densett不仅在线运行,而且具有与离线模型类似的性能,证明了目标集预测设计和我们的训练范式的有效性。综合实验表明,Densett实现了最先进的性能,在Argoverse运动预测基准中排名第一,并在2021 Waymo开放数据集运动预测挑战赛中获得第一名。

附录

A离线优化
为了提高DenseTNT的训练效率,我们设计了一个由上下文编码模块和优化算法组成的离线模型。有不同的指标来衡量多轨迹预测方法的性能。为了进行综合评估,我们测试了优化算法在不同优化目标组合下的有效性,如表6所示。
B实现细节
代理和映射编码为了规范化地图,我们将目标车辆的最后位置作为原点,目标车辆的方向作为y轴。按照VectorNet[11],车道和代理被转换为向量序列。每个向量包含起点、终点及其相应车道或代理的属性。属于某个通道的向量也包含其在此通道中的索引,属于某个代理的向量包含其起点和终点的时间戳。经过稀疏上下文编码,我们得到了车道和代理的特征。
优化算法优化算法的目的是找到一个目标集,使预期误差最小化。它由静态类型语言实现,以实现最快的速度,并在100毫秒内搜索数百个目标集。
我们在8个CPU上以不同的初始化并行运行优化算法,并选择最佳结果。主要成本是计算每个搜索目标集的预期误差。
最终位置的概率分布由热图目标C={c1,c2,…,cm}及其相应的概率h(ci)表示。在计算给定目标集的期望误差时,只考虑满足H(CI)的CI。≥ 10−3.
由于样本密度为1m,每个热图目标ci代表1m×1m的空间。为了获得更精确的预期误差,我们将每个热图目标划分为9个热图目标,概率为1 9 h(ci),每个热图目标代表1 3m×1 3m的空间。
目标集预测器。目标集预测器旨在学习从热图到目标集的映射。我们只编码满足h(ci)的热图目标≥ 10−5.首先,我们以概率最高的热图目标为原点,对热图目标和伪标签的二维坐标进行归一化。然后,使用两层MLP对热图目标进行编码,输入为每个目标的二维坐标及其对应的对数概率。
热图目标的特征被传递给预测头。使用softmax函数对所有头部的预测置信度进行归一化。目标集预测器的头数设置为12。
C.定性结果
图6显示了与典型的基于目标的轨迹预测方法的一些代表性比较,其性能在很大程度上取决于启发式预定义锚的质量。在图7中的辩论验证集上,我们还提供了不同流量场景中的更多定性结果。在某些情况下,最终位置的概率分布非常不同,NMS很难处理好。

DenseTNT翻译相关推荐

  1. 【笔记】DenseTNT:End-to-end Trajectory Prediction from Dense Goal Sets

    原文链接:https://arxiv.org/pdf/2108.09640.pdf Abstract TNT的方法是需要预先输入大概的target的,而DenseTNT不需要,是完全anchor fr ...

  2. Mysql函数group_concat、find_in_set 多值分隔字符字段进行数据库字段值翻译

    Mysql函数group_concat.find_in_set进行数据库字段值翻译 场景 配方表:记录包含的原料 sources表示原料,字段值之间用逗号分隔 原料表:对应原料id和原料名称 现需要查 ...

  3. “Attention is All You Need 翻译

    <p><img src="output_0_0.png" alt="png"></p> "Attention is ...

  4. 基于PyTorch的Seq2Seq翻译模型详细注释介绍(一)

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qysh123/article/deta ...

  5. 全文翻译(全文合集):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

    全文翻译(全文合集):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 摘要 人们越来越需要将机器学习应用到各种各样 ...

  6. 全文翻译(四) TVM An Automated End-to-End Optimizing Compiler

    全文翻译(四) TVM An Automated End-to-End Optimizing Compiler 6.3 嵌入式GPU评估 对于移动GPU实验,在配备ARM Mali-T860MP4 G ...

  7. 全文翻译(三) TVM An Automated End-to-End Optimizing Compiler

    全文翻译(三) TVM An Automated End-to-End Optimizing Compiler 5. 自动化优化 考虑到一组丰富的调度原语,剩下的问题是为DL模型的每一层,找到最佳的算 ...

  8. 全文翻译(二): TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

    全文翻译(二): TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 3.优化计算图 计算图是在DL框架中表示程序的常 ...

  9. 全文翻译(一):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

    全文翻译(一):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 摘要 人们越来越需要将机器学习应用到各种各样的硬件 ...

最新文章

  1. 怎么为DNS大哥减轻压力?
  2. Zabbix discoverer processes more than 75% busy
  3. websocket 安全_将Websocket与Spring Framework和Vuejs结合使用
  4. python错误-Python错误处理和异常处理
  5. 【Linux】10.安装和开启ftp服务
  6. Java编译过程、c/c++编译过程区别
  7. @font-face 用字体画图标
  8. 设计模式学习-简单工厂模式
  9. python 遍历矩阵_Python3算法之十:矩阵旋转
  10. 如何设置计算机的网络参数,如何正确设置电脑的IP地址和DNS等参数[图文]
  11. 形状超链接html,ppt中标注形状超链接怎么做
  12. 服务器c盘怎么删除临时文件,删除临时文件夹中临时文件的方法
  13. 微信接龙,查人,查谁没有接龙,工具
  14. 分享Three.js 泛光(眩光)效果实现
  15. 如何取消Chrome浏览器自动翻译
  16. 华盛顿大学计算机语言学,华盛顿大学人工智能专业排名2020年
  17. MATLAB——求系统的零状态响应
  18. tkinter实现图片自适应
  19. python绘制bbox
  20. Android系统铃声音乐文件夹

热门文章

  1. CSV是什么文件格式
  2. Android 实现自定义宽高比的ImageView
  3. 组织机构树数据库表设计
  4. 云上PDF怎么删除页眉页脚_Word文档如何删除页眉页脚横线?如何取消文档页眉横线?...
  5. 用matlab画树叶,matlab画漂亮的树叶
  6. win7系统如何重启服务器,云骑士解决win7系统重启IIS服务的技巧介绍
  7. HTML+CSS+JS实现3D爱心跳动特效
  8. 区块链行业薪酬待遇,与事实相符吗?
  9. m3u8下载合并图片文件(但实际上还是ts文件)
  10. 蓝天保卫战之产品测试服务