人体轨迹预测的对等学习网络

1.引言

人体运动轨迹和运动方式受人类感知，行为推理，常识规则，社会习俗以及与他人和周围环境的相互作用的支配。人类可以有效地预测他人的短期身体运动并做出相应的反应。机器学习这些规则并使用它们来理解和预测复杂环境中的人体运动的能力在社交机器人，智能系统和智能环境中的广泛应用中具有很高的价值[22，24]。人体轨迹预测的中心研究问题是：给定观察到的人体运动轨迹，我们能否在短时间内（例如5秒）内预测其未来轨迹？
预测人类运动并对其常识行为进行建模是一项非常具有挑战性的任务[2]。一种有效的人体轨迹预测算法需要完成以下任务：（1）遵守环境的物理约束。为了在可行的地形上行走并避免障碍物或其他物理约束，我们需要分析人周围的局部和全局空间信息，并注意环境中的重要元素。（2）预期他人或车辆的活动及其社会行为。有些轨迹在物理上是可能的，但在社会上是不可接受的。人的举动受社会规范支配，例如产生通行权或尊重个人空间。（3）找到多个可行路径。通常有多种选择的运动轨迹可以到达目的地。这种不确定性对准确的人体轨迹预测提出了重大挑战。
最近，已经开发了许多基于深度神经网络的方法来进行人体轨迹预测[2，20]。早期的方法集中在学习移动代理（人和车辆）的动态模式[2]和对导航环境的语义建模[17]。已经开发出方法来模拟人与人之间的互动[14]，了解社会可接受性[4，1，20]，并模拟场景中所有主体的联合影响[12]。还已经做出努力来预测人类的多种可行途径[1、20、35]。
在这项工作中，我们建议探索人类轨迹的独特特性，并开发一种新的方法，称为相互学习以预测人类轨迹。如图1所示，我们观察到人类的轨迹不仅向前可预测，而且向后可预测。想象一下，时间倒转了，这个人正在向后走。如上所述，前进的轨迹遵循社会规范并遵守环境约束。向后移动轨迹也是如此，因为它们之间的唯一区别是时间是反向的。从训练数据中，我们可以训练两个不同的预测网络，即前向预测网络Fθ和后向预测网络Gφ。这两个网络紧密耦合在一起，满足了互惠约束。例如，使用前向网络，我们可以从观察或过去的轨迹X预测将来的轨迹Y =Fθ（X）。如果预测Y是准确的，则Gφ（Y）必须近似等于X。
基于此观察结果和独特的互惠约束，我们开发了一种称为互惠网络学习的新方法，可准确而可靠地预测人类的轨迹。我们介绍了相互的预测损失，并建立了训练这两个紧密耦合网络的迭代程序。我们借鉴了深度神经网络的对抗攻击的概念，该概念反复修改网络的输入以匹配给定的目标或强制网络输出。我们将相互约束与对抗性攻击方法相结合，以开发一种新的匹配预测方法来预测人体轨迹。我们在基准数据集上的实验结果表明，我们的新方法优于最新的人类轨迹预测方法。
本文的其余部分安排如下。第2节回顾了有关人体轨迹预测的相关工作。在第3节中介绍了提出的互惠网络学习和匹配预测。第4节介绍了实验结果，性能比较和消融研究。第五部分总结了我们的主要贡献并总结了论文。

图1.我们对人体轨迹预测的相互学习概念的说明。

2. 相关工作

在本节中，我们审查相关工作，包括人类模型和人类轨迹预测，对抗性攻击和循环一致性的人体场景模型。
（1）用于轨迹预测的人-人模型。文献中已经开发出许多方法来模拟人群拥挤场景中的人类社会互动和行为，例如人们试图避免走进彼此的场景。 Helbing和Molnar [14]引入了社交力量模型，使用耦合的兰格文方程来描述拥挤场景中人们之间的社交互动。在基于LSTM（长期短期记忆）[1]的最新方法中，引入了社交池以在不同代理之间共享功能和隐藏表示。关键思想是合并附近行人的隐藏状态，以使每个轨迹都知道其附近。 [5]发现，在上述集中机制中，应排除在一个方向上一致移动的人群。文献[12]使用生成对抗网络（GAN）来区分多个可行路径。该模型能够捕获不同的移动样式，但不能区分结构化和非结构化环境。 [34]使用时空图来预测人类的轨迹，以模拟位置演变和行人之间的相互作用。
（2）轨迹预测的人为场景模型。人体轨迹预测的另一套方法集中于学习物理环境的影响。例如，人类倾向于沿着人行道，树木或其他物理障碍物行走。萨迪吉安（Sadeghian）等人。 [29]考虑了旅行区域和语义上下文，以使用GAN（生成对抗网络）来预测社交和上下文感知的位置。 [21]提取了多个视觉特征，包括每个人的身体关键点和场景语义图，以预测人类行为并模拟与周围环境的相互作用。 [4]研究了对静态物体（例如艺术品）的吸引力，这些物体在某些情况下（例如博物馆）会偏转直线路径。 [2]提出了一种贝叶斯框架来预测先前观察到的运动中未观察到的路径，并将学习到的运动模式转移到新的场景中。在[8]中，对长期轨迹预测的动力学和语义进行了研究。 Scene-LSTM [23]使用LSTM将静态场景划分为网格并预测行人位置。 CAR-Net方法[30]将过去的观察结果与鸟瞰图图像结合起来，并使用两级注意机制对其进行了分析。
（3）对抗攻击。作为我们的主要贡献之一，我们探索基于对等约束的网络攻击预测网络。对抗性攻击的目标是在输入示例中添加少量噪声，以使它们被网络错误分类。生成对抗性示例的首批成功方法之一是快速梯度符号方法（FGSM）[11]。库拉金（Kurakin）等人。 [18]提出了一种称为I-FGSM的FGSM变体，它以较小的步长迭代地应用FGSM更新。请注意，FGSM和I-FGSM均旨在最小化输入与生成的对抗示例之间的切比雪夫距离。基于优化的方法[32、25、7]也已经开发出来，用于生成对抗性样本。我们的工作借鉴了FGSM的想法，对我们预测的未来轨迹进行对抗性攻击，作为后处理步骤，以最大程度地减少自洽性损失，如第3.5节所述。
（4）循环一致性学习。已经研究了使用可传递性作为规范化结构化数据的一种方法。例如，在视觉跟踪中，[16，31]开发了一个前向一致性约束。在语言处理中，[6、13、33]研究了人工翻译和机器翻译，以基于反向翻译和和解机制来验证和改进翻译。在运动分析[37]，3D形状匹配[15]，密集语义对齐[40，39]，深度估计[10，36，38]和图像到图像转换[3，41]中也已经探索了循环一致性。 ]。 CycleGAN [41]引入了一个循环一致性约束，用于学习一种映射，以将图像从源域转换为目标域。在这项工作中，我们探索了人类轨迹的独特特征，并开发了相互学习的新方法。我们的想法与周期一致性有关，但是非常独特。我们介绍了倒数损失，并设计了两个紧密耦合的预测网络，即正向和反向预测网络，它们是根据倒数约束共同学习的。

3. 人体轨迹预测的倒数网络

在本节中，我们介绍了用于人体轨迹预测的互惠网络学习方法。

3.1 问题表述

我们遵循文献[34，21]中轨迹预测问题的标准表述。利用观察到的场景中所有移动主体（包括人员和车辆）的轨迹，任务是预测在不久的将来下一个时间段内所有主体的移动轨迹。具体而言，令X = [X1，X2，···，XN]为场景中所有人类的轨迹。我们的任务是同时预测所有人类的未来轨迹。对于n =（xt n，yt n）的时间步长t = 1,2，…，To，人类n的输入轨迹由下式给出。对于时间步长t = To + 1，…，Tp，未来轨迹的地面真实性由Yn =（xt n，yt n）给出。

3.2 方法概述

如图1所示，在对等学习中，我们正在学习两个耦合网络，前向预测网络Fθ从过去的数据X预测未来轨迹Y =Fθ（X），而后向预测网络Gφ预测过去的轨迹X =未来数据Y的Gφ（Y）。应该注意的是，在训练过程中，过去和将来的数据都是可用的。如果两个网络都训练有素，那么我们应该具有以下两个相互一致性约束：
公式（1）（2）
这两个网络能够互相帮助，以提高学习和预测性能。具体而言，如果训练了反向预测网络Gφ，则可以使用倒数约束（1）再次检查正向预测网络Fθ的准确性，并在训练过程中提高其性能。同样，如果对前向预测网络Fθ进行了训练，则可以使用（2）来提高后向预测网络Gφ的训练性能。这导致这两个预测网络之间紧密耦合的迭代学习和性能改进过程。一旦使用对等学习方法成功地训练了正向和反向网络，我们将开发一种称为对等攻击的新网络推理方法，以进行匹配预测。它借用了深度神经网络的对抗攻击的概念，其中迭代地修改了输入，以使网络输出与给定的目标相匹配[11]。
我们提出的想法呼应了CycleGAN [41]中的一些想法，该想法提出了一种学习映射的方法，该映射将图像从源域转换为目标域。他们还学习了逆映射并介绍了循环一致性约束。我们的方法与CycleGAN方法有很大的不同。我们设计了两个紧密耦合的预测网络，即前向和后向预测网络，它们是根据互逆约束共同学习的。对于测试部分，我们的方法引入了一种新的相互攻击方法，用于对人类轨迹进行匹配预测。

图2.相互学习的训练过程。

3.3 互惠网络训练

为了成功地训练前向和后向预测网络，我们定义了两个损失函数J-和J +，以测量过去和未来轨迹的预测精度。一个合理的选择是原始轨迹与其预测之间的L2norm。如图2所示，这两个损失函数将交替更新并组合以指导这两个网络的训练。例如，当训练前向预测网络Fθ时，现有文献中使用的损失函数为未来轨迹L +。在往复训练中，我们首先使用训练数据对所有反向轨迹进行时间反向的预训练后向预测网络Gφ。然后，我们使用该网络将Fθ，ˆY =Fθ（X）的预测结果映射回过去的轨迹，该轨迹由下式给出：
公式（3）
然后，过去的轨迹损失由L- = || X -ˆX || 2给出。我们将此损失称为对等损失。它将与L +组合以形成前向预测网络Fθ的损失函数：
公式（4）
类似地，我们可以导出后向预测网络Gφ的损失函数：
公式（5）
在对等训练中，我们首先独立地对正向和反向预测网络进行预训练。然后，基于互逆约束，对这两个网络进行联合训练，使其具有厌恶性。
图3.我们的预测网络包含两个关键组件：（1）特征提取模块和（2）基于LSTM的GAN模块。

3.4 构建前向和后向预测网络

前进和后退网络共享相同的网络结构。在下文中，我们以前向预测网络Fθ为例来说明我们的网络设计。如图3所示，我们采用[12]中现有的Social-GAN作为我们的基线预测网络。我们的模型包含两个关键组件：（1）特征提取模块和（2）基于LSTM（长期短期记忆）的GAN（生成对抗网络）模块。

3.4.1 特征提取

我们的特征提取器模块具有三个主要组件，下面将进行解释。具体来说，我们首先使用LSTM编码器捕获人类n的每个轨迹内的时间模式和依存关系，并将它们编码为高维特征Ft h（n）。为了捕获周围所有人类运动的联合影响对目标人类n的预测，我们借鉴[12]的思想，构建了一个社交集合模块，该模块提取场景中所有人类的联合社会特征Ft s（n）。编码人与人之间的互动。计算目标人与他人之间的相对距离值。这些距离矢量与LSTM网络中每个人的隐藏状态串联在一起，然后由MLP嵌入，然后由Max-Pooling函数形成联合特征。设置场景中移动人员的最大数量，如果当前不存在相应的代理，则默认值为0。
正如[35，29]所认识的那样，环境背景会影响人类在计划下一步运动时的决策。当前场景的特征可以纳入推理过程。与先前的工作[29]相似，我们使用在ImageNet [28]上经过预训练的VGGNet-19 [28]提取背景场景的视觉特征，然后将其馈入LSTM编码器以计算隐藏状态张量Ft v。
作为我们提出的方法的独特功能，我们提议还将3D场景深度图纳入推理过程，这也可以提高人体轨迹的预测精度。这是因为人体运动发生在原始3D环境中。因此，其自然行为和运动模式可以通过其3D轨迹而不是2D图像坐标更好地表示。例如，由于摄像机的透视变换，靠近摄像机行走的人的轨迹与远离摄像机行走的人的轨迹有很大不同。为了解决这个问题，我们建议使用现有的深度估计方法从单个图像推断深度图像[9]。我们使用他们的预训练模型执行单眼深度估计，并获得深度图Mt dof场景It，然后使用LSTM将其编码为深度特征Ft d。

3.4.2 基于LSTM的GAN用于轨迹预测

受先前工作的启发[12，29]，本文中我们使用基于LSTM的生殖对抗网络（GAN）模块生成人类未来的路径，如图3所示。该生成器由解码器LSTM构造。类似于条件GAN [24]，白噪声矢量Z是从多元正态分布中采样的。然后，在我们提出的网络中使用合并层，该合并层将上述所有编码的特征与噪声矢量Z连接起来。我们将此作为LSTM解码器的输入，以生成每个人的候选未来路径。鉴别器由LSTM编码器构成，该编码器从地面真实或预测轨迹中将输入作为随机选择的轨迹并将其分类为“真实”或“伪造”。一般而言，鉴别器将不准确的轨迹分类为“伪造”，并迫使生成器生成更现实和可行的轨迹。
在我们对人体轨迹预测的对等学习的框架内，令Gθ：X→Y和Gφ：Y→X分别是前向预测网络Fθ和后向预测网络Gφ的生成器。 Dθ是Fθ的鉴别符。它的输入Y0是从地面真实情况Y或预测的未来轨迹jectY中随机选择的。类似地，对于Dφ来说，是对Gφ的区分。为了训练Fθ和Gφ，我们将对抗性损失与Eqs中的前向预测损失J + [θ]和后向预测损失J- [φ]相结合。（4）和（5）共同构建Fθ和Gφ的整体损失函数：
公式（6）
其中对抗损失LθGAN和LφGAN定义为：
公式（7）
公式（8）

3.5 相互攻击对人类轨迹的匹配预测

一旦基于对等学习方法使用上述损失函数成功训练了前向和后向网络，我们就准备进行人类轨迹的预测。通过利用前向和后向网络的倒数特性，我们开发了一种称为倒数攻击的网络推理方法以进行匹配预测，作为后处理步骤，以充分利用当前的观察结果进一步提高预测精度。
如图4所示，Fθ是我们用于人体轨迹预测的训练网络。以过去的轨迹X作为输入，它可以预测将来的轨迹ˆY =Fθ（X）。在进行网络测试或实际预测时，我们不知道未来轨迹的真实情况。我们怎么知道这个预测ˆ Y是否正确？我们如何进一步提高其准确性？幸运的是，在我们的对等学习框架中，我们还有另一个网络，即后向预测网络Gφ，可以用来将估计的ˆY映射回已知输入X。我们的推论是，如果ˆY是准确的，则其后向预测ˆX =Gφ （ˆY）=Gφ（Fθ（X））应该匹配原始输入X。当预测ˆY不准确时，我们可以修改预测，以使上述匹配误差最小。这导致以下优化问题：
公式（9）
在此，∆（t）是对现有预测结果ˆY的微小扰动或修正。上面的优化过程旨在找到最佳的修改，使匹配误差最小。

可以通过最近在深度神经网络攻击和防御文献中研究的对抗攻击方法来解决此优化问题。在这项工作中，我们建议借鉴Goodfellow等人开发的快速梯度符号方法（FGSM）。 [11]进行对抗性攻击。本质上，它是与网络训练相同的错误反向传播过程。唯一的区别是网络训练会基于误差梯度来修改网络权重。但是，对抗性攻击不会更改网络权重，而是将错误一直传播到输入层，以修改原始输入图像以最大程度地减少损失。
该方法使用每个像素处的渐变符号来确定其像素值的变化方向。在我们的例子中，我们删除符号函数并直接使用渐变来更新输入轨迹。利用人体轨迹的匹配误差E = || X-GΦ（〜Y）|| 2，我们可以对预测值theY进行修改后的FGSM攻击的多次迭代，以使匹配误差最小。在迭代m处，攻击轨迹（输入）由下式给出：
公式（10）
ˆY0 = ˆY。？是攻击的强度[11]。直观地讲，更新后的轨迹ˆYm将使E最小。然后，我们执行{ˆYm}的指数平均值以获得改进的预测
公式（11）
其中M是总迭代次数，α是一个常数，用于控制攻击的这些不同迭代之间的相对权重。它的价值是根据启发式研究选择的。在我们的实验中，我们将α= 0.1。

图4.提出的攻击方法的图示。

4. 实验结果

在本节中，我们提出了我们的实验结果，与最先进的方法的性能比较和消融研究。

4.1 基准数据集

比较和消融实验是在ETH [27]和UCY [19]数据集上进行的，该数据集包含现实世界的人类轨迹和各种自然的人与人之间的交互情况。这两个数据集总共包括ETH，HOTEL，UNIV，ZARA1和ZARA2 5个子数据集。每套都包含鸟瞰图和每个人的2D位置。这五组数据总共有1536人。它们包含具有挑战性的情况，包括避免人类碰撞，人类彼此交叉以及群体行为[29]。

4.2 实施细节

我们的GAN模型是使用LSTM构建的，用于编码器和解码器。生成器和鉴别器使用Adam优化器进行迭代训练。我们选择批处理大小为64，初始学习率为0.001。整个模型训练了200个纪元。使用尺寸为16的单层MLP嵌入轨迹。生成器的编码器和解码器使用LSTM，其隐藏状态的尺寸为32。在用于鉴别器的LSTM编码器中，隐藏状态的尺寸为48。最大数量被目标人包围的人的“人”设置为32。之所以选择此值，是因为在所有数据集中，在任何帧中都不存在超过32个人的情况。对于深度图提取，我们使用来自[9]的预训练模型“ monodepth2”，并且使用嵌入尺寸为16的单层MLP嵌入深度特征。损失函数的权重为λ= 0.5。我们进行20次迭代的倒数攻击，即扰动设置为-0.05。

4.3 评估指标和方法

我们在[1，26]中使用相同的错误指标进行性能评估。（1）平均位移误差（ADE）是地面真实值和我们的预测在从To + 1到Tp的所有预测时间步长上的平均L2距离。（2）最终位移误差（FDE）是在预测周期Tp结束时，预测的最终目标与真实的最终目标之间的欧几里得距离。它们的定义为：
公式（12）
公式（13）
其中（ˆ xi t，ˆ yi t）和（xi t，yi t）是在时间t对人i的预测和地面真实坐标，,是人的集合，|Ψ|是测试集中的人员总数。
在先前的论文[1、12、29]之后，我们使用了类似的留一法评估方法。四个数据集用于训练，其余一个数据集用于测试。给定过去8个时间步长（3.2秒）的人类轨迹，我们的模型将预测接下来12个时间步长（4.8秒）的未来轨迹。

4.4 与现有方法的比较

我们将我们的方法与以下最新技术方法进行比较：（1）线性：此方法通过最小化最小二乘误差[12]应用线性回归来估计线性参数。（2）LSTM：这是LSTM方法的基线模型，它不考虑任何人与人之间的交互作用或背景场景信息。（3）SLSTM [1]：此方法通过LSTM对每个人进行建模，并在每个时间步长提出了一种具有一定网格内人的隐藏状态的社交集合机制。（4）S-GAN [12]：这是最早的基于GAN的方法之一。在汇集阶段，将考虑场景中的所有人类。 S-GAN和S-GAN-P的不同之处仅在于是否应用了合并机制。该方法从20个网络预测中选择最佳轨迹作为最终测试结果。（5）SoPhie [29]：这项工作实现了由背景场景特征描述的所谓物理约束。在这种基于GAN的方法中还引入了注意机制。（6）下一步[21]：此方法实现了基于LSTM的多特征池预测器。在测试部分中，除了使用单个模型外，本文还按照[12]使用随机初始化来训练20个不同的模型。他们在论文中报告了“单个模型”和“ 20个输出”的评估结果。在我们的比较中，我们从这两部分中选择最佳结果。

表1.在给定前8个时间步长的情况下，在预测12个未来时间步长的任务上，对ETH（第2和3列）和UCY（第4-6列）数据集的不同方法的比较。报告的误差度量单位为ADE / FDE（以米为单位）。

4.5 定量结果

表1显示了我们的方法与现有方法在仪表规模上的性能指标ADE和FDE的比较结果。我们按照先前的工作[12]在L2norm的多个样本中选择最佳预测进行定量评估。我们可以看到我们的方法胜过所有其他方法，除了Hotel数据集之外，其方法要比Next方法好。线性模型通常表现最差。它只能预测直线轨迹，并且在复杂的人与人与环境之间的相互作用中会降低性能。 LSTM方法的性能优于线性方法，因为它可以处理更复杂的轨迹。由于S-LSTM使用社交池机制，因此它也优于线性模型，但其性能却比LSTM差。根据[12]，在合成数据集上训练S-LSTM [1]，并在实际数据集上进行微调以提高准确性。
为了评估我们在拥挤场景中预测可行路径方面的方法的性能，我们遵循先前论文[29]的程序，以报告新的评估度量，这是人类近乎碰撞的百分比。当两个人之间的欧几里德距离小于0.1μm时，定义碰撞。我们计算了Eth和UCY数据集的每一帧中的人类接近碰撞的平均百分比。表2中示出了对线性，S-GaN和Sophie方法的比较结果显示。我们可以看到我们的方法在Eth，Hotel和Zara2数据集上表现出这三种方法，在未来的时间内产生较少的人类碰撞。对于另外两个数据集，Univ和Zara1，S-GaN和Sophie略好于我们。但是，它们遭受了其他数据集的显着性能下降。总的来说，实验结果表明，与这些现有方法相比，我们的方法可以预测更好的物理和社会可接受的路径。

4.6 消融研究

为了系统地评估我们的方法并研究每种算法组件的贡献，我们执行消融实验的数量。我们的算法有三个主要的新组件，互惠学习，结合3D深度映射特征，以及匹配预测的互易攻击。在表3的第一行中，我们列出了我们的方法（全算法）的ADE和FDE结果。第二行显示了我们的方法而无需互惠培训。第三行显示没有深度映射特征的结果。最后一行显示结果而无需对预测的互惠攻击。我们可以清楚地看到每个算法组件都有助于整体性能。
由于存在对等一致性约束，在训练过程中，我们的模型迫使后向预测轨迹与观察到的过去轨迹一致，因此作为后向网络输入的预测未来轨迹将被迫更接近地面真实性。结果显示了深度功能的好处，因为它可以帮助模型更好地了解人类行为和背景场景背景。相互攻击机制以迭代方式修改预测轨迹，以使原始轨迹与反向预测网络相匹配。

表2. ETH和UCY数据集中每个场景的碰撞人员的平均百分比。定义并检测到人与人之间的碰撞是因为两个人之间的欧式距离小于0.1m [29]。第一列代表基本事实。

4.7 定性结果

图5显示了每行中ETH，HOTEL，UNIV，ZARA1和ZARA2数据集的预测轨迹的成功和失败示例。根据先前的SGAN [12]，我们在图中显示了20个模型输出中最好的预测轨迹。前两列显示了我们提出的方法能够正确预测未来路径的方案。根据背景场景，我们可以看到我们的方法可以确保每个人的路径都遵循场景的物理约束，例如绕着障碍物行走。树木，并留在人行道上。我们的方法还显示了在人与人互动情况下的体面预测结果。当人们在拥挤的道路上行走时，当他们从各个方向合并然后朝着共同的方向行走时，他们可以彼此避开。
图5的最后一列显示了一些错误率相对较高的故障情况。例如，我们看到人类放慢速度，甚至停下来一会儿，或者人类走直线路而不是绕过障碍物绕行。尽管如此，在大多数情况下，即使预测的路径与基本事实并不完全相同，我们的方法仍可以预测合理的路径。例如，对于最后一列中的第一种，第三种和第五种情况，在我们的预测路径中，目标人员正试图绕过另一个人或道路上的树木行走，这在实践中是相当合理的。

5. 结论与主要贡献

在本文中，我们探索了人类轨迹的独特特征，并开发了一种新的方法，即相互网络学习，用于人类轨迹预测。大量的实验结果表明，我们的方法在公共基准数据集上达到了最先进的性能。
这项工作的主要贡献可归纳如下。（1）我们建立了用于人体轨迹预测的前向和后向预测网络结构，满足了相互预测的约束。（2）基于此约束，我们开发了一种互惠学习方法，以协作和迭代的方式联合训练这两个预测网络。（3）一旦成功训练了网络，我们就通过将对抗性攻击的概念与对等约束相结合，开发了一种新的网络推理方法。能够通过前向网络迭代地细化预测轨迹，从而满足倒数约束。（4）我们的消融研究表明，所提出的新方法非常有效，并且对我们方法的整体性能做出了重大贡献，优于文献中的其他最新方法。

图5.给出观察到的过去8个时间步长的轨迹后，我们的方法预测未来12个时间步长的轨迹的示意图。 ETH，HOTEL，UNIV和ZARA1和ZARA2的结果分别显示在第1至5行中。我们在前两列中展示了示例，其中我们的模型成功地预测了带有小误差的轨迹。最后一列显示了一些失败案例。请注意，我们裁剪并调整了原始图像的大小，以实现更好的可视化效果。

Reciprocal Learning Networks for Human Trajectory Prediction相关推荐

Social-STGCNN: A Social Spatio-Temporal GCNN for Human Trajectory Prediction(CVPR2020)论文阅读笔记
Social-STGCNN: A Social Spatio-Temporal GCNN for Human Trajectory Prediction 一种用于人类轨迹预测的社会时空图卷积神经网络 ...
Social LSTM:Human Trajectory Prediction in Crowded Spaces 翻译
近期学习研究相关方向论文,Social LSTM算是比较经典的一篇,阅读过程中简要翻译,分享给有同样阅读需要的人,翻译比较简单,仅供参考. Social LSTM:Human Trajectory P ...
Social LSTM: Human Trajectory Prediction in Crowded Spaces 论文翻译
摘要行人可沿不同的轨道行走,以避开障碍物及方便其他行人.在这样的场景中行驶的任何自动驾驶车辆都应该能够预见行人未来的位置,并相应地调整其路径以避免碰撞.轨迹预测问题可以看作是一个序列生成任务,我们感 ...
论文阅读：social lstm：Human Trajectory Prediction in Crowded Spaces
社会LSTM:拥挤空间中的人类轨迹预测学习笔记参考:study note: https://www.zybuluo.com/ArrowLLL/note/981714 摘要:行人遵循不同的轨迹以避开障 ...
文献翻译：Social LSTM: Human Trajectory Prediction in Crowded Spaces
这是我阅读的有关轨迹预测的第一篇文献,其内容和使用的模型相对简单,是比较适合的入门篇,我在此把原文翻译分享出来,便于大家交流学习. 这里写目录标题 Abstract ...
【ECCV2020】Spatio-Temporal Graph Transformer Networks for Pedestrian Trajectory Prediction
[ECCV2020]用于行人轨迹预测的时空图 Transformer 网络摘要了解人群运动动力学对于现实世界的应用至关重要,例如监控系统和自动驾驶.这是具有挑战性的,因为它需要对具有社会意识的人群 ...
Social LSTM: Human Trajectory Prediction in Crowded Spaces
摘要行人遵循不同的轨迹避开障碍物并容纳行人.在这样的场景中导航的任何自动驾驶车辆都应该能够预见行人的未来位置,并相应地调整其行进路线以避免碰撞.轨迹预测的问题可以看作是序列生成任务,我们对基于人们过 ...
GraphTCN: Spatio-Temporal Interaction Modeling for Human Trajectory Prediction
(1)这并非是官方代码,只是本人一时兴趣,对其网络模型进行复现,不喜勿喷 (2)pytorch 版本 import torch import torch.nn as nn import torch.n ...
[论文阅读]用于车辆轨迹预测的卷积社交池Convolutional Social Pooling for Vehicle Trajectory Prediction
文章目录一.摘要二.介绍三.相关研究 3.1 基于机动的模型 3.2 交互感知模型 3.3 运动预测的递归网络四.问题制定 4.1 参照系 4.2 输入输出 4.3 概率运动预测 4.4 操作 ...
顶会论文笔记：联邦学习——ATPFL: Automatic Trajectory Prediction Model Design under Federated Learning Framework
ATPFL: Automatic Trajectory Prediction Model Design under Federated Learning Framework 文章目录 ATPFL: A ...

Reciprocal Learning Networks for Human Trajectory Prediction