摘要

我们提出了PredRNN ++，这是一种用于时空预测学习的递归网络。为了获得强大的短期视频动态建模能力，我们利用名为Causal LSTM的新型递归结构和级联双存储器，使我们的网络更加及时。为了减轻深度预测模型中的梯度传播困难，我们提出了“Gradient Highway Unit”，该单位为从输出返回到远程先前输入的梯度流提供了替代的快速路线。The gradient highway可与Causal LSTM无缝协作，从而使我们的模型能够自适应地捕获短期和长期视频依存关系。我们的模型在合成和真实视频数据集上均实现了最新的预测结果，显示了其在纠缠运动建模中的强大功能。

1.简介

时空预测学习是以自监督的方式（有时称为无监督的）从无标签的视频数据中学习功能，并使用它们来执行特定的任务。这种学习范例已经有益于或可能有益于实际应用，例如降水预测（Shi等，2015; Wang等，2017），交通流量预测（Zhang等，2017; Xu等，2018）和物理相互作用模拟（Lerer等，2016; Finn等）等人，2016年）。

准确的预测学习方法需要在不同时间范围内有效地对视频动态建模。考虑两种典型情况：（i）当突然发生变化时，应在附近的帧而不是远的帧上生成将来的图像，这要求预测模型学习短期视频动态；(ii)场景中运动物体经常发生纠缠，在生成的帧中很难将其分离。这就要求预测模型在发生遮挡之前回想先前的上下文。因此，应该适应性地考虑短期和长期的视频关系。

1.1 Deep-in-Time Structures和消失梯度困境

为了捕获长期的帧依存关系，递归神经网络（RNN）（Rumelhart等，1988; Werbos，1990; Williams＆Zipser，1995）最近已应用于视频预测学习（Ranzato等，2014）。）。但是，大多数方法（Srivastava等人，2015a; Shi等人，2015; Patraucean等人，2016）遵循传统的RNN链结构，并没有充分利用网络深度。尽管理论证据表明，更深的网络在空间特征提取（Bianchini和Scarselli，2014）和序列建模（Pascanu等人）中都可以以指数方式更有效，但可以通过简单的函数对相邻RNN状态从一个时间步到下一个时间步之间的转换进行建模。。，2013）。我们认为，Deep-in-Time，即增加从输入到输出的重复状态数，将大大提高其学习短期视频动态的能力。

因此，以前的最新模型PredRNN（Wang等人，2017）从一帧到下一帧应用了复杂的非线性过渡函数，在长短期记忆（LSTM）上构建了双重记忆结构（Hochreiter＆Schmidhuber，1997）。不幸的是，这种复杂的结构容易遭受梯度消失的困扰（Bengio等，1994； Pascanu等，2013），即梯度的幅度在反向传播（BPTT）过程中呈指数衰减。时空预测学习存在一个难题：越来越多的深度网络已经被设计用于复杂的视频动态，同时也给梯度传播带来了更多的困难。因此，如何在深层预测模型中保持稳定的梯度流是值得探索的道路。我们的主要看法在于在RNN状态或层之间建立自适应连接，从而为我们的模型同时提供从输入框架到预期的未来预测的更长的路线和更短的路线。

2.相关工作

递归神经网络（RNN）广泛用于视频预测。 Ranzato等（2014年）构建了RNN模型来预测下一帧。 Srivastava等（2015a）将序列调整为序列LSTM框架，以进行多帧预测。 Shi等（2015年）扩展了该模型，并通过在循环连接中插入卷积运算来提出了卷积LSTM（ConvLSTM）。 Finn等（2016年）开发了一种行动条件预测模型，该模型可明确预测前一帧中像素运动的分布。 Lotter等（2017）在ConvLSTM的基础上建立了预测模型，主要侧重于提高下一帧的预测质量。 Villegas等（2017a）提出了一个将信息成分（运动和内容）分成不同编码器路径的网络。 Patraucean等（2016年）预测中间像素流，并将该流应用于预测图像像素。 Kalchbrenner等（2017）提出了一个结合了门CNN和ConvLSTM结构的复杂模型。它使用成熟但复杂的PixelCNN来一对一估计视频中的像素值（van den Oord等人，2016），因此严重遭受了低预测效率的困扰。 Wang等（2017）提出了一种具有两个存储单元的深度过渡RNN，其中时空存储流经不同RNN层的所有RNN状态。

卷积神经网络（CNN）也参与视频预测，尽管它们仅创建固定大小输入的表示形式。Oh等（2015年）为Atari游戏预测定义了基于CNN的自动编码器模型。 De Brabandere等（2016年）使卷积网络的滤波器操作适应特定的输入样本。 Villegas等（2017b）提出了一个由三个阶段组成的框架，其中包含附加的带注释的人类关节数据，以进行更长的预测。为了应对未来预测的内在多样性，Babaeizadeh等人（2018）和Denton＆Fergus（2018）探索了视频预测模型中的随机变分方法。但是很难评估这些随机模型的性能。生成对抗网络（Goodfellow等，2014; Denton等，2015）被用于视频预测（Mathieu等，2016; Vondrick等，2016; Bhattacharjee＆Das，2017; Denton等， 2017; Lu等人，2017; Tulyakov等人，2018）。这些方法试图通过将所生成图像的清晰度作为区分真实/伪造视频帧的主要特征来保持其清晰度。但是这些模型的性能很大程度上取决于对不稳定的对抗网络的仔细训练。

总之，现有的视频预测模型产生不同的缺点。基于CNN的方法可在一遍中预测有限数量的帧。他们关注的是空间外观，而不是长期运动中的时间连贯性。相比之下，基于RNN的方法可通过循环连接捕获时间动态。然而，他们的预测受到众所周知的RNN消失梯度问题的困扰，因此特别依赖于最接近的帧。在我们的初步实验中，很难在生成的未来帧中保存运动对象的形状，尤其是在它们重叠之后。在本文中，我们通过提出一种新的梯度公路递归单元来解决此问题，该单元可吸收以前视频帧中的知识并有效利用长期信息。

3.重新审视深度架构

增加RNN深度的一般方法是堆叠多个隐藏层。用于视频预测的典型堆叠递归网络（Shi等，2015）可以表示为图1（a）。循环单元ConvLSTM旨在通过门控结构正确保留和忘记过去的信息，然后将其与当前的空间表示形式融合。尽管如此，堆叠式ConvLSTM并没有为逐步循环状态转换添加额外的建模能力。

（b）深度转换ConvLSTM网络

在我们的初步观察中，增加ConvLSTM的逐步过渡深度可以显着提高其针对短期动态的建模能力。如图所示在图1（b）中，隐藏状态H和内存状态C在锯齿形方向上进行了更新。水平相邻状态之间扩展的递归深度使网络能够在短时间内学习附近帧的复杂非线性过渡函数。但是，它引入了逐渐消失的梯度问题，因此很难捕获视频中的长期相关性。尽管简化的单元格结构（经常性高速公路）（Zilly等人，2017年）可能在某种程度上缓解了这个问题，但它却牺牲了时空建模能力，正像前面描述的困境一样。

（c）具有时空LSTM（ST-LSTM）的PredRNN中的数据流。 PredRNN的两个内存并行工作：子图（c）中的红线表示空间内存的深层过渡路径，而水平的黑色箭头表示时间内存的更新方向。

基于深度过渡架构，性能良好的预测学习方法PredRNN（Wang等人，2017）在堆叠时空LSTM（ST-LSTM）中的相邻时间步之间添加了额外的连接，以追求长期连贯性和短期复发深度。图1（c）说明了其信息流。 PredRNN利用双重存储机制，并通过与门的简单串联，将水平更新的时间存储器C与垂直变换的空间存储器M组合在一起。尽管时空存储器提供了有利的信息流，但这种并行存储器结构之后是串联运算符，并且对于恒定数量的通道使用1×1卷积层，并不是提高重复深度的有效机制。此外，作为堆叠式递归网络和深度过渡网络的直接组合，PredRNN仍然面临着与先前模型相同的消失梯度问题。

4. PredRNN ++

在本节中，我们将对改进的预测递归神经网络（PredRNN ++）进行详细说明。与上述深度实时循环体系结构相比，我们的方法具有两个关键见解：首先，它提出了一种新的时空存储机制，即Casul LSTM，目的是从一个时间步长到另一个步长增加递归深度，并由此意味着，将获得更强大的建模能力，以实现更强的空间相关性和短期动力学。其次，为了长期的视频建模，它试图解决梯度反向传播问题。它构建了一条替代的Gradient Highway，这是一条从未来输出到遥远输入的更短路径。

4.1 Causal LSTM

图2。Causal LSTM，即时间和空间记忆通过门控结构以级联方式连接。彩色部分是新设计的操作,同心圆表示连接,σ是元素方面的Sigmoid函数。

Casual LSTM的灵感来自于这样一个想法:在周期性的过渡中增加更多的非线性层，增加网络从一种状态到另一种状态的深度。此新循环单元的示意图如图2所示。一个Causal LSTM单元包含双重记忆，时间记忆 和空间记忆 ，其中下标t表示时间步长，而上标表示第k隐藏层在堆叠的Causal LSTM网络中。当前时间记忆直接取决于其先前状态，由遗忘门ft、输入门it和输入调制门gt控制。当前的空间内存 依赖于深迁移路径中的 。对于底层(k = 1)，我们将(t−1)处的最上层空间内存分配给 。Causal LSTM与原来的时空LSTM有明显的不同(Wang et al.， 2017)，Casual LSTM采用了级联机制，其中空间记忆是另一组门结构的时间记忆的函数。k层的Causal LSTM更新方程为:

*是卷积，⊙是元素方式的乘法，σ是元素方式的Sigmoid函数，方括号表示张量的连接，而圆括号表示方程组。 W1〜5是卷积滤波器，其中W3和W5是1×1卷积滤波器，用于改变滤波器数量。最终输出 是由双存储状态 共同确定。

由于沿时空过渡路径的递归深度显着增加，因此这种新设计的级联记忆优于时空LSTM的简单串联结构（Wang等人，2017）。最终生成的帧中的每个像素在每个时间步都将具有较大的输入量接受域，这为预测模型提供了针对短期视频动态变化和突然变化的更大建模能力。

我们还考虑了另一种时空Causal LSTM变体。我们交换两个存储器的位置，首先更新 ，然后根据 计算。在第5节中将对这两种替代结构进行实验比较，其中我们将证明与原始的时空LSTM相比，这两种结构都能带来更好的视频预测结果。

4.2Gradient Highway

除了短期的视频动态特性外，Causal LSTM长期还会遭受梯度反向传播的困扰。特别地，由于较长的过渡，时间存储器 可能会忘记过时的帧外观。这样的循环架构仍未解决，特别是对于具有周期性运动或频繁遮挡的视频。我们需要一条信息高速公路来学习跳帧关系。

理论证据表明，highway layers（Srivastava等，2015b）能够在非常深的前馈网络中有效地传递梯度。我们将此思想运用到递归网络中，以防止长期梯度迅速消失，并提出了一种新的时空递归结构，称为Gradient Highway Unit（GHU），其示意图如图3所示。GHU的方程式可以表示如下：

其中W••表示卷积滤波器。 命名为Switch Gate，因为它能够在转换后的输入和隐藏状态之间进行自适应学习。方程2可简单表示为

图3。最终的架构与梯度公路单位(上)(下),同心圆表示连接的地方, σ是元素方式的Sigmoid函数。蓝色部分表示将当前时间步长与之前输入直接连接的梯度公路，而红色部分表示深度转换路径。

为了追求出色的时空建模能力，我们使用Causal LSTM构建了一个更深层次的网络，然后尝试使用GHU处理消失的梯度问题。最终的架构如图3所示。具体来说，我们堆叠L个Causal LSTM，并在第1层和第2层causal LSTM之间注入GHU。整个模型的关键方程式如下（对于3≤k≤L）：

在这种架构中，the gradient highway与Causal LSTM无缝协作，以分别捕获长期和短期视频依存关系。使用快速更新的隐藏状态 ，the gradient highway显示了从最开始到最后一个时间步的替代快速路线（图3中的蓝线）。但是与时间跳跃连接不同，它通过 控制 的比例和深转换特征 ，从而可以自适应地学习长期和短期帧关系。

我们还通过将GHU注入不同的隐藏层插槽（例如，第（L-1）个和Lthcausal LSTM之间）来探索其他体系结构变体。实验比较将在第5节中给出。上面讨论的网络优于其他网络，这表明对原始输入的特征进行建模而不是在较高层进行抽象表示的重要性。

在网络细节方面，我们观察到隐藏状态信道的数量，特别是底层的隐藏状态信道的数量，对最终的预测性能有很大的影响。因此，我们提出了一个5层架构，以追求高预测质量，合理的训练时间和内存使用量，该架构由4个Causal LSTM组成，分别具有128、64、64、64个通道，以及一个128通道的梯度公路单元。底部Causal LSTM层的顶部。我们还设置了卷积滤波器的大小为5在所有的递归单位。

5.实验

为了衡量我们方法的性能，我们在本文中使用了两个视频预测数据集：一个具有移动数字的合成数据集和一个具有人为动作的真实视频数据集。有关更多数据集的代码和结果，请参阅https://github.com/Yunbo426/predrnn-pp。

我们使用TensorFlow（Abadi等人，2016）训练所有比较的模型，并使用ADAM（Kingma＆Ba，2015）优化它们以收敛，起始学习率为10-3。此外，我们将计划抽样策略（Bengio等，2015）应用于所有模型，以弥补训练和推理之间的差异。至于目标函数，我们使用L1 + L2损失来同时增强所生成帧的清晰度和平滑度。

5.1移动MNIST数据集

实现我们首先通过在给定10个先前帧的情况下，预测10个未来帧来遵循移动MNIST数据集上的典型设置。然后，我们将预测时间范围从10个时间步长扩展到30个时间步长，以探索比较模型在进行远程预测中的能力。每帧包含2个手写数字，在64×64的图像网格内弹跳。为了确保训练后的模型在推断期间从未看到过数字，我们对原始MNIST数据集不同部分的数字进行采样，以构建训练集和测试集。数据集的数量是固定的，训练集为10,000个序列，验证集为3,000个序列，测试集为5,000个序列。为了测量泛化和传递能力，我们评估了在另外3个数字测试集上用2个移动数字训练的所有模型。

表1。PredRNN++的结果与其他模型进行了比较。我们报告每帧生成序列的SSIM和MSE。较高的SSIM或较低的MSE表示较高的预测质量。(*)表示由我们或其他人复制的非开源模型。

结果为了评估模型的性能，我们测量了每帧的结构相似性指标测度（SSIM）（Wang等，2004）和均方差（MSE）。 SSIM介于-1和1之间，得分越高，表示生成的图像与地面真实图像之间的相似度越高。表1比较了使用这些指标的最新模型。特别是，我们包括VPN模型的基线版本（Kalchbrenner等人，2017），该模型可以一次生成每个帧。在预测接下来的10帧时，我们的模型优于其他模型。为了接近高质量预测的时间限制，我们将预测的时间范围从10帧扩展到30帧。即使我们的模型在这种情况下仍然表现最佳，但由于未来的内在不确定性，它开始生成越来越模糊的图像。此后，我们仅讨论10帧实验设置。

图5。测试集上的帧上MSE。较低的曲线表示较高的预测质量。所有模型都在MNIST-2上训练

图5说明了逐帧MSE结果，较低的曲线表示较高的预测精度。对于所有模型，生成的图像的质量都会随着时间而降低。我们的模型产生的退化率较小，表明它具有克服长期信息丢失和学习与渐变高速公路之间的跳帧视频关系的能力。

图4。在移动MNIST-2测试集的输入或输出帧中分别使用纠缠数字的两个预测示例。

在图4中，我们显示了预测帧的示例。通过Causal 记忆单元，我们的模型可以对数字轨迹做出最准确的预测。我们还观察到，在未来的预测中最具挑战性的任务是在发生咬合后保持数字的形状。这种情况要求我们的模型从先前遥远的环境中学习。例如，在图4中的第一种情况下，两个数字在目标将来序列的开头相互纠缠。大多数先前的模型不能保持数字“8”的正确形状，因为它们的结果主要依赖于附近时间步长的高水平表示，而不是之前的输入(请参阅我们的事后梯度分析)。在第二个示例中发生类似的情况，所有比较的模型在预测的帧中都呈现出各种但不正确的数字“ 2”形状，而PredRNN ++保持了其外观。正是梯度公路体系结构使我们的方法能够学习更多的纠缠表示并预测运动对象的正确形状和轨迹。

消融研究 如表1所示，使用Causal LSTM代替ST-LSTM是有益的，这将PredRNN的SSIM评分从0.867提高到0.882。它证明了级联结构在连接时空记忆方面优于简单串联。作为对照实验，我们在Causal LSTM中交换了空间和时间记忆的位置。这种结构（时空变化）优于原始ST-LSTM，SSIM从0.867增至0.875，但其准确性低于使用标准Causal LSTM的精度。

表1还表明，梯度公路单位（GHU）与ST-LSTM和Causal LSTM都可以很好地协作。它可以持续地提高深度过渡循环模型的性能。在表2中，我们讨论了将GHU注入Causal LSTM之间的不同时隙的多个网络变量。事实证明，将此单位设置在Causal 最低LSTM的正上方最好。这样，GHU可以选择三个信息流的重要性：高速公路中的长期特征，深层过渡路径中的短期特征以及从当前输入帧中提取的空间特征。

表2.消融研究：将GHU注入4层Causal LSTM网络中。 GHU的插槽由与其连接的Causal LSTM的索引（k1，k2）定位。

梯度分析 我们观察到，移动数字经常以类似于真实遮挡的方式纠缠在一起。如果数字纠缠不清，则在将来的预测中很难将它们分开，同时又要保持其原始形状。这可能是由于消失的梯度问题引起的，该问题阻止了深度网络捕获长期帧关系。我们在图7（a）中评估这些模型的梯度。 是每个输入帧最后一个时间步损失函数w.r.t的梯度范数。与其他具有随时间急剧下降的梯度曲线（表明严重的消失梯度问题）的其他模型不同，我们的模型具有独特的碗形曲线，这表明它可以缓解消失的梯度。我们还观察到，该碗形曲线与时间上的遮挡频率一致，如图7（b）所示，这表明所提出的模型设法捕获了长期依赖性。

图7。梯度分析:(a)对每个输入帧的最后一个时间步长的损失函数的梯度范数，取其在整个测试集上的平均值。(b)在整个测试集上的5000个序列中，每个输入帧中数字纠缠的频率。

图6。损失函数的梯度准则在最后时间步, ,对编码器中间活动,包括隐状态、时间内存状态和空间记忆:

图6通过何种方式分析了我们的方法缓解了消失梯度问题，说明了关于中间隐藏状态和内存状态在最后一个时间步的损失函数导数的绝对值：，和。消失的梯度问题导致梯度从顶层下降到底层。为简单起见，我们分析由2层组成的递归模型。在图6（a）中， 的梯度在时间上迅速消失，表明先前的真实帧对最后一帧预测的影响可忽略不计。利用时间记忆连接，图6（b）中的PredRNN模型为梯度提供了从先前的底部状态到顶部的较短路径。 曲线随着时间推移而逐渐变慢，它强调了更相关的隐藏状态的表示形式。在图6（c）中，梯度公路表示 是最大的导数，而 则在时间上急剧下降，这表明梯度公路存储了长期依赖性，并允许Causal LSTM专注于短期框架关系。通过这种方式，PredRNN ++可以将不同时间尺度的视频表示与不同的网络组件分离开，从而获得更准确的预测。

5.2. KTH Action Dataset

KTH动作数据集（Schuldt等，2004）包含6种类型的人类动作（步行，慢跑，奔跑，拳击，挥手和拍手）：在不同的场景下，室内和室外都有不同的规模或衣服。每个视频片段的平均长度为4秒，是使用静态相机以25 fps帧速率拍摄的。

实现实验设置来自（Villegas等，2017a）：视频片段分为108,717个训练集和4,086个序列的测试集。然后，我们将每个帧的大小调整为128×128像素的分辨率。我们训练所有比较的模型，方法是为它们提供10帧，并使其生成后续的10帧。最小批量大小设置为8，并且在进行200,000次迭代后终止训练过程。在测试时间，我们将预测范围扩展到20个未来时间步长。

结果尽管由于单调动作和纯背景而几乎没有遮挡，但对于以前的方法而言，准确预测更长的视频序列仍然很困难，这很可能是由于梯度消失问题了。这个问题的关键是捕获长期的框架关系。在此数据集中，这意味着要学习长期反复执行的人体运动，例如演员走路时手臂和腿的摆动（图9）。

我们使用定量指标PSNR（峰值信噪比）和SSIM来评估预测的视频帧。 PSNR强调前景外观，得分越高表示两个图像之间的相似度越高。从经验上看，我们发现这两个指标在某些方面是互补的：PSNR更加关注像素级正确性，而SSIM对图像清晰度的差异也很敏感。通常，在评估预测模型时都需要将它们都考虑在内。表3评估了整体预测质量。对于每个序列，将度量值在20个生成的帧中平均。图8提供了更具体的逐帧比较。我们的方法在未来的每一步PSNR和SSIM上都表现得比目前的技术更好。这些结果与图9中的定量示例一致，这表明我们的模型对人体移动轨迹做出了相对准确的预测，并生成了较少的模糊视频帧。

表3. KTH人体动作测试集上不同方法的定量评估。这些指标是对20个预测帧的平均值。分数越高表示预测质量越好。

图8 不同模型在第k个测试集上的帧间PSNR和SSIM比较。曲线越高，结果越好。

我们还注意到，在图8中，在输出序列的前10个时间步中，所有度量标准曲线都迅速退化。但是，我们模型的指标曲线从第10步到第20步的下降幅度最慢，表明其捕获长期视频依存关系的强大能力。这是我们方法的重要特征，因为它大大降低了未来预测的不确定性。对于深层但没有坡度高速公路的模型，它将无法记住重复的人类动作，从而导致对未来移动轨迹的错误推断。通常，这种“失忆”效应将导致未来多种可能性，最终使生成的图像模糊。我们的模型可以使未来的预测更具确定性。

PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning相关推荐

PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning 翻译
PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning 目录 ...
【时空序列预测第四篇】PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive
前言保持住节奏,每周起码一篇paper reading,要时刻了解研究的前沿,是一个不管是工程岗位还是研究岗位AIer必备的工作,共勉! 准备再写几篇这种非常细致的文章之后,接下来写作主要集中在模型 ...
PreRNN+：Towards A Resolution of the Deep-in-Dilemma in Saptiotemporal Predictive Learning
<PreRNN+:Towards A Resolution of the Deep-in-Dilemma in Saptiotemporal Predictive Learning>论文解 ...
【论文阅读】Deep Transformer Q-Networks for Partially Observable Reinforcement Learning
Deep Transformer Q-Networks for Partially Observable Reinforcement Learning 1 本文解决了什么问题? 近年来,以 DQN 为 ...
2020CVPR超分系列二Deep Unfolding Network for Image SR+Meta-Transfer Learning ZSSR+Res FeatureAggregation
1.Deep Unfolding Network for Image Super-Resolution 代码传送门 1.1 总结作者认为: learning-base方法目前展现出相比传统model ...
Deep Tone-Mapping Operator UsingImage Quality Assessment InspiredSemi-Supervised Learning
ABSTRACT 色调映射操作符(TMO)旨在将高动态范围(HDR)内容转换为低动态范围,以便其可以在标准动态范围(SDR)设备上显示. HDR内容的色调映射结果通常存储为SDR图像. 对于不同的HD ...
整理研究方向（1）【未完成】
系列文章目录整理研究方向(2) 文章目录系列文章目录整理研究方向(2) 郑宇团队工作 2022 2021 总结与分析研究方向的转变心得体会--我们可以做什么呢? 北交林友芳团队时空数据挖掘 ...
ICML 2018 paper(oral)
参考链接 icml 2018 oral Paperlist Optimal Tuning for Divide-and-conquer Kernel Ridge Regression with Mas ...
卷积LSTM网络应用于时空序列预测
时空序列预测问题是输入的是按照某一时刻之前若干个时刻表示空间信息的二维矩阵,预测某一时刻后面若干个时刻的空间状态.可以形式化为: 卷积LSTM(Convolutional LSTM)是把卷积神经网络的 ...

PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning