PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning
摘要
我们提出了PredRNN ++,这是一种用于时空预测学习的递归网络。为了获得强大的短期视频动态建模能力,我们利用名为Causal LSTM的新型递归结构和级联双存储器,使我们的网络更加及时。为了减轻深度预测模型中的梯度传播困难,我们提出了“Gradient Highway Unit”,该单位为从输出返回到远程先前输入的梯度流提供了替代的快速路线。The gradient highway可与Causal LSTM无缝协作,从而使我们的模型能够自适应地捕获短期和长期视频依存关系。我们的模型在合成和真实视频数据集上均实现了最新的预测结果,显示了其在纠缠运动建模中的强大功能。
1.简介
时空预测学习是以自监督的方式(有时称为无监督的)从无标签的视频数据中学习功能,并使用它们来执行特定的任务。这种学习范例已经有益于或可能有益于实际应用,例如降水预测(Shi等,2015; Wang等,2017),交通流量预测(Zhang等,2017; Xu等,2018)和物理相互作用模拟(Lerer等,2016; Finn等)等人,2016年)。
准确的预测学习方法需要在不同时间范围内有效地对视频动态建模。考虑两种典型情况:(i)当突然发生变化时,应在附近的帧而不是远的帧上生成将来的图像,这要求预测模型学习短期视频动态;(ii)场景中运动物体经常发生纠缠,在生成的帧中很难将其分离。这就要求预测模型在发生遮挡之前回想先前的上下文。因此,应该适应性地考虑短期和长期的视频关系。
1.1 Deep-in-Time Structures和消失梯度困境
为了捕获长期的帧依存关系,递归神经网络(RNN)(Rumelhart等,1988; Werbos,1990; Williams&Zipser,1995)最近已应用于视频预测学习(Ranzato等,2014)。 )。但是,大多数方法(Srivastava等人,2015a; Shi等人,2015; Patraucean等人,2016)遵循传统的RNN链结构,并没有充分利用网络深度。尽管理论证据表明,更深的网络在空间特征提取(Bianchini和Scarselli,2014)和序列建模(Pascanu等人)中都可以以指数方式更有效,但可以通过简单的函数对相邻RNN状态从一个时间步到下一个时间步之间的转换进行建模。 。,2013)。我们认为,Deep-in-Time,即增加从输入到输出的重复状态数,将大大提高其学习短期视频动态的能力。
因此,以前的最新模型PredRNN(Wang等人,2017)从一帧到下一帧应用了复杂的非线性过渡函数,在长短期记忆(LSTM)上构建了双重记忆结构(Hochreiter&Schmidhuber,1997)。不幸的是,这种复杂的结构容易遭受梯度消失的困扰(Bengio等,1994; Pascanu等,2013),即梯度的幅度在反向传播(BPTT)过程中呈指数衰减。时空预测学习存在一个难题:越来越多的深度网络已经被设计用于复杂的视频动态,同时也给梯度传播带来了更多的困难。因此,如何在深层预测模型中保持稳定的梯度流是值得探索的道路。我们的主要看法在于在RNN状态或层之间建立自适应连接,从而为我们的模型同时提供从输入框架到预期的未来预测的更长的路线和更短的路线。
2.相关工作
递归神经网络(RNN)广泛用于视频预测。 Ranzato等(2014年)构建了RNN模型来预测下一帧。 Srivastava等(2015a)将序列调整为序列LSTM框架,以进行多帧预测。 Shi等(2015年)扩展了该模型,并通过在循环连接中插入卷积运算来提出了卷积LSTM(ConvLSTM)。 Finn等(2016年)开发了一种行动条件预测模型,该模型可明确预测前一帧中像素运动的分布。 Lotter等(2017)在ConvLSTM的基础上建立了预测模型,主要侧重于提高下一帧的预测质量。 Villegas等(2017a)提出了一个将信息成分(运动和内容)分成不同编码器路径的网络。 Patraucean等(2016年)预测中间像素流,并将该流应用于预测图像像素。 Kalchbrenner等(2017)提出了一个结合了门CNN和ConvLSTM结构的复杂模型。它使用成熟但复杂的PixelCNN来一对一估计视频中的像素值(van den Oord等人,2016),因此严重遭受了低预测效率的困扰。 Wang等(2017)提出了一种具有两个存储单元的深度过渡RNN,其中时空存储流经不同RNN层的所有RNN状态。
卷积神经网络(CNN)也参与视频预测,尽管它们仅创建固定大小输入的表示形式。Oh等(2015年)为Atari游戏预测定义了基于CNN的自动编码器模型。 De Brabandere等(2016年)使卷积网络的滤波器操作适应特定的输入样本。 Villegas等(2017b)提出了一个由三个阶段组成的框架,其中包含附加的带注释的人类关节数据,以进行更长的预测。为了应对未来预测的内在多样性,Babaeizadeh等人(2018)和Denton&Fergus(2018)探索了视频预测模型中的随机变分方法。但是很难评估这些随机模型的性能。生成对抗网络(Goodfellow等,2014; Denton等,2015)被用于视频预测(Mathieu等,2016; Vondrick等,2016; Bhattacharjee&Das,2017; Denton等, 2017; Lu等人,2017; Tulyakov等人,2018)。这些方法试图通过将所生成图像的清晰度作为区分真实/伪造视频帧的主要特征来保持其清晰度。但是这些模型的性能很大程度上取决于对不稳定的对抗网络的仔细训练。
总之,现有的视频预测模型产生不同的缺点。基于CNN的方法可在一遍中预测有限数量的帧。他们关注的是空间外观,而不是长期运动中的时间连贯性。相比之下,基于RNN的方法可通过循环连接捕获时间动态。然而,他们的预测受到众所周知的RNN消失梯度问题的困扰,因此特别依赖于最接近的帧。在我们的初步实验中,很难在生成的未来帧中保存运动对象的形状,尤其是在它们重叠之后。在本文中,我们通过提出一种新的梯度公路递归单元来解决此问题,该单元可吸收以前视频帧中的知识并有效利用长期信息。
3.重新审视深度架构
增加RNN深度的一般方法是堆叠多个隐藏层。用于视频预测的典型堆叠递归网络(Shi等,2015)可以表示为图1(a)。循环单元ConvLSTM旨在通过门控结构正确保留和忘记过去的信息,然后将其与当前的空间表示形式融合。尽管如此,堆叠式ConvLSTM并没有为逐步循环状态转换添加额外的建模能力。
(b)深度转换ConvLSTM网络
在我们的初步观察中,增加ConvLSTM的逐步过渡深度可以显着提高其针对短期动态的建模能力。如图所示在图1(b)中,隐藏状态H和内存状态C在锯齿形方向上进行了更新。水平相邻状态之间扩展的递归深度使网络能够在短时间内学习附近帧的复杂非线性过渡函数。但是,它引入了逐渐消失的梯度问题,因此很难捕获视频中的长期相关性。尽管简化的单元格结构(经常性高速公路)(Zilly等人,2017年)可能在某种程度上缓解了这个问题,但它却牺牲了时空建模能力,正像前面描述的困境一样。
(c)具有时空LSTM(ST-LSTM)的PredRNN中的数据流。 PredRNN的两个内存并行工作:子图(c)中的红线表示空间内存的深层过渡路径,而水平的黑色箭头表示时间内存的更新方向。
4. PredRNN ++
4.1 Causal LSTM
图2。Causal LSTM,即时间和空间记忆通过门控结构以级联方式连接。彩色部分是新设计的操作,同心圆表示连接,σ是元素方面的Sigmoid函数。
4.2Gradient Highway
其中W••表示卷积滤波器。 命名为Switch Gate,因为它能够在 转换后的输入 和隐藏状态 之间进行自适应学习。方程2可简单表示为
图3。最终的架构与梯度公路单位(上)(下),同心圆表示连接的地方, σ是元素方式的Sigmoid函数。蓝色部分表示将当前时间步长与之前输入直接连接的梯度公路,而红色部分表示深度转换路径。
5.实验
5.1移动MNIST数据集
表1。PredRNN++的结果与其他模型进行了比较。我们报告每帧生成序列的SSIM和MSE。较高的SSIM或较低的MSE表示较高的预测质量。(*)表示由我们或其他人复制的非开源模型。
图5。测试集上的帧上MSE。较低的曲线表示较高的预测质量。所有模型都在MNIST-2上训练
图4。在移动MNIST-2测试集的输入或输出帧中分别使用纠缠数字的两个预测示例。
表2.消融研究:将GHU注入4层Causal LSTM网络中。 GHU的插槽由与其连接的Causal LSTM的索引(k1,k2)定位。
图7。梯度分析:(a)对每个输入帧的最后一个时间步长的损失函数的梯度范数,取其在整个测试集上的平均值。(b)在整个测试集上的5000个序列中,每个输入帧中数字纠缠的频率。
图6。损失函数的梯度准则在最后时间步, ,对编码器中间活动,包括隐状态、时间内存状态和空间记忆:
5.2. KTH Action Dataset
表3. KTH人体动作测试集上不同方法的定量评估。这些指标是对20个预测帧的平均值。分数越高表示预测质量越好。
图8 不同模型在第k个测试集上的帧间PSNR和SSIM比较。曲线越高,结果越好。
PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning相关推荐
- PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning 翻译
PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning 目录 ...
- 【时空序列预测第四篇】PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive
前言 保持住节奏,每周起码一篇paper reading,要时刻了解研究的前沿,是一个不管是工程岗位还是研究岗位AIer必备的工作,共勉! 准备再写几篇这种非常细致的文章之后,接下来写作主要集中在模型 ...
- PreRNN+:Towards A Resolution of the Deep-in-Dilemma in Saptiotemporal Predictive Learning
<PreRNN+:Towards A Resolution of the Deep-in-Dilemma in Saptiotemporal Predictive Learning>论文解 ...
- 【论文阅读】Deep Transformer Q-Networks for Partially Observable Reinforcement Learning
Deep Transformer Q-Networks for Partially Observable Reinforcement Learning 1 本文解决了什么问题? 近年来,以 DQN 为 ...
- 2020CVPR超分系列二Deep Unfolding Network for Image SR+Meta-Transfer Learning ZSSR+Res FeatureAggregation
1.Deep Unfolding Network for Image Super-Resolution 代码传送门 1.1 总结 作者认为: learning-base方法目前展现出相比传统model ...
- Deep Tone-Mapping Operator UsingImage Quality Assessment InspiredSemi-Supervised Learning
ABSTRACT 色调映射操作符(TMO)旨在将高动态范围(HDR)内容转换为低动态范围,以便其可以在标准动态范围(SDR)设备上显示. HDR内容的色调映射结果通常存储为SDR图像. 对于不同的HD ...
- 整理研究方向(1)【未完成】
系列文章目录 整理研究方向(2) 文章目录 系列文章目录 整理研究方向(2) 郑宇团队工作 2022 2021 总结与分析 研究方向的转变 心得体会--我们可以做什么呢? 北交林友芳团队 时空数据挖掘 ...
- ICML 2018 paper(oral)
参考链接 icml 2018 oral Paperlist Optimal Tuning for Divide-and-conquer Kernel Ridge Regression with Mas ...
- 卷积LSTM网络应用于时空序列预测
时空序列预测问题是输入的是按照某一时刻之前若干个时刻表示空间信息的二维矩阵,预测某一时刻后面若干个时刻的空间状态.可以形式化为: 卷积LSTM(Convolutional LSTM)是把卷积神经网络的 ...
最新文章
- PCL深度图像(1)
- 《视频直播技术详解》之(四):编码和封装
- OpenWrt编程篇
- 计算机更改了用户名数据恢复,怎么把电脑更换用户后恢復到原来的用户呢?
- 会议交流 | 智能风控技术峰会(请关注图分析相关论坛)
- debug最常用的快捷键
- three.js和php,详解three.js本地运行的方法
- ORACLE SQL*PLUS
- JAVA在线购物B2C商城源码
- Matlab心电信号QRS波检测
- MATLAB神经网络工具箱 BP神经网络函数化表示 BP神经网络梯度\求导函数
- 学校计算机房的制度,小学计算机房管理制度
- 数字金额转换大写 先写个完整的然后将如零拾替换成零
- 关于@NotNull和@NotBlank的问题
- 微信小程序使用iconfont字体图标
- 基于 HTML5 WebGL 的高炉炼铁厂可视化系统
- 【Android】Broadcast
- 十什么争什么的成语(十什么争什么四字成语大全)
- Java程序员非技术性面试题目
- java实现日历签到功能_[java] 可视化日历的实现(基于Calendar类 )