CVPR 2021 前景背景分开建模，UCLA 视觉研究组提出用于视频预测的动态语义模型...

关注公众号，发现CV技术之美

本文分享 CVPR 2021 论文『Learning Semantic-Aware Dynamics for Video Prediction』，前景背景分开建模，UCLA视觉研究组提出用于视频预测的动态语义模型。

详细信息如下：

论文题目：Learning Semantic-Aware Dynamics for Video Prediction
论文链接：https://arxiv.org/abs/2104.09762

动机

对于很多自主感知应用而言，预测环境未来的变化是非常重要的基础功能。本文来自加州大学洛杉矶分校和斯坦福大学，提出了一种语义导向的动态模型来实现视频预测。

本文作者认为，在视频数据中，由于物体自身的几何结构和运动模式不同，会产生不同的时序视觉变化，直接训练模型来预测整个画幅的变化，难度较大，所以本文假设，将视频场景分解成独立的个体，捕获每个个体的演变特点，然后再进行预测整合，可以提高整体预测的效果。

上图为对同一段视频帧序列的三种不同表示，视频帧、语义分割图和光流场，可以看出，视频帧中发生的动态变化相比语义分割图和光流场中的动态变化都更为复杂，所以作者提出将语义分割图（场景布局）和光流场（运动信息）分开处理，分别进行预测，并将它们的上下文信息进行整合，来进行未来帧的预测。

本文方法

本文的核心出发点是为了明确的进行动态语义建模，即动态模型的输入为视频帧的语义图和光流场，模型预测得到未来K帧的描述，随后进行特征融合一系列后处理得到最后的预测结果。

2.1 语义动态建模

对于输入的动态描述（语义图和光流图），本文以编解码的形式进行处理，具体流程如下图所示。

语义一致性区域通过C个语义类别构成，令为当前类别c的区域掩码，将该掩码乘到对应t时刻的光流场得到当前类别c的动态像素，对动态像素经过语义循环编码器得到历史帧的中间状态即历史时序信息：

对于全部类别得到中间状态集合，包含了已经输入模型的所有语义图和光流场，需要说明的一点是，每次只能表示一个类别的独立对象，虽然会给人一种效率低下的感觉，但是分开类别处理可以减少模型的参数量，同时独立的对象更易于表示。

随后语义循环解码器通过对编码器得到的历史时序信息进行动态信息提取，进而预测未来帧的语义图和光流场，预测流程如下：

其中表示C个类别的循环解码器，不断更新中间状态和嵌入表示，随后使用两个预测头和分别对语义图和光流场进行预测，并通过多任务学习的形式进行模型优化。随后对预测得到的未来帧语义图和光流场以线性组合的形式后融合得到最终结果。

2.2 损失函数

动态语义建模的优化目标由以下三项构成，首先是对于未来帧的光流图的重建损失：

对于语义图的预测使用加权交叉熵损失：

其中为交叉熵函数，附加的权重用来描述当前元素是否靠近不同类别之间边界的程度。以上两个损失函数可以对上文提到的明确性语义感知建模进行监督，但是本文作者提到仍然需要给模型对未来帧预测时增加一定的随机性。为此，本文额外加入了一个循环编码器，该编码器以同样的方式对历史帧进行处理，其目标是生成与输入序列相对应的随机噪声，然后以参数重置的方式将噪声进行整合，加入KL散度损失对进行优化：

整体损失函数由上述三项联合得到：

2.3 去遮挡处理

由于动态语义模型只负责生成未来帧的语义图和光流场，对于最终视频帧的预测需要借助输入历史帧的图像细节，但是直接将得到的语义图和光流场对历史序列进行叠加，势必会带来一定的目标错位和遮挡，所以作者将历史序列帧作为锚点随后进行变化，引入一个条件绘制网络，该网络将输入作为锚点帧，尝试将遮挡区域进行补全，并以对抗训练的方式进行优化，完成整体的未来帧预测过程。

实验效果

本文在三个常见的数据集上进行了实验，分别是Cityscapes、KITTI Flow和KITTI Raw，这些数据集包含一定数量的车辆驾驶场景，本文使用预训练好的语义分割网络DeepLabV3和光流估计网络PWC-Net分别对视频序列提取语义图和光流场。

质量对比实验分为未来帧预测效果对比和语义分割精确度对比两部分，其中预测效果对比由MS-SSIM和LPIPS两种常用的图像恢复评价指标给出：

分别在Cityscapes和KITTI Raw数据集上有优越的性能表现。对于语义分割效果对比使用平均IoU给出，分数计算以对每个序列的第20帧的预测结果为准，下表给出了对于不同序列长度的对比结果，可以看到本文方法在序列长度较长时效果更加明显。

END

加入「视频技术」交流群

CVPR 2021 前景背景分开建模，UCLA 视觉研究组提出用于视频预测的动态语义模型...相关推荐

什么是故事板？（故事图、Storyboard）（软件显示效果的视觉草图，用于视频创作和广告设计，表达作者的创意）
故事板是软件显示效果的视觉草图,用于视频创作和广告设计,表达作者的创意.20世纪90年代以来,电脑绘制软件渐渐取代了过去的手绘故事板,许多大制作的商业影片,都在拍摄之前用电脑动画模拟的方式创建故事板, ...
CVPR 2021| 端到端场景无关视觉定位算法(SuperGlue一作出品)
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达今天要介绍的文章是"Back to the Feature: Learning Robust ...
CVPR 2021 更好的Backbone，伯克利谷歌提出BoTNet，精度达84.7%
本篇分享论文『Bottleneck Transformers for Visual Recognition』,由 UC Berkeley & Google Research(Transform ...
微软华人团队刷新COCO记录！全新目标检测机制达到SOTA｜CVPR 2021
转自:新智元 [导读]在最近放出的CVPR 2021论文中,微软的研究者提出了多重注意力机制统一目标检测头方法Dynamic Head.在Transformer骨干和额外数据加持下,将COCO单模型测 ...
ICCV 2021 | PMF: 基于视觉感知的多传感器融合点云语义分割方法
作者丨月明星稀风萧萧@知乎来源丨https://zhuanlan.zhihu.com/p/419187044 编辑丨3D视觉工坊今天,我将分享一个 ICCV 2021 中的工作,基于视觉感知的多传 ...
浙大三维视觉团队提出Animatable NeRF，从RGB视频中重建可驱动人体模型 (ICCV'21)
关注公众号,发现CV技术之美本文经作者授权转载自知乎: https://zhuanlan.zhihu.com/p/421072327 我们介绍一篇2021 ICCV的人体重建论文:Animatabl ...
PMF: 基于视觉感知的多传感器融合点云语义分割方法（ICCV2021）
作者丨月明星稀风萧萧来源丨https://zhuanlan.zhihu.com/p/419187044 编辑丨3D视觉工坊今天,我将分享一个 ICCV 2021 中的工作,基于视觉感知的多传感器融 ...
商品3D建模的视觉定位和前景分割方法
2021年10月,大淘宝技术发布了基于神经渲染的3D建模产品object drawer ,用户只需要环拍一圈商品的视频,就可以生成3D模型. 在物体重建算法流程中,需要先计算出每一帧图像的相机位姿(平 ...
微软亚研院 CVPR 2021 9篇视觉研究前沿进展
本文转载自微软研究院AI头条. 编者按:作为世界顶级的 AI 会议,CVPR 一直引领着计算机视觉与模式识别技术领域的学术与工业潮流.今年的 CVPR 于6月19日至25日在线上举办.在此,为大家精选 ...

CVPR 2021 前景背景分开建模，UCLA 视觉研究组提出用于视频预测的动态语义模型...

CVPR 2021 前景背景分开建模，UCLA 视觉研究组提出用于视频预测的动态语义模型...相关推荐

最新文章

热门文章