关注公众号,发现CV技术之美

本文分享 CVPR 2021 论文『Learning Semantic-Aware Dynamics for Video Prediction』,前景背景分开建模,UCLA视觉研究组提出用于视频预测的动态语义模型。

详细信息如下:

  • 论文题目:Learning Semantic-Aware Dynamics for Video Prediction

  • 论文链接:https://arxiv.org/abs/2104.09762

      01      

动机

对于很多自主感知应用而言,预测环境未来的变化是非常重要的基础功能。本文来自加州大学洛杉矶分校和斯坦福大学,提出了一种语义导向的动态模型来实现视频预测。

本文作者认为,在视频数据中,由于物体自身的几何结构和运动模式不同,会产生不同的时序视觉变化,直接训练模型来预测整个画幅的变化,难度较大,所以本文假设,将视频场景分解成独立的个体,捕获每个个体的演变特点,然后再进行预测整合,可以提高整体预测的效果。

上图为对同一段视频帧序列的三种不同表示,视频帧、语义分割图和光流场,可以看出,视频帧中发生的动态变化相比语义分割图和光流场中的动态变化都更为复杂,所以作者提出将语义分割图(场景布局)和光流场(运动信息)分开处理,分别进行预测,并将它们的上下文信息进行整合,来进行未来帧的预测。

      02      

本文方法

本文的核心出发点是为了明确的进行动态语义建模,即动态模型的输入为视频帧的语义图和光流场,模型预测得到未来K帧的描述,随后进行特征融合一系列后处理得到最后的预测结果。

2.1 语义动态建模

对于输入的动态描述(语义图和光流图),本文以编解码的形式进行处理,具体流程如下图所示。

语义一致性区域通过C个语义类别构成,令为当前类别c的区域掩码,将该掩码乘到对应t时刻的光流场得到当前类别c的动态像素,对动态像素经过语义循环编码器得到历史帧的中间状态即历史时序信息:

对于全部类别得到中间状态集合,包含了已经输入模型的所有语义图和光流场,需要说明的一点是,每次只能表示一个类别的独立对象,虽然会给人一种效率低下的感觉,但是分开类别处理可以减少模型的参数量,同时独立的对象更易于表示。

随后语义循环解码器通过对编码器得到的历史时序信息进行动态信息提取,进而预测未来帧的语义图和光流场,预测流程如下:

其中表示C个类别的循环解码器,不断更新中间状态和嵌入表示,随后使用两个预测头分别对语义图和光流场进行预测,并通过多任务学习的形式进行模型优化。随后对预测得到的未来帧语义图和光流场以线性组合的形式后融合得到最终结果。

2.2 损失函数

动态语义建模的优化目标由以下三项构成,首先是对于未来帧的光流图的重建损失:

对于语义图的预测使用加权交叉熵损失:

其中为交叉熵函数,附加的权重用来描述当前元素是否靠近不同类别之间边界的程度。以上两个损失函数可以对上文提到的明确性语义感知建模进行监督,但是本文作者提到仍然需要给模型对未来帧预测时增加一定的随机性。为此,本文额外加入了一个循环编码器,该编码器以同样的方式对历史帧进行处理,其目标是生成与输入序列相对应的随机噪声,然后以参数重置的方式将噪声进行整合,加入KL散度损失对进行优化:

整体损失函数由上述三项联合得到:

2.3 去遮挡处理

由于动态语义模型只负责生成未来帧的语义图和光流场,对于最终视频帧的预测需要借助输入历史帧的图像细节,但是直接将得到的语义图和光流场对历史序列进行叠加,势必会带来一定的目标错位和遮挡,所以作者将历史序列帧作为锚点随后进行变化,引入一个条件绘制网络,该网络将输入作为锚点帧,尝试将遮挡区域进行补全,并以对抗训练的方式进行优化,完成整体的未来帧预测过程。

      03      

实验效果

本文在三个常见的数据集上进行了实验,分别是Cityscapes、KITTI Flow和KITTI Raw,这些数据集包含一定数量的车辆驾驶场景,本文使用预训练好的语义分割网络DeepLabV3和光流估计网络PWC-Net分别对视频序列提取语义图和光流场。

质量对比实验分为未来帧预测效果对比和语义分割精确度对比两部分,其中预测效果对比由MS-SSIM和LPIPS两种常用的图像恢复评价指标给出:

分别在Cityscapes和KITTI Raw数据集上有优越的性能表现。对于语义分割效果对比使用平均IoU给出,分数计算以对每个序列的第20帧的预测结果为准,下表给出了对于不同序列长度的对比结果,可以看到本文方法在序列长度较长时效果更加明显。

END

加入「视频技术交流群

CVPR 2021 前景背景分开建模,UCLA 视觉研究组提出用于视频预测的动态语义模型...相关推荐

  1. 什么是故事板?(故事图、Storyboard)(软件显示效果的视觉草图,用于视频创作和广告设计,表达作者的创意)

    故事板是软件显示效果的视觉草图,用于视频创作和广告设计,表达作者的创意.20世纪90年代以来,电脑绘制软件渐渐取代了过去的手绘故事板,许多大制作的商业影片,都在拍摄之前用电脑动画模拟的方式创建故事板, ...

  2. CVPR 2021| 端到端场景无关视觉定位算法(SuperGlue一作出品)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 今天要介绍的文章是"Back to the Feature: Learning Robust ...

  3. CVPR 2021 更好的Backbone,伯克利谷歌提出BoTNet,精度达84.7%

    本篇分享论文『Bottleneck Transformers for Visual Recognition』,由 UC Berkeley & Google Research(Transform ...

  4. 微软华人团队刷新COCO记录!全新目标检测机制达到SOTA|CVPR 2021

    转自:新智元 [导读]在最近放出的CVPR 2021论文中,微软的研究者提出了多重注意力机制统一目标检测头方法Dynamic Head.在Transformer骨干和额外数据加持下,将COCO单模型测 ...

  5. ICCV 2021 | PMF: 基于视觉感知的多传感器融合点云语义分割方法

    作者丨月明星稀风萧萧@知乎 来源丨https://zhuanlan.zhihu.com/p/419187044 编辑丨3D视觉工坊 今天,我将分享一个 ICCV 2021 中的工作,基于视觉感知的多传 ...

  6. 浙大三维视觉团队提出Animatable NeRF,从RGB视频中重建可驱动人体模型 (ICCV'21)

    关注公众号,发现CV技术之美 本文经作者授权转载自知乎: https://zhuanlan.zhihu.com/p/421072327 我们介绍一篇2021 ICCV的人体重建论文:Animatabl ...

  7. PMF: 基于视觉感知的多传感器融合点云语义分割方法(ICCV2021)

    作者丨月明星稀风萧萧 来源丨https://zhuanlan.zhihu.com/p/419187044 编辑丨3D视觉工坊 今天,我将分享一个 ICCV 2021 中的工作,基于视觉感知的多传感器融 ...

  8. 商品3D建模的视觉定位和前景分割方法

    2021年10月,大淘宝技术发布了基于神经渲染的3D建模产品object drawer ,用户只需要环拍一圈商品的视频,就可以生成3D模型. 在物体重建算法流程中,需要先计算出每一帧图像的相机位姿(平 ...

  9. 微软亚研院 CVPR 2021 9篇视觉研究前沿进展

    本文转载自微软研究院AI头条. 编者按:作为世界顶级的 AI 会议,CVPR 一直引领着计算机视觉与模式识别技术领域的学术与工业潮流.今年的 CVPR 于6月19日至25日在线上举办.在此,为大家精选 ...

最新文章

  1. iometer硬盘测试工具附教程
  2. 美颜算法之自动祛斑算法实现 | 案例分享
  3. 7秒钟的记忆?Facebook提出DL新算法,东南大学90后博士新作
  4. JavaBean技术
  5. linux端口对外开放
  6. vue实现查询多条记录_sql:多表查询
  7. Linux Socket TCP/IP通信
  8. 建立http服务器,基于名称的虚拟主机
  9. 逻辑综合——概述与基本概念
  10. jq如何在打开新的页面 关闭之前同链接的页面_教你如何“抢”其他域名的权重...
  11. 013.Makefile
  12. ASP.NET MVC模型绑定int超出范围时
  13. JavaScript中值类型与引用类型
  14. 微信小程序弹框滑动冒泡,外层页面也被滑动问题
  15. Hearbeat + Nginx 安装配置
  16. Oracle 日志解析ogg,对一段OracleGoldenGate(OGG)传输进程日志(.rpt文件)的解释
  17. 03_D-H参数表的建立
  18. html旋转360度特效,CSS3图片旋转特效(360/60/-360度)
  19. Learning RoI Transformer for Detecting Oriented Objects in Aerial Images
  20. 浅谈知识付费模式的兴起及意义

热门文章

  1. 多元分类SVM(多类别SVM)程序使用说明
  2. 诱导公式的本质【转载】
  3. 使用cmake时发生not providing *.cmake in CMAKE_MODULE_PATH类错误的解决办法
  4. 【OpenCV图像处理】一、图像相加、相减、相乘与相除的实现【转载】
  5. 计算机视觉基础——图像处理(彩色空间互转)cpp+python
  6. 滑动窗口的最小值问题
  7. P1395 会议[链式前向星板](树的最小重心点+所有点到重心距离的和)
  8. STM32 - CubeMX 的使用实例详细(01.1)- ST-LINK V2 的配置
  9. 多径传输系统MATLAB代码,求助大佬帮忙写毕设代码啊。。用matlab做MIMO-FrFT-OFDM系统...
  10. java复制文件夹_java实现拷贝一个文件夹,里面存在目录和文件,使用文件创建和文件流...