Inserting Videos into Videos_论文阅读

2024-06-01 19:20:39

CVPR 2019

原文链接：https://arxiv.org/pdf/1903.06571v1.pdf

摘要

主要任务：将对象视频插入场景视频中的指定位置，使新得到的视频看起来真实。
亮点：不使用复杂的标注，处理不同的对象运动和复杂的背景。
方法：合成假数据对。

简述

遇到的挑战：在没有任何监督的情况下，需要处理不同背景，遮挡，光照条件和物体尺寸等挑战性问题。例如，过分依赖于对象分割方法的算法的性能，该算法通常无法在复杂场景中准确地裁剪前景对象。
解决方法：首先解决图像域中的相关问题，即如何将给定的对象图像插入到来自不同视频的其他帧中。为了缓解不成对数据的问题，提出合成可以为对象插入提供监控信号的伪数据。
　　通过混合来自每个视频的对象图像和随机背景补丁来生成伪数据。然后，网络学习如何从混合数据重建对象。由于重建误差提供了强有力的监督信号，这种方法利用不成对的真实数据促进了生成对抗框架的学习过程。在推理期间，将新对象混合到场景视频的目标位置，然后馈送到训练的网络。
　　使用去噪自动编码器的想法：在合成当前帧之前将随机噪声注入到先前的帧中。从而降低帧崩溃。它迫使网络学习先前帧和当前输入之间的语义，而不是盲目地复制和粘贴来自先前帧的大部分信息。

主要贡献

1）从图像到视频的对象插入领域。
2）提出了一种新颖的方法来合成有监督的假训练对，它可以帮助深层神经网络学习插入没有监督真实对的对象。
3）开发了一个新的条件GAN模型，以促进无人监督的真实和有监督的假训练对的联合训练。
4）证明了所提出的算法可以基于具有挑战性的真实世界输入视频来合成逼真的视频。

相关工作

图像插入

视频合成

算法

Inserting Videos into Videos_论文阅读相关推荐

论文阅读：Exposing DeepFake Videos By Detecting FaceWarping Artifacts
论文阅读:Exposing DeepFake Videos By Detecting FaceWarping Artifacts 现在对于论文阅读还是比较头疼,很多翻译都很奇怪,还是要提高英语能力啊, ...
深度学习-视频行为识别：论文阅读——双流网络（Two-stream convolutional networks for action recognition in videos）
这里写目录标题视频的行为识别前言背景内容组成主要贡献算法介绍网络结构双流(two stream)网络结构空间流卷积网络(Spatial stream ConvNet) 时间流卷积网络 ...
论文阅读笔记--Aesthetics-Driven Stereoscopic 3-D Image Recomposition With Depth Adaptation-2018
论文阅读笔记:美学引导的带有深度适应的立体3D图像重构 I.介绍 II.相关工作 A.单目(2D)图像处理 1)美学驱动的重构(Recomposition) 2)图像分割与抠图(Segment and ...
【论文阅读】Spatio-Temporal Graph Convolutional Networks:...Traffic Forecasting[时空图卷积网络:用于交通预测的深度学习框架]（1）
[论文阅读]Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecastin ...
【DispNet_CVPR_2016】论文阅读之一
<A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Esti ...
论文阅读新的非视距场景(imaging behind occluders)|| ECCV 2020: Imaging Behind Occluders Using Two-Bounce Light
论文阅读 Henley, C., Maeda, T., Swedish, T., & Raskar, R. (2020, August). Imaging Behind Occluders U ...
单目深度估计(Monocular Depth Estimation)论文阅读 2021-01-15
单目深度估计问题公式化:求非线性映射函数一.数据集: NYU Depth:视频序列和dense depth map通过RGB-D采集的,但是不是每一种图像都有深度图,因为映射是离散的. KITTI ...
场景生成及编辑3D定位论文阅读
前置知识归纳偏置关于归纳偏置的理解:首先推荐一篇解释归纳偏置非常好的博客:浅谈归纳偏置 (InductiveBias) 通俗的,归纳偏置可以理解为,从现实生活中观察到的现象中归纳出一定的规则(h ...
论文阅读【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation
论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...

最新文章

热门文章