CVPR 2019
原文链接:https://arxiv.org/pdf/1903.06571v1.pdf

摘要

主要任务:将对象视频插入场景视频中的指定位置,使新得到的视频看起来真实。
亮点:不使用复杂的标注,处理不同的对象运动和复杂的背景。
方法:合成假数据对。

简述

遇到的挑战:在没有任何监督的情况下,需要处理不同背景,遮挡,光照条件和物体尺寸等挑战性问题。 例如,过分依赖于对象分割方法的算法的性能,该算法通常无法在复杂场景中准确地裁剪前景对象。
解决方法:首先解决图像域中的相关问题,即如何将给定的对象图像插入到来自不同视频的其他帧中。为了缓解不成对数据的问题,提出合成可以为对象插入提供监控信号的伪数据。
   通过混合来自每个视频的对象图像和随机背景补丁来生成伪数据。 然后,网络学习如何从混合数据重建对象。 由于重建误差提供了强有力的监督信号,这种方法利用不成对的真实数据促进了生成对抗框架的学习过程。 在推理期间,将新对象混合到场景视频的目标位置,然后馈送到训练的网络。
  使用去噪自动编码器的想法:在合成当前帧之前将随机噪声注入到先前的帧中。从而降低帧崩溃。 它迫使网络学习先前帧和当前输入之间的语义,而不是盲目地复制和粘贴来自先前帧的大部分信息。

主要贡献

1)从图像到视频的对象插入领域。
2)提出了一种新颖的方法来合成有监督的假训练对,它可以帮助深层神经网络学习插入没有监督真实对的对象。
3)开发了一个新的条件GAN模型,以促进无人监督的真实和有监督的假训练对的联合训练。
4)证明了所提出的算法可以基于具有挑战性的真实世界输入视频来合成逼真的视频。

相关工作

图像插入
视频合成

算法

Inserting Videos into Videos_论文阅读相关推荐

  1. 论文阅读:Exposing DeepFake Videos By Detecting FaceWarping Artifacts

    论文阅读:Exposing DeepFake Videos By Detecting FaceWarping Artifacts 现在对于论文阅读还是比较头疼,很多翻译都很奇怪,还是要提高英语能力啊, ...

  2. 深度学习-视频行为识别:论文阅读——双流网络(Two-stream convolutional networks for action recognition in videos)

    这里写目录标题 视频的行为识别 前言 背景 内容组成 主要贡献 算法介绍 网络结构 双流(two stream)网络结构 空间流卷积网络(Spatial stream ConvNet) 时间流卷积网络 ...

  3. 论文阅读笔记--Aesthetics-Driven Stereoscopic 3-D Image Recomposition With Depth Adaptation-2018

    论文阅读笔记:美学引导的带有深度适应的立体3D图像重构 I.介绍 II.相关工作 A.单目(2D)图像处理 1)美学驱动的重构(Recomposition) 2)图像分割与抠图(Segment and ...

  4. 【论文阅读】Spatio-Temporal Graph Convolutional Networks:...Traffic Forecasting[时空图卷积网络:用于交通预测的深度学习框架](1)

    [论文阅读]Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecastin ...

  5. 【DispNet_CVPR_2016】论文阅读之一

    <A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Esti ...

  6. 论文阅读 新的非视距场景(imaging behind occluders)|| ECCV 2020: Imaging Behind Occluders Using Two-Bounce Light

    论文阅读 Henley, C., Maeda, T., Swedish, T., & Raskar, R. (2020, August). Imaging Behind Occluders U ...

  7. 单目深度估计(Monocular Depth Estimation)论文阅读 2021-01-15

    单目深度估计 问题公式化:求非线性映射函数 一.数据集: NYU Depth:视频序列和dense depth map通过RGB-D采集的,但是不是每一种图像都有深度图,因为映射是离散的. KITTI ...

  8. 场景生成及编辑3D定位论文阅读

    前置知识 归纳偏置 关于归纳偏置的理解:首先推荐一篇解释归纳偏置非常好的博客:浅谈归纳偏置 (InductiveBias) 通俗的,归纳偏置可以理解为,从现实生活中观察到的现象中归纳出一定的 规则(h ...

  9. 论文阅读 【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation

    论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...

最新文章

  1. 联想服务器升级微码文件,ThinkPad如何升级硬盘微码程序(适用于SL系列机器)
  2. MATLAB实现图像镜像变换的源代码
  3. 概率论-4.2 中心极限定理
  4. python括号匹配问题_支持通配符的括号匹配问题源码+详细流程代码(python)
  5. ado.net 查询 小结 c# 1614653302
  6. EXP-00091: Exporting questionable statistics. 解决
  7. Vue:刷新页面 且只刷新一次
  8. PythonC++相互混合调用编程全面实战-24QT按钮事件的Open槽函数中调用python函数
  9. 《对比Excel,轻松学习Python数据分析》读书笔记------Pandas入门
  10. uva 437 巴比伦塔(DAG上dp)
  11. php theexcerpt,WordPress:使用the_excerpt函数显示摘要信息
  12. 随手笔记--为对象增加新的属性,拼接多个对象
  13. 华为Ascend:进一步做好产品差异化是后续重点
  14. mybitplus name or service not known或quartz couldn‘t get host name
  15. 行为模式(模板模式命令模式备忘录模式)
  16. send函数给FTP服务器发消息,send函数给FTP服务器发消息
  17. 尺规虽设,犹奈“度”何
  18. FastCGI sent in stderr: PHP message: PHP Fatal error: Call to undefined function __() in
  19. 用大数据建设“安全”生态 亿赛通出席安徽省通信学会大数据学术交流会
  20. 电子教室的多媒体互动教学

热门文章

  1. 什么是TTL电平,什么是CMOS电平,他们的区别
  2. 自然语言处理NLP 2022年最新综述:An introduction to Deep Learning in Natural Language Processing
  3. CSS3实现景深3D视觉效果
  4. SpringMVC ResponseBody返回字符串带双引号解决
  5. js、css引用文件的下载方式
  6. Animate.css的使用(基本使用附css文件下载地址)
  7. 计算机网络中的utp指的是,西安交通大学17年5月课程考试《计算机及网络应用基础》作业考核试题...
  8. 机械过滤器(石英砂过滤器)和多介质过滤器的区别
  9. VK16K33是带键盘扫描的LED数显/数码管驱动芯片多种封装选择驱动电流大,适合高亮显示场合
  10. 开源飞控初探(三)两大开源飞控的历史