ICCV 2019 | Adobe 无需大量数据训练，内部学习机制实现更好的视频修补

点击我爱计算机视觉标星，更快获取CVML新技术

今天跟大家分享一篇 ICCV 2019 的文章An Internal Learning Approach to Video Inpainting，该文在CVPR 2018 非常有意思的论文 Deep Image Prior（DIP）的启发下，使用视频内部学习（Internal Learning）的方式，同时建模表观与光流，解决视频修补中不连续的情况。

什么是内部学习？即网络在训练过程中完全不使用外部数据，对某一视频修补的过程就是一个仅利用该视频数据从头开始训练的过程。

该文作者信息：

作者来自斯坦福大学、Adobe研究院、萨里大学。

何为视频修补？

视频修补是指在视频中每帧存在目标mask的前提下，对mask遮掩区域进行修补的技术。

下图展示了两种之前的方法和该文方法在同一段视频中给出的结果。

我们可以很明显的看出，视频中存在的目标被遮挡后，该文提出的算法能较好的保留目标，而且在mask遮挡区域能很好的保留直线目标。

Deep Image Prior（DIP）

首先我们要先理解DIP是什么。

DIP 来自论文：

https://sites.skoltech.ru/app/data/uploads/sites/25/2018/04/deep_image_prior.pdf

DIP 是说，当我们用卷积神经网络从噪声图像学习如何映射到一幅被破坏的（比如污损的）图像时，网络首先会学习如何从噪声图像重建一幅好的图像，而后再学习如何破坏（污损）这幅图像。

深度卷积网络先天就拥有一种能力：首先建模图像符合自然规律的部分。

DIP 进行图像修补的过程是：学习“正常图像块+白噪声”到正常图像的映射，然后对有污损的图像块进行变换，即得到修补后的图像。

算法思想

该文作者是在DIP基础上加入了对视频修补更多的Loss约束，使得仅使用视频内部数据训练的模型，可以得到在时序上连贯的视频修补效果。

最主要的改进是，不仅建模了图像重建误差（表观），还建模相邻帧光流相关误差。

下图展示了作者的算法思想：

作者使用经典的编码器-解码器生成网络，对于视频每一帧，随机生成一个与其对应的大小一致的噪声图，网络训练时最小化视频帧重建误差、相邻帧的光流预测误差，和图像光流卷曲后的表观误差、感知误差。

损失函数如下：

其中

Lr图像生成损失Image Generation Loss，代表视频帧重建误差，Mi为Mask，故此重建误差是不考虑被破坏区域的。

Lf 光流生成损失 Flow Generation Los ，代表使用视频帧计算得来的光流和预测的光流的误差，同样不考虑被破坏区域，并且包含光流的前后向检查（Oi,j）。

Lc 连贯性损失 Consistency Loss，代表生成的光流将图像卷曲后和对应图像相比的误差。

Lp 感知损失，作者使用VGG 16网络特定层提取特征，衡量重建后图像和视频帧提取的特征之间的误差。

以上即是作者的创新点，其实想想也很简单，就是如何将光流信息合理加入到生成模型的多任务训练中。

网络训练完成后，每幅噪声图像对应的生成图像，即修补后的视频帧。

实验结果

作者收集并整理了多个数据集，下图为对于该数据集中某四帧，原始的DIP、作者实现的DIP-vid、DIP-Vid-3DCN和本文提出的算法DIP-vid-Flow视频修补视觉效果的比较：

可见，本文提出的算法对于被遮挡的物体处理的最自然、干净，不会出现不正常的扭曲。

下图为作者对修补视频中的两帧，单看某一行的重建结果：

可见本文提出的考虑光流的图像修补方法DIP-Vid-Flow，可使结果更加平滑自然。

下图为对某些特定图案纹理的修补结果：

发现本文提出的方法能更好保存那些具有直线特征的图案和建筑。

下表为使用客观评价指标对算法的评价：

可见，该文算法比大部分之前算法要好，且在复杂运动的视频中表现更好。

最后，让我们看看作者制作的视频Demo：

结论：

该文在DIP基础上引入光流建模视频修补，取得了更好的视觉效果。值得一提的是，这种内部学习机制，在低级图像处理领域，应该还可以有更多应用。

论文地址：

https://arxiv.org/pdf/1909.07957.pdf

项目地址：

https://cs.stanford.edu/~haotianz/publications/video_inpainting/#

作者称代码将开源。

图像视频修补恢复交流群

关注最新最前沿的图像视频增强、图像视频修补恢复，扫码添加CV君拉你入群，（如已为CV君其他账号好友请直接私信）

（请务必注明：图像修补）

喜欢在QQ交流的童鞋，可以加52CV官方QQ群：805388940。

（不会时时在线，如果没能及时通过验证还请见谅）

长按关注我爱计算机视觉

ICCV 2019 | Adobe 无需大量数据训练，内部学习机制实现更好的视频修补相关推荐

ICCV 2019 | 基于全局类别表征的小样本学习
点击我爱计算机视觉标星,更快获取CVML新技术作者:Weiran Huang,清华大学计算机博士来源:知乎,已获作者授权,禁止二次转载. https://zhuanlan.zhihu.com/p/ ...
SinGAN实现的单图动画，ICCV 2019 Best Paper
点击我爱计算机视觉标星,更快获取CVML新技术 ICCV 2019 Best Paper <SinGAN:Learning a Generative Model from a Single Na ...
ICCV 2019 | 爱奇艺提出半监督损失函数，利用无标签数据优化人脸识别模型
点击我爱计算机视觉标星,更快获取CVML新技术论文发表于ICCV 2019 作者 | 爱奇艺技术产品团队编辑 | 唐里论文标题:Unknown Identity Rejection Loss: ...
无需3D运动数据训练，最新人体姿势估计方法达到SOTA | CVPR 2020
作者 | Muhammed Kocabas 译者 | 刘畅出品 | AI科技大本营(ID:rgznai100) 人体的运动对于理解人的行为是非常重要的.尽管目前已经在单图像3D姿势和动作估计方面取得 ...
CVPR2020｜无需3D运动数据训练，最新SOTA人体姿势估计方法
点击我爱计算机视觉标星,更快获取CVML新技术作者 | Muhammed Kocabas 译者 | 刘畅出品 | AI科技大本营(ID:rgznai100) 人体的运动对于理解人的行为是非常重要的 ...
华为诺亚CV方向19篇论文入选ICCV 2019
点击我爱计算机视觉标星,更快获取CVML新技术目前,2019年国际计算机视觉大会(ICCV 2019),正在韩国首尔(Seoul)举行.华为公司不仅成为了会议的铂金赞助商,其下属的诺亚方舟实验室更是 ...
SemanticKITTI 数据集（ICCV 2019）
SemanticKITTI 数据集(ICCV 2019) 摘要 1. 导言 2. 相关工作 3. SemanticKITTI数据集 3.1. 标注过程 3.2. 数据集统计信息 4. 语义分割评价 4 ...
从一张风景照中就学会的SinGAN模型，究竟是什么神操作？| ICCV 2019最佳论文
作者 | 王红成,中国海洋大学-信息科学与工程学院-计算机技术-计算机视觉方向研究生,研二在读,目前专注于生成对抗网络的研究编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) ...
ICCV 2019：谷歌获最佳论文！中国入选论文最多，中科院、清华领跑
10月27日至11月2日,ICCV2019在韩国首尔举办.作为计算机视觉领域的顶会之一,本届ICCV热度空前.据官网数据显示,本届ICCV注册参会人数再创新高,超过7000人,是2017年ICCV的2 ...

ICCV 2019 | Adobe 无需大量数据训练，内部学习机制实现更好的视频修补

ICCV 2019 | Adobe 无需大量数据训练，内部学习机制实现更好的视频修补相关推荐

最新文章

热门文章