图像与视频合成领域的集大成者，都在这里了！

点击上方，选择星标或置顶，不定期资源大放送！

阅读大概需要15分钟

Follow小博主，每天更新前沿干货

本文转载自：机器之心 | 作者：蛋酱、小舟

图像 / 视频合成领域的集大成者，就在这一篇了。

图像和视频等视觉数据的生成是机器学习和计算机视觉领域重要的研究问题之一。近几年，英伟达提出了 SPADE、MUNIT 等多个图像及视频合成模型。

近日，英伟达又开源了一个新的 PyTorch 库「Imaginaire」，共包含 9 种英伟达开发的图像及视频合成方法。

项目地址：https://github.com/NVlabs/imaginaire

这九种方法分别为：

有监督的图像到图像转换

1、pix2pixHD

2、SPADE/GauGAN

无监督的图像到图像转换

1、UNIT

2、MUNIT

3、FUNIT

4、COCO-FUNIT

视频到视频转换

1、vid2vid

2、fs-vid2vid

3、wc-vid2vid

pix2pixHD

「pix2pixHD」是 pix2pix 的升级版本，具备高分辨率图像和语义处理功能，主要解决了深度图像合成编辑中的质量及分辨率问题。

‍

项目主页：https://tcwang0509.github.io/pix2pixHD/

‍

论文链接：https://arxiv.org/pdf/1711.11585.pdf

在这篇论文中，来自英伟达和 UC 伯克利的研究者提出了一种使用条件 GAN 从语义标签图上合成高分辨率照片级逼真图像的方法。此前，条件 GAN 已经有了很广泛的应用，但生成结果均为低分辨率并与现实差异较大。因此，研究者使用了一种新的对抗损失、多尺度生成器和判别器架构来生成 2048x1024 的结果。此外，研究者为该框架扩展了两个附加功能。首先，合并了对象实例分割信息，实现了删除 / 添加对象和更改对象类别等操作；其次，提出了一种在相同输入下生成多种结果的方法，让使用者可以编辑对象外观。该论文被 CVPR 2018 接收。

SPADE/GauGAN

在 GTC 2019 上，英伟达展示了一款交互应用「GauGAN」。它可以轻松地将粗糙的涂鸦变成逼真的杰作，令人叹为观止，效果堪比真人摄影师作品。GauGAN 应用主要使用的技术，就是英伟达的 SPADE。

项目主页：https://nvlabs.github.io/SPADE/

论文地址：https://arxiv.org/pdf/1903.07291.pdf

在这篇论文中，来自 UC 伯克利、英伟达、MIT CSALL 的研究者提出了一种空间自适应归一化方法，在给定输入语义布局的情况下，实现了一种简单有效的逼真图像合成层。以前的方法直接将语义布局作为输入提供给深度网络，然后通过卷积、归一化和非线性层处理深度网络。实验表明，这种方法并不是最优的，因为归一化层倾向于「洗去」语义信息。为了解决这个问题，研究者提出使用输入布局，通过空间自适应的、学习的转换来调节归一化层中的激活函数。在几个具有挑战性的数据集上的实验表明，与现有方法相比，该方法在视觉保真度和与输入布局的对齐方面具有优势。最后，该模型允许用户控制合成图像的语义和风格。该论文被 CVPR 2019 接收为 Oral 论文。

UNIT

项目地址：https://github.com/NVlabs/imaginaire/tree/master/projects/unit

论文地址：https://arxiv.org/abs/1703.00848

UNIT（Unsupervised image-to-image translation）旨在通过使用来自单个域中边缘分布的图像来学习不同域中图像的联合分布。由于要达到给定的边缘分布需要一个联合分布的无限集，因此如果没有其他假设，就无法从边缘分布推断联合分布。为了解决这个问题，研究者提出了一个共享潜在空间的假设，并提出了一个基于耦合 GAN 的无监督图像到图像转换框架。

MUNIT

无监督图像到图像转换是计算机视觉领域一个重要而富有挑战的问题：给定源域（source domain）中的一张图像，需要在没有任何配对图像数据的情况下，学习出目标域（target domain）中其对应图像的条件分布。虽然条件分布是多模态的，但此前方法都引入了过于简化的假设，而将其作为一个确定性的一对一映射，因此无法在特定的源域图像中生成富有多样性的输出结果。

项目地址：https://github.com/NVlabs/imaginaire/tree/master/projects/munit

论文地址：https://arxiv.org/abs/1804.04732

在这篇论文中，康奈尔大学和英伟达的研究者提出了多模态无监督图像到图像转换 MUNT 框架。研究者假设，图像表征可以分解为一个具有域不变性（domain-invariant）的内容码（content code）和一个能刻画域特有性质的风格码（style code）。为了将图像转化到另一个域中，研究者将：1. 原图像的内容码，2. 从目标域中随机抽取的某个风格码进行重组，并分析了 MUNT 框架，并建立了相应的理论结果。大量实验表明，将 MUNT 与其他 SOTA 方法相比具备优越性。最后，通过引入一个风格图像（style image）样例，使用者可以利用 MUNT 来控制转化的输出风格。

FUNIT

项目地址：https://github.com/NVlabs/imaginaire/tree/master/projects/funit

论文地址：https://arxiv.org/abs/1905.01723

虽然此前无监督图像到图像转换算法在很多方面都非常成功，尤其是跨图像类别的复杂外观转换，但根据先验知识从新一类少量样本中进行泛化的能力依然无法做到。具体来说，如果模型需要在某些类别上执行图像转换，那么这些算法需要所有类别的大量图像作为训练集。也就是说，它们不支持 few-shot 泛化。总体而言有以下两方面的限制：

其一，这些方法通常需要在训练时看到目标类的大量图像；

其二，用于一个转换任务的训练模型在测试时无法应用于另一个转换任务。

在这篇论文中，英伟达的研究者提出一种 Few-shot 无监督图像到图像转换（FUNIT）框架。该框架旨在学习一种新颖的图像到图像转换模型，从而利用目标类的少量图像将源类图像映射到目标类图像。也就是说，该模型在训练阶段从未看过目标类图像，却被要求在测试时生成一些目标类图像。

COCO-FUNIT

项目地址：https://github.com/NVlabs/imaginaire/tree/master/projects/coco_funit

论文地址：https://nvlabs.github.io/COCO-FUNIT/paper.pdf

COCO-FUNIT 之前的图像到图像变换模型在模拟不可见域的外观时很难保留输入图像的结构，这被称为内容丢失问题。当输入图像和示例图像中对象的姿势有较大差异时，这个问题尤其严重。为了解决这个问题，研究者提出了一种新的 few-shot 的图像变换模型，即 COCO-FUNIT。

vid2vid

2018 年，英伟达联合 MIT CSAIL 开发出了直接视频到视频的转换系统。该系统不仅能用语义分割掩码视频合成真实街景视频，分辨率达到 2K，能用草图视频合成真实人物视频，还能用姿态图合成真人舞蹈视频。此外，在语义分割掩码输入下，只需换个掩码颜色，该系统就能直接将街景中的树变成建筑。

项目主页：https://tcwang0509.github.io/vid2vid/

论文地址：https://arxiv.org/abs/1808.06601

在这篇论文中，来自英伟达和 MIT 的研究者提出了一种新型的生成对抗网络框架下的视频到视频合成方法。通过精心设计生成器和判别器架构，结合空间 - 时间对抗目标函数，研究者在多种输入视频格式下生成了高分辨率、时间连贯的照片级视频，其中多种形式的输入包括分割掩码、草图和姿态图。在多个基准上的实验结果表明，相对于强基线，本文方法更具优越性，该模型可以合成长达 30 秒的 2K 分辨率街景视频，与当前最佳的视频合成方法相比具备显著的优势。研究者将该方法应用到未来视频预测中，表现均超越其他方法。该论文被 NeurIPS 2018 接收。

Few-shot vid2vid

「vid2vid」旨在将人体姿态或分割掩模等输入的语义视频，转换为逼真的输出视频，但它依然存在以下两种局限：其一，现有方法极其需要数据。训练过程中需要大量目标人物或场景的图像；其二，学习到的模型泛化能力不足。姿态到人体（pose-to-human）的 vid2vid 模型只能合成训练集中单个人的姿态，不能泛化到训练集中没有的其他人。

2019 年，英伟达又推出了新的「few-shot vid2vid」框架，仅借助少量目标示例图像就能合成之前未见过的目标或场景的视频，在跳舞、头部特写、街景等场景中都能得到逼真的结果。

项目主页：https://nvlabs.github.io/few-shot-vid2vid/

‍论文地址：https://arxiv.org/pdf/1910.12713.pdf

在这篇论文中，英伟达的研究者提出了一种 few-shot vid2vid 框架，该框架在测试时通过利用目标主体的少量示例图像，学习对以前未见主体或场景的视频进行合成。

借助于一个利用注意力机制的新型网络权重生成模块，few-shot vid2vid 模型实现了在少样本情况下的泛化能力。研究者进行了大量的实验验证，并利用人体跳舞、头部特写和街景等大型视频数据集与强基准做了对比。

实验结果表明，英伟达提出的 few-shot vid2vid 框架能够有效地解决现有方法存在的局限性。该论文被 NeurIPS 2019 接收。

World Consistent vid2vid

「World Consistent vid2vid」是英伟达在 2020 年 7 月推出的一种视频到视频合成方法。vid2vid 视频编码方法能够实现短时间的时间一致性，但在长时间的情况下不能时间一致性。这是因为对 3D 世界渲染方式缺乏了解，并且只能根据过去的几帧来生成每一帧。

项目主页：https://nvlabs.github.io/wc-vid2vid/

论文地址：https://arxiv.org/pdf/2007.08509.pdf

在这篇论文中，英伟达的研究者引入了一个新的视频渲染框架，该框架能够在渲染过程中有效利用过去生成的所有帧，来改善后续视频的合成效果。研究者利用「制导图像」，并进一步提出了一种新的神经网络结构以利用存储在制导图像中的信息。一系列实验结果表明，该方法具备良好表现，输出视频在 3D 世界渲染上是一致的。

重磅！DLer-计算机视觉交流2群已成立！

大家好，这是DLer-计算机视觉微信交流2群！首先非常感谢大家的支持和鼓励，我们的计算机视觉交流群正在不断扩大人员规模！希望以后能提供更多的资源福利给到大家！欢迎各位Cver加入DLer-计算机视觉微信交流大家庭 。

本群旨在学习交流图像分类、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。希望能给大家提供一个更精准的研讨交流平台！！！

进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明）

???? 长按识别添加，即可进群！

图像与视频合成领域的集大成者，都在这里了！相关推荐

关于图像和视频拼接的综述
引言图像拼接的步骤: 1.计算多个重叠图像之间的对应关系 2.匹配的图像进行变形和对齐 3.对齐的图像进行混合 4.生成宽视场图像. 基础知识: RANSAC:是RANdom SAmple Cons ...
一个模型通杀8大视觉任务，一句话生成图像、视频、P图、视频处理...都能行 | MSRA北大出品...
丰色发自凹非寺量子位报道 | 公众号 QbitAI 有这样一个模型. 它可以做到一句话生成视频: 不仅零样本就能搞定,性能还直达SOTA. 它的名字,叫"NüWA"(女娲) ...
【星球知识卡片】图像和视频超分辨都有哪些核心技术，如何对其长期深入学习...
大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享图像和视频超分辨相关的资源. 作者&编辑 | 言有三 1 基本的超分辨模型基本的超分辨模型根据上采样(upsampling)在网络结构 ...
深度学习在计算机视觉领域（包括图像，视频，3-D点云，深度图）的应用
深度学习在计算机视觉领域(包括图像,视频,3-D点云,深度图)的应用转自 https://zhuanlan.zhihu.com/p/55747295 深度学习在计算机视觉领域(包括图像,视频,3-D ...
基于微软开源深度学习算法，用 Python 实现图像和视频修复
‍‍ 作者 | 李秋键编辑 | 夕颜出品 | AI科技大本营(ID:rgznai100) 图像修复是计算机视觉领域的一个重要任务,在数字艺术品修复.公安刑侦面部修复等种种实际场景中被广泛应用.图像 ...
图像、视频生成大一统！MSRA+北大全华班「女娲」模型怒刷8项SOTA，完虐OpenAI DALL-E...
视学算法报道编辑:好困小咸鱼 LRS [新智元导读]微软亚洲研究院.北京大学强强联合提出了一个可以同时覆盖语言.图像和视频的统一多模态预训练模型--NÜWA(女娲),直接包揽8项SOTA. ...
一个模型通杀8大视觉任务，图像、视频生成大一统！MSRA+北大全华班「女娲」模型...
来源:新智元太卷了,太卷了!微软亚洲研究院.北京大学强强联合提出了一个可以同时覆盖语言.图像和视频的统一多模态预训练模型--NÜWA(女娲),包揽8项SOTA,完虐OpenAI DALL-E! 照着 ...
英伟达验证图片加载不出来_让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」...
用视频到视频的合成技术生成会跳舞的小哥哥(小姐姐) 或自己本人已经不是什么无法解决的问题,但这些方法通常需要大量目标人物的数据,而且学到的模型泛化能力相对不足.为了解决这个问题,来自英伟达的研究者提出 ...
AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定
来源丨机器之心作者丨陈萍.小舟 AI会是未来的「造物者」吗? 近来,视觉合成任务备受关注.几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了. 相 ...

图像与视频合成领域的集大成者，都在这里了！

图像与视频合成领域的集大成者，都在这里了！相关推荐

最新文章

热门文章