CVPR 2021 年度最佳论文奖,颁发给了来自德国马克斯 - 普朗克研究所(Max Planck Institute)的 Michael Niemeyer 和蒂宾根大学(Tubingen)的 Andreas Geiger。

这篇名为 “GIRAFFE: representation Scenes as composition Generative Neural Feature Fields” 的论文,提出了一个基于学习的、完全可微的渲染引擎 GIRAFFE,可以用于将场景合成为多个 “特征域” 的综合,完成可控图像的合成任务。

换句话说,该任务着眼于生成新的图像并控制将要出现的内容、对象及其位置和方向、背景等等。使用改进的 GAN 架构,他们甚至可以在不影响背景或其他对象的情况下移动图像中的对象。

传统的 GANs 架构使用下图的编码器和解码器设置。在训练过程中,编码器接收图像后将其编码为对应的压缩表征(condensed representation),随后解码器利用此表征来创建一个改变样式的新图像。

而该团队在训练数据集中将所有的图像重复多次,以便编码器和解码器学习如何在训练阶段最大化所要实现任务的结果。

一旦训练完成,你任意发送一张图像到编码器,它会进行同样的过程,按你的需求生成一张新的且未知的图像。

无论何种任务,它的工作原理都非常相似,不论是把一张脸的图像转换成如卡通形象般的别样风格,还是用草图创作出一幅美丽的风景。仅使用解码器(decoder)(考虑到它是创作新图像的模型,也将其称为生成器),便可实现在这个编码信息空间中游走,并向生成器发送样本信息,以生成无限量的新图像。团队成员将这种被编码的信息空间称为潜在空间(latent space),而用来生成新图像的信息称为潜码(latent code)。

在任务的实现过程中,基本上选择在最优空间内随机选择一些潜码,然后在遵循生成器的训练过程的前提下,根据任务的预期目标生成一个新的随机图像。这真是令人难以置信,但正如刚才所说的,图像是完全随机的,我们没有或很少有想法,它会是什么样子,这已经是非常少的有用的创造者了。

这就是研究团队用这篇论文来解决的问题。

实际上,通过获取物体形状和外观的潜码并将其发送给解码器或生成器,他们便能够控制物体的姿态,这意味着可以进行物体的移动,改变物体的外观,添加其他对象,改变背景,甚至改变相机的姿势。

所有的这些转换都可以在每个对象或背景上独立完成,而不影响图像中的任何其他内容。

如你所见,这种方法比其他基于 GAN 的方法要好得多,这些方法仅停留在 2D 图像世界中,通常无法将对象彼此分离,并且都受到特定对象修改的影响。

而文中方法的不同之处在于,提供了一种模块化的框架,以完全可微且可学习的方式从对象中构建和组成 3D 场景。

但除此之外,过程非常相似:编码信息,识别对象,在潜在空间中进行编辑,然后解码生成新的图像。在这里,还有很多步骤需要在潜在空间中完成。

研究团队将其视为经典 GANs 图像合成网络与神经渲染器(neural renderer)的结合,其中,正如我们所见,神经渲染器用于从发送到网络的图像生成 3D 场景。实现这一目标主要有以下三个步骤。需要注意的是,编码输入图像后则意味着已处于潜在空间之中。

第一步:将图像转换为 3D 场景。

这并非是简单的 3D 场景,而是一个由 3D 元素组成的 3D 场景,即对象和背景。这种将图像视为由生成的体渲染图组成的场景的方式允许它们在生成的图像中改变摄像机位,并独立地控制对象。

这是使用一个与先前论文中出现的类似的模型 NERV 来实现的,但不是使用一个单一的模型来从输入图像生成整个锁定的场景,而是采用两个单独的模型独立生成对象和背景,这里称做采样特征域(Sampled Feature Fields)。该网络的参数也在训练过程中学习。至于细节方面,它非常类似于先前文章中提到的 NERF。

第二步:编辑区域。具备了带有分离元素的场景,便可以单独编辑它们而不影响图像的其余部分。当然,他们可以对物体做任何想做的操作,比如改变其位置和方向。

换句话说,他们改变了对象或背景的姿态。在这一点上,甚至可以添加新的对象放置在其想要的任何方位。然后,通过把所有的特征字段添加到一起,将它们简单地组合到涵盖所有对象和背景的最终 3D 场景中。

第三步:渲染 3D 场景为普通图像。

由于当前阶段仍处于 3D 世界中,团队可以通过改变摄像机的视角来决定如何看待场景。然后,根据该相机光线和其他参数(如 alpha 值和透射率)来评估每个像素。这就得到了所谓的特征图像,但这个特征图像是由每个像素的特征向量组成的图像。因为处于潜在性空间之中,这些特征需要转换成 RGB 颜色和高分辨率图像。这是使用典型的解码器来完成的,就像其他 GANs 架构一样,将其放大到原始尺寸,同时学习 RGB 通道的特征转换。由此,你可以对生成的内容进行更多的控制。

当然,正如你所看到的,落地到真实数据中时仍然是不完美的。

尽管如此,这项工作仍然让人印象深刻,它是朝着正确方向迈出的重要一步,特别是考虑到这些都是由 GANs 生成的合成图像,并且这是第一篇能够将生成图像控制在这种精度水平的论文。

GIRAFFE 堪称是对近期 NERF 和 GANs 相关领域的一个令人兴奋的研究,在此强烈推荐读者朋友们可以下载论文阅读,以具体了解他们的模型是如何工作的(作者公众号“数据实战派” 后台回复 “CVPR”,即可获得论文下载链接)。


往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑温州大学《机器学习课程》视频
本站qq群851320808,加入微信群请扫码:

【论文解读】CVPR 2021 当之无愧的最佳论文奖:GIRAFFE,一种可控图像合成方法...相关推荐

  1. 年度最精彩研究,CVPR 2017六篇最佳论文介绍(附打包下载)| CVPR 2017

    雷锋网 AI 科技评论按:CVPR 2017的获奖论文已经在大会的第一天中公布,共有6篇论文获得四项荣誉.雷锋网 AI 科技评论对6篇获奖论文做了简要介绍如下. CVPR最佳论文 本届CVPR共有两篇 ...

  2. 华人一作占半数,陶大程等人上榜,CVPR公布32篇最佳论文候选

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 国际计算机视觉与模式识别会议(Conference on Computer Vision and Pa ...

  3. 华人包揽CVPR 2019两篇最佳论文,李飞飞ImageNet十年后获奖

    乾明 边策 发自 凹非寺  量子位 报道 | 公众号 QbitAI 现在,是时候称CVPR为CCVPR了. 这已经不再是"戏言",而是实力见证. 大洋彼岸,计算机视觉领域顶级学术会 ...

  4. 丝滑!CVPR 2021 视频插帧论文+开源代码汇总

    点击上方"AI算法与图像处理",选择加"星标"或"置顶"重磅干货,第一时间送达 从事算法岗经常需要查看最新的研究成果,希望从中能借鉴一些别人 ...

  5. 重磅!腾讯优图20篇论文入选CVPR 2021

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 来源:腾讯优图 计算机视觉世界三大顶会之一的CVPR 2021论文接收结果出炉!本次大会收到来自全球共701 ...

  6. 超110篇!CVPR 2021最全GAN论文汇总梳理!

     戳我,查看GAN的系列专辑~! 下述论文已分类打包好!超110篇,事实上仍有一些GAN论文未被包含入内--可见GAN在CVPR 2021仍十分火热. 后台回复 2021GAN (长按红字.选中复制) ...

  7. CVPR 2021 自动驾驶相关论文解读

    论文列表来源:https://zhuanlan.zhihu.com/p/382419598 场景生成 NOTES:在自动驾驶研发过程中,大量的测试不可避免:然而,昂贵的实车测试使得许多的研究人员纷纷关 ...

  8. 一文看尽 27 篇 CVPR 2021 2D 目标检测论文

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨二玖 编辑丨极市平台 导读 本文对我们汇总的 CVPR 2021 检测大类中的2D目标检测领域的 ...

  9. 重磅!悉尼科大ReLER实验室13篇论文入选CVPR 2021

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文作者:Pablo   |  来源:知乎(已授权) https://zhuanlan.zhihu.com/ ...

最新文章

  1. 百架无人机“失控撞楼”,程序员写的 Bug?
  2. 2013年7月12日“修复 Migration 测试发现的 Bug”
  3. Android项目的目录结构
  4. csh for循环_shell中的for循环用法详解_linux shell
  5. 档案和社会保险究竟有什么关系?【转】
  6. 什么是 constructor signature in interface
  7. aws dynamodb_使用适用于Java 2的AWS开发工具包的AWS DynamoDB版本字段
  8. 诗歌rails之头像上传和调整
  9. MATLAB信号处理之信号的采样
  10. 做好嘈杂环境的语音识别,目前难点主要在哪里?
  11. 我的世界服务器修改地图,《我的世界手机版》地图编辑器介绍 怎么修改地图信息...
  12. (CVPR 2019) PointRCNN: 3D Object Proposal Generation and Detection From Point Cloud
  13. java vcf文件 昵称怎么写,Vcf文件的突变ID号注释
  14. imo CEO乔月猛:我们是史上研发投入最大的创业团队
  15. 中国知音导出mysql_央视社会发展纪录片《从〈中国〉到中国 From Chung Kuo to China》全5集 720P/1080i高清纪录片资源百度云盘下载...
  16. 黑色星期五:纳斯达克五大科技股市值单日蒸发约1000亿美元
  17. Qt之移动无边框窗体
  18. Vue2学习笔记1 - win10下安装vue开发环境
  19. Entering emergency mode. Exit the shell to continue
  20. Matlab添加包libsvm svmtrain已被删除。 请改用fitcsvm。

热门文章

  1. 【Weiss】【第03章】练习3.7:有序多项式相乘
  2. 遇到个鬼,在WIN08的DELL R710上安装CENTOS 63,无法格式化以前的硬盘分区,安装无法进行下去。...
  3. 【PHP ThinkPHP框架】小bug汇总[更新]
  4. 用react-service做状态管理,适用于react、react native
  5. 关于jQuery对象与DOM对象
  6. WordPress个性页面制作教程
  7. mybatis入门(四)----输入映射和输出映射
  8. BZOJ 3195: [Jxoi2012]奇怪的道路 | 状压DP
  9. 计算机视觉与深度学习 | 使用HOG特征进行数字分类
  10. 视觉里程计 | OF-VO:Robust and Efficient Stereo Visual Odometry Using Points and Feature Optical Flow