本文分享自华为云社区《昇腾CANN论文上榜CVPR,全景图像生成算法交互性再增强!》,作者:昇腾CANN 。

近日,CVPR 2022放榜,基于CANN的AI论文《Interactive Image Synthesis with Panoptic Layout Generation》强势上榜。这为AI发烧友们开辟了一条新的图像生成之路,让疫情肆虐下足不出户的你,随手选择几个类别的基础元素,并做大小和位置的拖动,便能自动生成一副摄影作品,堪比专业摄影师!

CVPR全称IEEE Conference on Computer Vision and Pattern Recognition,是计算机视觉领域三大顶会之一,并且是唯一一个年度学术会议。在快速更新迭代的计算机学科中,CVPR已然成为了计算机视觉领域的“顶流”。

本论文基于交互式的图像生成,提出基于全景布局(Panoptic Layout)辅助图像生成的方法,即PLGAN(Panoptic Layout Generation)算法,提高了交互场景下生成图像的质量及其稳定性。该论文在COCO-Stuff和VG两个公开数据集和自行收集的Landscape风景数据集上,进行了实验验证并取得了很好的效果。目前已经在华为Atlas系列服务器上实现了该算法,其配备了昇腾AI处理器提供算力支持,并借助异构计算架构CANN(Compute Architecture for Neural Networks)充分释放硬件澎湃算力,发挥极致AI性能。

论文链接:https://arxiv.org/abs/2203.02104

下面我们来看下对比交互式图像生成方法Grid2Im,本论文PLGAN算法的表现效果:LINK

大多数交互式图像生成方法,都采用生成图像布局(Layout)为中间结果,来辅助最终的图像合成(例如 Grid2Im [1])。为了解决交互场景下图像生成质量稳定性问题,我们从图像布局(Layout)构建入手。通常的图像布局(Layout)有逐像素填充的语义图层(例如GauGAN),还有基于Bounding Box的实例图像布局(Instance Layout)。

语义图层在空间布局上逐像素对应生成的图像,可以很好的控制需要合成的图像,但其构建比较复杂,因此大多数多模态图像生成和交互场景采用实例图像布局(Instance Layout)。然而,实例图像布局(Instance Layout)本质上是采用由不同物体的位置方框(Bounding Box)和形状(Mask)组合而成的,不同物体的位置方框(Bounding Box)之间和形状边缘的不匹配,都会出现图像布局填不满的情况,在用户交互的场景下尤其明显,这使得以此为条件的条件生成模型,在最终生成图像中出现伪影和噪声,如图1所示。因此构建一个可以解决此“区域缺失”问题的图像布局(Layout),是我们所关注的重点。

针对上述问题,我们引入全景分割[3]的概念,提出了基于全景布局(Panoptic Layout)的图像合成方法。在全景分割问题中[3],将物体类别分为了可数类(things)和不可数类(stuff),其中可数类(things)指有特定形状的前景类别,不可数类(stuff)指没有特定形状的背景类别。因此我们引入此概念,将通常的实例布局(Instance Layout)构建过程中分为Instance分支和Stuff分支分别处理可数类(things)和不可数类(stuff),如下图所示。

Instance分支采用通常的做法,先同时生成位置方框和形状,然后将其组合成实例布局(Instance Layout)。对于Stuff分支则使用全新的做法,直接生成填充布局(Stuff Layout),由于此结果是直接由模型通过Softmax层得到,其在整个图像空间上,不会有空缺部分,以此来解决“区域缺失”问题。因为对于不可数类别,其形状也不是固定的,这种整体生成的方式对于类别识别来说,不会带来很大的影响。分别生成的两个布局,可以通过ISA-Norm层来聚合到一起,形成最后的布局(Layout)。从布局(Layout)到最终的图像生成,我们采用SOTA模型CAL2I [2]方法,得到最终的合成图像。

在实验设计上,我们采用对公开数据集的标注信息做扰动的方式,模拟交互式场景下的输入,在指标和视觉对比上,都得到了SOTA(state of the art)水平,尤其在输入扰动的情况下,生成图像的质量更加稳定。

昇腾社区同步上新基于该论文的AI试玩应用,小伙伴们在给定的画布中,可以选择任意元素,大海、沙滩、天空,随心拼接拆合,然后通过华为Atlas 200DK推理,可实时生成独一无二的真实AI风景画,单击LINK快速访问。

特别福利:近期,我们也将邀请论文作者进行在线分享,欢迎关注“CANN训练营”活动,精彩不容错过!

参考文献:
[1] Oron Ashual and Lior Wolf. Specifying object attributes and relations in interactive scene generation. In Proceedings of the IEEE International Conference on Computer Vision, pages 4561–4569, 2019.
[2] Sen He, Wentong Liao, Michael Yang, Yongxin Yang, Yi-Zhe Song, Bodo Rosenhahn, and Tao Xiang. Context-aware layout to image generation with enhanced object appearance. In CVPR, 2021.
[3] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Doll´ar. Panoptic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9404–9413, 2019.

点击关注,第一时间了解华为云新鲜技术~​

昇腾CANN论文上榜CVPR,全景图像生成算法交互性再增强相关推荐

  1. 【githubgirl】Awesome-ICCV2021-Low-Level-Vision,图像生成与底层视觉相关的论文和代码。包括图像生成,图像编辑,图像风格

    Awesome-ICCV2021-Low-Level-Vision,整理了 2021 年 ICCV 中,图像生成与底层视觉相关的论文和代码. 包括图像生成,图像编辑,图像风格迁移,图像翻译,图像修复, ...

  2. CVPR 2021 图像生成最新进展,论文分享会回放

    微软亚洲研究院 2021 CVPR 论文分享会已完美结束.今日起,CV君将根据不同类别的分享主题进行逐一分享,欢迎查收! 首先分享的主题为:图像生成 论文名称 论文一:Information Bott ...

  3. NIPS 2018 | 中科院自动化所两篇入选论文:高清真实图像生成领域及GAN研究在人脸识别领域的进展...

    [论文一]自动化所在高清真实图像生成领域获得新突破 IntroVAE: Introspective Variational Autoencoders for Photographic Image Sy ...

  4. globalmapper如何选取图像上的点_图像配准算法

    [导读]图像配准与相关[1]是图像处理研究领域中的一个典型问题和技术难点,其目的在于比较或融合针对同一对象在不同条件下获取的图像,例如图像会来自不同的采集设备,取自不同的时间,不同的拍摄视角等等,有时 ...

  5. 厉害了,网易伏羲三篇论文上榜 AI 顶会 ACL

    近日,国际AI顶尖学术会议ACL 2021(Annual Meeting of the Associationfor Computational Linguistics)公布了论文录用结果.网易伏羲共 ...

  6. 华为Ascend昇腾CANN详细教程(二)

    一.参考资料 昇腾Ascend 随记 -- 昇腾 AI 的基本架构 二.相关介绍 1. CANN版本号变更说明 版本号变更公告 2. 昇腾软件相关介绍 下载软件 2.1 昇腾软件介绍 软件类型 软件介 ...

  7. 华为Ascend昇腾CANN详细教程(一)

    一.参考资料 基于昇腾CANN的推理应用开发快速体验(C++) 基于昇腾CANN的推理应用开发--图片分类应用(C&C++) 二.重要说明 CANN软件提供进程级环境变量设置脚本,供用户在进程 ...

  8. 基于全景图像与激光点云配准的彩色点云生成算法(2014年文章)

    标题:The algorithm to generate color point-cloud with the registration between panoramic imageand lase ...

  9. 无需向量监督的矢量图生成算法,入选CVPR 2021 | 代码开源

    说起图像生成算法,大家也许并不陌生. 不过,大多数算法都针对栅格图像,也就是位图,而不支持矢量图. 虽然也有一些生成矢量图形的算法,但是在监督训练中,又受限于矢量图数据集有限的质量和规模. 为此,来自 ...

最新文章

  1. 纯CSS3制作的圆角效果按钮菜单
  2. html 常用方法,jquery的常用方法有哪些?
  3. python解压到指定文件夹_Python:将文件解压缩到当前工作目录,但不保存zip中的目录结构...
  4. 田志刚:为什么要尊重老师?
  5. Verdi-ug --- nwave Tutorial
  6. Windows Installer (MSI) 详解 参数介绍
  7. linux echo命令
  8. 【matlab-7】Matlab与线性代数(三)
  9. wcg总决赛_关于总决赛
  10. Linux RAID磁盘阵列
  11. 2699元起!格力首款5G手机悄然上架:骁龙765G处理器
  12. linux arm fpu初始化,ARM处理器的浮点运算单元(FPU)
  13. fashion minst
  14. 计算机考研初试/复试——软件工程
  15. Lenovo笔记本BIOS详解
  16. 联想成为梦工厂动画的首选工作站创新合作伙伴
  17. 关于word-break和word-wrap的使用和区别
  18. 合并两个Excel中的Sheets
  19. mysql安装 张宴_Linux_centos5 源码安装Nginx + mysql + apache + php的方法,主要依照的是张宴的一篇博文 - phpStudy...
  20. 《Spring揭秘》读书笔记 3:Spring MVC

热门文章

  1. C语言自增自减运算辨析
  2. Bootstrap列表组的情景类
  3. CSS 块格式化上下文 BFC
  4. ap map 脚本_【图片】fgotool辅助脚本:检测各种素材消耗AP最少的前三个地点【命运冠位指定吧】_百度贴吧...
  5. c语言创建一个根结点,创建一个由10个节点组成的二叉树结构,并按前根、中根、后根对该二叉树进行遍历,并输出遍历结果(c语言)...
  6. CJOJ 【DP合集】最长上升序列2 — LIS2
  7. 《网络对抗》Exp5 MSF基础应用
  8. LINUX下安装软件方法命令方法
  9. 前端自适应----单位rem
  10. [转]最常用的15大Eclipse开发快捷键技巧