本文转载自机器之心。

选自arXiv

作者:He Zhang等

机器之心编译

编辑:小舟、杜伟

没有用户输入,也能生成高质量的合成图像吗?

图像合成是指组合不同图像中的部分区域以合成一张新的图像,一个常见的用例是肖像图片的背景替换。为了获得高质量的合成图像,经常需要专业人员手动执行多个编辑步骤,例如图像分割、抠图、前景色彩去污,即使使用复杂的图像编辑工具,这些步骤也是非常耗时的。

近日,Adobe 联合约翰霍普金斯大学的研究者提出了一种无需用户输入即可生成高质量合成图像的新方法。该方法能够进行端到端的训练,以优化对前景和背景图像上下文和颜色信息的利用,其中在优化过程中考虑了合成质量。

具体而言,受拉普拉斯金字塔融合(Laplacian pyramid blending)的启发,该研究提出一种密集连接的多流融合网络,以有效融合来自不同前景和背景图像的信息。

此外,该研究还引入了一种自学式(self-taught)的策略,以逐步训练从简单到复杂的用例,进而弥补训练数据不足的问题。实验表明,该方法能够自动生成高质量的合成图像,并在定性和定量评估中均优于现有方法。

论文链接:https://arxiv.org/pdf/2011.02146.pdf

论文简介

该研究提出了一种基于深度学习的图像合成框架,可以在给定一对前景和背景图像的情况下直接生成合成的肖像图像。前景分割网络与细化网络一起用于提取肖像蒙版。基于肖像蒙版,研究者又提出了一种端到端多流融合(MLF)网络,从而以不同比例合成前景和背景图像。

MLF 网络的设计思想来自拉普拉斯金字塔混合方法。它使用两个编码器分别提取前景和背景图像的不同级别的特征图,然后通过解码器逐级融合,以重建最终的合成结果。该方法是全自动的,着重于缓解由于前景遮挡和颜色净化不完善导致的边界伪影。大体而言,该论文解决了图像合成中颜色、外观协调的正交问题。

此外,该研究提出了一种从易到难的自学式数据增强方案,以生成用于训练 MLF 网络的高质量合成数据。基本思想是使用在更简单数据上进行训练的 MLF 网络,以组合更具挑战性的训练数据来实现性能提升。

在合成图像和真实图像上评估的实验结果表明,该方法较以往方法更加有效。用户研究的结果也验证了该方法卓越的感知质量。

深度图像合成

虽然在该论文中仅将其实现用于肖像合成,但该框架是通用的。研究者也希望将其用于其他图像合成的应用。

该框架将一对前景和背景图像作为输入,并生成合成图像。它由三个部分组成:前景分割网络、蒙版细化网络和多流融合网络。、

首先,分割网络自动从前景图像中提取对象蒙版,然后蒙版细化网络将图像和蒙版作为输入以细化蒙版边界,最后将重新定义的蒙版和前景背景图像一起传输到多流融合网络以生成合成结果。

多流融合图像合成网络的结构示意图如下所示:

从易到难的数据增强

为了训练多流融合(MLF)网络,每个训练样本都是三元组 [FG、BG、C]。其中 FG 是前景图像,BG 是背景图像,C 是 FG 和 BG 的目标合成图像。研究者希望 MLF 网络学习在 FG 和 BG 之间产生视觉上的最佳合成效果,因此目标图像 C 的质量是该方法的关键。但是手动创建高质量的合成数据集需要专家级的人工操作,这就限制了训练数据收集的可扩展性。

为了解决该问题并生成无需人工干预就能进行大规模图像合成的数据集,该研究提出了一种使用自学式方案且易于处理的数据扩展方法。基本思想是使用 MLF 网络生成更具挑战性的数据以提升自身性能。

该研究首先在一些简单的三元组上训练 MLF 网络,其中前景图像 FG 是具有简单彩色背景的肖像图像。然后收集了很多这样的简单肖像图像,并使用 MLF 网络为下一个训练阶段生成更具挑战性的训练三元组。

该数据增强方案的结构示意图如下所示:

下图为自学式数据增强算法生成的三元组(前景、背景和目标)图像,可以看出,该算法可以生成近乎完美的高质量目标图像。

实验

研究者通过定量和定性评估来评估该深层图像合成方法,并进行了用户研究,以评估用户对合成结果的感知质量偏好。最后,该研究还进行了一些控制变量实验。实验所用数据集:DUTS、MSRA-10K 和 Portrait 分割数据集。该研究在这些数据集上训练了分割和细化网络。在实现细节上,细分和优化模块通过 ADAM 算法进行了优化,学习速率为 2×10^−3,批处理大小是 8。所有用于细分和优化模块的训练样本均调整为 256×256。

该论文提出的方法与传统基于混合的合成方法(如拉普拉斯金字塔混合法)进行了比较。该研究还使用了 SOTA 抠图方法评估基于抠图的图像合成方法。此外,该研究还比较了一种称为复制粘贴(copypaste)的基线方法,该方法将从细化分割模块估计的细化分割蒙版用于该合成的软 alpha 蒙版。

为了公平比较,所有被比较的方法都使用与该方法相同的细化蒙版。对于羽化(feathering)方法,研究者采用σ=2 的高斯模糊来软化蒙版。对于拉普拉斯金字塔混合方法,该研究使用 OpenCV 实现。由于基于抠图的方法需要三元图(trimap),因此研究者对细化模板进行了二值化处理,然后通过将宽度为 16 的窄边界带标记为未知边界来生成伪三元图。

样本三元图以及各种方法的生成效果如下图 7 所示。需要注意的是,在基于抠图的合成方法中采用了自动消色算法,以提高其合成质量。

如下表 1 所示,该研究根据合成数据评估的定量结果证明了该方法的有效性。注意:定量结果仅在未知区域上计算得到。

此外,与其他方法对比的用户研究结果如下表 2 所示:

控制变量实验

研究者进行了 3 次控制变量实验,在 SynTest 上的定量结果如下表 3 所示。其中 w/o-DataAug 代表没有使用该方法的数据扩展而训练的的网络,Single-Enc 代表一个具有单流编码器的网络,w/o-RefNet 代表没有分割细化的网络的基线。该评估结果是仅在未知区域上得到的。

真实图像上控制变量实验的结果可参见下图 8:

END

备注:抠图

图像抠图合成交流群

关注图像分割、抠图合成等技术,扫码私信备注拉你入群。

我爱计算机视觉

微信号 : aicvml

QQ群:805388940

微博/知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

无需用户输入,Adobe提出自动高质量图像合成新方法相关推荐

  1. 无需用户输入,Adobe提出自动生成高质量合成图像新方法

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 没有用户输入,也能生成高质量的合成图像吗? 编辑:迈威AI研习社 ...

  2. 无需用户输入!Adobe提出自动生成高质量合成图像新方法

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 本文转载自:机器之心  |  作者:He Zhang等 编辑:小舟.杜伟 没有用户输入,也能生 ...

  3. 科技最前沿!Adobe提出自动生成高质量合成图像新方法

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...

  4. 数字城市“质变”:青岛如何与华为云共谋高质量发展“新基准”

    文 | 曾响铃 来源 | 科技向令说(xiangling0815) 从最开始某些城市小心翼翼地尝试,到现在已经成为城市面向未来发展的共识,数字城市的建设进程正在全面铺开. 无论是城市本身,还是那些服务 ...

  5. 工业互联网平台激发经济高质量发展新动能

    工业互联网平台是面向制造业数字化.网络化.智能化需求,构建基于海量数据采集.汇聚.分析的服务体系,支撑制造资源泛在连接.弹性供给.高效配置的工业云平台.它也是伴随新工业革命和平台经济的演进而兴起的新事 ...

  6. 二手书交易平台告诉你如何高质量拉新

    如何高质量拉新?提高我们的运营质量,减少资源浪费呢?我认为稍微科学一点的分三部曲进行的思路,就是首先先从我们现有的用户当中找到我们真正的用户.第二,通过找到这个真正的用户去发现它的特征是什么.最后,按 ...

  7. 宏基因组组装质量评估新方法-MAGISTA

    谷禾健康 尽管地球上微生物类群的繁多,但只有一小部分得到了培养和有效命名.因为大多数菌无法在非常特定的条件下培养分离鉴定. 在过去十年中,宏基因组研究的重要性已经凸显,因为它能够评估细菌基因库并发现当 ...

  8. 根据用户输入的参数自动读取对应时间内的wrf模式输出数据

    前言 基于一个需求,希望根据用户输入一个起报时间.一个预报时间.一个时间间隔,读取对应的wrf模式数据进行绘图.举个例子如下: 起报时间为:2022071000 预报时常为:24h 时间间隔为:3h一 ...

  9. 提高matlab图片质量,由Matlab输出高质量论文图片方法

    关于Matlab输入高质量论文图片的方法 整理制作:吴川辉 Email:km_bruce@http://www.doczj.com/doc/fa0bf4b3fd0a79563c1e72d5.html ...

最新文章

  1. python遍历目录压缩文件夹然后在发送邮件_python目录操作之python遍历文件夹后将结果存储为xml...
  2. 输入输出 scanf和*修饰符
  3. Redis4.0 Cluster — Centos7
  4. 在每趟长途的HTML5挑运之后
  5. sql中数据类型的转换(自己写比较累哈,偷偷懒,转下别人的)
  6. win10虚拟内存怎么设置最好_想提高win10操作系统性能,设置合适的虚拟内存大小非常关键...
  7. git回退到历史版本并提交到远程分支
  8. 用陆地卫星 TM6数据演算 地表温度的单窗算法
  9. [实践篇]13.9 如何使用gcore(ramdump)排查内存黑洞?
  10. 交返对于高频交易者尤为重要
  11. linux yassl 漏洞修复,漏洞加固方案.docx
  12. 迷你博客的少年烦恼:Twitter的中国效仿者
  13. 包学会之浅入浅出Vue.js:开学篇(转)
  14. DSPE-PEG6-Mal,C60H111N2O17P小分子PEG试剂化学性质
  15. [转]FlightCaster如何预测飞机准点的
  16. [业界资讯]Ubuntu 2010“雪地猞猁”最新进展
  17. 杭州卧兔全球首发2022海外网红营销白皮书
  18. JAVA WEB 入门基础第一天
  19. Mac使用Aria2下载百度网盘,突破下载限速的方法教程
  20. android windows 无线视频传输,基于Android端到端实时无线视频传输系统

热门文章

  1. OpenCV--罗德里格斯(Rodrigues)变换
  2. Android studio 快速解决Gradle's dependency cache may be corrupt 和 Gradle配置 gradle-3.*-all.zip快速下载
  3. 归并排序(二路、递归)
  4. STM32 - 定时器的设定 -高级- 08 - One-pulse mode - 触发波的实现 - 可变长度和相位
  5. 蔡高厅老师 - 高等数学阅读笔记 - 14 定积分 -定积分的换元法 - 广义积分和伽马函数(65、66、67)
  6. [shell][001] [advanced]定制化自己的shell命令
  7. html给背景架渐变,JS和CSS实现渐变背景特效的代码
  8. mysql删除不安全的账户_【20200407】MySQL账号不规则删除导致权限错误
  9. redis和sqlserver数据同步_SQLServer数据库之redis数据库的数据导入到SQLServer数据库中...
  10. python中grid函数_Python / NumPy中meshgrid的目的是什么?