本文  机器之心编辑部

来自罗彻斯特大学和 Adobe Research 的研究者提出了一种新的生成网络 CM-GAN,很好地合成了整体结构和局部细节,在定量和定性评估方面都显著优于现有 SOTA 方法,如 CoModGAN 和 LaMa。

图像修复是指对图像缺失区域进行补全,是计算机视觉的基本任务之一。该方向有许多实际应用,例如物体移除、图像重定向、图像合成等。

早期的修复方法基于图像块合成或颜色扩散来填充图像缺失部分。为了完成更复杂的图像结构,研究人员开始转向数据驱动的方案,他们利用深度生成网络来预测视觉内容和外观。通过在大量图像上进行训练,并借助重建和对抗损失,生成式修复模型已被证明可以在包括自然图像和人脸在内的各种类型输入数据上产生更具视觉吸引力的结果。

然而,现有工作只能在完成简单的图像结构方面显示出良好的结果,生成整体结构复杂和细节高保真的图像内容仍然是一个巨大的挑战,特别是当图像空洞(hole)很大的时候。

从本质上讲,图像修复面临两个关键问题:一个是如何将全局上下文准确地传播到不完整区域,另一个是合成与全局线索一致的真实局部细节。为了解决全局上下文传播问题,现有网络利用编码器 - 解码器结构、空洞卷积、上下文注意力或傅里叶卷积来整合长程特征依赖,扩大有效感受野。此外,两阶段方法和迭代空洞填充依靠预测粗略结果来增强全局结构。然而,这些模型缺乏一种机制来捕获未掩码区域的高级语义,并有效地将它们传播到空洞中以合成一个整体的全局结构。

基于此,来自罗彻斯特大学和 Adobe Research 的研究者提出了一种新的生成网络:CM-GAN(cascaded modulation GAN),该网络可以更好地合成整体结构和局部细节。CM-GAN 中包括一个带有傅里叶卷积块的编码器,用于从带有空洞的输入图像中提取多尺度特征表征。CM-GAN 中还有一个双流解码器,该解码器在每个尺度层都设置一个新型级联的全局空间调制块。

在每个解码器块中,研究者首先应用全局调制来执行粗略和语义感知的结构合成,然后进行空间调制来进一步以空间自适应方式调整特征图。此外,该研究设计了一种物体感知训练方案,以防止空洞内产生伪影,从而满足现实场景中物体移除任务的需求。该研究进行了广泛的实验表明,CM-GAN 在定量和定性评估方面都显著优于现有方法。

  • 论文地址:https://arxiv.org/pdf/2203.11947.pdf

  • 项目地址:https://github.com/htzheng/CM-GAN-Inpainting

我们先来看下图像修复效果,与其他方法相比,CM-GAN 可以重建更好的纹理:

CM-GAN 可以合成更好的全局结构:

CM-GAN 具有更好的物体边界:

下面我们来看下该研究的方法和实验结果。

方法

级联调制 GAN

为了更好地建模图像补全的全局上下文,该研究提出一种将全局码调制与空间码调制级联的新机制。该机制有助于处理部分无效的特征,同时更好地将全局上下文注入空间域内。新架构 CM-GAN 可以很好地综合整体结构和局部细节,如下图 1 所示。

如下图 2(左) 所示,CM-GAN 基于一个编码器分支和两个并行级联解码器分支来生成视觉输出。编码器以部分图像和掩码为输入,生成多尺度特征图

与大多数编码器 - 解码器方法不同,为了完成整体结构,该研究从全连接层的最高级别特征中提取全局样式代码 s,然后进行归一化。此外,基于 MLP 的映射网络从噪声中生成样式代码 w,以模拟图像生成的随机性。代码 w 与 s 结合产生一个全局代码 g = [s; w],用于之后的解码步骤。

全局空间级联调制。为了在解码阶段更好地连接全局上下文,该研究提出了全局空间级联调制 (CM,cascaded modulation)。如图 2(右)所示,解码阶段基于全局调制块(GB)和空间调制块(SB)两个分支,并行上采样全局特征 F_g 和局部特征 F_s。

与现有方法不同,CM-GAN 引入了一种将全局上下文注入空洞区域的新方法。在概念层面上,它由每个尺度的特征之间的级联全局和空间调制组成,并且自然地集成了全局上下文建模的三种补偿机制:1)特征上采样;2) 全局调制;3)空间调制。

物体感知训练

为训练生成掩码的算法至关重要。本质上,采样的掩码应该类似于在实际用例中绘制的掩码,并且掩码应避免覆盖整个物体或任何新物体的大部分。过度简化的掩码方案可能会导致伪影。

为了更好地支持真实的物体移除用例,同时防止模型在空洞内合成新物体,该研究提出了一种物体感知训练方案,在训练期间生成了更真实的掩码,如下图 4 所示。

具体来说,该研究首先将训练图像传递给 全景分割网络 PanopticFCN 以生成高度准确的实例级分割注释,然后对自由空洞和物体空洞的混合进行采样作为初始掩码,最后计算空洞和图像中每个实例之间的重叠率。如果重叠率大于阈值,该方法将前景实例从空洞中排除;否则,空洞不变并模拟物体完成,其中阈值设为 0.5。该研究随机扩展和平移物体掩码以避免过度拟合。此外,该研究还扩大了实例分割边界上的空洞,以避免将空洞附近的背景像素泄漏到修复区域中。

训练目标与 Masked-R_1 正则化

该模型结合对抗性损失和基于分割的感知损失进行训练。实验表明,该方法在纯粹使用对抗性损失时也能取得很好的效果,但加入感知损失可以进一步提高性能。

此外,该研究还提出了一种专门用于稳定修复任务的对抗性训练的 masked-R_1 正则化,其中利用掩码 m 来避免计算掩码外的梯度惩罚。

实验

该研究在 Places2 数据集上以 512 × 512 分辨率进行了图像修复实验,并给出了模型的定量和定性评估结果。

定量评估:下表 1 为 CM-GAN 与其他掩码方法的比较。结果表明,CM-GAN 在 FID、LPIPS、U-IDS 和 P-IDS 方面明显优于其他方法。在感知损失的帮助下,LaMa、CM-GAN 比 CoModGAN 和其他方法获得了明显更好的 LPIPS 分数,这归功于预训练感知模型提供的额外语义指导。与 LaMa/CoModGAN 相比,CM-GAN 将 FID 从 3.864/3.724 降低到 1.628。

如下表 3 所示,在有无微调的情况下,CM-GAN 在 LaMa 和 CoModGAN 掩码上都取得了明显优于 LaMa 和 CoModGAN 的性能增益,表明该模型具有泛化能力。值得注意的是,在 CoModGAN 掩码,物体感知掩码上训练的 CM-GAN 性能依然优于 CoModGAN 掩码,证实了 CM-GAN 具有更好的生成能力。

定性评估:图 5、图 6、图 8 展示了 CM-GAN 与 SOTA 方法在合成掩码方面的可视化比较结果。ProFill 能够生成不连贯的全局结构,CoModGAN 产生结构伪影和颜色斑点,LaMa 在自然场景上容易产生较大的图像模糊。相比之下,CM-GAN 方法产生了更连贯的语义结构、纹理更清晰,可适用于不同场景。

为了验证模型中每个组件的重要性,该研究进行了一组消融实验,所有模型都在 Places2 数据集上进行训练和评估。消融实验结果如下表 2 和图 7 所示。

该研究还进行了用户研究,以更好地评估 CM-GAN 方法的视觉生成质量,结果如下表 5 所示。此外,附录提供了更多的视觉比较和实验分析以供读者参阅。

猜您喜欢:

 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉前沿弄潮儿!

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

CM-GAN:图像大面积缺失修复,兼顾全局结构和纹理细节相关推荐

  1. 基于微软开源深度学习算法,用 Python 实现图像和视频修复

    ‍‍ 作者 | 李秋键 编辑 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 图像修复是计算机视觉领域的一个重要任务,在数字艺术品修复.公安刑侦面部修复等种种实际场景中被广泛应用.图像 ...

  2. 利用OpenCV的inpaint函数实现图像的污点修复

    图像处理开发需求.图像处理接私活挣零花钱,请加微信/QQ 2487872782 图像处理开发资料.图像处理技术交流请加QQ群,群号 271891601 inpaint函数的原型如下: void inp ...

  3. 【每周CV论文】初学GAN图像风格化必须要读的文章

    欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像风格化是生成对抗网络的一大应用,今天给大家推 ...

  4. (Python)从零开始,简单快速学机器仿人视觉Opencv---运用四:图像损痕修复

    教程: 博主之前写了24节关于使用OpenCV的教程,欢迎大家阅读: (Python)从零开始,简单快速学机器仿人视觉Opencv-第一节:OpenCV的图像读取显示及保存 (Python)从零开始, ...

  5. 数字图像处理与Python实现-图像信号处理-图像坏点修复

    图像坏点修复 文章目录 图像坏点修复 1.图像坏点介绍 2.图像坏点修复方法 3.图像坏点修复算法实现 3.1 均值滤波修复 3.2 基于梯度滤波修复 1.图像坏点介绍 **Misbehaving p ...

  6. ai109b_gm.dll(ai109b_gm.dll文件缺失修复)

    ai109b_gm.dll(ai109b_gm.dll文件缺失修复) 参考: https://www.ijinshan.com/filerepair/ai109b_gm.dll.shtml ai109 ...

  7. python可以做工业视觉_(Python)从零开始,简单快速学机器仿人视觉Opencv—运用四:图像损痕修复...

    主题 在本节中我们将描述一种称为图像修复的区域填充算法. 这种图片修复算法的作用是可以通过使用OpenCV模块来进行图片上异常划痕或斑点等噪线.噪点的修复,而且代码相对其他的图片修复算法而言要稍微简单 ...

  8. [Pytorch系列-72]:生成对抗网络GAN - 图像生成开源项目pytorch-CycleGAN-and-pix2pix - 使用预训练模型训练CycleGAN模型

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...

  9. [Pytorch系列-69]:生成对抗网络GAN - 图像生成开源项目pytorch-CycleGAN-and-pix2pix - test.py代码详解

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:[Pytorch系列-66]:生成对抗网络GAN - 图像生成开源项目pytorch-CycleG ...

最新文章

  1. 【组队学习】【25期】Datawhale组队学习内容介绍
  2. 美团十年,支撑最大规模外卖配送的一站式机器学习平台如何炼成?
  3. 低代码、无代码?深度解读硅谷新趋势
  4. 线性表【项目 - 求集合并集C语言】(带注释)
  5. 【Linux】一步一步学Linux系统编程教程汇总(暂时暂停更新......)
  6. 6.C语言迷宫程序界面版
  7. 一个简单图书管理系统TSGL的应用数据库
  8. 本科计算机专业学物理力学吗,力学专业
  9. php一定要用phpstudy,用phpstudy有什么好处
  10. Java项目开发工具汇总
  11. 深度解析|积分墙防作弊,一直在发展
  12. 利用 UPnP 的反射攻击分析
  13. 负数求余究竟怎么求???
  14. 高通正式开源 aptX 和 aptX HD 编码器
  15. LattePanda 外壳 HOTe-LPA 铝合金外壳
  16. Mapbox使用详解
  17. 怎么选择WiFi短信认证硬件供应商?
  18. 怎样关联多个 Excel 档工作表(Sheet)中的数据
  19. 物联网python开发实战pdf_智能物联网项目开发实战 PDF 下载
  20. 2023软考中级职称电子商务设计师之路一

热门文章

  1. 完美简单解决git和svn共用混用,或用git维护svn的问题
  2. 【力扣Hot100】155. 最小栈
  3. java封神OL_MobaXterm:远程终端登录软件封神选手
  4. list集合 树 三层集合嵌套 {..{..{..}}}
  5. 【ICDAR 2023 X 阿里安全】挑战赛正式启动!篡改文本分类和检测两大赛题!
  6. 14-HAL库之I2C通信
  7. 王树森强化学习笔记——多智能体强化学习
  8. U-boot启动过程之——relocate_code分析
  9. 创建添加学生信息的vue实例
  10. 使用Scratch制作项目《弹珠游戏》