现代的图像补全系统尽管取得了重大进展,但经常与大的缺失区域,复杂的几何结构和高分辨率的图像数据作斗争。我们发现,其中一个主要的原因是其补全网络和损失函数中都缺乏一个有效的感受野。为了缓解这一问题,我们提出了一种新的方法——large mask inpainting(LaMa)。
LaMa是1)基于一种使用快速傅里叶卷积的全新的补全网络框架,其有着覆盖整张图像范围的感受野;2)一个高感受野的感知损失;3)大的训练掩膜,它可以彰显前两个特点的优越性。
解决图像补全问题的方法——现实地填充缺失的部分——既需要“理解”自然图像的大规模结构,也需要进行图像合成。一个大的有效的接受域[29]对于理解图像的全局结构从而解决补全问题至关重要。

Method

此补全网络只有一个阶段,我们的目标是补全一个被二进制掩膜覆盖的彩色图像x,输入的掩膜覆盖图像表示为x⊙mx \odot mx⊙m。掩膜mmm和掩膜覆盖图像x⊙mx \odot mx⊙m堆叠在一起,得到一个四通道的输入张量x′=stack(x⊙m,m)x'=stack(x \odot m, m)x′=stack(x⊙m,m)。我们使用一个前馈补全网络fθ(⋅)f_{\theta}(·)fθ​(⋅), 我们也称之为生成器。提取x′x'x′,补全网络以全卷积的方式处理输入,并生成一个三通道的补全图像x^=fθ(x′)\hat{x} = f_{\theta}(x')x^=fθ​(x′)。该训练的数据集由真实图像和和合成的掩膜两部分组成。

Global context within early layers

生成适当的补全需要考虑全局环境。因此,我们认为一个好的架构应该在通道处理中尽可能早的拥有尽可能广泛的感受野单元。传统的全卷积模型,如ResNet[14],其有效感受野[29]增长缓慢。感受野可能是不够的,特别是在网络的早期层,由于典型的小卷积核(例如3×3)。因此,网络中的许多层将缺乏全局上下文,并将浪费计算和参数来创建一个全局层。对于宽掩膜,生成器在特定位置的整个感受野可能处于掩膜内部,因此只观察到缺失的像素。

Fast Fourier convolution (FFC)

快速傅里叶卷积(FFC)[4]是最近提出的算法,允许在早期层中使用全局上下文。FFC是基于一个通道级别的快速傅里叶变换(FFT),并有一个覆盖整个图像的感受野。
FFC将通道划分为两个并行的分支:i)局部分支使用传统的卷积,ii)全局分支使用真实的FFT来解释全局上下文。真FFT只能应用于实值信号,而逆实FFT保证了输出是实值的。
与FFT相比,Real FFT只使用了一半的频谱。
具体来说,FFC会执行以下步骤:


最后将局部和全局分支的输出融合在一起。
我们证明,FFC非常适合捕获周期结构,这在人造环境中很常见,如砖、梯子、窗户等。

Loss functions

High receptive field perceptual loss

单纯的监督损失需要生成器精确得重建Ground truth。然而,图像的可见部分往往不包含足够的信息来精确得重建掩码部分。因此,使用单纯的监督损失导致模糊的结果,由于平均多层合理模式的补全内容。
相比之下,感知损失[20]通过预先训练的基础网络ϕ(⋅)\phi(·)ϕ(⋅)评估从预测图像中提取的特征与目标图像之间的距离。它不需要精确的重建,允许重建图像的变化。大规模掩码补全的重点转向了对全局结构的理解。因此,我们认为使用具有感受野快速增长的基础网络是很重要的。我们引入了高感受野的感知损失(HRF PL),它使用了一个高感受野基于模型θHRF(⋅)\theta_{HRF}(·)θHRF​(⋅)

一个训练感知损失的基础网络对于感知损失是十分重要的。例如,使用分割模型作为感知损失的主干可能有助于关注高级信息,例如物体及其部分。相反,已知的分类模型更多地关注纹理[10],这可能会引入对高级信息有害的偏见。

adversarial loss

我们使用对抗性损失来确保补全模型fθ(x′)f_{\theta}(x')fθ​(x′)生成自然的局部细节。我们定义一个鉴别器Dξ(⋅)D_{\xi}(\cdot)Dξ​(⋅)用来鉴别局部补丁的真伪。只有与掩膜区域相交的补丁才会得到“假”标签。由于有监督的HRF感知损失,生成器快速学习复制输入图像的已知部分,因此我们将生成图像的已知部分标记为“真”。最后,我们使用非饱和的对抗损失。

The final loss function

Generation of masks during training

我们系统的最后一个组成部分是一个掩膜生成策略。每个训练的输入数据x′x'x′都是一张来自训练数据集的真实图像,由一个综合生成的掩膜叠加。

代码链接:https://github.com/saic-mdal/lama

Resolution-robust Large Mask Inpainting with Fourier Convolutions 解读相关推荐

  1. Resolution-robust Large Mask Inpainting with Fourier Convolutions(2021)

    [Paper] Resolution-robust Large Mask Inpainting with Fourier Convolutions(2021) [Code]saic-mdal/lama ...

  2. 深度学习-Resolution-robust Large Mask Inpainting with Fourier Convolutions基于傅里叶卷积的对分辨率鲁棒的掩模修复

    Resolution-robust Large Mask Inpainting with Fourier Convolutions基于傅里叶卷积的对分辨率鲁棒的掩模修复 0.摘要 1.概述 2.方法 ...

  3. mask rcnn 超详细代码解读(一)

    mask r-cnn 代码解读(一) 文章目录 1 代码架构 2 model.py 的结构 3 train过程代码解析 3.1 Resnet Graph 3.2 Region Proposal Net ...

  4. AprilTag: A robust and flexible visual fiducial system论文解读

    AprilTags论文解读 一.Apriltag是改进的ARToolkit. ARTag . 1.1 ARToolkit的劣势: A major disadvantage of this approa ...

  5. Fast Fourier Convolution

    Fast Fourier Convolution 背景: 感受野的概念: 卷积神经网络每一层输出的特征图(feature map)上的像素点映射回输入图像上的区域大小 例如: 扩大感受野的方法:非局部 ...

  6. 人工智能 | ShowMeAI资讯日报 #2022.06.09

    ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向.点击查看 历史文章列表, ...

  7. 2022年32篇最佳AI论文:DALL·E 2、Stable Diffusion、ChatGPT等入选

    Mila在读博士Louis Bouchard总结的论文列表,总体比较靠谱.GitHub上还有很多论文的短视频和文字解读.代码链接等. 下面的列表我们添加了论文的主要贡献机构(有些机构虽然有贡献但排名较 ...

  8. 被b站百大up主盯上了!

    点击下方"AI算法与图像处理",一起进步!重磅干货,第一时间送达 大家好,我是阿潘 前段时间(11.13)我在b站分享了一个 WACV2022最新成果的demo视频, 标题:AI魔 ...

  9. 傅里叶卷积实现「万物隐身」,这个神器可试玩

    来源:机器之心 将快速傅里叶卷积引入网络架构,弥补感受野不足的缺陷,来自三星.洛桑联邦理工学院等机构的研究者提出了 LaMa(large mask inpainting)方法,在一系列数据集上改进了 ...

  10. 用傅里叶卷积实现万物隐身!三星这个LaMa神器可试玩!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:机器之心  |  编辑:杜伟.陈萍 将快速傅里叶卷积引入网络架构,弥补感受野不足的缺陷,来自三星.洛 ...

最新文章

  1. 用树莓派从0开始打造属于自己的服务器
  2. 服气!3小时竟能写出风靡全球的小游戏,还顺手就赚的盆满钵满
  3. python中常见的流程结构-【Python2】04、Python程序控制结构
  4. fft的c语言和matlab对比_Matlab系列之程序控制
  5. 链式调用setTimeout()与setInterval()的区别
  6. 2020 ICPC NAC
  7. 【干货】推荐系统中的机器学习算法与评估实战
  8. Centos6.7系统环境下使用 yum install 安装mysql-community-5.7.22(史上最简)
  9. 业务实时监控服务ARMS推出小程序监控支持各种小程序
  10. 如何解决System.Web.HttpRequestValidationException的异常
  11. pycharm安装后,找不到Python解释器怎么办
  12. 全国java二级考试范围,全国计算机二级Java考试大纲
  13. wincc中c语言做变量自增,在WinCC中如何利用C动作实现变量自动加1-工业支持中心-西门子中国...
  14. android6.0华为刷机包,华为畅享6官方rom刷机包_华为畅享6原版系统包_升级包
  15. #扒一扒网易云课堂python课程,发现还是有不少可以白嫖的免费好资源
  16. [Maven实战-许晓斌]-[第三章] Mave使用入门二(在IDE中的使用) [第四章] 案例的背景介绍...
  17. android什么意思!读完我这份《Android开发核心源码精编解析》面试至少多要3K!面试建议
  18. linux正在等待声音系统响应,linux声音系统较好的解决方案alsa+esd
  19. qq互联登录授权php配置,php如何整合qq互联登录
  20. linux开机启动任务和定时执行任务

热门文章

  1. java faker_Faker--伪造数据利器
  2. C++获取C盘临时文件夹的方法
  3. 用Python做的小游戏合集来咯~自行开发一个星际争霸小游戏~
  4. 专科三年的教训,写给自己,也给正在学习路上的你
  5. 快速使用easy rule
  6. 通过U盘安装windows简易教程
  7. 深入源码分析springboot lettuce的shutdown-timeout
  8. 深度学习实战 2 YOLOv5 添加CBAM、CA、ShuffleAttention注意力机制
  9. html编码器是什么意思,编码器是什么意思
  10. sklearn2onnx