来源:机器之心

将快速傅里叶卷积引入网络架构,弥补感受野不足的缺陷,来自三星、洛桑联邦理工学院等机构的研究者提出了 LaMa(large mask inpainting)方法,在一系列数据集上改进了 SOTA 技术。

现代图像修复(Modern image inpainting)系统尽管取得了长足的进步,但往往难以处理大面积的缺失区域、复杂的几何结构和高分辨率图像。研究人员发现造成这种情况的主要原因之一是修复网络和损失函数都缺乏有效的感受野。

大的有效感受野对于理解图像的全局结构并因此解决修复问题至关重要。此外,即使掩码足够大,但有限的感受野可能不足以获得模型生成质量修复所需的信息。

为了解决这一问题,来自三星、洛桑联邦理工学院等机构的研究者提出了一种新方法,LaMa(large mask inpainting)。LaMa 基于(1)一种使用了快速傅里叶卷积的修复网络架构,该架构具有较宽的图像感受野;(2)高感受野感知损失;(3)较大的训练掩码,可以释放前两个组件的潜力。

该研究提出的修复网络在一系列数据集上改进了 SOTA 技术,即使在具有挑战性的情况下也能实现出色的性能。此外,该模型还可以很好地泛化到比训练时更高的分辨率图像,以较低的参数量和计算成本实现与基准相媲美的性能。

  • 论文地址:https://arxiv.org/pdf/2109.07161.pdf

  • GitHub 地址:https://github.com/saic-mdal/lama

这项研究在 reddit 上可谓火爆:

它的效果是这样的,从功能上来讲,假如作为 PS 插件,应该会很酷:

这里,我们也试玩了一下,输入一张小猫咪的图像,提交之后,处理后的效果如图右上所示,右下是图像被处理掉的部分:

试玩地址:https://huggingface.co/spaces/akhaliq/lama

不过处理后的图像看起来会留下伪影,正如网友所疑问的:是我一个人还是大家都这样,修复的图像在背景区域会留下轻微的黑色。

但这也不妨碍这项研究的贡献,虽然处理效果还不是很完美,但它仍然是最出色的那一个。

技术细节

早期层中的全局背景

最近提出的快速傅里叶卷积(Fourier convolution)方法可以在早期层中使用全局背景。傅里叶卷积层基于层级的快速傅里叶变换(FFT),并具有覆盖整个图像的 image-wide 感受野。

傅里叶卷积层将通道分割为两个并行的分支:使用常规卷积的局部分支和使用 Real FFT 来处理全局背景的全局分支。Real FFT 只可用于实值信号(real valued signal),同时 niReal FFT 确保输入也是实值。值得注意的是,Real FFT 仅使用 FFT 一半的谱。

具体地,快速傅里叶卷积层通过以下步骤来处理全局背景:

最终,局部(i)和全局(ii)分支的输出融合在一起。图 2(左)为该研究提出的 LaMa,图(中)为快速傅里叶卷积,图(右)为谱变换。

相较于常规卷积,傅里叶变换完全可微,并且嵌入式方式易于使用。得益于覆盖整个图像的 image-wide 感受野,傅里叶卷积使得生成器网络可以从早期层处理全局背景,这对于高分辨率的图像修复至关重要。

傅里叶卷积的另一个益处是它有能力捕获人造环境中很常见的周期性结构,如砖块、梯子和窗户等。有趣的是,在所有频数上共享相同的卷积使得模型转向尺度协方差(scale covariance)。

损失函数

图像修复问题具有内在的模糊性。同一个缺失区域可以有很多看似可信的填充,特别是当 hole 变得更宽时。研究者提出的损失涵盖包含以下三个重要的组件,它们结合在一起解决了这一问题:

  • 高感受野感知损失

  • 对抗损失

  • 最终损失函数

训练中掩码的生成

修复系统的最后一个组件是掩码生成策略。每个训练样本 x’都是训练集中的真实照片,由综合生成的掩码叠加而成。与判别式模型中数据扩增对最终性能具有重大影响类似,研究者发现掩码生成策略显著影响了修复系统的性能。

因此,他们选择使用激进的大掩码(large mask)生成策略,该策略使用来自由随机高度(宽掩码,wide mask)和任意长宽比矩形(box mask)组成的多边形链中的样本。具体如下图 3 所示:

研究者在几种方法中都进行了大(large )和窄(narrow)掩码训练测试,结果发现使用大掩码策略的训练在窄和宽掩码上通常都可以提升性能。这表明,增加掩码的多样性对不同的图像修复系统都有益。

实验展示

该研究将 LaMa 方法与其他强基线方法进行了对比,结果如表 1 所示。对于每一个数据集,该研究验证了窄掩码(narrow mask)、宽掩码( wide mask)和基于分割掩码(segmentation-based  mask)性能。由结果可得使用快速傅里叶卷积的 LaMa 始终优于大多数基线方法,同时比最强的竞争对手拥有更少的参数:

为了减少被选择的指标可能带来的偏差,研究人员还进行了一项 crowdsourced 用户研究。用户研究结果与定量评价结果具有良好的相关性,表明该方法比其他方法更优且更不易检测。

消融研究

消融实验展示了 Places 数据集的结果。快速傅里叶卷积增加了系统的有效感受野。添加快速傅里叶卷积极大地提高了宽掩码的 FID 评分,如表 2 所示:

当模型应用于比训练更高的分辨率时,感受野的重要性最为明显。如图 5 所示,在没有傅里叶卷积的情况下,当分辨率增加到超过训练时使用的分辨率时,模型会产生明显的伪影。图 6 定量验证了相同的效果:

傅里叶卷积还可以更好地生成重复结构,例如图 4 窗口。有趣的是,LaMa-Fourier 仅比 LaMa-Regular 慢 20%,而模型小 40%。

研究者还验证了感知损失的高感受野设计——用空洞卷积(Dilated convolutions)实现,结果表明这种方法确实提高了修复的质量,如表 3 所示:

更宽的训练掩码改善了 LaMa 和 RegionWise 在窄和宽 hole 上的修复,如表 4 所示:

直接在高分辨率上训练速度很慢,并且计算昂贵。即使这样,大多数真实世界的图像编辑场景需要模型在高分辨率数据上表现良好。因此,研究者在 512×512 图像的 256 × 256 crop 上训练模型,并在更大的图像上对模型进行评估。他们以全卷积的形式使用模型,即不用任何 patch-wise 操作在单通道上处理完整的图像。傅里叶卷积可以迁移至比常规卷积明显更高的分辨率。具体如下图 6 所示:

最后,为了验证 LaMa 方法对真实高分辨率图像的扩展性和适用性,研究者使用更多的资源训练了大规模修复 Big LaMa 模型。Big LaMa 在以下三个方面不同于标准 LaMa 模型,分别是生成器网络深度、训练数据集和批大小。Big LaMa 具有 18 个残差块,都基于快速傅里叶卷积,参数量为 5100 万。该模型在 Places-Challenge 数据集中一个包含 450 万张图像的子集上进行训练,只在大约 512×512 图像的低分辨率 256×256 crop 上训练,批大小为 120(标准模型为 30)。最终,Big LaMa 模型在 8 块英伟达 V100 GPU 上训练了将近 240 个小时。

参考链接:

https://www.reddit.com/r/MachineLearning/comments/q97fpv/r_resolutionrobust_large_mask_inpainting_with/

推荐阅读

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 一文总结微软研究院Transformer霸榜模型三部曲!

  • Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源

  • 加性注意力机制!清华和MSRA提出Fastformer:又快又好的Transformer新变体!

  • MLP进军下游视觉任务!目标检测与分割领域最新MLP架构研究进展!

  • 周志华教授:如何做研究与写论文?(附完整的PPT全文)

  • 都2021 年了,AI大牛纷纷离职!各家大厂的 AI Lab 现状如何?

  • 常用 Normalization 方法的总结与思考:BN、LN、IN、GN

  • 注意力可以使MLP完全替代CNN吗? 未来有哪些研究方向?

欢迎大家加入DLer-计算机视觉&Transformer群!

大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明)

傅里叶卷积实现「万物隐身」,这个神器可试玩相关推荐

  1. 用傅里叶卷积实现万物隐身!三星这个LaMa神器可试玩!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:机器之心  |  编辑:杜伟.陈萍 将快速傅里叶卷积引入网络架构,弥补感受野不足的缺陷,来自三星.洛 ...

  2. 北邮王啸:挖掘图神经网络中的「万物真理」 | 青源专栏

    导读:为了启发青年学者研究思路,激发科研灵感,智源社区推出青年学者访谈栏目.北京邮电大学副教授王啸是国内图学习领域的佼佼者.回顾他的科研历程,从探寻网络研究的本质,到在物理学家的论文中寻找灵感,他对图 ...

  3. 浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏

    选自arXiv, 机器之心编译 人工智能已在围棋这样的完美信息游戏上实现了远超人类的水平,但在信息未完全披露的多人对战游戏上还无法战胜人类.近年来,OpenAI 和 DeepMind 在 DOTA2 ...

  4. 微信新增「炸屎」表情互动特效,玩上瘾了

    公众号后台回复"图书",了解更多号主新书内容作者:大碗来源:科技兽 微信真是"正事"不干,花里胡哨的功能越来越多了.今天有网友发现 iOS 微信悄悄加入一个新玩 ...

  5. 智能座舱开启「万物交互」新革命,隐形冠军们如何突围?

    伴随智能座舱在市场端逐步深入消费者心智,从显示.语音到视觉交互,各细分赛道都在蓬勃发展. 高工智能汽车研究院监测数据显示,2022年1-10月,智能座舱前装搭载量同比增长58.06%%,高阶智能座舱同 ...

  6. 「万物生长」一个APK从诞生到活跃在Android手机上,android驱动开发权威指南pdf

    可能到这里你还没有感觉,但如果看了这张图呢? 是否能切实的感受到Gradle所提供的强大能力了,因为对我们我们开发者而言其实只干了一件运行按钮的触发操作,但是背后Gradle给我们所带来的收益是无穷无 ...

  7. 艺术家与AI研究者的跨界碰撞丨记青源Workshop「AI+艺术」研讨会(2022年第10期)...

    艺术创造力是人类最无可替代的能力之一,曾几何时,艺术是AI无法涉足的疆域.但从2014年推出的GAN,到近年的DALL-E.CogView.MidJourney,再到今年横空出世的Stable Dif ...

  8. IEEE Fellow杨铮:打破「视觉」垄断,无线信号为 AI 开启「新感官」

    来源:AI科技评论 作者:陈彩娴 编辑:岑峰 2020年年初疫情刚开始时,清华大学的官方号曾祭出一篇题为<清华教师升级「十大神器」,上课力满格>的推文,讲述了软件学院某老师如何居家办公.探 ...

  9. 在线试玩,在体感游戏中打败泰森,这位小哥破解了任天堂「拳无虚发」

    视学算法报道 编辑:张倩.陈萍 加入体感控制,这位小哥破解了原版任天堂的拳击格斗游戏「拳无虚发」. 在经典红白机上玩拳击游戏是很多人的童年回忆,其中就包括任天堂 1987 年发布的拳击格斗游戏--「P ...

最新文章

  1. selenium | TypeError:object of type ‘WebElement’ has no len()
  2. Retrofit网络请求参数注解,@Path、@Query、@Post、Body等总结(超级实用)以及以Json格式和form-data格式提交数据
  3. Windows Server 2003 导入Java生成的证书,保证iis对CAS的访问
  4. net如何判断浏览器的类别
  5. .NET操作Excel
  6. Codeforces 1065E(计数)
  7. 关于高速光耦6N137的使用总结
  8. DDA算法和Bresenham算法
  9. 看看雅虎助手是如何迫害“兔子”和“360安全卫士”的
  10. 程序员必备:常见的安卓开发工具推荐
  11. mysql教学版_MySQL 8从零开始学(视频教学版)
  12. 自发光效果(控制自发光的颜色、强度,呼吸光可选)
  13. 怎么通过抖音带货赚钱?史上最全面抖音带货攻略
  14. 全球及中国医疗听力计行业市场消费量调研及未来投资研究报告2022-2028年
  15. python语言的实验心得体会范文_实验心得体会范文
  16. Linux|操作系统
  17. Python一亿以内的素数个数_Python编程100例(上)
  18. 技术分享 | 使用 cURL 发送请求
  19. java break递归_如何利用Java递归解决“九连环”公式
  20. 为Nextcloud中的视频文件配置缩略图

热门文章

  1. 获取运行中的TeamViewer的账号和密码--中文版
  2. oracle 游标小例
  3. SQL CONVERT在日期转换中的使用示例
  4. 用C语言解“用天平找小球”题
  5. 排序算法四:归并排序
  6. bert模型图解 很详细的与其他模型对比实验
  7. C++中 何时用. 何时用-」
  8. 梯度下降法与批量梯度下降法的简洁公式总结
  9. 关肇直 automation lingjunrenwu
  10. 打开深度学习的黑盒,详解神经网络可解释性