编辑:murufeng
Date:2020-6-29
来源:深度学习技术前沿微信公众号
链接: 【抠图中的注意力机制】HAttMatting---让抠图变得如此简单!

【导读】图像抠图(Image Matting)是一个无论在工业界或者视觉研究领域都有非常重要价值的研究课题。从2000年开始,在进行图像抠图及相近研究问题的研究过程中,诞生了类似GrabCut、Guided Filter、Closed Form Matting、Poisson Matting、Bayesian Matting等等对各计算机视觉以及计算机图形学研究都有深远影响的工作。在好莱坞的动作大片、迪士尼的动画巨作、Office以及Adobe PhotoShop的一些功能中都能够看到抠图算法的身影。

求解抠图问题需要我们对一张图像,分别求解出它的前景、背景以及alpha matte。alpha matte是我们常说的alpha通道,基于alpha 通道我们可以将前景和任意背景进行重新组合得到新的图像。因此alpha matte是和原图同大小的一个单通道图像,每个像素都对应于原RGB图像相同位置像素的alpha值。根据基本假设,对于一张RGB 图像,每个像素在R、G、B这三个通道上的强度(intensity)是由前景以及背景的凸组合构成的,即

怎样实现既高质量又无需用户交互的图像抠图一直是学术界和工业界在努力追求的目标,近日,随着CVPR2020论文的正式公开,有这样一篇文章,在自动抠图领域又向前走了一步,本篇文章我将为大家介绍CVPR2020中的这篇Image Matting论文,看看它提出来哪些新的解决方法:

  • 论文作者及团队:来自大连理工大学、大连大学、郑州大学,其中第一作者有两位,分别是博士生乔羽和硕士生刘宇豪。
  • 代码地址:
  • https://github.com/wukaoliu/CVPR2020-HAttMatting
  • 论文链接:
  • http://openaccess.thecvf.com/content_CVPR_2020/papers/Qiao_Attention-Guided_Hierarchical_Structure_Aggregation_for_Image_Matting_CVPR_2020_paper.pdf

论文摘要

Abstract:现有的基于深度学习的抠图算法主要依靠高级语义特征来改进alpha mattes的整体结构。然而,我们认为从cnn中提取的高级语义对alpha感知会导致语义不平等,我们应该调节高级语义信息和低级外部特征,从而来改进前景细节。在本文中,我们提出了一种端到端分层的注意力抠图网络(HAttMatting),它可以在不增加额外输入的情况下从单张RGB图像中预测出更好的alpha抠图结构。具体地说,我们利用空间和通道相结合的注意力机制,以一种新颖的方式对外部结构和金字塔特征进行整合。这种混合注意机制可以从精细的边界和自适应的语义来感知alpha mattes。本文还引入了融合结构相似性(SSIM)、均方误差(MSE)和对抗损失所构成的混合损失函数,从而使得训练网络进一步改善整体前景结构。此外,我们构建了一个由59,600张训练图片和1000张测试图片(总计有646个distinct foreground alpha mattes)组成的大规模Image matting数据集,进一步提高了层次结构聚合模型的鲁棒性。大量的实验表明,该算法能够捕获复杂的前景结构,并且将单幅RGB图像作为输入的话,能达到SOTA的性能效果。

论文实现方法

论文中提出的图像抠图网络 HAttMatting 架构,以单幅RGB图像为输入,通过特征提取网络(FEM)提取多层特征。然后,将最深层的、语义丰富的特征输入到所提出的层级注意力机制(HAM)模块中,通过对高级语义进行自适应的特征筛选来实现Image Matting中 Class-Agnotisc 且 Matting-Adaptive 的特征,进而以此作为引导信息,对包含结构,纹理细节信息的低维特征执行空间注意力,以此达到对 Matting 边缘细节补全和优化的目的。

通过这种方式,HAttMatting 利用 FG 定位+boundary 优化,并辅之以对抗网络用于提升可视化效果,随之对网络的输出进行二倍上行采样,得到原始图像分辨率大小的Alpha Matte作为输出。

该方法的核心思想:在高级特征中消除冗余语义,在空间层面中消除无用的BG细节,然后将它们聚合在一起来预测准确的alpha mattes。为此,本文便采用通道注意结构来提取金字塔特征,同时利用空间注意机制来消除FG外的图像纹理细节。

Distinctions-646 数据集

上面的图片是我们的Distinctions-646数据集中的一个样例,该数据集包括646个单独的FG图像组成。我们将FG对象划分为596和50,然后按照DIM中的合成规则生成59,600张训练图像和1000张测试图像。

效果展示

论文作者采用了Image Matting领域通用的四个评价(SAD, MSE, Grad, Conn)指标对该方法分别在 Adobe 数据集[1]和自建的 Distinctions-646 上进行了定性评估。

在Adobe数据上对比的方法都是ImageMatting领域最新的模型,如Late fusion,Context-aware,Indexnet等。从结果上来看,该方法在无需Trimap的众多方法中达到SOTA,甚至在一些指标上超越了基于Trimap的一些方法。

在自身的Distinctions-646数据集上也对一些公开源码的Matting模型进行了重新训练和预测,其提出的HAttMatting模型也实现了SOTA的结果。

该方法在Adobe[1]的一千张测试集上,可以达到平均0.2s一张图片的处理速度,这对于今后模型迁移至视频流任务和实时性要求较高的任务也是一个很好的铺垫。

数据可视化

从在Adobe[1]数据的可视化结果来看,本文的方法在无需Trimap做辅助的情况下也可以达到一个很好的效果。

除了标准测试集上的结果展示外,研究人员从网络上搜索的一些自然图片和这些图片预测的AlphaMatte结果如上图所示。

Conclusion

在本文中,我们提出了一种分层的注意力抠图网络(HAttMatting),它可以从单张RGB图像中预测高质量的alpha mattes。HAttMatting采用通道注意力来提取的匹配语义信息,用空间注意机制来消除FG外的图像纹理细节。大量的实验表明,我们的分层结构聚合能够有效地从输入图像中提取出高水平和低水平的特征,并在不需要外部三映射的情况下实现高质量的alpha mattes。

在未来,我们将探索更有效的策略来改进我们的注意力机制,我们相信它可以更有效地聚合高级语义和外部信息,从而进一步提高我们的网络的泛化性和鲁棒性。后续,我们还会围绕通用物体快速高精准的抠图来展开研究,以此来进一步扩展问题,并缩小合成数据和自然图像之间的差异,提高应用价值。

特征图注意力_【抠图中的注意力机制】HAttMatting---让抠图变得如此简单!相关推荐

  1. 特征图注意力_计算机视觉中的Non-local-Block以及其他注意力机制

    Non-local Neural Networks​arxiv.org 之前看的一篇论文继续总结一下,本质是一种注意力机制模块,文章相对来说比较老,CVPR2018. 我将从以下几个方面总结一下论文, ...

  2. 【抠图中的注意力机制】HAttMatting---让抠图变得如此简单!

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要9分钟 Follow小博主,每天更新前沿干货 [导读]图像抠图(Image Matting)是一个无论在工业界或者视觉研究领域都有非常重要价值 ...

  3. cvpr 注意力机制_计算机视觉中的注意力机制总结

    一.背景 最早图像领域,后面应用到NLP领域 人类视觉注意力机制,扫描全局图像,获得重点关注区域,投入更多经历,抑制其它无用信息,提高视觉信息处理的效率与准确性. 在深度神经网络的结构设计中,atte ...

  4. office2019 图目录_美工被主管要求:这个PS抠图插件可节省10小时,技术再好有什么用...

    同学们圣诞节快乐,柠檬也不会说其他太多的客套话.只能用我特地寻找和整理的:PS超级抠图插件当做礼物送给你们,可以让你们在photoshop修图的时候快速提高自己的效率. Topaz ReMask是一款 ...

  5. 特征图大小_新手向快速了解图神经网络

    这两天稍微看了点图神经网络的东西,稍微做个记录,第一次接触这个名词的推荐可以看一下知乎上一个视频 简单粗暴带你快速理解图神经网络GNN 图神经网络处理的数据一般就是个图,图网络具有节点特征和结构特征, ...

  6. 点云特征图离散化_点云采样

    原文链接 点云采样分类 点云采样的方法有很多种,常见的有均匀采样,几何采样,随机采样,格点采样等.下面介绍一些常见的采样方法. 格点采样 格点采样,就是把三维空间用格点离散化,然后在每个格点里采样一个 ...

  7. ui线框图模板_设计库中的17种必备线框模板和UI套件

    ui线框图模板 线框图. 用户旅程. 内容图. 以用户为中心的设计. 信息架构. 动画原型. 转换路径. 迭代功能. 站点地图. 嗯,什么? 坦白讲,UX(用户体验)和UI(用户界面)的世界充满了术语 ...

  8. 最简单日柱推算法_乒乓球技术中的反手台内拧,如何练最简单?满场飞的乒乓球步法怎么练?反手拧拉两段练习法,一练就会 胖子说乒乓视频教学...

    李晋:公众平台< 胖子说乒乓 >创始人 文字讲解 台内拧拉在技术难度上并不大,有一定弧圈球基础的朋友都可掌握基本动作.但是在实战中,很多业余选手运用拧拉技术都不太娴熟,主要表现在:比如进攻 ...

  9. 特征图注意力_CCNet:用于语义分割的交叉注意力网络

    此篇文章内容源自 CCNet: Criss-Cross Attention for Semantic Segmentation,若侵犯版权,请告知本人删帖. 此篇文章是论文 CCNet: Criss- ...

  10. 深度学习中的注意力机制(SENet、ECA、CBAM)pytorch验证

    先验证 SENet 介绍一下:SE注意力机制(Squeeze-and-Excitation Networks),它是一种通道类型的注意力机制,就是在通道维度上增加注意力机制,主要内容是是squeeze ...

最新文章

  1. 清华姚班陈丹琦等27位华人学者获奖,斯隆奖2022年获奖名单颁布!
  2. BZOJ1001[BeiJing2006]狼抓兔子——最小割
  3. php中处理xml文件的类 simpleXML
  4. UltraEdit v18及注册
  5. 如何零基础或者转行数据分析师?
  6. java内存漏洞_处理Java程序中的内存漏洞
  7. 实现一个符合标准的Promise
  8. [转]介绍“Razor”— ASP.NET的一个新视图引擎
  9. 恢复mysql数据--使用frm和ibd文件
  10. Android 触摸事件转换为鼠标事件
  11. 天邑ty400 wifi6路由 安装第三方扩展 Entware
  12. 【Python】与或非的符号表示
  13. QT - 小型翻车现场
  14. CLH Lock 原理
  15. java版Spring Cloud+b2b2c多商户分布式微服务
  16. 黑苹果 10G 网卡(intel Aquantia)解决方案及big sur 11.x 下驱动方式
  17. vim配置参考备忘-------嵌入式
  18. 韩语计算机术语大全,韩语学习:韩语计算机、互联网术语 - 英语家园
  19. 温度补偿计算公式_热补偿计算实例
  20. FaceNet:人脸识别和聚类的统一嵌入

热门文章

  1. commitlint
  2. 将 Word 转换为 Markdown格式【详细版本】2022.5.6
  3. 4 Values whose Sum is 0(4 个总和为 0 的值)c语言
  4. oracle onlinelog 11G,从alert日志看Oracle 11g Datagurad日志传输(下)
  5. apns java 证书_GitHub - linyu19872008/apns-http2-java: 苹果推送apns的http2解决方案
  6. chm 乱码 掌阅_chm文件中文乱码问题
  7. Excel各种条件求和的公式汇总
  8. RFID射频识别技术在血液溯源管理中的应用
  9. 4_04_GLib库入门与实践_指针数组
  10. 安恒堡垒机如何启用Radius双因素/双因子(2FA)身份认证