Towards Enhancing Fine-grained Details for Image Matting

论文链接:https://arxiv.org/pdf/2101.09095.pdf
发表出处:被WACV 2021接收
1.背景
(1)深度自然图像抠图技术通过提取高级别contextual features到模型中得到了快速发展。然而,大多数目前的方法仍然难以处理微小的细节。
在本文中,作者认为,恢复这些微观细节依赖于低级但高清晰度的纹理特征。然而,在目前基于编码器-解码器的模型中,这些特征在非常早期的阶段就被下采样,导致微观细节的丢失。
(2)与此同时,注释不足的trimaps严重影响了模型的性能。这是因为用户提供的trimap可能非常粗糙,因为注释trimap是一个非常麻烦的过程,尤其是对非专业用户来说。
作者观察到,对于Composition-1k测试集中的一些图像,几乎所有的trimaps都被标注为“未知区域”,这意味着trimap非常粗糙,几乎不能提供任何有用的交互信息。相比之下,对于训练集,模型生成的trimap通常基于ground-truth alpha map,因此质量非常高。这就导致了训练和测试之间的不一致。
2.内容
针对背景当中提出的问题,本文设计了一种深度图像抠图模型来增强细粒度细节。
模型由两个并行路径组成:一个传统的编码器-解码器语义路径和一个独立的无下采样的Textural Compensate Path(TCP)
基于TCP可以在原始图像大小上提取细粒度细节,如线条、边缘等,大大提高了预测的精细度。同时,为了充分利用高级context的优势,本文提出了一个Feature Fusion Unit(FFU)来融合语义路径中的多尺度特征,并将其注入到TCP中。
此外,由于观察到,注释不足的trimaps严重影响了模型的性能。因此,本文进一步提出了新的损失函数项和trimap生成方法,以提高模型对trimaps的鲁棒性。
3.网络概述
网络由两部分组成,即TCP和语义路径。如图所示,所提出的网络采用6通道图作为输入,由3通道RGB图像和相应的一个3通道trimap拼接而成。输入被同时发送到语义路径和TCP,其中每个路径生成一个单通道输出。然后,两个输出之和的tanh值是网络的输出,即预测的alpha matte。

4.Semantic Path
语义路径用于提取高级上下文表示,采用编码器-解码器结构,使用了改进的UNet架构,具体而言,在每个shotcut中放置了两个卷积层,以提供从低级特征到高级特征的适应。编码器部分是在renet - 34[12]的基础上构建的,解码器部分是作为编码器的镜像结构构建的。(使用独立的语义路径作为本文的基线模型)
5.Textural Compensate Path(TCP)
如图模拟所示,携带纹理细节的低水平但高分辨率的特征由于在许多现有的基于编码器-解码器的方法中的早期下采样而被严重破坏。

因此,本文设计了一种专用的无下采样纹理补偿路径(TCP),用于从尺寸与原始图像相同的特征中提取pixel-to-pixel的高清晰度信息,旨在补偿由语义路径中的编码器-解码器架构中的早期下采样导致的pixel-to-pixel的特征的损失。除了高分辨率之外,另一个好处是纹理补偿路径低学习低层次结构特征,它提供了低层次的纹理线索(例如,边缘、拐角等),并有助于估计微观细节中的alpha matte。该路径的体系结构如图所示:

它由三部分组成:
第一部分是空间特征提取单元,由一个卷积层和两个residue blocks组成,旨在提取丰富的像素级结构特征。该模块是无下采样的,导致输出大小为H ×W
同时,从语义路径中提取中间特征,并将其大小调整为H×W,与空间特征提取单元的输出相同。
接下来,这两组特征被发送到特征融合单元(FFU)。除了像素级空间特征之外,该步骤还提供多尺度和预处理信息。
然后,融合后的特征被发送到由两个卷积层组成的特征细化单元,生成TCP的输出。
6.Feature Fusion Unit (FFU):
多尺度和预处理特征也有利于产生鲁棒的输出。为了在保持参数大小可控的同时引入多尺度特征,本文借用语义路径中的中间特征作为多尺度特征。
同时,为了确保纹理补偿路径集中于低层特征,特征取自非常浅的层:U-Net语义路径中的第二层,用于融合。
首先使用最近插值将特征尺寸调整到原始图像尺寸。由于两个路径中的特征表示也可能非常不同,简单地添加来自不同路径的特征可能对训练有害。因此,如图所示,本文将来自语义路径的特征乘以一个可学习的权重wc以控制其影响。
7.提高模型对trimaps的鲁棒性
(1)新的trimap生成方法:
目前,大多数方法都是根据相应的ground truth alpha map生成训练trimap,即点p的trimap首先由其对应的alpha值αp决定:

然后通过腐蚀前景和背景区域来扩大未知区域。然而,面临的困境是,一个大的erosion kernel将有害于网络学习上下文信息;然而,一个小的erosion kernel将使训练和测试trimaps之间的不一致性更大。
所以本文提出了新的trimap生成方法:
本文对语义路径trimap的未知区域应用额外的n步随机形态学操作来模拟用户提供的噪声trimap中的随机性。每一步都是从p-迭代腐蚀和p-迭代膨胀中随机选择的,其中n和p是0到3之间的随机数。对于每一步,内核大小从1 × 1到30 × 30随机选择用于膨胀,从1 × 1到10 × 10用于腐蚀。该噪声较大的trimap被用作纹理补偿路径的输入。
然后,在推断时,用户提供的trimap是同时用于两条路径的。
可视化结果,如下图所示:

(2)新的损失函数
网络中使用的主要损失函数是alpha预测损失:

这里需要注意的一点是,alpha预测损失只考虑trimap中的未知区域,而忽略了绝对前景和背景区域中的内容。这一特点使得网络易于训练,因为它通过根据预测后的trimap将绝对背景和前景填充为0或1的值来减少解空间。然而,这带来了一个显著的缺点:大量的上下文信息丢失,导致网络难以处理未知区域内的“纯”背景,如下图所示:

所以本文提出了另一种辅助损失,背景增强损失。这个损失识别未知区域内的“纯”背景,并利用这些区域为网络提供上下文指导。
背景增强损失定义如下:

其中Rbg为未知区域内的“绝对”背景部分;Nbg是Rbg的像素数,θ是控制Rbg大小的背景阈值。
网络的full loss是两个loss项的加权和:L = w1·La+ w2·Lbg。
在本文中设置了固定值w1= 0.9, w2= 0.1和θ = 0.1。
8.实验结果
(1)消融研究

(2)对比试验

(3)可视化结果

Towards Enhancing Fine-grained Details for Image Matting相关推荐

  1. 【论文翻译】Transferring GANs: generating images from limited data

    论文下载 论文目录 Abstract. 1 Introduction 2 Related Work 3 Generative Adversarial Networks 3.1 Loss functio ...

  2. 绿屏抠图(image matting)

    提前声明本文内容: 1.本文核心算法(alpha求解)基于论文Shared Sampling for Real-Time Alpha Matting进行; 2.本文对上面论文的核心算法进行了分析: 3 ...

  3. Image Matting

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/u014636245/article/d ...

  4. NIPS 2018 接收论文list 完整清单

    NIPS2018 接收论文包括poster.tutorial.workshop等,目前官网公布了论文清单: https://nips.cc/Conferences/2018/Schedule Post ...

  5. 【NIPS 2018】完整论文下载链接

    NeurIPS2018的论文已经开放下载,本文总结了论文的pdf页面.直接点击对应论文即可访问对应的pdf下载页面. 如果希望Batch->所有论文链接 [1] Efficient Algori ...

  6. paper survey(2019.06.11)——卷积网络高阶特征表示

    类似于博文< paper survey(2019.06.05)--卷积网络feature map的传递与利用> 本博文也是系列论文的阅读笔记(基本都是CVPR和ICCV的论文). 对于跟本 ...

  7. EMNLP2017论文

    转自:http://blog.csdn.net/m0_37306360/article/details/78720402 emnlp 接受论文列表地址:http://emnlp2017.net/acc ...

  8. 细粒度图像识别(2020)

    Fine-Grained Image 如果有 错误 / 进一步更新, 欢迎提出, 谢谢! Associating Multi-Scale Receptive Fields for Fine-grain ...

  9. 15.4 CVPR 2015 papers

    本贴:http://blog.csdn.net/xuyuhua1985/article/details/46662283 From:  http://www.pamitc.org/cvpr15/pro ...

  10. 图像处理-State of the Art

    https://github.com/BlinkDL/BlinkDL.github.io 目前常见图像任务的 State-of-the-Art 方法,从 Super-resolution 到 Capt ...

最新文章

  1. mysql口令更换周期_Linux设置口令复杂度和口令定期更换策略
  2. 使用 Spring Boot Operator 部署 Spring Boot 到 Kubernetes
  3. 【华为出品】物联网全栈开发实战营第2期来啦!送海思开发板
  4. Spring Security 基于数据库的认证
  5. css的animation动画
  6. Ubuntu 16.04配置CUDA 9.0+cudnn 7.0以及解决Nvidia显卡导致黑屏问题
  7. ASP.NET MVC中加载WebForms用户控件(.ascx)
  8. 项目微管理23 - 会议
  9. MATLAB如何输出高分辨率图片?
  10. 现代检测技术-测量误差和处理
  11. 用 Python 编辑 PDF 文件
  12. 力扣解法汇总2013-检测正方形
  13. java按键音效,按下按钮停止声音循环
  14. Ubuntu操作系统如何搭建可视化界面?
  15. tsconfig.json文件报错JSON schema for the TypeScript compiler‘s configuration file
  16. ElasticJob‐Lite:HTTP作业
  17. Java入门基础(十四)Maven仓库的安装
  18. 【管理篇 / 恢复】❀ 01. 恢复出厂设置 ❀ FortiGate 防火墙
  19. SAP与企业微信集成----DEMO
  20. 《ICASSP 2021 DEEP NOISE SUPPRESSION CHALLENGE: DECOUPLING MAGNITUDE ANDPHASE OPTIMIZATION WITH A TW》

热门文章

  1. Briefings in bioinformatics2021 | MolGNet+:基于分子全局表征的高效自监督框架,用于药物发现
  2. 力扣刷题 DAY_61 回溯
  3. STM32HAL库微秒延时函数的实现---DWT和SysTick
  4. CSS 定位(position)
  5. 一个国企老兵给后辈们的忠告:三十岁之前远离国企
  6. mod函数计算机,Excel中mod函数的使用方法
  7. 图像分解python_利用奇异值分解(SVD)进行图像压缩-python实现
  8. websocket的属性readyState
  9. mysql控制台中文显示问号_控制台的中文全都是问号
  10. html的国际标准智商测试,国际标准智商测试题