paper：MODNet: Real-Time Trimap-Free Portrait Matting via Objective Decomposition (AAAI 2022)

github：https://github.com/ZHKKKe/MODNet

抠图在线体验：CV案例

部署教程：

【Matting】MODNet：实时人像抠图模型-onnx python部署

【Matting】MODNet：实时人像抠图模型-onnx C++部署

NCNN 量化部署教程（模型大小降低为1/4）：

【Matting】MODNet：实时人像抠图模型-NCNN C++量化部署

现有的Matting方法常常需要辅助的输入如tripmap才能获得好的效果，但是tripmap获取成本较高。MODNet是一个不需要Trimap的实时抠图算法。MODNet包含2种新颖的方法来提升模型效率和鲁棒性：

（1）e-ASPP(Efficient Atrous Spatial Pyramid Pooling)融合多尺度特征图；

（2）自监督SOC(sub-objectives consistency)策略使MODNet适应真实世界的数据。

MODNet在1080Ti上FPS为67。

抠图效果（官方提供的权重）：

一、MODNet

1、Semantic Estimation

2、Efficient ASPP (e-ASPP)

3、Detail Prediction

4、Semantic-Detail Fusion

二、SOC（sub-objectives consistency）

三、实验结果

一、MODNet

MODNet网络结构如图所示，主要包含3个部分：semantic estimation（S分支）、detail prediction（D分支）、semantic-detail fusion（F分支）。

1、Semantic Estimation

Semantic Estimation用来定位肖像的位置，这里仅使用了encoder来提取高级语义信息，这里的encoder可以是任意backbone网络，论文中使用mobilenetv2。这么做有2个好处：

（1）Semantic Estimation效率更高，因为没有decoder，参数减少了；

（2）得到的高级语义表示S(I)对后续分支有利；

将S(I)送入通道为1的卷积层，输出经过sigmoid得到Sp，与 $G(\alpha _{g})$ 计算损失， $G(\alpha _{g})$ 由GT进行16倍下采样经过高斯模糊得到。使用L2损失，损失函数如下：

2、Efficient ASPP (e-ASPP)

DeepLab提出的ASPP已被证明可以显著提升语义分割效果，它利用多个不同空洞率的卷积来得到不同感受野的特征图，然后将多个特征图融合（ASPP可以参考这里）。

为了减少计算量，对ASPP进行以下修改：

（1）将每个空洞卷积改为depth-wise conv+point-wise conv；

（2）交换通道融合和多尺度特征图融合的顺序，ASPP是各个通道先计算，得到不同尺度特征图然后用conv融合，e-ASPP是每个通道不同空洞率的卷积，concat后融合（这里是参考论文理解的，源码没找到这部分）；

（3）输入e-ASPP的特征图通道数减少为原来的1/4。

PS：这里结合图和论文看了一下，还是不太明白下图中的M是怎么来的，也有点没看到最右边的concat维度怎么回事，看了源码，好家伙，没有e-ASPP（我看错了？？）。

3、Detail Prediction

Detail Prediction是高分辨率分支，它的输入由I、S(I)、S分支输出的低分辨率特征组成。D分支额外做了简化：

（1）与S分支相比，D的卷积层更少；

（2）D分支的卷积层通道数较少；

（3）分支D的所有特征图分辨率在前向传播时会降低以减少计算量；

分支D的输出是 $d_p$ ，它的目标是学习到肖像的边缘细节，它的损失函数是L1损失，如下式，其中 $m_d$ 是二值图，它的计算公式为 $m_d=dilate(\alpha _g)-erode(\alpha _g)$ 。

4、Semantic-Detail Fusion

分支F结合分支D和分支S的输出，预测 $\alpha$ 图，损失如下式，Lc是 compositional loss（论文传送门）

二、SOC（sub-objectives consistency）

发丝级的Matting数据标注成本非常高，常用的数据增强方法是替换背景，但是这样生成的图像和生活中的图像相差甚远，因此现有的trimap-free模型常常过拟合训练集，在真实场景下表现较差。

论文提出了一种自监督方法，不需要标注数据即可训练网络，使其适应真实世界的数据。MODNet分支S的输出为S(I)，F的输出为F(S(I), D(S(I)))。S(I)是F(S(I), D(S(I)))的先验，可以利用这种关系实现自监督训练（有了预测结果F(S(I), D(S(I)))，将其下采样然后模糊当作S(I)的标签）。

假设模型为M，有：

设计损失函数（和有监督的损失类似，不过这里用 $\widetilde{\alpha }_p$ 来代替 $\alpha _p$ ）：

上面的损失函数后半部分如下，它存在一个问题：只需要模型不预测任何细节就可以使损失最小。

改进方法也比较简单，在自监督训练时，创建模型M的副本M'，用M'预测的 $\widetilde{\alpha }_p'$ 作为目标值（用 $\widetilde{\alpha }_p'$ 替换上式的 $\widetilde{\alpha }_p$ ）。因为M'也输出 $\widetilde{d}_p'$ ，在给细节分支加上正则化损失Ldd：

SOC优化过程中，使用Lcons+Ldd作为损失。

三、实验结果

1、PPM-100

在数据集PPM-100上表现如下。

2、真实世界Matting

OFD（One-Frame Delay）：一个简单的视频抠图策略，对于连续的alpha图 $\alpha _{t-1}$ \ $\alpha _t$ \ $\alpha _{t+1}$ ，如果 $\alpha _{t-1}$ 和 $\alpha _{t+1}$ 非常接近，且 $\alpha _{t}$ 和它两差值大，那么说明 $\alpha _{t}$ 可能存在抖动，将其移除并用 $\alpha _{t-1}$ 代替。

为了让MODNet更适应真实数据，从400个视频裁剪了50000张图片，使用SOC自监督训练。下图蓝框为SOC训练后改进的结果，橙框为OFD的效果。

【Matting】MODNet：实时人像抠图模型-笔记相关推荐

【Matting】MODNet：实时人像抠图模型-NCNN C++量化部署
相关链接: [Matting]MODNet:实时人像抠图模型-onnx python部署 [Matting]MODNet:实时人像抠图模型-笔记 [Matting]MODNet:实时人像抠图模型-on ...
超强实时人像抠图算法开源，随心所欲背景替换！
谈到人像抠图想必大家都不陌生.在影视剪辑.直播娱乐.线上教学.视频会议等场景中都有人像分割的身影,它可以帮助用户实时.精准地将人物和背景精准识别出来,实现更精细化的人物美颜.背景虚化替换.弹幕穿人等, ...
RobustVideoMatting实时人像抠图实践
一.准备工作 Code地址:GitHub - PeterL1n/RobustVideoMatting: Robust Video Matting in PyTorch, TensorFlow, Ten ...
untiy 实时人像抠图
最近公司要求做一个抠图程序,作者想到接一个百度AI来实现抠图,做出来之后效果不是太好,然后领导说想要实时抠图,让用户现场体验更好些,没办法,只能推倒重来,然后在网上找个shader,然后自己改改,就实 ...
视频人像抠图论文阅读
视频人像抠图论文阅读 1.Prime Sample Attention in Object Detection 2.Mask RCNN 3.Background Matting: The World ...
目前最大的人像抠图数据集P3M-10k开源了！助力隐私保护的人像抠图研究
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入-> CV 微信技术交流群转载自:京东探索研究院人像抠图,是指从人物图像中提取人物前景,是 ...
Libtorch C++实现人像抠图——面向Windows（部署教程）
目录一.环境安装 1.1 基本环境介绍 1.2 pth模型序列化导出转pt 1.2 下载libtorch 1.3 安装OpenCV 1.4 创建win32 C++控制台工程二.完整推理代码三.测 ...
Python实现自动人像抠图（小白也能学会）
原理:AI人工智能,机器学习工具:paddlehub包和人像抠图模型deeplabv3p_xception65_humanseg 步骤一:安装软件 1.nodepad++ (自行百度安装) 2.py ...
一键抠图Portrait Matting人像抠图 (C++和Android源码)
一键抠图Portrait Matting人像抠图 (C++和Android源码) 目录一键抠图Portrait Matting人像抠图 (C++和Android源码) 1. 项目介绍: 2. MOD ...

【Matting】MODNet：实时人像抠图模型-笔记

一、MODNet

1、Semantic Estimation

2、Efficient ASPP (e-ASPP)

3、Detail Prediction

4、Semantic-Detail Fusion

二、SOC（sub-objectives consistency）

三、实验结果

【Matting】MODNet：实时人像抠图模型-笔记相关推荐

最新文章

热门文章