视频人像抠图论文阅读

1.Prime Sample Attention in Object Detection
2.Mask RCNN
3.Background Matting: The World is Your Green Screen
4.Semantic Human Matting
5.Attention-Guided Hierarchical Structure Aggregation for Image Matting
6.Deep Image Matting
7.Is a Green Screen Really Necessary for Real-Time Portrait Matting?
8.Pose2Seg: Detection Free Human Instance Segmentation
9.Boosting Semantic Human Matting with Coarse Annotations
10.Egocentric Human Segmentation for Mixed Reality
11.Disentangled Image Matting
12.A Late Fusion CNN for Digital Matting
13.Real-Time High-Resolution Background Matting
14.PFLD: A Practical Facial Landmark Detector
15.Design and implementation of an image matting system on Android Phones
16.End-to-end Animal Image Matting
17.Context-Aware Image Matting for Simultaneous Foreground and Alpha Estimation
18. AlphaNet: An Attention Guided Deep Network for Automatic Image Matting
19.Fast Deep Matting for Portrait Animation on Mobile Phone
20.Inductive Guided Filter: Real-time Deep Image Matting with Weakly Annotated Masks on Mobile Devices
21.PortraitNet: Real-time portrait segmentation network for mobile device
22.Improved Image Matting via Real-time User Clicks and Uncertainty Estimation
23.Natural Image Matting via Guided Contextual Attention
24.High-Resolution Deep Image Matting
25.Towards Enhancing Fine-grained Details for Image Matting
26.Salient Image Matting
27.Hierarchical Opacity Propagation for Image Matting

1.Prime Sample Attention in Object Detection

论文链接：https://arxiv.org/abs/1904.04821
发表出处：2019 CVPR
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/114759998?spm=1001.2014.3001.5502
总结：
作者认为在目标检测框架中，每个mini batch中的样本既不是独立的也不是同样重要的，所以一个平均的结果并不能意味是一个更高的mAP，文章通过研究不同样本对以mAP为衡量的整体绩效做出贡献的方式来重新研究不同样本的作用。
提出了Prime Sample Attention(PISA)的抽样和学习策略：对目标检测算法产生的经过回归后的region proposals（候选区域）使用提出的IoU-HLR，Score-HLR分别对正、负样本进行排名，选出其中的重要样本Prime samples，在训练过程中通过提出的CARL损失对Prime samples进行加权，并抑制不重要的样本，从而提升检测器性能。

2.Mask RCNN

论文链接：https://arxiv.org/abs/1703.06870
发表出处：2017 CVPR
总结：
Mask Rcnn是在目标检测的基础上同时进行语义分割，网络设计是在Faster RCNN的两个分支（分类和坐标回归）的基础上添加了一个分支进行语义分割。使用Resnet作为主干提取网络，特征提取之后进行特征金字塔FPN的构造获得有效特征层Feature Map，Feature Map有两个应用，一个是和ROIAlign结合使用、另一个是进入到Region Proposal Network进行建议框的获取。在ROIAlign要做的其实就是对建议框加以利用获得预测框,最后，对这些ROI进行分类（N类别分类）、BB回归和MASK生成（在每一个ROI里面进行FCN操作）。

3.Background Matting: The World is Your Green Screen

论文链接：https://arxiv.org/abs/2004.00626
发表出处：2020 CVPR
文章不同于以往基于trimap的方法，把输入变成原图以及附加的背景图片，节省了大量创造trimap的时间。
网络结构由监督网络和自监督网络组成，监督网络的生成器G_Adobe输入为原图I和背景图B’，通过处理原图得到soft segmentation S（腐蚀膨胀和高斯模糊）和motion prior M（视频多帧拼接并进行灰度处理）通过文章提出的Context Switching Block（根据输入图像有效结合所有线索的特诊法）将这四个线索组合来对前景F和alpha matte α进行预测，再通过一个自监督网络GAN（解决F和B’结合效果差的问题）训练一个对抗鉴别器D引导训练生成器G_Real得到真实的结果。

4.Semantic Human Matting

论文链接：https://arxiv.org/pdf/1809.01354v2.pdf
发表出处：2018 CVPR
论文针对人体抠图问题创建数据集并提出了SHM以RGB3通道的图片作为输入可以自动生成人体目标的尺寸一致alpha matte且不需要任何附加信息，网络包括三部分：T-Net，M-Net，Fusion Module
T-Net：解决像素级的分类问题，采用PSPNet-50输出3通道的特征图，分别表示每个像素属于前景、背景和未知区域的概率。
M-Net：采用3通道的RGB图像和T-Net输出的3通道分割结果组合成的6通道作为输入，采用编解码结构生成粗糙的alpha matte。
Fusion Module：融合T-Net和M-Net的输出，生成最终的alpha matte。α_p=F_s+U_sα_r

5.Attention-Guided Hierarchical Structure Aggregation for Image Matting

论文链接：https://openaccess.thecvf.com/content_CVPR_2020/papers/Qiao_Attention-Guided_Hierarchical_Structure_Aggregation_for_Image_Matting_CVPR_2020_paper.pdf
发表出处：2020 CVPR
作者认为自然图像抠图需要处理不同类型的前景对象，这就要求提取高级语义来处理前景信息并对其进行适当的抑制以降低其对其他对象类的敏感性。第二，外观线索（过渡区的内部纹理和边界细节）往往涉及不必要的背景细节，这些细节需要在alpha matte中删除。核心思想是选择适合于背景信息的语义信息，消除外观线索中冗余的BG纹理，然后对其进行聚合以预测alpha matte 。
为此，文章采用ResNeXt作为主干网络并将block4中的高级语义特征输入到Atrous空间金字塔池（ASPP）获得多尺度语义信息，使用block1中的低级特征作为外观线索。文章提出的HAttMatting采用通道注意提取金字塔特征，并对外观线索进行空间注意消除抑制前景之外的图像纹理细节，另外，使用PatchGAN的鉴别器网络可以提高alpha matte的视觉质量。此外，文章结合均方误差（MSE）、结构相似性（SSIM）和对抗性损失，设计了一种混合损失来指导网络训练，分别负责像素级精度、结构一致性和视觉质量。

6.Deep Image Matting

论文链接：https://arxiv.org/pdf/1809.01354v2.pdf
发表出处：2017 CVPR
解决传统方法中只有low-level features和缺乏high-level context的问题。深度模型分为两个阶段。第一阶段是深度卷积编码-解码网络，该神经网络将原图和对应的trimap作为输入，并预测图像的alpha matte。第二阶段是一个小型卷积神经网络，该网络对第一个网络预测的alpha matte进行精炼，从而拥有更准确的α值和锐化边缘。此外，还创建了一个大规模抠图数据集，深度模型+大规模数据集使之效果表现尤佳。
Matting encoder-decoder stage：
网络的输入是图像块和对应的trimap，输出是alpha预测。编码阶段是14个卷积层和5个池化层，得到低分辨率的特征图，解码阶段是6个卷积层的小网络，5次unpooling得到原图大小的alpha prediction. 使用了两个loss，第一个是alpha-prediction loss，是预测的alpha values 和ground truth的alpha values的绝对差。第二个loss是compositional loss，预测的RGB颜色值和对应的ground truth绝对差。两个loss以0.5加权得到最终的loss。
Matting refinement stage：
网络是4个卷积层，输入是图像块和预测的alpha prediction。先训练编解码网络，待其收敛后用于更新refine网络，第二个网络只使用alpha-prediction loss。

7.Is a Green Screen Really Necessary for Real-Time Portrait Matting?

论文链接：https://arxiv.org/pdf/2011.11961v2.pdf
发表出处：2020 CVPR
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/114842466
作者认为神经网络更擅长学习一组简单目标，而不是一个复杂目标。因此，解决多个抠图子目标可以实现更好的性能。其次，对每个子目标应用显式监督信号，可以使模型的不同部分学习解耦的知识，从而实现一个模型解决所有子目标。所以将作者将trimap-free 抠图目标分解为语义估计、细节预测和语义 - 细节融合三个子目标。同时，为了克服域迁移问题，该研究基于子目标一致性 (SOC) 提出了一种自监督策略，即利用子目标之间的一致性来减少预测前景蒙版中的伪影。此外，该研究还提出单帧延迟 (OFD) trick 这种后处理方法，以在视频抠图应用中获得更流畅的输出

如图所示，MODNet 包含三个分支，每一个均通过特定约束学习不同的子目标。具体而言：
语义估计：采用了MobileNetV2 去提取低级特征和高级语义S（I）在分析S(I)中的特征映射时，作者注意到有些通道比其他通道具有更准确的语义。所以在MobileNetV2之后增加了一个通道式注意机制SE-Block从而鼓励使用更准确的语义，通过GT matte 的缩略图使用L2 loss来监督。
细节预测：以I, S(I)和I的低级特征作为输入，根据D(I，S(I))计算边界细节matte ，并通过L1损失优化它
语义 - 细节融合：首先对S(I)进行上采样，使其形状与D(I，S(I))相匹配。
然后，将S(I)和D(I，S(I))连接起来，预测最终的alpha matte

SOC：对于一个未标记图像，MODNet中的三个子对象可能具有不一致的输出。例如，属于背景的某个像素的前景概率在预测的阿尔法遮罩中可能是错误的，但是在预测的粗略语义遮罩中是正确的。直觉上这个像素在和上应该有接近的值。受此启发，自监督SOC策略在子目标的预测之间施加了一致性约束，以提高MODNet的泛化能力。
OFD:对每个视频帧独立应用图像处理算法通常会导致输出中的时间不一致。在抠图中，这种现象通常以闪烁的形式出现（指中间帧和前后两帧相差超过阈值，且其前后两帧相差不超过阈值）。由于一帧中的像素在相邻帧中可能是正确的，作者认为可以利用前一帧和后一帧的平均来固定这些像素。

8.Pose2Seg: Detection Free Human Instance Segmentation

论文链接：https://arxiv.org/pdf/1803.10683.pdf
发表出处：2018 CVPR
作者认为在计算机视觉中“人”这个类别具有特殊性，可以很好地用骨架来定义。在多重遮挡的实例中，骨架可以提供更有区分度的信息（如位置、身体部位的可见性），更好地将人的不同实例区分出来。
主要内容是提出了 pose-based 的人物实例分割框架，能更好地解决遮挡重叠的问题，提出了 pose-based 的对齐模块，Affine-Align，用骨架特征指导分割，提出了 OCHuman 数据集，该数据集中的人物对象都有较大面积的重叠。
网络框架主要由 Affine-Align, Skeleton Features 和 SegModule 三部分组成。网络将有人体姿态标注的图像作为输入，用 backbone（如 resnet50FPN）提取特征，应用 Affine-Align 模块，首先通过K-means聚类将数据集中的动作进行聚类，生成姿势模板代表数据集的标准姿态。在本论文中K=3，包括：半身图，全身前视图，全身后视图。然后计算出最佳的仿射变换矩阵H，使输入的姿势与templates尽可能接近。因为templates中有多个姿势，找出得分最高的姿势，确定与之最接近的姿势。从而把奇怪的人类动作拉直，然后将重叠的人分开，并且基于人体姿势将 RoIs 对齐为统一大小（文中为 64 x 64）。同时，采用Realtime multi-person 2d pose estimation using part affinity fields中提出的方法为每个人体对象生成骨架特征。将上述两者 concat 之后传给 SegModule 对每个人体进行分割，使用 Affine-Align 操作中的仿射变换矩阵 H，将每个对象反向对齐，得到最终分割结果

9.Boosting Semantic Human Matting with Coarse Annotations

论文链接：https://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_Boosting_Semantic_Human_Matting_With_Coarse_Annotations_CVPR_2020_paper.pdf
发表出处：2020 CVPR
文章提出使用粗标注和精细标注结合来增强端到端语义human matting，不需要trimap作为额外输入。具体的，研究人员训练了三个子网络：
mask prediction network(MPN): 使用混合数据估计粗语义mask；MPN同时使用精细和粗糙标注数据进行训练，以在各种真实图像上获得更好的性能。MPN的输出有可能不同，所以引入了基于混合标注数据训练的QUN;
quality unification network(QUN): 统一MPN输出的粗语义mask的质量；QUN的目的旨在提高粗mask质量的同时降低精细mask的质量，使得mask预测网络的输出质量达到同一水平。校正后的粗mask是统一的，并允许一致的输入用于训练后面精确的alpha matte预测阶段。
matting refinement network(MRN): 统一mask和输入图片来预测最终的alpha mask。输入是原始图像及其统一的粗mask，与MPN和QUN不同的是，matting精细化网络只使用精细标注的数据进行训练。

10.Egocentric Human Segmentation for Mixed Reality

论文链接：https://arxiv.org/pdf/2005.12074.pdf
发表出处：2020 CVPR
以自我为中心的身体分割是借助video-see-through摄像机，增强虚拟系统将现实世界的对象融合到虚拟环境中，然后通过在图像中将人的身体分割之后，可以增强身在沉浸式环境中的存在感。
文章创建一个半合成数据集，并且基于ThunderNet架构，他们实现了深度学习语义分割算法，该算法能够执行超出实时要求的工作。
ThunderNet是一个轻量级的实时检测网络，该框架主要基于三个部分:编码子网;金字塔池模块(PPM)和解码子网，它遵循遵循编解码器架构，其编码器主要由从第4块截断的ResNet18骨干组成，其解码器实现为定制的两级连续上采样网络。在这两者之间，添加金字塔池模块(PPM)是为了从不同的层次捕获上下文信息。
文章主要对ThunderNet框架做出了以下方面的改进：首先，由于训练图像的尺寸更大，所以采用了更大的采样池因子:6,12,18,24；然后除了包含在编码和解码块中的跳跃连接外，还包括三个编码和解码子网络之间的长跳跃连接，目的是为了细化对象边界

11.Disentangled Image Matting

论文链接：https://arxiv.org/abs/1909.04686
发表出处：2019 CVPR
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/114839048
本文认为，在利用trimap作为额外输入的图像抠图中存在着一个分类问题没有得到充分解决。如果仔细观看trimap，未知区域的像素将会分入三个集合：不透明前景，不透明背景以及半透明区域。前两类称之为不透明像素，后一类称之为混合像素。抠图方法的期望行为是为不透明像素生产精确的 0 和 1，同时精确评估混合像素的微小不透明度（介于 0 和 1 之间）。
由此可见，抠图这一任务包含两个相关但又不同的任务。第一个是分类未知区域中的像素以确认混合像素，本文称之为 trimap adaptation，第二个是精确计算混合像素的不透明值，本文称之为 alpha estimation。本文提出了一个简单但强大的抠图框架，称之为 AdaMatting (Adaptation and Matting)，借助多任务的方式在两个不同的解码器分支内执行这两个任务。
trimap adaptation：其实就是旨在预测最优的trimap Topt，直观来讲，即是把半透明的区域与不透明的前景和背景分开。抠图自然地分为两步：先确定 α 是否正好为 0、1 或者两者都不是；如果区域是半透明的，精确计算 α。主要目的是对trimap进行调整，缩小未知区域的范围并且修正错误的trimap。
如图所示，AdaMatting包括一个产生共享表示的编码器，随后是两个相关的解码器，分别解决trimap自适应和alpha估计。trimap解码器利用共享表示的高级特征部分，输出3通道作分类结果，alpha解码器利用共享表示的低级特征部分，输出一个1通道的alpha estimation，然后，将trimap自适应的结果和中间alpha matte发送到传播单元，形成最终的alpha matte。

12.A Late Fusion CNN for Digital Matting

论文链接：https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_A_Late_Fusion_CNN_for_Digital_Matting_CVPR_2019_paper.pdf
发表出处：2019 CVPR
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/114793130
提出了一个新颖的端到端的神经网络，输入为包含前景的图片，输出为前景的alpha matte。如图所示，方法的核心就是利用神经网络来预测三个图：前景概率图、背景概率图、混合权重图。再利用下面这个fusion公式去预测alpha的值，其中，F_p^-和B_p^-分别是预测的前景和背景在P像素处的概率值，β_p是Fusion网络预测的融合权重,这个公式的意义在于当F_p^-和B_p^-相加等于1的时候，α_P对于β_P的求导梯度就会消失，那么如果预测的前景和背景准确，可以使得Fusion网络可以更关注于学习过渡的区域，并且设计损失使得过渡区域的FP+BP不等于1 的话，就可以使得使得过渡区域可以给Fusion Net提供有用的梯度

网络的第一部分是语义分割网络，主要结构就是一个encoder和两个decoder，其中Encoder是DenseNet-201去掉全连接层来当做特征提取器，2个Decoder使用特征金字塔，预测出前景和背景的概率。额外使用Skip Connection目的是将Encoder中多尺度的特征图和反卷积层的上采样特征链接到一起。语义分割网络的损失函数部分由三部分组成，第一个Loss首先计算预测出的前景和alpha的距离，在过渡区域使用L1距离主要目的是为了恢复alpha，在前景和背景区域使用L2距离主要目的是为了惩罚分割的错误；第二个Loss计算预测前景图的梯度的L1Loss，用于去除分类后的模糊；第三个Loss计算前景分类的交叉熵损失，针对背景分类decoder的loss，就是将上面的α_P改成1-α_P，其余相同。
值得注意的是在过渡区域组合交叉熵和L1 Loss，会输出比GT的值更大的概率值，这是因为交叉熵损失更倾向于让α_P概率输出为1，也就是说在最终的过渡区域内前景概率图会输出比GT的值更大的概率值，背景概率图会输出比1-α_P更大的值，则对应的1-Bp就会比GT的值更小，这样就使得真实的alpha的值会落在两个分类网络概率形成的区间中。就可以从区间中取平均作为过渡区域的预测概率，使得中间结果更加精确
网络的第二部分，融合网络，Fusion网络的目的在于输出一个βp权重，融合前景和背景分类的结果，网络结构由5个卷积层和1一个sigmoid层组成，目的是计算出混合的权重。，输入有两个，一部分是decoder的最后一层的特征图，另一部分是RBG输入原图卷积后的特征图(卷积核采用3×3大小)。通过设计损失函数，使得Fusion网络的损失更加倾向于过渡区域的部分。

13.Real-Time High-Resolution Background Matting

论文链接：https://arxiv.org/pdf/2012.07810.pdf
发表出处：2020 CVPR
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/114789846
针对视频背景抠图，文章主要内容是：实现了实时且高分辨率的背景抠图，在GPU上，4K分辨率上速度可以达到30帧/秒，HD分辨率上速度可以达到60帧/秒，并且同时保持了发丝级别的细节，提出的抠图方法是基于背景的抠图，需要单独捕捉一帧背景图.
相较于之前的直接求解前景，文章求的是前景残差F^R=F-I，然后，可以通过将F^R加入到输入图像I中，并通过F = max ( min( F R + I , 1 ) , 0 ) 来恢复F,文章指出，通过这个公式可以通过上采样将低分辨率的前景残差应用到高分辨率的输入图像上，也就是说可以将前景预测放置在较低的分辨率网络下。
又因为人类的抠图通常是非常稀疏的，其中大面积的像素属于背景(α = 0 )或前景(α = 1 )，只有少数区域涉及更精细的细节，所以，文章没有只设计一个对高分辨率图像进行操作的网络，而是引入了两个网络，（1）基础网络在较低分辨率下操作，（2）细化网络在原始分辨率下根据前一个网络的预测对选定的区域进行操作。
网络框架：
给定原始图像I和捕获的背景B，首先对其进行系数为c的下采样生成I_C和B_C。基础网络G_base将I_C和B_C作为输入，并预测粗粒度的alpha matte α、前景残差F^R_C、误差预测图E_C和隐藏特征H_C。然后，细化网络G_refine利用H_C、I和B，只在预测误差E_C较大的区域对α和F^R_C进行细化，并在原始分辨率下产生α和前景残差F^R

细化网络详解：
Refinement 网络的目标是，降低冗余计算量，并重建高分辨率抠图细节.
基础网络的输出结果是原始尺寸的1/c,C会根据输入尺寸的变化而变化，比如4K分辨率时的取值就是8，得到基础网络输出的粗略优化结构之后，文章对预测错误图Ec进行采样，使其变为原始输入尺寸的1/4，所以对于预测错误图Ec而言，就变成了E4，它的每个像素对应于原始图像分辨率的一个 4x4 图像块，从E4中选取预测误差最大的k个像素（k 是提前设定的，或着是根据抠图质量和计算量平衡的阈值计算来设定的），所以对于原始分辨率的细化像素总数是4x4xK.
Refinement 网络是 two-stage 的，分别处理原始分辨率的二分之一和全分辨率.
（1）将粗粒度的alpha matte 、前景残差、误差预测图和隐藏特征采样到原始输入尺寸的1/2，并且将他们合并起来，然后在E4选中的位置上裁剪出8x8大小的块，送入两个带有有效填充的卷积之后变成4x4，然后将这些中间特征再次上采样到8×8，并把它们和从原始分辨率的输入和背景的相应位置中提取的8×8块进行连通。然后，再送入两个带有有效填充的卷积，就获得4×4的alpha matte和前景残差结果
（2）第二步，将粗略的 alpha matte αc、前景残差F^R_C上采样到原始分辨率，并交换被细化后的 4x4 图像块，以得到最终的 alpha matte α 和前景残差F^R.

14.PFLD: A Practical Facial Landmark Detector

论文链接：https://arxiv.org/abs/1902.10859
发表出处：2019 CVPR
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/114792439
针对landmarks检测准确性的局部变形、全局变形以及数据不平衡着三方面的挑战，以及移动设备上达到实时性的效率和速度要求，文章提出的PFLD主要做出了以下几方面的改进：
1.文章的网络结构由主干网络和辅助网络两部分组成，在训练阶段,利用辅助网络估计人脸的几何信息，然后对landmarks定位进行正则化
2.主张对与稀有训练样本相对应的错误而不是对丰富训练样本所造成的错误进行更多的惩罚，针对这个问题，提出了一个新的损失函数
3.使用多尺度的全连接（mult-scale fc）层用于精确定位人脸的特征点。
4.使用Mobilenet block构建网络的主干网络部分提升模型的处理速度减少模型计算量。
论文先关注损失函数的设计，为了惩罚ground-truth landmarks 和预测的 landmarks，使用L2损失。文章考虑到几何约束和数据不平衡提出了下面这个损失：

M为样本个数，N为特征点个数，C为不同的人脸类别数（文章将人脸分成多个类别，比如侧脸、正脸、抬头、低头、表情、遮挡等）w为与类别对应的给定权重（如果某类别样本少则给定权重大），K等于3，表示ground-truth和预测在yaw、pitch、roll（上下翻转，水平翻转，平面内反转）三种角度之间的偏差，角度越大cos值越小，权重越大，|| * ||为测量第m个输入的第n个landmarks的误差

文章的网络结构如图所示：
主干网络使用Mobilenet块代替了传统的卷积操作来提取特征和预测地标，这大大减少了模型参数和计算量，考虑到人脸具有很强的整体结构，有助于更精确地定位landmarks。论文扩展为多尺度特征图，而不是单尺度特征图，扩展是通过用步幅执行卷积操作来完成的，这样可以扩大感受野，然后通过完全连接多尺度特征图来进行最终预测。
PFLD的训练过程中引入辅助网络的目的监督PFLD网络模型的训练。训练网络仅在训练的阶段起作用，在测试的时候不参与；用处是对于每一个输入的人脸样本，对该样本进行三维旋转信息的的估计值得注意的是辅助网络的输入不是训练数据，而是PFLD主网络的中间输出。
总的来说，主干网络主要作用是预测landmarks提供变量d^m_n，辅助网络用于估计几何信息提供变量θ^k_n

15.Design and implementation of an image matting system on Android Phones

论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7334761
论文出处：2015 IHMSC
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/115022140?spm=1001.2014.3001.5501
本文旨在介绍一个人机交互形式便捷、处理速度快的Android图像抠图应用的设计与实现。
方法流程：
首先，从用户的交互输入中收集一些样本像素。
接下来，最小描述长度(MDL)用于对采样像素进行聚类，并训练几个高斯混合模型。
然后，定义一个图。
接下来，基于期望最大化算法和最大流/最小割图分割进行迭代图像分割。
最后，在局部区域使用导向滤波来平滑前景边缘。

系统设计：
用户从安卓手机中选择一张图片后，画一个矩形来选择前景对象。然后自动生成mask图像。原始图像和mask图像将通过抠图算法进行处理。然后用户评估抠图结果。需要在抠图结果中添加一些涂鸦来修改蒙版，如果用户对结果不满意，图像将被重新处理，直到获得满意的结果。
具体方法和流程见论文详解

16.End-to-end Animal Image Matting

论文链接：https://arxiv.org/abs/2010.16188
论文出处：2020 CVPR
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/115022327?spm=1001.2014.3001.5501
文章提出了一个新颖的 Glance and Focus Matting network (GFM)，它使用一个共享的编码器和两个独立的解码器来以协作的方式学习两个任务，用于端到端的动物图像抠图。
建立了一个新的动物抠图数据集(AM-2k)，包含来自20个类别的2000幅高分辨率自然动物图像以及手动标记的alpha mattes
一个精心设计的合成路线RSSN替代之前的合成方式，旨在减少合成图像和自然图像之间的差异，提高模型泛化能力

网络结构是一个编码解码器的结构，编码器由两个平行的解码器（GD和FD）共享。
然后，以不同的表征域（RoSTa），连接 GD 和 FD 的输出结果。
最后，通过协同合作抠图（CM），将RoSTa中三个不同的表征域的结果，进行合并，获得最终的 alpha 预测
合成路线RSSN：
解决合成图像的artifacts（Resolution discrepancy, Semantic ambiguity, Sharpness discrepancy, and Noise discrepancy）

管道的输入是抠图数据集，
（1）如果抠图数据集提供原始图像，通过从给定alpha matte的原始图像计算前景。
（2）从BG-20k中为每个前景随机抽取K个候选背景进行数据增强。
（3）对于每个前景图像和背景图像，以0.5的概率执行去噪步骤（解决噪声差异）。
（4）为了模拟大光圈的效果，以0.5的概率在背景图像上执行模糊步骤，其中模糊核大小是从{20，30，40，50，60}随机采样的（去除锐度差异）。
（5）根据方程生成合成图像。
（6）在概率为0.5的情况下，我们在合成图像中添加高斯噪声，以确保前景和背景区域具有相同的噪声分布。
（分辨率差异和语义歧义通过使用论文提出的高分辨率无其他动物对象干扰的背景数据集BG-20k解决）
具体方法和流程见论文详解

17.Context-Aware Image Matting for Simultaneous Foreground and Alpha Estimation

论文链接：https://arxiv.org/abs/1909.09725
发表出处：2019 ICCV
论文详解：
文章提出了一种同时进行前景和alpha matte估计的上下文感知自然图像抠图方法。
（1）使用两个编码器网络来提取抠图的基本信息：使用抠图编码器来学习局部特征；使用上下文编码器来获得更多的全局上下文信息。
（2）连接这两个编码器的输出，并将它们输入解码器网络，以同时估计前景和alpha matte。
（3）使用了标准Laplacian损失和特征损失:前者有助于实现高数值性能，而后者导致感觉上更可信的结果。
（4）提出了一些数据增强策略：借用NMS的思想进行patch采样和使用一些图像“滤波”的操作

具体实现细节见论文详解；

18. AlphaNet: An Attention Guided Deep Network for Automatic Image Matting

论文链接：https://arxiv.org/abs/2003.03613?context=cs.CV
发表出处：2020 CVPR
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/115023178
本文将语义分割和深度图像抠图融合成单一网络，从自然图像中高精度提取前景物体。
（1）提出了一种新的模型结构，将上采样和下采样的功能与attention统一起来，并且结合分割和抠图，与其他正常的下采样和上采样技术不同，注意力引导下采样和上采样可以提取高质量的边界细节。
（2）使用了一个注意力引导的编码器-解码器框架，该框架进行无监督学习，从数据中自适应地生成注意力图，以服务和指导上采样和下采样操作。
（3）构建了一个以时尚电子商务为中心的高质量阿尔法抠图数据集，以方便图像抠图的训练和评估。

网络概述：
本文提出的AlphaNet由分割网络和抠图网络两部分组成。
将RBG图像作为分割网络的输入，并为前景对象生成二进制分割mask。二进制mask用于估计边界框，该边界框与mask一起用作腐蚀-膨胀层的输入，以生成trimap。这个过程生成的trimap是粗糙的，包含许多主要是沿着生成的mask的边缘的不确定的区域。
然后，该trimap与RGB图像连接，作为抠图网络的输入。抠图网络是一种注意力引导模型，它根据RGB图像和生成的粗略trimap来估计alpha matte。然后，使用不同的损失函数将预测的alpha matte与ground truth进行比较，并为网络参数优化计算梯度。
具体细节见论文详解；

19.Fast Deep Matting for Portrait Animation on Mobile Phone

论文链接：https://arxiv.org/pdf/1707.08289.pdf
出处：2017 ACM
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/115069173
本文提出了一种基于分割块和feathering块的手机实时自动抠图方法。首先，本文通过一个具有密集连接的轻全卷积网络来计算粗二进制mask。然后设计了一个可学习的引导滤波器，通过可以边缘保持和抠图自适应的feathering块获得最终的 alpha matte。feathering是通过粗二进制mask的线性变换计算预测的alpha matte，并通过学习的引导滤波器获得线性变换中的系数。
在移动设备上搭建了基于快速深度抠图的自动人像动画系统，不需要任何交互，可以实现15 fps的实时抠图。

分割块和feathering块的结构如下：
（1）分割块

网络有6个卷积层和1个max-pooling层
（2）feathering块

feathering block的输入是一幅图像I、对应的粗二值掩码S、图像的平方以及图像与其二值掩码的乘积。经过feathering，然后就可以获得对应于二值mask的权值和偏置的三个maps：

其中，q_i=α_i* I_i ；ω_k是指第K个滑动窗口
具体细节见论文详解；

20.Inductive Guided Filter: Real-time Deep Image Matting with Weakly Annotated Masks on Mobile Devices

论文链接：https://arxiv.org/abs/1905.06747
发表出处：2019 CVPR
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/115128333
论文提出一种以图像和弱注释的mask图像作为输入基于深度学习与导向滤波的轻量级的图像matting框架（Inductive Guided Filter），能够在移动设备中实时地生成图像matting。
此外，论文还使用了Gabor loss 用于训练网络生成图像matting 中的复杂纹理并且使用生成对抗网络（GAN）来构建模型。
论文设计了一个MAT-2793数据集，其中包含了大量的前景物体。实验结果显示所提出的框架能够在保持准确率的同时减少计算时间。
方法的粗略架构如图所示:

网络采用弱注释的mask M和原图 I作为输入经过生成器在全局损失、局部损失和设计的Gabor损失的指导下生成预测的α ~;
预测的α ~结合弱注释的mask M和原图 I生成triplet输入与预测的α ~结合弱注释的mask M和原图 I作为鉴别器的输入在对抗损失的指导下提高合成质量。
生成器由一个轻量级的沙漏骨干、空间注意力机制和线性转换组成:

文章的感应导向滤波器转化公式为：

通过神经网络φA(I，M)和φB(I，M)在引导滤波器中参数化A和B。网络φA和φB以图像I和弱标注掩码M为输入，共享骨干参数
具体细节见论文详解；

21.PortraitNet: Real-time portrait segmentation network for mobile device

论文链接：https://www.sciencedirect.com/science/article/pii/S0097849319300305
发表出处：2019 CAD&Graphics
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/115185394
提出了一个实时人像分割模型，称为PortraitNet，可以有效地在移动设备上运行。在训练阶段有两个辅助损耗，边界损失和一致性约束损失。前者提高了边界像素的精度，后者增强了复杂光照环境下的鲁棒性。
网络框架如下图所示：

绿色块代表编码器模块，括号中的数字代表下采样速率，为了提高速度，backbone是mobileNetV2。
黄色和紫色块代表解码器模块，采用U-Net结构。D-Block块中有两个分支，一个分支包含两个深度可分离的卷积。另一个包含一个单一的1 ×1卷积来调整通道的数量。同时解码器模块中连接特征图为融合图，以充分利用模型的能力。
利用两个辅助损失，mask loss和辅助损失来达到更好的效果，其中mask loss就是用来计算像素分类的二值交叉熵loss。辅助损失除了boundary loss，还有一个consistency constraint loss。
为了保证网络的体积，不能因为想优化边界就增加额外的分支，所以作者就在最后一层，增加了一个conv层，用来预测边界。边界的label来自对分割gt的canny算子的输出。因为边界占据图像很小的部分，为了避免极度的样本不均衡，所以用的是focal loss。
自拍照在不同的光照条件下会得到亮度不同但是内容相同的图片，这些图像的label虽然一致但是网络可能因为这些图像不同的像素值得到不同的分割预测，为了避免这种情况的发生，作者就提出了一个一致性损失，从而得到一个更加稳定的结果：

从理论上来说，A’的质量差A一些，所以B’的质量也差B一些。但A’的内容和A一致，则希望B’和B相同。为此，作者提出使用B作为B’的软标签，在B和B’之间计算 KL loss。
文章的出色点就在于辅助损失函数的设计，在提高抠图质量的同时保持了网络的较小体积，使得可以在移动设备上运行。
具体细节见论文详解；

22.Improved Image Matting via Real-time User Clicks and Uncertainty Estimation

论文链接：https://arxiv.org/abs/2012.08323
发表出处：2020 CVPR
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/115213233
提出了一个新的抠图框架，如图所示，由两个关键部分组成:用户点击的交互式抠图和不确定性引导的局部细化。

用户点击的交互式抠图的输入类似于基于trimap的抠图，除了原始的RGB图像I，文章连接另一个单通道提示heatmap U作为先验的输入。当用户添加一个前景点击点时，将点击点周围半径r内的值填充为1。相反，如果点击一个背景点，相应的值将填充为-1。所有未指定的值都将用0填充。用户点击的交互式抠图网络用模拟用户交互来训练。
网络由一个编码器和两个解码器组成，alpha解码器输出原始的预测alpha matte，不确定解码器输出uncertainty map，得到uncertainty map之后，就可以知道alpha抠图网络不确定的区域，从而优化相应的局部部分。对每个局部裁剪小的k × k image patch和相应的预测 alpha matte patch，然后将它们输入到一个小的细化网络中，得到细化后的alpha matte。
模拟用户点击交互：
用模拟用户交互来训练抠图网络。具体来说，在训练期间，在每幅图像的前景和背景区域随机采样总共m个半径为r的点击点，其中m是从p = 1/6和r = 15的几何分布中绘制的。
不确定估计模块：
在抠图网络的编码器上增加了另一个类似的解码器。进一步将alpha matte预测建模为整个训练集D上的参数分布(p(α|I, U;D))学习问题。这里默认采用经典的单变量Laplace分布
具体细节见论文详解；

23.Natural Image Matting via Guided Contextual Attention

论文链接：https://arxiv.org/abs/2001.04069
发表出处：2020 CVPR
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/115317042
受affinity-based方法和上下文注意力机制在inpainting中的成功的启发，开发了一种新颖的end-to-end的带GCA（guided contextual attention）模块的自然图像抠图方法。
文章的方法引导网络信息流从图像的上下文直接到未知的像素区域，提出GCA模块用于优化基于affinity在网络中的传播，在GCA模块中低层次的特征被用于alpha特征传到的指引，并将具有相似外观的已知区域特征传导到未知区域上。
文章的网络结构大致上是一个U型的网络结构，U型网络结构中通过5次shortcut实现encoder特征抽取，输入包含原始图和trimap组成的6通道图像，以及中间通过GCA引入低层次细节特征，结构见下图：

文章提出的GCA块见下图所示：

GCA利用了图像特征和alpha特征
首先，将低层次的图像细节特征划分为两个部分：已知和未知部分。之后在整个图像特征上使用3 ∗ 3 的窗口大小进行切块，之后将其reshape当作卷积核与未知区域进行相似度计算,得到相关性度量矩阵之后接下来就使用softmax得到对应的attention score,但是直接这样并不稳定，特别是当确定区域较多和较少的时候，为此文章提出了根据已知区域多少进行加权的思路（已知区域越多对应的权值系数也就越大）,当从图像特征中获得引导注意力得分时，本文基于由引导注意力定义的affinity graph 在alpha特征上进行传播。与图像特征类似，从alpha特征中提取 patches并将其reshape为滤波器核。信息传播被实现为引导注意力分数和重新成形的阿尔法特征patches之间的反卷积。这种反卷积在未知区域产生α特征的重建，并且反卷积中重叠像素的值被平均。最后，通过元素求和将输入的阿尔法特征和传播结果结合起来。
具体实现公式见详解；

24.High-Resolution Deep Image Matting

论文链接：https://arxiv.org/abs/2009.06613
发表出处：2020 CVPR
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/115335128
提出了一种新的patch-based的深度学习方法 HDMatt，用于高分辨率图像的抠图。
具体来说，将输入图像裁剪成小块，并提出一个 Cross-Patch Contextual module(CPC)来显式捕获cross-patch long-range上下文依赖。对于每个要估计的patch(即query patch)，CPC会对图像中与它高度相关的其他patches(即reference patches)进行采样。然后CPC将这些相关的特征整合到一个更可靠的估计中。
在CPC内部，设计了一种新提出的 Trimap-Guided Non-Local(TGNL)操作来有效地传播reference patches中不同区域的信息
网络结构如图所示：

HDMatt在patches上工作，基本上是一个编码-解码器结构。query patch与其相关联的trimap被输入到编码器E（编码器E由骨干特征提取器ResNet34和Atrous Spatial Pyramid Pooling(ASPP) 组成）。context pool中的patches及其trimaps也被输入到共享权重的编码器E中。提取的特征通过Cross-Patch Context (CPC)模块。然后，CPC的输出特征被馈送到解码器，用于query patch的alpha估计。
来自编码器块的pooling outputs被跳过连接到相应的解码器层；在解码器中使用unpooling操作来进行feature map上采样。
Context Patch 采样和trimap引导的Non-Local (TGNL)如图所示：

Context Patch 采样：
给定一个query patch Iq，首先计算Iq的未知区域和每个context patch Ici的整个区域之间的相关性。然后从N个context patches 中选择前K个面片，ci≤ N
trimap引导的Non-Local (TGNL)：
将query patch的未知区域与context patch的未知区域、前景区域和背景区域分别进行比较。然后，来自三种不同关系(即，U-U、U-F和U-B)的相关特征被连接在一起，并用作解码器输入。
具体内容见论文详解；

25.Towards Enhancing Fine-grained Details for Image Matting

论文链接：https://arxiv.org/pdf/2101.09095.pdf
发表出处：被WACV 2021接收
论文详解：https://blog.csdn.net/balabalabiubiu/article/details/115355328
本文设计了一种深度图像抠图模型来增强细粒度细节来解决以往基于编码器-解码器的模型中低级但高清晰度的纹理特征由于在早期的阶段被下采样而导致微观细节的丢失以及训练和测试之间的trimap质量不一致而导致的鲁棒性降低问题。
模型由两个并行路径组成:一个传统的编码器-解码器语义路径和一个独立的无下采样的 Textural Compensate Path(TCP)。
基于TCP可以在原始图像大小上提取细粒度细节大大提高了预测的精细度。同时，为了充分利用高级context的优势，本文提出了一个 Feature Fusion Unit(FFU)来融合语义路径中的多尺度特征，并将其注入到TCP中。
此外，由于观察到，注释不足的trimaps严重影响了模型的性能。因此，本文进一步提出了新的损失函数项和trimap生成方法，以提高模型对trimaps的鲁棒性。
网络结构如下图所示：

所提出的网络采用6通道图作为输入，由3通道RGB图像和相应的一个3通道trimap拼接而成。输入被同时发送到由改进的UNet架构组成的语义路径和TCP，其中每个路径生成一个单通道输出。然后，两个输出之和的tanh值是网络的输出，即预测的alpha matte。
提出的TCP具体结构如下图所示：

它由三部分组成:
第一部分是空间特征提取单元，旨在提取丰富的像素级结构特征。同时，从语义路径中提取中间特征，并调整其大小使其和空间特征提取单元的输出相同
接下来，这两组特征被发送到特征融合单元(FFU)。除了像素级空间特征之外，该步骤还提供多尺度和预处理信息。
然后，融合后的特征被发送到特征细化单元，生成TCP的输出。
FFU是利用从语义路径中的浅层提取中间特征作为多尺度特征，并且乘以一个可学习的权重wc以控制其影响从而达到提取像素级的结构特征的目的；
本文还提出了新的trimap生成方式和损失函数；
新的trimap生成方式是先用较小的随机erosion kernel大小生成输入到语义路径中的trimap，然后对其再进行n步随机形态学操作来模拟用户提供的噪声trimap中的随机性输入到TCP；
提出了背景损失的概念；
具体内容见论文详解；

26.Salient Image Matting

论文链接：https://arxiv.org/abs/2103.12337
发表出处：2021 CVPR
论文详解:https://blog.csdn.net/balabalabiubiu/article/details/115381480
文章提出了一个框架，该框架可以利用廉价的低质量注释来学习健壮的语义特征，并利用一部分高质量注释来学习低级特征,能够为大范围的前景对象以及前景类出现在与来自RGB输入的训练数据不同的上下文的情况生成准确的alpha mattes
该框架被称为 SIM(Salient Image Matting)，它使用一种新颖的 Salient Trimap Network，能够产生图像中最显著对象的trimap。Salient Trimap Network(STN)基于粗标注生成的trimap和简单的trimap生成方案进行训练。这种训练允许trimap网络精确地产生各种前景的trimap，并且对自然图像中的大的语义变化是鲁棒的。
然后，STN的输出被馈送到一个抠图网络，用于细化低层语义。
通过decouple这些特征的学习，能够为需要语义信息的抠图网络提供指导，而无需用户为任意前景对象生成trimap。
此外，对于图像抠图任务，本文提出了一种新的结构，该结构比用于抠图的普通编码器-解码器结构具有更好的多尺度特征表示，以更有效地学习低级特征。

本文在提出的特征模型框架中使用了两个子网络，一个基于U 2Net 的体系结构de Salient Trimap Network (STN)和一个抠图网络。这种分离允许SIM使用大量的粗注释数据来训练语义特征。STN产生分别代表背景、未知区域和前景的三通道输出。抠图网络随后从STN中获取intrinsic trimap以及原始输入，并预测一个单通道alpha matte image。然后，融合两个子网络的输出，以产生最终的alpha matte。SIM的工作流程如图所示。同时，本文还引入了一个多尺度块： DensePN，它作用于来自编码器的特征金字塔。
抠图网络设计：

如图所示，每个流都是一个DenseBlock，后面是融合层，融合层使所有流的都达到相同的分辨率，并执行1×1卷积。
重复卷积和融合块允许在每个分辨率级别丰富的多尺度特征。最后，所有的流在最终的prediction head被合并以预测alpha matte。本文使用ResNet34 作为编码器。
具体的自适应trimap生成方案和损失函数设计见论文详解；

27.Hierarchical Opacity Propagation for Image Matting

论文链接：https://arxiv.org/pdf/2004.03249.pdf
发表出处：2020 CVPR
论文详解：论文详解
本文提出了一种分层不透明度传播hierarchical opacity propagation(HOP)抠图方法，其中不透明度信息在不同语义级别的每个点的邻域中传播。
分层结构基于一个global HOP block和多个local HOP block。HOP块通过attention and aggregation机制执行信息传输，被设计为two-source transformers，更具体地说，注意力图中的节点之间的关系是根据外观特征计算的，并且要传播的信息是不透明特征，这与 self-attention或传统attention形成对比。利用HOP结构，高分辨率feature maps中的每个特征点对将根据输入图像的外观进行连接。网络通过全局HOP块学习预测低分辨率但语义强的特征上的上下文不透明度，并通过局部HOP块细化高分辨率特征上的模糊伪影
本文进一步提出了一种为图像抠图定制的尺度不敏感的位置编码，以处理输入图像的不固定尺寸，并在图像抠图中引入随机插值增强。
网络结构如下图所示：

为了便于表示，只显示了一个4级解码器和两个本地HOP块。在本文的实现中，有一个5级解码器和3个local HOP block，外观编码器分支只取RGB图像作为输入。网络有两个编码器分支，一个用于不透明度信息源，另一个用于图像外观源。
在self-attention机制中，所有的query, key和value都是从同一个feature计算的，而在传统的注意机制中，key和value来自same place。然而，在HOP块中，query和key共享外观源的相同原始特征，并且value具有来自不透明特征的源。对比如下图所示：

本文采用了两种不同的位置编码方法:global HOP block的尺度不敏感位置编码和local HOP block的局部相对位置编码。不同位置编码方法的如图所示：

具体可见详解；