隆重介绍！一款新型基于姿势的人像实例分割框架

全文共2493字，预计学习时长15分钟或更长

拍摄：Jezael Melgoza 来源：Unsplash

近年来，由于现实应用需求大，在计算机视觉领域有关“人”的研究层出不穷，实体分割就是其中一员。

一般来说，图像分割首先需要进行物体检测，然后将物体从边框检测中分割开来。不久前，类似于Mask R-CNN的深度学习方法做到了同时检测和分割物体。但是因为类似身份识别、跟踪等与人类相关的研究变得越来越普遍，人们可能会好奇为什么“人类”的独特性却被忽视了。

“人类”的独特性可以很好的通过人的骨架来定义。并且，在多重遮挡的实例当中，人更好地将人体骨骼与边框区分开来。

图1 使用人体姿势比边框更容易分割高度重合的人类图像。

本文将回顾《pose2seg：自由检测人像实例分割》这篇论文。在这篇论文中，作者介绍了一种新型基于姿势的人像实例分割框架，可基于人体姿势来分离图像实例。

什么是实例分割？

图2 常见的计算机视觉用例

我们想把实例分割可用来在像素级别图像中识别每一种物品。这说明标记得同时做到分类感知和实例感知，例如图2(d)对羊1、羊2等作了不同的标记。

实例分割在以下常见用例中被认为最具挑战性：

分类：图中有一个人。见图2（a）

物体检测：在这张图中，这些位置有5头羊。见图2（b）

语义分割：图中有羊、人和狗的像素点。见图2（c）

实例分割：在这些位置有五头不同的羊，一个人和一只狗。见图2（d）

Pose2Seg：自由人像实例分割检测

1. 直觉

Pose2Seg背后的产生原因是尽管一般对象实例分割方法运作良好，但这些工作大部分基于强大的物体检测。也就是说，首先生成大量建议局域，然后使用非极大值抑制（NMS）删除冗余区域，如图3所示。

图3（左）在非极大值抑制前，（右）在使用非极大值抑制之后。

当同类的两个事物有很大面积的重叠，NMS会将其当作冗余的候选区域，然后将它删除。这种情况说明基本上所有物体检测方法面对大面积重叠都束手无策。

但是，在处理大多数“人类“时，可通过人类骨架进行定义。如图1所示，人类骨架更适合用来区分两个重合面积很大的人。比起边框，他们可以提供更清晰的个人信息，比如说不同身体部位的位置和可见性。

2. 网络结构

整体网络结构如图4所示。网络将所有存在的人类实例以RGB图像输入。首先，利用主干网络提取图像特征；然后，放射对齐模块根据人体姿势将ROI对齐成统一的大小（为了一致性）。此外，还为每个人体实例生成骨架特征。

现在，ROI和骨架特征都融合在一起并传递给segmodule分割模块，生成每个ROI的实例分割。最后，仿射对齐操作中的估计矩阵进行反向对齐，得到最终的分割结果。

网络子模块将在下面的小节中详细描述。

图4 网络结构概览：（a）仿射对齐操作（b）骨架特征（c）SegModule结构

3. 仿射对齐操作

仿射对齐操作主要受快速R-CNN中的ROI池和掩模R-CNN中的ROI对齐的启发。但是，当根据边界框对齐人类时，仿射对齐被用来基于人类姿势的对齐。

要做到这一点，需要离线存储最常见的人体姿势，稍后比较训练/推理时的每个输入姿势（参见下面的图5）。其想法旨在为每个估计姿势选择最佳模板。这是通过估计输入姿态和模板之间的仿射变换矩阵h，并选择得到最佳分数的仿射变换矩阵h来实现的。

在此P_u代表一个姿势模板，p代表对一个人的姿势估计。矩阵H*是为最适合每个姿势模板选择的仿射变换。最后，将图像或特征应用得分最高的变换H*转换为所需的分辨率。

图5 仿射对齐操作

4. 骨架特征

图6 骨架特征模型

图6显示了骨架特性。对于此任务，将采用部分关联字段（PAF）。PAF的输出是每个骨架2通道的向量场映射。PAF用于表示人体姿势的骨架结构以及身体部位的部分置信度地图，以强调身体部位关键点周围区域的重要性。

5. SEGModule

SEGModule是一种简单的编码器-解码器体系结构，其接受域是一大考虑因素。由于在对准后引入了骨架特征，SEGModule需要有足够的接收字段，这不仅能完全理解这些人工特征，而且能学习它们与基础网络提取的图像特征之间的联系。因此，它是基于校准的ROI的分辨率进行设计的。

该网络首先是7×7，stride -2的卷积层，然后是几个标准的以实现足够大的接收场的剩余单元，用于ROI。然后，用双线性上采样层恢复分辨率，用另一个剩余单元和1×1卷积层预测最终结果。这样一个具有10个剩余单元的结构可以实现约50个像素的接收场，相当于 64×64的对齐尺寸。单位越少，网络的学习能力就越差，单位越多，学习能力就越差。

经验和结果

Pose2Seg在两类数据库中得到评测：（1）本文最大的验证数据集——OCHuman，主要针对过度重合的人类；（2）COCOPerson（COCO的人类别），包含了日常生活中最常见的场景。

该算法主要与常用的基于检测的实例分割框架Mask-RCNN进行了比较。

在使用OCHuman数据集对被遮挡数据进行测试时，如表1所示，Pose2Seg框架的性能比Mask R-CNN高出近50%。

表1 遮挡性能。所有的方法在COCOPersons上训练，并在OCHuman上进行测试。

在一般情况下的测试中，COCOPerson验证数据集Pose2Seg在实例分割任务中得到0.582ap（平均精度），而Mask R-CNN只得到0.532。见表2。

表2 一般情况下表现

要从基于边框的框架中更好地了解pose2seg的优点，请参见下面的图7。看看“开箱即用”是如何在面具R-CNN中不被分割的。

图7 在遮挡案例中，pose2seg结果与MaskR-CNN的比较。使用预测的掩模生成边框，以便更好

图7 在遮挡案例中，pose2seg结果与MaskR-CNN的比较。使用预测的掩模生成边框，以便更好地进行可视化和比较。

隆重介绍！一款新型基于姿势的人像实例分割框架相关推荐

CVPR2021 | 基于transformer的视频实例分割网络VisTR
原文:End-to-End Video Instance Segmentation with Transformers 翻译:夏初摘要: 视频实例分割(VIS)是一项需要同时对视频中感兴趣的对象实例 ...
基于yolov7开发实践实例分割模型超详细教程
在我前面的博文中写过基于yolov5-v7.0模型开发的实例分割模型的超详细教程,即使是零基础入门的新手也都是可以按照教程步骤一步一步开发构建自己的应用.文章在下面,感兴趣的话可以自行移步阅读即可: ...
基于Segment anything的实例分割半自动标注
介绍使用Meta AI的SAM,并添加了一个基本界面来标记图像,并保存COCO格式的掩码. 源码 https://github.com/anuragxel/salt 安装安装SAM: 创建cond ...
毕业设计-基于深度学习的实例分割研究
目录前言课题背景和意义实现技术思路一.实例分割研究现状二.实例分割的特殊应用实现效果图样例最后前言
RDSNet：统一目标检测和实例分割的新型网络
本文对<RDSNet: A New Deep Architecture for Reciprocal Object Detection and Instance Segmentation> ...
9基于linux百万级高并发框架Skynet-王桂林-专题视频课程
<9>基于linux百万级高并发框架Skynet-830人已学习课程介绍全面介绍一款专门为游戏服务所打造的后台框架skynet,Actor模型的剖析与搭建,通用服务模块 ...
基于深度学习的场景分割算法研究综述
基于深度学习的场景分割算法研究综述人工智能技术与咨询来自<计算机研究与发展> ,作者张蕊等摘要场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问 ...
CVPR 2021 | 基于Transformer的端到端视频实例分割方法
实例分割是计算机视觉中的基础问题之一.目前,静态图像中的实例分割业界已经进行了很多的研究,但是对视频的实例分割(Video Instance Segmentation,简称VIS)的研究却相对较少.而 ...
腾讯ARC、华中科大联合提出QueryInst，开启基于Query的实例分割新思路
视学算法专栏机器之心编辑部实例分割(Instance Segmentation)任务有着广阔的应用和发展前景.来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Q ...

隆重介绍！一款新型基于姿势的人像实例分割框架

隆重介绍！一款新型基于姿势的人像实例分割框架相关推荐

最新文章

热门文章