1,摘要:

单阶段网络

多阶段网络(尽管多阶段网络更适合当前的工作,但是目前多阶段表现还是没有单阶段好)

2,介绍:

近年来,使用深卷积神经网络的人体姿态估计问题得到了快速发展。目前,表现最佳的方法非常简单,通常基于从图像分类任务传输的单级背部骨骼网络。例如,2017年COCO关键点挑战赛获胜者[8]基于重新开始[35]。最近的简单基线方法[39]使用ResNet[15]。由于姿势估计需要高空间分辨率,所以向上采样或反褶积通常附加在主干之后,提高网络空间分辨率的深层特征。

图一: 红线(MSPN),绿线(沙漏),蓝线(使用ResNet的单阶段网络)

横坐标代表每秒浮点运算次数

本文的总结:通过对体系结构、特征流和损失函数的改进,可以充分挖掘多级体系结构的潜在优势,实现了最先进的性能,与以前的所有方法相比有很大的差距。

3,整体的网络结构:

网络结构说明:这个网络由两个单阶端模块组成。跨阶段融合用在相邻阶层之间。由粗到精监督策略进一步提高局部准确性。

4多级位姿网络

首先,作者分析了以前的单级模块的效率,并证明了目前最先进的图像分类网络设计是可以开发的。其次,为了减少信息丢失,提出了一种特征聚合策略,将信息从早期传播到后期。最后,我们介绍了我们网络中的一种粗到细的监管。随着阶段的增加,其定位精度也逐渐提高.同时,它充分利用了语境信息,实现了跨尺度的区分性表征。在下面的章节中,我们将提供每个设计的详细内容。

4.1 单级模块的有效设计

表一 沙漏和MSPN单阶段模块各尺度上的特征通道数

图表说明:沙漏只是堆叠卷积层,而特征的数量仍然保持恒定不变。而这些将导致性能变差。

本文特色:每一次下采样操作都会使特征数增加一倍,从而有效地减少信息损失。此外,计算能力主要分配给下采样单元,而不是上采样单元。由于我们的目标是在下采样过程中提取更有代表性的特征,并且在上采样过程中很难恢复丢失的信息,所以这是合理的。

特定尺度上的跨阶段特征聚合

说明:对聚合前一阶段的特征应用两个1×1的卷积运算

4.2 跨阶段特征聚合

从前一阶段的下采样和上采样单元到现阶段的下行采样过程,引入了两种SEPA速率信息流。需要注意的是,在每个流程上都添加了1×1的卷积,如上图所示。结合当前阶段的低采样特征,添加三个组件来产生融合结果。通过这种设计,现阶段可以充分利用先验信息,提取出更多的判别表征。此外,特征聚合还可以看作是一种扩展的残差设计,有助于处理梯度消失问题。

4.3 由粗到精的监督

在姿态估计任务中,上下文信息对于定位具有挑战性的姿势至关重要,因为它为可见关节提供了信息。此外,我们还注意到小的定位误差会严重影响姿态估计的性能。因此,我们设计了一个由粗到精的监督,如总图所示。

具体而言,在大多数情况下,每个关节的ground-truth热图都是高斯的。在本工作中,我们进一步建议在不同的阶段使用不同的高斯核大小。也就是说,早期阶段使用大型内核,后期阶段使用小型内核。这一策略是基于这样一种考虑,即多个阶段的估算热量图也是以类似的由粗到精的方式进行的。

说明: 第一行显示不同阶段的地面真值热度图,第二行表示相应的预测和地面真实值。橙色线是预测结果,绿色线代表ground-truth。

作者有话说:中间监督在提高深层神经网络性能中起着至关重要的作用,为此我们引入了多尺度监督模型,在每个阶段执行四个不同尺度的中间超维,这可以在不同的层次上获得大量的上下文信息,以帮助定位具有挑战性的姿势。另外在总的网路中,我们在最大规模监督方面还引入了OHKM,具体详见总网络结构图。

5,实验结果

评价标准:MSCOCO数据集

数据集构成:训练、验证和测试。

在文献[8]中,我们将训练数据和验证部分的数据聚合在一起,并将其进一步划分为测试-验证数据集(近57k图像和150 k人实例)和Minval数据集(5k图像)。它们分别用于训练和评估。基于OKS的mmAP(简称AP)被用作我们的评估指标。

5.1,实验细节:

人体检测器:使用当前最先进的MegDet去检测出人体候选框,在所有类别中,只有100个最佳的人体盒子被选作单人姿势估计器的输入。

训练:

硬件条件:8个NVIDIA GTX 1080ti GPU 每个GPU的小批处理尺寸为32,有90k次迭代。

采用ADAM优化器,线性学习率由5e-4逐渐下降到0,权重衰减为1e-5。每幅图像将随机进行一系列的数据增强操作,包括裁剪、翻转、旋转和缩放。在分割方面,有8个以上关节的实例将以同样的可能性被裁剪到上下身体。

旋转范围为−45◦∼45◦,标度范围为0.7∼1.35。图像大小在4.3节为256×192,4.4节为384×288。

测试:

将后高斯滤波器应用于热图估计。按照与[26]相同的策略,我们将原始图像的预测热图与相应翻转图像的结果进行平均。然后,在从最高响应到第二最高响应的方向上实现四分之一偏移,以获得关键点的最终位置。姿势得分是框得分和关键点平均得分的乘积,与[8]中相同。

我们观察到其性能随着骨干容量的增长而迅速饱和。 很明显,Res-101的性能优于Res-50的1.6 AP,并且成本高出3.1G FLOP,但Res-101到Res-152的增益仅为0.5,但需要额外的3.7G FLOP。 为了进一步探索,我们通过在Res-152上添加更多残留块来训练Res-254网络。 虽然网络的FLOP从11.2G增加到18.0G,但AP的改善仅为0.4。 因此,对于单级网络采用Res-152或更大的主干是无效的。

表二 COCO极小数据集上不同骨干的单级网络结果

不同阶段的沙漏和MSPN在COCO Minimval数据集上的结果。

表三 COCO最小值数据集上不同阶段数沙漏和MSPN的结果

随着网络容量的增加,它获得了显著的性能增益。

在此基础上,验证了基于该单级模块的多级体系结构的有效性。从表3可以看出,单级沙漏[26]的性能较差。再增加一个阶段会带来很大的准确率提升。研究表明,多级网络具有发展潜力。然而,当采用四个或八个阶段时,改进变得很小。这表明需要一个更有效的单级模块。第3.1节讨论了我们的单级模型,并且在minival数据集上使用71.5AP的性能证明了我们单级模块的优越性。我们的两站式网络进一步改进了3.0,获得74.5个接入点。第三和第四阶段的引入保持了巨大的上升趋势,最终带来了很大的性能提升。这些实验表明,MSPN成功地突破了现有单级和多级网络的上限。随着网络容量的增加,性能也获得了显著的提高。

表四 COCO最小值数据集上具有较小单级模块的MSPN结果

作者证明他们的单级模块能有效地采用其他主干

表六 COCO微型数据集上MSPN的消融研究

总结:

在这项工作中,我们提出了一个多阶段姿势网络(MSPN)来执行多人姿势估计。 它打破了当前方法的性能上限,并在MS COCO数据集上实现了最先进的结果。 我们首先使用MSPN中精心设计的单级模块验证多级流水线的有效性。 此外,还提出了粗到细监督和跨阶段特征聚合策略,以进一步提高框架的性能。 已经进行了广泛的实验以证明其优于其他现有方法以及其普遍性。

[Rethinking on Multi-Stage Networks for Human Pose Estimation] 论文解读相关推荐

  1. (Stacked Hourglass Networks for Human Pose Estimation)用于人体姿势估计的堆叠沙漏网络

    摘要 This work introduces( 提出) a novel(新奇的) convolutional network architecture for the task of human p ...

  2. 论文阅读 Hourglass:Stacked Hourglass Networks for Human Pose Estimation

    摘要   本文介绍了一种新的卷积网络结构.为了最好的捕捉与身体相关的各种空间关系,所有尺度的特征都被处理和整合.我们展示了重复的自底向上.自顶向下的处理过程与中间监督结构一起使用是如何有效改善网络性能 ...

  3. Stacked Hourglass Networks for Human Pose Estimation

    介绍 这是一篇2016年做单人姿态估计的文章 实验用的是MPII sigle 和 FLIC ,指标PCKh 通过堆叠沙漏结构的网络进行人体姿态估计 沙漏结构指通过pooling得到低分辨率的特征,然后 ...

  4. 论文分享 Stacked Hourglass Networks for Human Pose Estimation

    Alejandro Newell, Kaiyu Yang, and Jia Deng University of Michigan, Ann Arbor 2016.7 https://github.c ...

  5. Human Pose Estimation姿态估计调研

    介绍 姿态估计的目标是在RGB图像或视频中描绘出人体的形状,这是一种多方面任务,其中包含了目标检测.姿态估计.分割等等.有些需要在非水平表面进行定位的应用可能也会用到姿态估计,例如图形.增强现实或者人 ...

  6. 重新思考人体姿态估计 Rethinking Human Pose Estimation

    Newly updated by 2019-11-19 ----------------------------------------------------- 浅谈:2D人体姿态估计基本任务.研究 ...

  7. 人体姿态估计(Human Pose Estimation)技巧方法汇总

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者:Poeroz https://zhuanlan.zhihu.com/p/10 ...

  8. Survey on Human pose estimation

    关于姿态估计的一些总结,GitHub上搬的 Papers 2D Pose estimation Learning Human Pose Estimation Features with Convolu ...

  9. 2D/3D人体姿态估计 (2D/3D Human Pose Estimation)

    1. 基本概念 算法改进入口 网络设计 特征流 损失函数 数据集的重要性:只要有一个好的.针对性的数据集,问题都可以解决 过集成新一代AutoML技术,可降低算法试错成本 人体姿态估计(Human P ...

最新文章

  1. 达摩院年终预测重磅出炉:AI for Science 高居榜首,2022 十大科技趋势!
  2. 一篇虚拟试穿的论文介绍
  3. python读取数据库之给变量_使用Python和SQLite,如何将数据库中的项读入变量?
  4. 新年巨献!祝所有朋友新一年闪闪发光
  5. 【机器学习】对于特征离散化,特征交叉,连续特征离散化非常经典的解释
  6. 关于MyEclipse项目的名字的修改对项目导入导出的影响
  7. iconv 解决乱码问题
  8. SQL trace, 10046, trcsess and tkprof in Oracle 10g(转)
  9. 淘宝Web服务器Tengine正式开源
  10. Linux驱动之分层框架
  11. Day 1 MySQL数据库
  12. JS学习之Object
  13. WebStorm破解激活
  14. NodeJS + WebStorm 中文显示乱码
  15. OpenCv识别多条形码
  16. 无所不能,传感器黑科技层出不穷
  17. C++11 多线程之 packaged_task
  18. 2600评测_佳能专微的雄心,RF 28-70/2 L USM评测
  19. SQL Server HA - 数据库镜像 (Mirroring)
  20. python什么意思g_在外行人看来,Python字符串格式“g”实际意味着什么?

热门文章

  1. Javaspring 14-18课 spring AOP
  2. pytorch学习笔记(二):自动求梯度
  3. algorithm头文件下的fill()
  4. tensorflow动态设置trainable
  5. 机器学习之数据不平衡问题
  6. Mendeley文献管理软件
  7. 【Java】equals源码分析
  8. 【晨读】二次验收--I Can
  9. Android studio无法创建类和接口问题解决办法。提示 Unable to parse template Class
  10. mysql 提示ssl问题