原文链接如下:Stacked Hourglass Networks for Human Pose Estimation​arxiv.org

这篇论文算是继CPM之后卷积神经网络在human pose estimation中使用的又一代表作。这篇论文提出了一种创新的卷积神经网络结构,使用了重复的bottom-up和top-down连接的处理结构,以及同CPM一样使用了intermediate supervision(中继监督)的监督方法,达到了一个准确率的提升。

网络总体简介

这篇论文指出,在通过图像或者视频理解和分析人类的行为,以及进行人机交互或者动画这些高级任务中,人体姿态估计是一个关键点。于是作者在前人使用ConvNets的基础之上,也设计了一个新的"stacked hourglass"卷积网络接结构。首先网络的总体结构如下图所示。

可以看到实际上stacked hourglass network就是多个hourglass modules的stack(堆叠),每个hourglass module由一个bottom-up和top-down的网络结构构成。他的样子长得就像是堆叠起来的沙漏,所以作者称它为"stacked hourglass networks"。每个bottom-up除了卷积之外将图片从高分辨率降到低分辨率,提取更强的语义特征,top-down过程再将图片从低分辨率升到高分辨率,加强定为特征。

Hourglass Module Design

单个的hourglass module的结果就如下图所示:

hourglass 的设计来源就是来自于我们在提取特征的时候,必须要提取每一个分辨率大小的信息,这就代表着对于不同scale的特征图,我们要将所有特征图都能识别并提取出来。比如,当我们要识别像脸和手这样的特征,那么对于整个身体的识别也是特别重要的,能够帮我们区分出这不是一个其他的什么东西,比如一个树枝。而身体的识别和手的识别是在不同的一个scale下的,对于手明显需要将图放大进行识别。hourglass就是为了将每个scale的信息都能提取出来而设计的一个简单模型。原文“The hourglass is a simple, minimal design that has the capacity to capture all of these features and bring them together to output pixel-wise predictions. “

hourglass的一个非常重要的点就是使用了"a single pieline with skip layers"来保留每个分辨率的空间信息。在Hourglass模块中,卷积和max pooling被用来将特征降到一个很低的分辨率,在每一个max pooling步骤中,网络产生分支并在原来提前池化的分辨率下使用更多的卷积,当到达最低的分辨率的时候,网络开始upsample并结合不同尺度下的特征。这里upsample(上采样)采用的方法是最邻近插值,之后再将两个特征集按元素位置相加。

当达到输出分辨率的时候,接了两个1*1的卷积层来进行最后的预测,网络的输出就是一组heatmap,每个heatmap代表着网络预测的每个像素存在对应的关节的概率。比如一组heatmap有16个channel,那么每个channel都代表着某一个关节的每个像素存在该关节的概率矩阵图(我个人这么叫)。

Layer Implementation

网络中每个长方体都代表着一个Residual Module,具体结构如下:

可能不够清晰,所以我也画了一个图:

其中numIn和numOut代表着输入的channel和输出的channel,k代表kernelsize。

第一行是正常的卷积路,每个卷积核后面都跟着BN(batch normalization)和ReLU。

第二行就是之前提到过的skip pipeline,是一个直接将输入连接到卷积结果相加的这么一个单位映射。所

有卷积层的步长为1,pading为1,不改变数据尺寸,只对数据深度(channel)进行变更。

Hourglass Module

单个residual结构了解了之后,我们再来看之前提到过的整体的hourglass Module。我们说过每个长方体都对应着一个residual Module,实际上还是有一点不够严谨,因为在整个hourglass Module中还存在这maxpool层和upsample层来进行下采样和上采样来改变输入特征图的分辨率。完整的hourglass module应该如下图:

Intermediate Supervisioin(中继监督)

首先看一张原文中的图

原文对此给出的解释是“Illustration of the intermediate supervision process. The network splits and produces a set of heatmaps (outlined in blue) where a loss can be applied. A 1x1 convolution remaps the heatmaps to match the number of channels of the intermediate features. These are added together along with the features from the preceding hourglass.”

跟之前文章提到的CPM一样,hourglass也使用了中继监督,针对每一个单独的hourglass module,我们都使用中继监督来进行预测得到heatmap的损失。

在上图中,上一行的路中,每个hourglass模块后面跟着两个卷积核,来得到本模块的输出并作为下一个模块输入的一部分,下面那一条路得到heatmap作为输出进行loss计算。

事实上整个stacked hourglass network就是堆叠这样的hourglass module,每个Hourglass Module的loss单独计算。

reference:Adia:论文笔记Stacked Hourglass Networks​zhuanlan.zhihu.com

hourglass论文_人体姿态估计论文笔记-Hourglass相关推荐

  1. 人体姿态估计论文总结 (2D + 视频)

    2014:Learning Human Pose Estimation Features with Convolutional Networks, Jain etc, ICLR 2014 link: ...

  2. 2020CVPR人体姿态估计论文盘点

    Hey,今天总结盘点一下2020CVPR论文中涉及到人体姿态估计的论文.人体姿态估计分为2D(6篇)和3D(11篇)两大类.   2D 人体姿态估计 [1].UniPose: Unified Huma ...

  3. 3D人体姿态估计论文汇总(CVPR/ECCV/ACCV/AAAI)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:Vegetabird | 来源:知乎 https://zhuanlan.zhihu.com/p/ ...

  4. 实录 | 旷视研究院详解COCO2017人体姿态估计冠军论文(PPT+视频)

    主讲人:王志成 | 旷视研究院研究员 屈鑫 整理编辑 量子位 出品 | 公众号 QbitAI 12月13日晚,量子位·吃瓜社联合Face++论文解读系列第二期开讲,本期中旷视(Megvii)研究院解读 ...

  5. 3d人体姿态估计资料

    人字姿态估计数据集 - 知乎 SMPL论文解读和相关基础知识介绍 - 知乎 3D人体姿态估计方法 MHFormer:Multi-Hypothesis Transformer - 知乎 论文阅读笔记: ...

  6. 3D人体姿态估计综述 - 《3D Human pose estimation: A review of the literature and analysis of covariates》

    <3D Human pose estimation: A review of the literature and analysis of covariates> CVIU 2016 论文 ...

  7. 10.31周报-人体姿态估计CPN

    目录 前言 文章 背景 解决了什么问题 主要思路 方法 多人姿态估计 CPN GlobalNet RefineNet 实验 总结 前言 本周进行了CPN算法思想的学习 文章 标题:Cascaded P ...

  8. 网络摄像头+net_今日 Paper | 神经网络结构搜索;视觉目标;人物识别;视频3D人体姿态估计等...

    目录 基于进化算法和权值共享的神经网络结构搜索 检测视频中关注的视觉目标 包含状态信息的弱监督学习方法进行人物识别 基于解剖学感知的视频3D人体姿态估计 RandLA-Net:一种新型的大规模点云语义 ...

  9. 人体姿态估计的过去、现在和未来

    2019-10-10 18:30:46 (图片付费下载自视觉中国) 作者 | 俞刚(旷视研究院Detection组负责人) 来源 | 知乎 前言 因为在ICIP2019上面和两位老师搞了一个关于人体姿 ...

  10. 论文阅读笔记--Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods 人体姿态估计综述

    趁着寒假有时间,把之前的论文补完,另外做了一点点笔记,也算是对论文的翻译,尝试探索一条适合自己的论文阅读方法. 这篇笔记基本按照原文的格式来,但是有些地方翻译成中文读起来不太顺,因此添加了一些自己的理 ...

最新文章

  1. Google是如何做Code Review的?| CSDN原力计划
  2. 11.24杭州沙龙预告:数据化经营,智能化决策
  3. GDCM:将PAPYRUS 3.0文件转换为dcm文件的的测试程序
  4. linux安装源码包出现apr错误,Linux源码安装Apchae时报错:error: APR not found.Please read the documentation....
  5. python 参数个数 同名函数_Python——函数的参数
  6. excel空值读不到java里_第一列中的空值是否阻止Pentaho Spoon中的Excel文件导入?
  7. c++注册表操作(未完成)
  8. 小白数据分析师的快速上手指南
  9. LVS详解(七)——LVS TUN模式实战
  10. 电脑显示未安装任何音频输出设备_未安装任何音频输出设备-华硕A556UQ7200(4GB/128GB+500GB/2G独显)...
  11. php格式文件用什么看,.zbf是什么格式文件,用什么看的
  12. Segger systemview STM32移植
  13. CSSJS--用JS让文字闪烁起来
  14. 解析华为OSPF协议
  15. access_token is invalid or not latest rid?
  16. iOS CRC 校验
  17. Python学习笔记 - 探索函数定义和使用
  18. 不是所有产品都适合做亚马逊CPC广告
  19. 欧盟委员会敲定新SCC,以恢复正常的欧盟-美国数据传输协议
  20. Carthage使用

热门文章

  1. 小白入门之HTML--第五章 块状元素,行内元素,盒子模型
  2. 遵循学术规范,避免学术不端
  3. 计算机网络面试_笔试_牛客网总结
  4. 只能用GUEST用户访问共享的解决办法
  5. 使用matlab计算变上限积分,matlab含有变上限积分参数的非线性回归
  6. 恭喜马斯克、纳德拉当选美国工程院院士,张宏江、方岱宁入选外籍院士
  7. easyui使用datagrid时deleteRow删除后行号问题
  8. 微信开发工具出现 [渲染层网络层错误]
  9. 【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
  10. “互联网+政务”是什么?