2019年人体姿态估计指引
本文是介绍2D人体姿势估计的，作者先简单的介绍了下Human Pose Estimation，然后简要的说了下Human Pose Estimation的发展，之后，列出了在Human Pose Estimation发展过程中比较重要的一些算法，并对这些算法进行了解释。

Classical approaches:

构建出一个可变的结构，这个结构由许多部分构成，每一部分间是灵活可变连接的，通过图片匹配出每一个部分在哪，并把这个部分的像素位置参数化，就可以对人体姿态估计进行建模了。
这个方法一点也不依靠图片数据，研究的关键在于怎样增强模型的代表性。

Deep Learning based approaches:

目前，利用深度学习进行人体姿势估计的方法占了主流，并且通常采用的是CNN
重要论文：

DeepPose
Efficient Object Localization Using Convolutional Networks
Convolutional Pose Machines
Human Pose Estimation with Iterative Error Feedback
Stacked Hourglass Networks for Human Pose Estimation
Simple Baselines for Human Pose Estimation and Tracking
Deep High-Resolution Representation Learning for Human Pose Estimation

DeepPose: Human Pose Estimation via Deep Neural Networks (CVPR’14)

DeepPose是第一个使用深度学习方法进行人体姿势估计的，它当时击败了当时的模型达到了SOTA，姿势估计被它规划成了一个人体关键节点的回归问题。并且该方法还采用了级联，精炼姿势估计得到更好的结果。另外，一个重要的事情是，这个方法整体的分析了姿势的原因，就是说，即使节点被隐藏了，如果姿势进行整体的推理，那么隐藏节点将会被估计出来。这篇论文声称， CNN很自然的提供了原因分类，并且展示了强大的结果。

Model

这个模型由一个AlexNet backend (7 layers)和一个额外的final layer构成。该模型使用了L2正则化。

这篇论文把Deep Learing应用于了Human Pose Estimation上，打开了一个新的研究方向
回归XY坐标的方法很难并且增加了复杂性，所以这个方法的表现一般
近年来的STOA方法采用了heatmaps

1. 这篇论文作者的目标是什么，或者也许已经实现了什么。
2. 文中引入了一种新方法，那么这一新提出的方法的关键要素是什么？
3. 论文中，有哪些内容对你有用？
4. 你还想关注哪些参考资料/文献？

作者的目标是尽可能的提高Human Pose Estimation准确率，达到了当时的STOA
关键要素是非常快的把最新的CNN理论应用到了Human Pose Estimation领域
了解Human Pose Estimation的发展史
next

Efficient Object Localization Using Convolutional Networks (CVPR’15)

这个方法通过通过运行一张图片不同分辨率大小来生成heatmaps，一张heatmap将会预测keypoints在每一个pixel上的可能性，这个方法的效果比直接回归效果好很多。

heatmaps是用了CNN。

Model

先用滑动窗口产生coarse heatmap output。

这篇论文的主要动机是恢复由初始模型池化所带来的空间精确度损失。他们通过附带的pose refinemet精炼了coarse heatmap的位置结果。他们和普通cascade不同的是coarse and fine models被一起连带着训练了。

总的来说，这个网络由一个生成coarse heatmaps的model和对每一个节点进行采样剪切的module构成，也附带了一个用来微调的convolutional model。

这个model的关键特征是使用了CNN和graphical model。The graphical model 学习了节点间典型的空间关系。

train

这个模型通过减小误差来训练。

Comments

Heatmaps比直接位置回归要好很多
联合使用了CNN和Graphical Model

1. 这篇论文作者的目标是什么，或者也许已经实现了什么。
2. 文中引入了一种新方法，那么这一新提出的方法的关键要素是什么？
3. 论文中，有哪些内容对你有用？
4. 你还想关注哪些参考资料/文献？

提高Human Pose Estimation准确率，达到当时STOA
作者新应用了Graphical Model
cascade和heatmap概念的理解
next

Convolutional Pose Machines (CVPR’16)

Summary

A Pose Machine 由图片特征计算和紧跟着的预测模块构成。这个模型提供了按次序的预测框架，为了学到丰富的隐含空间位置信息，并且它对于人体姿势估计工作的非常好
这篇论文主要动机是可以使用大范围的感受野来大范围的空间关系

Model

Stage 1 是计算模块，Stage 2 是预测模块。

一个 CPM 由两个以上的Stage组成，Stage的数量是一个超参数，通常等于3。

这篇论文采用了在每个Stage后进行监督，防止梯度消失。梯度消失在多阶段的深度学习中是一个通常的问题。

Result

MPII: 准确率比相似的算法都要高
LSP: 达到了STOA at 84.32%

1. 这篇论文作者的目标是什么，或者也许已经实现了什么。
2. 文中引入了一种新方法，那么这一新提出的方法的关键要素是什么？
3. 论文中，有哪些内容对你有用？
4. 你还想关注哪些参考资料/文献？

提高Human Pose Estimation 准确率，达到当时STOA。
论文中引入了多Stage方法，在计算完之后进行预测，并且在每个Stage后都进行监督。
Stage方法的理解，扩大感受野可以帮助获得隐含的空间信息
next

Human Pose Estimation with Iterative Error Feedback (CVPR’16)

Summary

预测目前的估计出了什么错然后纠正它，进行不断的迭代。他们使用了自我纠错模型，这个模型会通过 feed back 错误的预测，逐渐改变最初的解决方法，这个过程被称之为 Iterative Error Feedback(IEF)。

Model

输入由 image I 和先前输出的 yt−1y_{t-1}yt−1构成。记住，这是一个可迭代的过程，输出同样是被精炼的
输入，xt=I⊕g(yt−1)x_{t}=I \oplus g(y_{t-1})xt=I⊕g(yt−1)这里的III是图片，yt−1y_{t-1}yt−1是先前的输出
– f(xt)f(x_{t)}f(xt)输出改正后的εt\varepsilon_{t}εt再加上正确的输出yty_{t}yt去生成yt−1y_{t-1}yt−1，得到的正确结论会被记录。
– g(yt+1)g(y_{t+1})g(yt+1)颠倒每一个yty_{t}yt的keypoint进入 heatmap channel 为了他们能够被堆叠到 image III 上，一遍构成下一次迭代的输出。这个过程被精炼TTT次，直到我们得到一个精炼的yt+1y_{t+1}yt+1，并通过添加εt\varepsilon_{t}εt使得它更加接近 ground truth。

带有 Iterative Error Feedback 的人体姿势估计

Mathematically
– ϵt=f(xt)\epsilon_{t}=f(x_{t})ϵt=f(xt)
– yt+1=yt+ϵty_{t+1}=y_{t}+\epsilon_{t}yt+1=yt+ϵt
– xt+1=I⊕g(yt+1)x_{t+1}=I \oplus g(y_{t+1})xt+1=I⊕g(yt+1)
f()f()f()和g()g()g()是可学习的，并且f()f()f()是一个CNN
CNN f()f()f()是把I⊕g(yt)I\oplus g(y_{t})I⊕g(yt)作为输入的，它有能力学习到input-output之间的特征，这非常酷。
Θg\Theta_{g}Θg和Θf\Theta_{f}Θf这两个参数是被下面公式优化得到的：
– min⁡Θf,Θg∑t=1Th(ϵt,e(y,yt))\min _{\Theta_{f}, \Theta_{g}} \sum_{t=1}^{T} h\left(\epsilon_{t}, e\left(y, y_{t}\right)\right)minΘf,Θg∑t=1Th(ϵt,e(y,yt))
– εt\varepsilon_{t}εt和e(y,yt)e(y,y_{t})e(y,yt)被预测，分别得到目标修正。公式hhh是一个距离的尺寸，例如二次的 loss。TTT是通过模型所得到的修正步骤的数量。

1. 这篇论文作者的目标是什么，或者也许已经实现了什么。
2. 文中引入了一种新方法，那么这一新提出的方法的关键要素是什么？
3. 论文中，有哪些内容对你有用？
4. 你还想关注哪些参考资料/文献？

提高 Human Pose Estimation 准确率
引入了 Iterative Error Feedback (IEF)，一般是直接找到keypoints，作者引入是IEF是不断的把错误放到迭代器里，不断修正错误得到最优的结果
IEF概念想法的理解，看看可不可以对现有的方法进行反向思考，得到结论
next

Stacked Hourglass Networks for Human Pose Estimation (ECCV’16)

Summary

这是一个里程碑式的论文，它被称作 a stacked hourglass network ，因为这个网络是由池化层和上采样层构成的，这个设计师因为他要捕获 every scale 的信息。当对于识别像脸，手等特征，本地根据是必要的时候，最后的姿势估计要求全部的环境。image of different scales 可以更好的获得隐含的线索，例如小分辨率可以捕获更高规则的特征和全局环境。

这个网络的表现是重复的 bottom-up 和 top-down 过程，其中带着中间监督。

Bottom-up processing(从高分辨率到低分辨率)
Top-down processing(从第低辨率到高分辨率)

该网络通过略过连接来保存空间信息。

Intermediate supervision

在每一个 hourglass stage 中间监督都被应用了。

1. 这篇论文作者的目标是什么，或者也许已经实现了什么。
2. 文中引入了一种新方法，那么这一新提出的方法的关键要素是什么？
3. 论文中，有哪些内容对你有用？
4. 你还想关注哪些参考资料/文献？

提高 Human Pose Estimation 准确率
引入了 Residual 来更好的保存信息，通过 bottom-up 和 top-down 不断获得高低分辨率。
引用最新网络的发展，通过高低分辨率叠加的手段获得全局感知与细节感知。
next

Simple Baselines for Human Pose Estimation and Tracking (ECCV’18)

Summary

该网络结构非常简单由 ResNet 和一些 deconvolutional layers at the end 构成。很可能对于 estimate heatmap 来说，这是最简单的方法了。它很简单但效果比 Stacked Hourglass Networks 好。
Mean Squared Error(MSE) 被作为 loss。

1. 这篇论文作者的目标是什么，或者也许已经实现了什么。
2. 文中引入了一种新方法，那么这一新提出的方法的关键要素是什么？
3. 论文中，有哪些内容对你有用？
4. 你还想关注哪些参考资料/文献？

提高 Human Pose Estimation 准确率
直接采用了 ResNet + deconvolution 结构
复杂的也不一定是好的，有时也可以试试最简单的办法看看没有嘛效果
next

Deep High-Resolution Representation Learning for Human Pose Estimation [HRNet] (CVPR’19)

Summary

目前，The HRNet(High-Resolution Network) model 超过了所有现存的方法。

HRNet的想法非常简单，大部分之前的论文分辨率都是高->低->高，而HRNet则是高分辨率贯穿整个过程。

HRNet并没有用中间监督，heatmaps 使用MES进行回归，和 simple baselines 很相似。

1. 这篇论文作者的目标是什么，或者也许已经实现了什么。
2. 文中引入了一种新方法，那么这一新提出的方法的关键要素是什么？
3. 论文中，有哪些内容对你有用？
4. 你还想关注哪些参考资料/文献？

目前的SOTA
High Resolution 贯穿全程，突破高低分辨率交替的想法
High Resolution 的思想

P4 2019年人体姿态估计指引相关推荐

刷新记录，算法开源！字节跳动获人体姿态估计竞赛双冠 | CVPR 2019
整理 | Jane 出品 | AI科技大本营(id:rgznai100) [导读]6 月 16--20 日,计算机视觉与模式识别领域顶会 CVPR 2019 在美国长滩举行.每年的 CVPR 盛会除了 ...
ICCV 2019 | 基于无标签单目视频序列的单帧三维人体姿态估计算法
作者丨王璇学校丨西安交通大学研究方向丨人体姿态估计我们都知道,要训练一个准确的三维人体姿态估计深度神经网络,需要大量有三维标签的数据,越多越好.而在现实生活中,我们很难得到很多有标签数据,而无标 ...
ICCV 2019丨基于跨视角信息融合的三维人体姿态估计
点击我爱计算机视觉标星,更快获取CVML新技术 52CV曾经在该论文刊出的第一时间对其报道:ICCV 2019 | 微软开源跨视图融合的3D人体姿态估计算法,大幅改进SOTA精度,该文为原作者解读. ...
ICCV 2019 | SPM：单阶段人体姿态估计解决方案
本文为极市作者Panzer原创,欢迎加小助手微信(cv-mart) 备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测.目标跟踪.人脸.工业检测.医学影像. ...
2019深度学习人体姿态估计指南
本文素材来源于nanonets技术博客网站,经本人编辑首发于CSDN,仅供技术分享所用,不作商用. 原文地址:https://blog.nanonets.com/human-pose-estimati ...
一文概览2D人体姿态估计
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达来自 | 知乎作者 | 谢一宾链接 | https:// ...
3D 人体姿态估计简述
0 前言 3D Human Pose Estimation(以下简称 3D HPE )的目标是在三维空间中估计人体关键点的位置.3D HPE 的应用非常广泛,包括人机交互.运动分析.康复训练等,它也可 ...
Lifting Transformer: 基于跨步卷积Transformer的高效三维人体姿态估计
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达论文:Lifting Transformer for 3D Human Pose Estimation ...
人体姿态估计(Human Pose Estimation)技巧方法汇总
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者:Poeroz https://zhuanlan.zhihu.com/p/10 ...

P4 2019年人体姿态估计指引

Classical approaches:

Deep Learning based approaches:

DeepPose: Human Pose Estimation via Deep Neural Networks (CVPR’14)

Model

Efficient Object Localization Using Convolutional Networks (CVPR’15)

Model

train

Comments

Convolutional Pose Machines (CVPR’16)

Summary

Model

Result

Human Pose Estimation with Iterative Error Feedback (CVPR’16)

Summary

Model

Stacked Hourglass Networks for Human Pose Estimation (ECCV’16)

Summary

Intermediate supervision

Simple Baselines for Human Pose Estimation and Tracking (ECCV’18)

Summary

Deep High-Resolution Representation Learning for Human Pose Estimation [HRNet] (CVPR’19)

Summary

P4 2019年人体姿态估计指引相关推荐

最新文章

热门文章