2019年人体姿态估计指引
本文是介绍2D人体姿势估计的,作者先简单的介绍了下Human Pose Estimation,然后简要的说了下Human Pose Estimation的发展,之后,列出了在Human Pose Estimation发展过程中比较重要的一些算法,并对这些算法进行了解释。

Classical approaches:

  • 构建出一个可变的结构,这个结构由许多部分构成,每一部分间是灵活可变连接的,通过图片匹配出每一个部分在哪,并把这个部分的像素位置参数化,就可以对人体姿态估计进行建模了。
  • 这个方法一点也不依靠图片数据,研究的关键在于怎样增强模型的代表性。

Deep Learning based approaches:

目前,利用深度学习进行人体姿势估计的方法占了主流,并且通常采用的是CNN
重要论文:

  1. DeepPose
  2. Efficient Object Localization Using Convolutional Networks
  3. Convolutional Pose Machines
  4. Human Pose Estimation with Iterative Error Feedback
  5. Stacked Hourglass Networks for Human Pose Estimation
  6. Simple Baselines for Human Pose Estimation and Tracking
  7. Deep High-Resolution Representation Learning for Human Pose Estimation

DeepPose: Human Pose Estimation via Deep Neural Networks (CVPR’14)

DeepPose是第一个使用深度学习方法进行人体姿势估计的,它当时击败了当时的模型达到了SOTA,姿势估计被它规划成了一个人体关键节点的回归问题。并且该方法还采用了级联,精炼姿势估计得到更好的结果。另外,一个重要的事情是,这个方法整体的分析了姿势的原因,就是说,即使节点被隐藏了,如果姿势进行整体的推理,那么隐藏节点将会被估计出来。这篇论文声称, CNN很自然的提供了原因分类,并且展示了强大的结果。

Model

这个模型由一个AlexNet backend (7 layers)和一个额外的final layer构成。该模型使用了L2正则化。

  • 这篇论文把Deep Learing应用于了Human Pose Estimation上,打开了一个新的研究方向
  • 回归XY坐标的方法很难并且增加了复杂性,所以这个方法的表现一般
  • 近年来的STOA方法采用了heatmaps

1. 这篇论文作者的目标是什么,或者也许已经实现了什么。
2. 文中引入了一种新方法,那么这一新提出的方法的关键要素是什么?
3. 论文中,有哪些内容对你有用?
4. 你还想关注哪些参考资料/文献?

  1. 作者的目标是尽可能的提高Human Pose Estimation准确率,达到了当时的STOA
  2. 关键要素是非常快的把最新的CNN理论应用到了Human Pose Estimation领域
  3. 了解Human Pose Estimation的发展史
  4. next

Efficient Object Localization Using Convolutional Networks (CVPR’15)

这个方法通过通过运行一张图片不同分辨率大小来生成heatmaps,一张heatmap将会预测keypoints在每一个pixel上的可能性,这个方法的效果比直接回归效果好很多。

heatmaps是用了CNN。

Model

先用滑动窗口产生coarse heatmap output。

这篇论文的主要动机是恢复由初始模型池化所带来的空间精确度损失。他们通过附带的pose refinemet精炼了coarse heatmap的位置结果。他们和普通cascade不同的是coarse and fine models被一起连带着训练了。

总的来说,这个网络由一个生成coarse heatmaps的model和对每一个节点进行采样剪切的module构成,也附带了一个用来微调的convolutional model。

这个model的关键特征是使用了CNN和graphical model。The graphical model 学习了节点间典型的空间关系。

train

这个模型通过减小误差来训练。

Comments

  • Heatmaps比直接位置回归要好很多
  • 联合使用了CNN和Graphical Model

1. 这篇论文作者的目标是什么,或者也许已经实现了什么。
2. 文中引入了一种新方法,那么这一新提出的方法的关键要素是什么?
3. 论文中,有哪些内容对你有用?
4. 你还想关注哪些参考资料/文献?

  1. 提高Human Pose Estimation准确率,达到当时STOA
  2. 作者新应用了Graphical Model
  3. cascade和heatmap概念的理解
  4. next

Convolutional Pose Machines (CVPR’16)

Summary

  • A Pose Machine 由图片特征计算和紧跟着的预测模块构成。这个模型提供了按次序的预测框架,为了学到丰富的隐含空间位置信息,并且它对于人体姿势估计工作的非常好
  • 这篇论文主要动机是可以使用大范围的感受野来大范围的空间关系

Model


Stage 1 是计算模块,Stage 2 是预测模块。

一个 CPM 由两个以上的Stage组成,Stage的数量是一个超参数,通常等于3。

这篇论文采用了在每个Stage后进行监督,防止梯度消失。梯度消失在多阶段的深度学习中是一个通常的问题。

Result

  • MPII: 准确率比相似的算法都要高
  • LSP: 达到了STOA at 84.32%

1. 这篇论文作者的目标是什么,或者也许已经实现了什么。
2. 文中引入了一种新方法,那么这一新提出的方法的关键要素是什么?
3. 论文中,有哪些内容对你有用?
4. 你还想关注哪些参考资料/文献?

  1. 提高Human Pose Estimation 准确率,达到当时STOA。
  2. 论文中引入了多Stage方法,在计算完之后进行预测,并且在每个Stage后都进行监督。
  3. Stage方法的理解,扩大感受野可以帮助获得隐含的空间信息
  4. next

Human Pose Estimation with Iterative Error Feedback (CVPR’16)

Summary

预测目前的估计出了什么错然后纠正它,进行不断的迭代。他们使用了自我纠错模型,这个模型会通过 feed back 错误的预测,逐渐改变最初的解决方法,这个过程被称之为 Iterative Error Feedback(IEF)。

Model

  • 输入由 image I 和先前输出的 yt−1y_{t-1}yt−1​构成。记住,这是一个可迭代的过程,输出同样是被精炼的
  • 输入,xt=I⊕g(yt−1)x_{t}=I \oplus g(y_{t-1})xt​=I⊕g(yt−1​)这里的III是图片,yt−1y_{t-1}yt−1​是先前的输出
    – f(xt)f(x_{t)}f(xt)​输出改正后的εt\varepsilon_{t}εt​再加上正确的输出yty_{t}yt​去生成yt−1y_{t-1}yt−1​,得到的正确结论会被记录。
    – g(yt+1)g(y_{t+1})g(yt+1​)颠倒每一个yty_{t}yt​的keypoint进入 heatmap channel 为了他们能够被堆叠到 image III 上,一遍构成下一次迭代的输出。这个过程被精炼TTT次,直到我们得到一个精炼的yt+1y_{t+1}yt+1​,并通过添加εt\varepsilon_{t}εt​使得它更加接近 ground truth。

带有 Iterative Error Feedback 的人体姿势估计

  • Mathematically
    – ϵt=f(xt)\epsilon_{t}=f(x_{t})ϵt​=f(xt​)
    – yt+1=yt+ϵty_{t+1}=y_{t}+\epsilon_{t}yt+1​=yt​+ϵt​
    – xt+1=I⊕g(yt+1)x_{t+1}=I \oplus g(y_{t+1})xt+1​=I⊕g(yt+1​)
  • f()f()f()和g()g()g()是可学习的,并且f()f()f()是一个CNN
  • CNN f()f()f()是把I⊕g(yt)I\oplus g(y_{t})I⊕g(yt​)作为输入的,它有能力学习到input-output之间的特征,这非常酷。
  • Θg\Theta_{g}Θg​和Θf\Theta_{f}Θf​这两个参数是被下面公式优化得到的:
    – min⁡Θf,Θg∑t=1Th(ϵt,e(y,yt))\min _{\Theta_{f}, \Theta_{g}} \sum_{t=1}^{T} h\left(\epsilon_{t}, e\left(y, y_{t}\right)\right)minΘf​,Θg​​∑t=1T​h(ϵt​,e(y,yt​))
    – εt\varepsilon_{t}εt​和e(y,yt)e(y,y_{t})e(y,yt​)被预测,分别得到目标修正。公式hhh是一个距离的尺寸,例如二次的 loss。TTT是通过模型所得到的修正步骤的数量。

1. 这篇论文作者的目标是什么,或者也许已经实现了什么。
2. 文中引入了一种新方法,那么这一新提出的方法的关键要素是什么?
3. 论文中,有哪些内容对你有用?
4. 你还想关注哪些参考资料/文献?

  1. 提高 Human Pose Estimation 准确率
  2. 引入了 Iterative Error Feedback (IEF),一般是直接找到keypoints,作者引入是IEF是不断的把错误放到迭代器里,不断修正错误得到最优的结果
  3. IEF概念想法的理解,看看可不可以对现有的方法进行反向思考,得到结论
  4. next

Stacked Hourglass Networks for Human Pose Estimation (ECCV’16)

Summary

这是一个里程碑式的论文,它被称作 a stacked hourglass network ,因为这个网络是由池化层和上采样层构成的,这个设计师因为他要捕获 every scale 的信息。当对于识别像脸,手等特征,本地根据是必要的时候,最后的姿势估计要求全部的环境。image of different scales 可以更好的获得隐含的线索,例如小分辨率可以捕获更高规则的特征和全局环境。

这个网络的表现是重复的 bottom-up 和 top-down 过程,其中带着中间监督。

  • Bottom-up processing(从高分辨率到低分辨率)
  • Top-down processing(从第低辨率到高分辨率)

该网络通过略过连接来保存空间信息。

Intermediate supervision

在每一个 hourglass stage 中间监督都被应用了。

1. 这篇论文作者的目标是什么,或者也许已经实现了什么。
2. 文中引入了一种新方法,那么这一新提出的方法的关键要素是什么?
3. 论文中,有哪些内容对你有用?
4. 你还想关注哪些参考资料/文献?

  1. 提高 Human Pose Estimation 准确率
  2. 引入了 Residual 来更好的保存信息,通过 bottom-up 和 top-down 不断获得高低分辨率。
  3. 引用最新网络的发展,通过高低分辨率叠加的手段获得全局感知与细节感知。
  4. next

Simple Baselines for Human Pose Estimation and Tracking (ECCV’18)

Summary

该网络结构非常简单由 ResNet 和一些 deconvolutional layers at the end 构成。很可能对于 estimate heatmap 来说,这是最简单的方法了。它很简单但效果比 Stacked Hourglass Networks 好。
Mean Squared Error(MSE) 被作为 loss。

1. 这篇论文作者的目标是什么,或者也许已经实现了什么。
2. 文中引入了一种新方法,那么这一新提出的方法的关键要素是什么?
3. 论文中,有哪些内容对你有用?
4. 你还想关注哪些参考资料/文献?

  1. 提高 Human Pose Estimation 准确率
  2. 直接采用了 ResNet + deconvolution 结构
  3. 复杂的也不一定是好的,有时也可以试试最简单的办法看看没有嘛效果
  4. next

Deep High-Resolution Representation Learning for Human Pose Estimation [HRNet] (CVPR’19)

Summary

目前,The HRNet(High-Resolution Network) model 超过了所有现存的方法。

HRNet的想法非常简单,大部分之前的论文分辨率都是高->低->高,而HRNet则是高分辨率贯穿整个过程。

HRNet并没有用中间监督,heatmaps 使用MES进行回归,和 simple baselines 很相似。

1. 这篇论文作者的目标是什么,或者也许已经实现了什么。
2. 文中引入了一种新方法,那么这一新提出的方法的关键要素是什么?
3. 论文中,有哪些内容对你有用?
4. 你还想关注哪些参考资料/文献?

  1. 目前的SOTA
  2. High Resolution 贯穿全程,突破高低分辨率交替的想法
  3. High Resolution 的思想

P4 2019年人体姿态估计指引相关推荐

  1. 刷新记录,算法开源!字节跳动获人体姿态估计竞赛双冠 | CVPR 2019

    整理 | Jane 出品 | AI科技大本营(id:rgznai100) [导读]6 月 16--20 日,计算机视觉与模式识别领域顶会 CVPR 2019 在美国长滩举行.每年的 CVPR 盛会除了 ...

  2. ICCV 2019 | 基于无标签单目视频序列的单帧三维人体姿态估计算法

    作者丨王璇 学校丨西安交通大学 研究方向丨人体姿态估计 我们都知道,要训练一个准确的三维人体姿态估计深度神经网络,需要大量有三维标签的数据,越多越好.而在现实生活中,我们很难得到很多有标签数据,而无标 ...

  3. ICCV 2019丨基于跨视角信息融合的三维人体姿态估计

    点击我爱计算机视觉标星,更快获取CVML新技术 52CV曾经在该论文刊出的第一时间对其报道:ICCV 2019 | 微软开源跨视图融合的3D人体姿态估计算法,大幅改进SOTA精度,该文为原作者解读. ...

  4. ICCV 2019 | SPM:单阶段人体姿态估计解决方案

    本文为极市作者Panzer原创,欢迎加小助手微信(cv-mart) 备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测.目标跟踪.人脸.工业检测.医学影像. ...

  5. 2019深度学习人体姿态估计指南

    本文素材来源于nanonets技术博客网站,经本人编辑首发于CSDN,仅供技术分享所用,不作商用. 原文地址:https://blog.nanonets.com/human-pose-estimati ...

  6. 一文概览2D人体姿态估计

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 来自 | 知乎    作者 | 谢一宾 链接 | https:// ...

  7. 3D 人体姿态估计简述

    0 前言 3D Human Pose Estimation(以下简称 3D HPE )的目标是在三维空间中估计人体关键点的位置.3D HPE 的应用非常广泛,包括人机交互.运动分析.康复训练等,它也可 ...

  8. Lifting Transformer: 基于跨步卷积Transformer的高效三维人体姿态估计

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 论文:Lifting Transformer for 3D Human Pose Estimation ...

  9. 人体姿态估计(Human Pose Estimation)技巧方法汇总

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者:Poeroz https://zhuanlan.zhihu.com/p/10 ...

最新文章

  1. iterator的使用和封个问题
  2. pandas重置dataframe的索引(reset_index)、如果索引不匹配dataframe操作时候的问题、重置索引(不设置drop=true)远索引生成新的数据列
  3. callee与caller
  4. 跨链Cosmos(3)IBC协议
  5. 《Office 365开发入门指南》上市说明和读者服务
  6. MyBatis中增删改操作
  7. 2021-08-08
  8. 学java交学费包分配_java 学生缴学费案例:
  9. 设置文件为源文件(和src一样)
  10. ListView与Adapter笔记:ZrcListView
  11. 修改表结构的执行效率
  12. 学校固定资产管理系统由谁来做,云呐RFID固定资产管理系统
  13. 谈谈QQ 4.6版本的语音通话功能
  14. 图形学 Lecture7 光线追踪
  15. 利用vue+高德地图API 实现用户的运动轨迹
  16. 无线通信关键技术---扰码
  17. 使用 CSS 创建自定义鼠标游标
  18. 如何将电脑文件同步备份到u盘或移动硬盘?
  19. 国考特殊专业职位证监计算机类,报考2018年国考证监会,这些事情你要知道!...
  20. NC6.5与UAP开发学习完整教程

热门文章

  1. 服务器系统和数据库,服务器系统和数据库
  2. mysql中select后接数字_MySQL SELECT用于从一组数字中排列一个数字
  3. 2.2_queue_队列
  4. bean转换 传类型_java开发中DTO、VO、PO之间的转换你应该这么操作
  5. python强制暂停线程_关于python:使用ThreadPoolExecutor强制线程超时
  6. java手动调用finalize_Java并手动执行finalize
  7. 金蝶kis商贸采购单商品代码_金蝶大包装小包装多单位计量单位换算关系用法,看了这个秒懂...
  8. maven编译报错 错误: -source 1.5 中不支持 lambda 表达式
  9. 计算机语言分类:机器语言、汇编语言、标记语言、脚本语言、编程语言
  10. Linux 系统的IP与域名解析文件[局域网的DNS]