3D人体姿态估计
姿态估计

人体姿态估计:估计人的关节点坐标(回归问题)

RGB or RGBD
图像 or 视频
单目 or 多视角
单人 or 多人
2D or 3D
3D姿态 or 3D形态

2D姿态估计

任务

  • 单人姿态估计
    Benchmark: MPII (2014)
    代表作: CPM (CVPR 2016), Hourglass (ECCV 2016)
  • 多人姿态估计
    Benchmark: COCO (2016), CrowdPose (2018)
    自底向上: OpenPose (CVPR 2017), Associative Embedding (NIPS 2017)
    自顶向下: CPN (CVPR 2018), MSPN (Arxiv 2018), HRNet (CVPR 2019)
  • 人体姿态跟踪
    Benchmark: PoseTrack (2017)
    代表作: Simple Baselines (ECCV 2018)

挑战

  • 遮挡
  • 复杂背景
  • 特殊姿态

3D姿态估计
问题

从图片或视频中估计出关节点的三维坐标 (x, y, z) (回归问题)

  • 输入: 包含人体的图片
  • 输出: N×3个人体关节点

挑战

  • 巨大的3D姿态空间、自遮挡 单视角2D到3D的映射中固有的深度模糊性、不适定性(一个2D骨架可以对应多个3D骨架)

  • 缺少大型的室外数据集(主要瓶颈)

    • 缺少特殊姿态的数据集(如摔倒,打滚等)
    • 由于数据集是在实验室环境下建立的,模型的泛化能力较差
  • 3D姿态数据集是依靠适合室内环境的动作捕捉(MOCAP)系统构建的。MOCAP系统需要带有多个传感器和紧身衣裤的复杂装置,在室外环境使用是不切实际的

应用

  • 动画,游戏
  • 运动捕捉系统
  • 行为理解
  • 姿态估计可以做为其他算法的辅助环节(行人重识别)
  • 人体姿态估计跟人体相关的其他任务一起联合学习(人体解析)

    方法
  • 从2D图片直接暴力回归得到3D坐标
    • 3D Human Pose Estimation from Monocular Images with Deep
      Convolutional Neural Network (ACCV 2014)
    • Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose
      (CVPR 2017)
    • 通过深度学习模型建立单目RGB图像到3D坐标的端到端映射,虽然能从图片中获取到丰富的信息,但没有中间监督的过程,模型受到图片的背景、光照和人的穿着影响较大,对于单一模型来说需要学习的特征也太过复杂。
  • 先获取2D信息,然后再“提升”到3D姿态
    • 联合2D,3D共同训练(2D信息通常以heatmap来表示)

      • Towards 3D Human Pose Estimation inthe Wild (ICCV 2017)
      • 3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR 2019)
      • 需要复杂的网络架构和充足的训练样本。
    • 直接用预训练好的2D姿态网络,将得到的2D坐标输入到3D姿态估计网络中(得益于2D姿态估计较为成熟)
      • Simple Yet Effective Baseline (ICCV 2017)
      • 3D human pose estimation in video with temporal convolutions (CVP R 2019)
      • 2D姿态网络: Hourglass (ECCV 2016), CPN (CVPR 2018)
        • 优点
          减少了模型在2D姿态估计上的学习压力
          网络结构简单,轻量级
          实时性,快速
          训练快,占用显存少

        • 缺点

          缺少原始图像输入,可能会丢失一些空间信息
          2D姿态估计的误差会在3D估计中放大

为什么要先进行2D估计再进行3D估计?

  • 因为基于检测的模型在2D的关节点检测中表现更好,而在3D空间下,由于非线性程度高,输出空间大,所以基于回归的模型比较流行。

监督方法

  • 弱监督: 不直接用标签,而用其他信息计算Loss
    - 深度图、点云、网格、GAN、3D投影到2D
  • 半监督
    - 3D投影到2D
  • 自监督
  • 全监督

视频序列的优点

  • 当前帧有遮挡的时候,可利用相邻帧的完整性解决这个问题
  • 由于单独预测每个帧的3D姿态时,每个帧中的结果与其他帧无关,会导致输出不连贯,带有视频抖动
  • 单张图片包含的深度信息是有限的,网络可以从序列中挖掘到更丰富的深度信息
  • 一张2D图片可以对应无穷多个3D姿态,让模型“多看”同个视角不同时间人的图片,可以减少深度模糊性,缩小3D姿态的空间范围

3D形态估计

问题

人体姿态重建:从图片或视频中重建或恢复人体姿态的3D模型

3D形态的表示

  • 网格: 由三角形组成的多边形网格
  • 深度图: 每个像素值代表的是物体到相机xy平面的距离
  • 体素: 三维空间中的一个有大小的点,一个小方块,相当于是三维空间中的像素
  • 点云: 某个坐标系下的点的数据集。点包含了丰富的信息,包括三维坐标xyz、颜色、分类值、强度值、时间等

SMPL(A Skinned Multi-Person Linear Model)

3D人体姿态估计总结相关推荐

  1. 网络摄像头+net_今日 Paper | 神经网络结构搜索;视觉目标;人物识别;视频3D人体姿态估计等...

    目录 基于进化算法和权值共享的神经网络结构搜索 检测视频中关注的视觉目标 包含状态信息的弱监督学习方法进行人物识别 基于解剖学感知的视频3D人体姿态估计 RandLA-Net:一种新型的大规模点云语义 ...

  2. PoseFormer:首个纯基于Transformer的 3D 人体姿态估计网络,性能达到 SOTA

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文分享一篇 52CV 粉丝的论文『3D Human Pose Estimation with Spa ...

  3. 3D人体姿态估计--Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose

    Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose Project and Code: https://www.se ...

  4. ECCV 2020 论文大盘点-3D人体姿态估计篇

    本文盘点ECCV 2020 中所有与3D姿态估计(3D Human Pose Estimation)相关的论文,总计 14 篇,其中一篇Oral 论文,7 篇已经或者将开源代码. 下载包含这些论文的 ...

  5. 3D人体姿态估计论文汇总(CVPR/ECCV/ACCV/AAAI)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:Vegetabird | 来源:知乎 https://zhuanlan.zhihu.com/p/ ...

  6. 视频中的3D人体姿态估计(3D human pose estimation in vide)--------Facebook research: VideoPose3D

    视频中的3D人体姿态估计(3D human pose estimation in video) 解读Facebook AI Research in CVPR2019: <3D human pos ...

  7. 姿态估计之3D 人体姿态估计 - 总结(1)【转】

    参考 3D 人体姿态估计简述 - 知乎 3D人体姿态估计(介绍及论文归纳) [2021-CVPR]Graph Stacked Hourglass Networks for 3D Human Pose ...

  8. 2D与3D人体姿态估计数据集(统计)

    2D与3D人体姿态估计数据集(统计) 图像级2D单人数据集 Leeds Sports Pose (LSP) Dataset Frames Labeled in Cinema (FLIC) Datase ...

  9. 3D 人体姿态估计简述[转]

    [转自]3D 人体姿态估计简述 - 知乎 0 前言 3D Human Pose Estimation(以下简称 3D HPE )的目标是在三维空间中估计人体关键点的位置.3D HPE 的应用非常广泛, ...

  10. 特效大片背后的多视角 3D 人体姿态估计技术

    目录 0 背景 1 主要算法 1.1 基于匹配和三角化重建的算法 1.2 基于空间体素化的算法 1.3 基于图卷积网络的算法 1.4 基于 Transformer 的算法 2 常用数据集 2.1 Ca ...

最新文章

  1. Shell脚本头定义
  2. Redhat5中discuz 7论坛的搭建
  3. app接口开发(php)
  4. ASP.NET Core 中断请求了解一下(翻译)
  5. HDU 5392 BC #51
  6. Win7系统还原声音图标的方法
  7. Golang语言 零基础入门教程
  8. java 长方形正方形_面向对象的疑惑,java设计正方形,长方形
  9. win7计算机系统减肥,win7系统精简瘦身的操作方法
  10. shell脚本的错误检测总结
  11. [渝粤教育] 西南科技大学 广告学 在线考试复习资料
  12. KNN算法优缺点总结,以及机器学习流程的总结
  13. android平台串口调试工具,串口调试助手下载-串口助手 安卓版v1.4-PC6安卓网
  14. fastlane 上传到蒲公英和Fir 配置
  15. TS学习(九) :TS中的泛型
  16. 首届“中新人工智能高峰论坛”即将召开,周志华、李德毅......与你一起对话未来!...
  17. 服务器网站权限,在服务器上设置网站权限
  18. 如何实现算法中的公平性
  19. 计算机专业前沿算法,CNCC2018 | 研究经典计算机算法已经过时了吗?
  20. node内存溢出:JavaScript heap out of memory

热门文章

  1. Unity3D 世界坐标转屏幕坐标的坑
  2. Centos安装交叉编译工具链
  3. makefile 编写
  4. 3个月攻破CCNA:12周教程资料盘点
  5. 计算机系统的今后应用,计算机系统毕业论文范本(2)
  6. golang设计模式(第二版)
  7. UTM坐标系与GPS坐标系转换笔记
  8. python DataFrame数据分组统计groupby()函数
  9. 应用加速,数字人民币接入多地交通出行场景 | 产业区块链发展周报
  10. 用python做炒股软件-python通达信接口_基于python的炒股软件