论文连接:https://arxiv.org/pdf/1912.05656.pdf
代码连接:https://github.com/mkocabas/VIBE

Video Inference for Human Body Pose and Shape Estimation

  • 摘要
  • 前言
  • 相关工作
  • 方法


图1:给定具有挑战性的野外视频,最近最先进的视频姿态估计方法 31无法产生精确的3D身体姿态。为了解决这个问题,我们利用一个大规模的运动捕捉数据集来训练一个使用对抗方法的运动鉴别器。我们的模型(VIBE)(底部)能够产生真实和准确的姿势和形状,在标准基准上优于以前的工作。

摘要

人类的运动是理解行为的基础。尽管在单图像3D姿态和形状估计方面取得了进展,但是由于缺乏用于训练的真实3D运动数据,现有的基于视频的最先进的方法不能产生精确和自然的运动序列。为了解决这个问题,我们提出了“人体姿态和形状估计的视频推理”(VIBE),它利用了现有的大规模运动捕捉数据集(makes)以及不成对的、在野外的2D关键点注释。我们的主要创新是一个对抗性的学习框架,它利用MASTER来区分真实的人类运动和那些由我们的时间姿势和形状回归网络产生的运动。我们定义了一个新的具有自我注意机制的时间网络结构,并证明了在序列水平上的对抗训练,产生了运动学上似是而非的运动序列,而没有在野外的地面真实3D标签。我们进行了广泛的实验来分析运动的重要性,并展示了VIBE在挑战性的3D姿态估计数据集上的有效性,实现了最先进的性能。

前言

在从单个图像估计3D人体姿态和形状方面已经取得了巨大的进步[11,22,26,30,36,37,39,47,50]。虽然这在许多应用中很有用,但正是身体在世界上的运动告诉我们人类的行为。2020年4月29日运动中的人体上的几个移动点光源告诉我们关于行为的信息。在这里,我们解决了如何利用时间信息从单目视频中更准确地估计身体的3D运动。虽然这个问题已经被研究了30多年,我们可能会问为什么可靠的方法仍然不容易获得。我们的观点是,由于训练数据不足,以前的人体运动时间模型没有捕捉到真实人体运动的复杂性和可变性。我们在这里用一种新的时间神经网络和训练方法来解决这个问题,并且表明它显著地改善了从单目视频中进行的3D人体姿态估计。现有的视频姿态和形状估计方法[31,56]通常不能产生精确的预测,如图1(上)所示。这背后的一个主要原因是缺乏野外地面真实的3D注释,即使对于单个图像来说,获得这些注释也不是小事。先前的工作[31,56]将室内3D数据集与具有2D地面真实或伪地面真实关键点注释的视频相结合。然而,这有几个限制:(1)室内3D数据集在对象数量、运动范围和图像复杂性方面受到限制;(2)标记有地面真实2D姿态的视频量仍然不足以训练深层网络;(3)伪地面真实2D标签对于三维人体运动建模是不可靠的。为了解决这个问题,我们从金泽等人[30]那里得到了启发,他们只使用2D关键点和不成对的静态3D人体形状和姿势数据集,使用对抗训练方法来训练单图像姿势估计器。对于视频序列,已经存在带有2D关键点注释的野外视频。接下来的问题是如何为对抗训练获得足够质量的逼真3D人体运动。为此,我们利用了大规模的3D运动捕捉数据集,称为MAGET[43],它足够丰富,可以学习人们如何运动的模型。我们的方法学会了从野外视频中估计3D身体形状姿势序列,这样鉴别器就不能区分估计的运动和MASTER数据集中的运动。如[30]中所述,我们还在可用时使用3D关键点。我们方法的输出是SMPL人体模型格式[42]的一系列姿态和形状参数,这与MAGRE和最近的文献一致。我们的方法了解人们如何在图像中出现的丰富性,并基于MASTER来产生有效的人类运动。具体来说,我们通过训练一个基于序列的生成对抗网络(GAN)来利用两个不成对的信息来源[19]。这里,给定一个人的视频,我们训练一个时间模型来预测每个帧的SMPL人体模型的参数,同时运动鉴别器试图区分真实序列和回归序列。通过这样做,鼓励回归者输出代表似是而非的动作的姿势,通过最小化对抗训练损失,而鉴别者充当弱监督。运动鉴别器隐含地学习使用真实运动捕捉(mocap)数据来解释运动中人体的静力学、物理学和运动学。我们称我们的方法为VIBE,它代表“人体姿态和形状估计的视频推理”在训练过程中,VIBE将野外图像作为输入,并使用卷积神经网络(CNN)预测SMPL人体模型参数,卷积神经网络用于单图像人体姿态和形状估计[37],然后使用时间编码器和人体参数回归器[30]。然后,运动鉴别器将预测的姿态与从聚敛数据集采样的姿态一起,并为每个序列输出一个真/假标签。我们使用门控循环单元实现时间编码器和运动鉴别器,以捕捉人类运动的顺序特性。运动鉴别器使用学习的注意力机制来放大独特帧的贡献。整个模型由对抗损失和回归损失监督,以最小化预测和地面真实关键点、姿态和形状参数之间的误差。在测试时,给定一个视频,我们使用预处理的CNN [37]和我们的时间模块来预测每个帧的姿态和形状参数。该方法适用于任意长度的视频序列。我们在多个数据集上进行了广泛的实验,并优于所有现有的方法;见图1(底部)的例子振动的输出。重要的是,我们表明,我们的视频为基础的方法总是优于单帧的方法在这一点上有很大的差距

相关工作

单个图像的3D姿态和形状。参数化3D人体模型[4,42,49]被广泛用作人体姿态估计的输出目标,因为它们捕获人体形状的统计数据,并提供可用于许多任务的3D网格。早期工作探索“机器人”自下而上“回归方法”,“自顶向下”优化方法,以及使用关键点和轮廓作为输入的多摄像机设置[1,8,20,55]。这些方法很脆弱,需要人工干预,或者不能很好地推广到野外图像。Bogo等人[11]提出了SMPLify,这是第一个端到端的方法之一,它使SMPL模型适合CNN关键点检测器的输出[52]。Lassner等人[39]在拟合过程中使用轮廓和关键点。最近,深度神经网络被训练成从像素[22,30,47,50,58,60]直接回归SMPL身体模型的参数。由于缺乏野外3D地面真实标签,这些方法使用从2D关键点重投影损失获得的弱监督信号[30,58,60],使用身体/部分分割作为中间表示[47,50],或者在循环中使用人[39]。Kolotouros等人[37]通过在训练循环中使用SMPLify,以协作方式将基于回归和基于优化的方法结合起来。在训练的每一步,深度网络[30]初始化使身体模型适合2D关节的SMPLify优化方法,产生用于监控网络的改进的适合度。或者,已经提出了几种非参数身体网格重建方法[38,53,62]。V arol等人[62]使用体素作为输出身体表示。Kolotouros等人[38]使用图形卷积网络[34]直接回归模板体网格的顶点位置。Saito等人[53]使用像素对齐的隐式函数预测身体形状,然后进行网格重建步骤。尽管从单个图像中捕捉人体,但当应用于视频时,这些方法会产生抖动、不稳定的结果。视频中的3D姿势和形状。从视频中捕捉人体运动有着悠久的历史。在早期的工作中,霍格等人[24]将一个简化的人体模型与行走的人的图像特征相匹配。早期的方法也利用了像来自mocap数据[48,61]的方法,但是这些方法仅限于简单的运动。最近许多从视频[15,25,45,51,46]中估计人体姿势的深度学习方法只关注关节位置。几种方法[15,25,51]使用两阶段方法将现成的2D关键点“提升”到3D关节位置。相比之下,梅塔等人[45,46]采用端到端方法直接回归3D关节位置。尽管在像Human3.6M [27]这样的室内数据集上有令人印象深刻的性能,但在像3DPW [64]和MPI-INF-3DHP [44]这样的室外数据集上表现不佳。最近的几种方法通过延长SMPLify时间来计算一致的身体形状和平滑运动,从而从视频中恢复SMPL姿势和形状参数[6,26]。

特别是,Arnab等人[6]表明,当用于微调时,用他们的SMPLify版本注释的互联网视频有助于改善HMR。金泽等人[31]通过预测过去和未来的帧1来学习人类运动运动学。他们还表明,使用2D关键点检测器标注的互联网视频可以减少对野生3D姿势标签的需求。Sun等人[56]建议使用基于变压器的时间模型[63]来进一步提高性能。他们提出了一种无监督的对抗性训练策略,学习对混洗帧进行排序。用于序列建模的GANs。生成性敌对网络GANs [5,19,28,40]对图像建模和合成产生了重大影响。最近的工作已经将GANs结合到递归架构中,以模拟序列到序列的任务,如机器翻译[57,65,66]。对运动建模的研究表明,将顺序结构和对抗性训练相结合,可以用来根据以前的运动序列预测未来的运动序列[9,21]或生成人体运动序列[2]。相比之下,我们关注的是以顺序输入数据为条件的对抗性精确预测姿势。按照这个方向,我们采用了一种运动鉴别器,它利用循环结构和敌对目标,利用3D mocap数据对潜在空间中的姿态和形状参数进行编码[43]。

方法

VIBE的整体框架总结在图2中。给定一个输入视频,长度为1一个人,我们从一个预先训练好的美国有线电视新闻网上提取每一帧的特征。我们训练一个由双向门控循环单元(GRU)组成的时间编码器,它输出包含过去和未来帧信息的潜在变量。然后,这些特征用于在每个时间实例回归SMPL身体模型的参数。SMPL用θ表示身体姿态和形状,θ分别由姿态和形状参数θ∈R72和β∈R10组成。姿态参数包括全局身体旋转和轴角格式的23个关节的相对旋转。形状参数是主成分分析形状空间的前10个系数;在这里,我们使用性别中性的形状模型,如在以前的工作[30,37]中给定的这些参数,SMPL模型是一个可微函数,M(θ,β) ∈ R6890×3,输出一个设定的三维网格。给定一个视频序列,VIBE计算ˇθ=[(ˇθ1,ˇθT),ˇβ],其中ˇθ是时间步长T的姿态参数,ˇβ是该序列的单个身体形状预测。具体来说,对于每一帧,我们预测身体形状参数。然后,我们应用平均池来获得整个输入序列中的单个形状(β)。我们参考到目前为止所描述的模型作为时间生成器G。然后,来自G的输出θ和来自are的样本θreal被提供给运动鉴别器DM,以便区分假的和真实的例子。

最后分享一个我复原的一图

【VIBE: Video Inference for Human Body Pose and Shape Estimation】论文阅读相关推荐

  1. Body estimation 论文阅读笔记(3):Unipose:Unified Human Pose Estimation in Single Images and Videos Bruno Ar

    Abstract + Introduction 提出了一个通用的结构,这个结构基于 waterfall 的空洞空间池化结构,达到了 SOTA 通过结合contextual segmentation 和 ...

  2. Learning Pose Grammar to Encode Human Body Configuration for 3D Pose Estimation论文阅读笔记

    文章目录 论文内容 创新点 网络结构 表示方式 Base 3D-Pose Network 3D-Pose Grammar Network-BRNN 运动学语法(Kinematic grammar) 对 ...

  3. 论文学习笔记:Learning to Estimate 3D Human Pose and Shape From a Single Color Image

    解决的问题:从单个彩色图像估计人体的姿势和形状 - 一般方法:通过迭代优化 - 存在的问题:卷积网络缺少训练数据.3D预测时分辨率低 本篇论文的工作:提出一个基于卷积网络的高效的直接预测方法来解决上述 ...

  4. 论文阅读(2)3D Human Body Reconstruction from a Single Image via Volumetric Regression

    3D Human Body Reconstruction from a Single Image via Volumetric Regression 论文阅读 Abstract 1 Introduct ...

  5. 论文阅读笔记--Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods 人体姿态估计综述

    趁着寒假有时间,把之前的论文补完,另外做了一点点笔记,也算是对论文的翻译,尝试探索一条适合自己的论文阅读方法. 这篇笔记基本按照原文的格式来,但是有些地方翻译成中文读起来不太顺,因此添加了一些自己的理 ...

  6. 论文阅读 [TPAMI-2022] Locally Connected Network for Monocular 3D Human Pose Estimation

    论文阅读 [TPAMI-2022] Locally Connected Network for Monocular 3D Human Pose Estimation 论文搜索(studyai.com) ...

  7. [论文阅读:姿态识别Transformer] TFPose: Direct Human Pose Estimation with Transformers

    [论文阅读:姿态识别&Transformer] TFPose: Direct Human Pose Estimation with Transformers 文章目录 [论文阅读:姿态识别&a ...

  8. 【论文阅读笔记】Occlusion-Aware Siamese Network for Human Pose Estimation

    论文地址:Occlusion-Aware Siamese Network for Human Pose Estimation 论文总结   本文的网络名,作者命名为OASNet.本文的出发点就如名字所 ...

  9. [论文阅读:姿态识别Transformer] POET: End-to-End Trainable Multi-Instance Pose Estimation with Transformers

    [论文阅读:姿态识别&Transformer] 2103 POET: End-to-End Trainable Multi-Instance Pose Estimation with Tran ...

最新文章

  1. 未来智能社会的一砖一瓦都需要今天我们一点点的探索发现!
  2. 5-4 是否同一棵二叉搜索树 (25分)
  3. ASP.NET 2.0(C#) - Themes(主题)
  4. 入坑机器学习?送你一篇麻省博士的学习心得
  5. 【MySql】mysql 慢日志查询工具之mysqldumpslow
  6. 【VS2015】链接器错误link2001
  7. 测试低频噪音软件,设计制作并验证0.1Hz~10Hz超低频微弱噪音检测放大器STEP BY STEP...
  8. 通过海康sdk捕获码流数据实现抓图功能
  9. 百度cpc联盟的漏洞?还是内鬼?
  10. 2022-09-13 mysql列存储引擎-POC-查询数据错误追踪
  11. 无线传感网MAC协议
  12. Binutils - c++filt工具
  13. java生日提醒_生日提醒功能
  14. Golang面试问题汇总
  15. 下拉菜单选择城市列表html,js弹出式下拉列表框选择省市地区美化插件 - pickout.js...
  16. 商品详情页系统架构-笔记12 - 商品详情页整体架构组成+前端介绍
  17. wait-ify工作原理(学习笔记)
  18. 网易视频云:流媒体服务器原理和架构解析
  19. 网站设计新趋势:沉浸式交互设计
  20. MicrosoftWPS

热门文章

  1. 中国双目立体显微镜市场趋势报告、技术动态创新及市场预测
  2. 【云驻共创】GaussDB(DWS)云数仓工作负载管理流程体验
  3. 香港服务器与美国服务器的优缺点分析
  4. 互联网创业时代先锋 :微合娱乐网创办人潘华鹏
  5. ABP中的依赖注入思想
  6. 人工智能 - 扩展阅读
  7. 命令行解决mac安装 anaconda arm 图形版后,可视化应用(图标)不显示的问题
  8. 前端架构师亲述:前端工程师成长之路的 N 问 及 回答
  9. Java Collections.frequency()方法具有什么功能呢?
  10. 如何运用VRRP协议实现双主双备网络?