论文翻译,详见原文:SMPL-X_CVPR2019.pdf

666

题目:Expressive Body Capture: 3D Hands, Face, and Body from a Single Image

Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed A. A. Osman, Dimitrios Tzionas, and Michael J. Black

MPI for Intelligent Systems,Tubingen,DE,  University of Pennsylvania,PA,USA

{gpavlakos, vchoutas, nghorbani, tbolkart, aosman, dtzionas, black}@tuebingen.mpg.de

摘要

为了便于分析人类的行为、互动和情感,本文从一张单目图像计算人体姿势、手部姿势和面部表情的3D模型。为了实现这一点,本文扩展了SMPL,使之具有完全关节化的双手和富有表情的脸,使用数千次三维扫描来训练新的统一人体三维模型SMPL-X。

在没有成对图像和3DGroundTruth的情况下,直接从图像回归学习SMPL-X参数是一个挑战,因此,本文效仿SMPLify方法先估计2D特征,然后优化模型参数来拟合这些特征。

本文在几个重要的方面改进了SMPLify:

(1)检测出脸部、手和脚对应的2D特征,并将完整的SMPL-X模型拟合到这些特征;

(2)使用大型MoCap数据集训练一个新的先验姿态神经网络(a new neural network pose prior);

(3)定义了一种既快速又准确的新的互穿惩罚项(a new interpenetration penalty);

(4)自动检测性别和适用的身体模型(男性、女性或中性);

(5)实现了PyTorch版本,相对Chumpy提速了8倍。

使用新的SMPLify-X方法,使SMPL-X适用于约束图像和自然图像。在一个由100张带有伪标签(pseudo ground-truth)图像组成的新精选数据集上评估了3D精度。

这是迈向从单目RGB数据自动捕获人体的重要一步。

可在https://smpl-x.is.tue.mpg.de获取模型、代码和数据以用于研究。

1引言

人类通常是图像和视频的核心要素。了解他们的姿势、交流的社交线索、和与世界的互动对于全面了解场景至关重要。最近的方法已经显示出在2D中估计主要身体关节、手关节和面部特征的快速进展[15,31,70]。然而,我们与世界的互动基本上是三维的,最近直接从图片估计出3D主要关节和粗糙三维姿态的工作也取得了进展,[10,37,59,62]。

但是,要理解人类行为,不仅要捕捉人体的主要关节,还需要捕捉人体、手和脸的完整3D曲面。由于缺乏合适的3D模型和丰富的3D训练数据等几个主要挑战,目前还没有系统能够做到。图1说明了该问题。仅使用稀疏2D信息或缺少手和脸部细节的3D表示,很难对表达性和交际图像进行解释。为解决该问题,需要做两件事。首先,需要一个能够表示人脸、手和身体姿势复杂性的人体3D模型;其次,需要一种从单个图像中提取这种模型的方法。

图 1 沟通和示意完全取决于身体的姿势、手势和面部表情。仅有身体主要关节不足以表示这点,当前的3D模型也不足以表现。较先前工作,本文方法从单个图像估计出更详细、更具表现力的3D模型。从左到右:RGB图像,主要关节,骨骼,SMPL模型(女),SMPL-X(女性)。 SMPL-X中的手和脸支持更全面和更具表现力的身体捕捉。

神经网络和人工标记图像的大数据集的发展使二维人体“姿势”估计取得了迅速的进展。该领域中的“姿势”通常意味着人体的主要关节。这不足以理解如图1所示的人类行为。OpenPose[15,60,70]将其扩展到包括2D手部关节和2D面部特征。尽管这捕获了更多关于交流意图的信息,但它不足以支持有关表面以及人类与3D世界交互。

3D身体模型专注于捕捉身体整体形状和姿态,不包括手和脸[2,3,6,26,48]。还有大量的文献是关于手[39,53,57,58,68,69,71,74,75]和脸[4,9,11,13,14,43,63,76,79]的3D建模,但与身体的其他部分是隔离的。直到最近才开始与手[68]或与手和脸[36]一起对身体建模。例如,Frank模型[36]结合了SMPL身体模型的简化版本[48]、艺术手绑定和FaceWarehouse[14]脸部模型。这些分离模型被缝合在一起,导致模型不完全真实。

我们从一个大型3D扫描语料库中学习了一个新的、整体的、带有脸和手的身体模型。新的SMPL-X模型(SMPL expression)基于SMPL并保留了该模型的优点:与图形软件兼容、简单参数化、体积小、高效、可区分等。我们将SMPL与FLAME头模型[43]和MANO手模型相结合[68],然后将这个组合模型注册到5586个3D扫描中,以保证质量。通过从数据中学习模型,我们捕捉到了身体、面部和手的形状之间的自然关联,并且得到的模型没有Frank所看到的伪影。模型的表现力如图2所示,其中我们将SMPL-X拟合到具有表现力的RGB图像中,以及在图4中,我们将SMPL-X拟合到公共LSP数据集的图像中[33]。SMPL-X可免费用于研究目的。

图 2 学习了一个名为SMPL-X的新人体3D模型,可以对身体、面部和手部进行联合建模。使用SMPLify-X将女性SMPL-X模型与单张RGB图像拟合,表明它可以捕获多种多样的自然且富有表现力的3D人体姿势、手势和面部表情表达式。

有几种方法使用深度学习从单个图像回归SMPL的参数[37,59,62]。然而,要用手和脸来估计一个三维人体,却没有合适的训练数据集。为了解决这个问题,我们遵循SMPLify的方法。首先,我们使用OpenPose“自底而上”估计2D图像特征[15,70,77],检测身体、手、脚的关节和面部特征。然后,将SMPL-X模型“自顶而下”拟合这些2D特征,称为SMPLify-X法。为此,我们对SMPLify进行了几项重要的改进。具体而言,使用变分自动编码器从大型的运动捕获数据集[50、51]中学习新的、性能更好的先验姿势。这个先验至关重要,因为从2D特征到3D姿态的映射是不明确的。我们还定义了一个新的(自我)渗透惩罚项,它比SMPLify的近似方法更加精确和有效,且仍然是可微的。我们训练了一个性别检测器,并使用它来自动确定要使用的身体模型,无论是男性、女性或是中性。最后,训练直接回归方法以估计SMPL参数的一个动机是SMPLify速度很慢。这里通过利用现代gpu的计算能力,使用比相应的Chumpy实现至少快8倍的PyTorch实现来解决这个问题。此SMPLify-X方法的示例如图2所示。

为了评估精度,我们需要带有全身RGB图像和相应的3D-Ground-Truth的新数据。为了达到这个目的,我们创建了一个新的评估数据集,其中包含一个主体各种姿势、手势和表情的图像。我们使用扫描系统捕捉三维人体形状,并将SMPL-X模型与扫描结果相匹配。这种形式的伪标签(pseudo ground-truth)足够精确,可以对身体、手和脸的模型一起进行定量评估。我们发现我们的模型和方法的性能明显优于相关和功能较弱的模型,结果自然而富有表现力。我们相信这项工作是朝着从单张RGB图像中同时捕捉身体、手和脸迈出的重要一步。我们在https://smpl-x.is.tue.mpg.de为研究目的提供SMPL-X模型、SMPLify-X代码、训练过的网络、模型匹配和评估数据集。

2相关工作

3技术方法

4实验

5结论

在这项工作中,我们展示了SMPL-X,一种可以将身体、脸和手结合在一起的新模型。我们还提出了SMPLify-X,一种将SMPL-X拟合到单张RGB图像和 OpenPose检测到的2D关节点的方法。我们利用新的强大的身体姿态先验和快速准确的穿透检测和惩罚方法在模糊情况下正则化拟合。我们利用野外图像提供了大量定性结果,显示了SMPL-X的表达能力和SMPLify-X的有效性。我们引入了一个带有伪标签(pseudo ground-truth)的精选数据集来执行定量评估,这显示了更具表达性的模型的重要性。在未来的工作中,我们将整理一个SMPL-X拟合数据集,并学习一个直接从RGB图像中回归SMPL-X参数的回归器。我们认为,这项工作是朝着从RGB图像同时捕获身体、手部和脸部的重要一步。

参考文献

翻译:SMPL-X模型与SMPLify-X方法相关推荐

  1. Paper:《A Unified Approach to Interpreting Model Predictions—解释模型预测的统一方法》论文解读与翻译

    Paper:<A Unified Approach to Interpreting Model  Predictions-解释模型预测的统一方法>论文解读与翻译 导读:2017年11月25 ...

  2. 【LLM大模型】模型和指令微调方法

    note Hugging Face 的 PEFT是一个库(LoRA 是其支持的技术之一,除此之外还有Prefix Tuning.P-Tuning.Prompt Tuning),可以让你使用各种基于 T ...

  3. 《融智学进阶文集》01:间接计算模型和间接形式化方法

    <融智学进阶文集>01: 间接计算模型和间接形式化方法 01-间接计算模型和间接形式化方法_邹晓辉.pdf 怎么采用融智学七遍通方法熟悉原创文本? 对照阅读 摘要: 本文旨在:从人机交互界 ...

  4. 抱抱脸(hugging face)教程-中文翻译-分享一个模型

    分享一个模型 最后两个教程展示了如何使用 PyTorch. Keras 和 Accelerate 优化分布式设置的模型.下一步就是把你的模型公之于众!我们相信公开分享知识和资源,使人工智能大众化.我们 ...

  5. 【PyTorch】8 语言翻译Torchtext实战——英语和德语翻译、Attention模型、 Pytorch 1.8 安装

    torchtext 语言翻译 1. 数据处理 2. DataLoader 3. 定义nn.Module和Optimizer 4. 训练 4.1 Pytorch 1.8 安装 4.2 训练网络 5. 测 ...

  6. 模型检测原理、方法学习

    模型检测学习 一.模型检测概论 1.1 模型检测所解决的问题:保证并发系统正确性和可靠性 1.2 特点:自动化程度高.简洁明了 1.3 发展:用于描述并发系统性质的CTL逻辑 符号模型检测技术 1.4 ...

  7. dedecms调用自定义会员模型会员信息的方法

    小编给大家分享一下dedecms调用自定义会员模型会员信息的方法,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!  dede ...

  8. 重温强化学习之无模型学习方法:蒙特卡洛方法

    1.无模型方法简介 无模型属于学习方法的一种,(学习和规划),需要智能体和环境进行交互,一般采用样本备份,需要结合充分的探索 MDPs中未知P,R-无模型 交互是为了更加了解环境,了解状态 动态规划是 ...

  9. DL框架之Keras:深度学习框架Keras框架的简介、安装(Python库)、相关概念、Keras模型使用、使用方法之详细攻略

    DL框架之Keras:深度学习框架Keras框架的简介.安装(Python库).相关概念.Keras模型使用.使用方法之详细攻略 目录 Keras的简介 1.Keras的特点 2.Keras四大特性 ...

最新文章

  1. Python学习笔记——常量和变量
  2. XDP/eBPF — eBPF
  3. 【五线谱】五线谱的线与间 ( 五线谱中的 第N线与第N间 | 五线谱上的 上加N线与上加N间 | 五线谱下的 下加N线与下加N间 | 高音谱号下加一线 等同于 低音谱号上加一线 )
  4. windows 3.x编程指南_18000 MHz 可编程衰减器
  5. Hibernate query by Example
  6. Android23版本以上删除HttpClient的解决办法
  7. 光学模拟 Android,基于Android平台的光学字符识别应用的设计与实现
  8. 怎么高速旋转_地暖循环泵怎么维护 地暖循环泵维护方法介绍【详解】
  9. Python爬取抖音用户相关数据(目前最方便的方法)
  10. Android控件——TextView,EditText
  11. canvas设置渐变
  12. 架构师进阶:Linux进程间如何共享内存?
  13. 方维系统登陆弹窗,登陆后自动刷新当前页的实现方法
  14. Linux通过Smb与Windows共享目录
  15. 测试用例设计之正交表设计
  16. 基于Citespace和vosviewer的文献信息可视化分析技术
  17. java课程设计员工信息管理系统,javaweb课程设计之员工信息管理系统
  18. YAML文件格式详解
  19. 微信小游戏接入遇到的坑
  20. DBeaver改成英语

热门文章

  1. Xshell连接云服务器并连接宝塔面板(天翼云为例)
  2. 无限卡,无限流量,无限滚动!
  3. python二级题库 第四套
  4. 新闻推荐笔记(2):Embedding-based News Recommendation for Millions of Users
  5. 渣渣渣变渣渣系列(1)
  6. 牛客网数据库SQL实战44—— 将id=5以及emp_no=10001的行数据替换成id=5以及emp_no=10005
  7. opencv VideoWriter保存摄像头视频、本地视频等
  8. python微信公众号翻译功能_自学Python笔记:给微信公众号搭建“成绩查询”功能...
  9. 计算机组成原理实验信号cpu,计算机组成原理实验43_实验报告
  10. python爬虫爬取漫画(仅供学习)