【ECCV 2018】Facebook开发姿态转换模型，只需一张照片就能让它跳舞（视频）

DensePose 是 Facebook 研究员 Natalia Neverova、Iasonas Kokkinos 和法国 INRIA 的 Rıza Alp Guler 开发的一个令人惊叹的人体实时姿势识别系统，它在 2D 图像和人体3D 模型之间建立映射，最终实现密集人群的实时姿态识别。

具体来说，DensePose 利用深度学习将 2D RPG 图像坐标映射到 3D 人体表面，把一个人分割成许多 UV 贴图（UV 坐标），然后处理密集坐标，实现动态人物的精确定位和姿态估计。

DensePose 模型以及数据集已经开源，传送门：

http://densepose.org/

最近，该团队更进一步，发布了基于 DensePose 的一个姿势转换系统：Dense Pose Transfer，仅根据一张输入图像和目标姿势，创造出 “数字化身” 的动画效果。

在这项工作中，研究者希望仅依赖基于表面（surface-based）的对象表示（object representations），类似于在图形引擎中使用的对象表示，来获得对图像合成过程的更强把握。

研究者关注的重点是人体。模型建立在最近的 SMPL 模型和 DensePose 系统的基础上，将这两个系统结合在一起，从而能够用完整的表面模型来说明一个人的图像。

下面的视频展示了更多生成结果：

具体而言，这项技术是通过 surface-based 的神经合成，渲染同一个人的不同姿势，从而执行图像生成。目标姿势（target pose）是通过一个 “pose donor” 的图像表示的，也就是指导图像合成的另一个人。DensePose 系统用于将新的照片与公共表面坐标相关联，并复制预测的外观。

我们在 DeepFashion 和 MVC 数据集进行了实验，结果表明我们可以获得比最新技术更好的定量结果。

除了姿势转换的特定问题外，所提出的神经合成与 surface-based 的表示相结合的方法也有希望解决虚拟现实和增强现实的更广泛问题：由于 surface-based 的表示，合成的过程更加透明，也更容易与物理世界连接。未来，姿势转换任务可能对数据集增强、训练伪造检测器等应用很有用。

Dense Pose Transfer

研究人员以一种高效的、自下而上的方式，将每个人体像素与其在人体参数化的坐标关联起来，开发了围绕 DensePose 估计系统进行姿势转换的方法。

我们以两种互补的方式利用 DensePose 输出，对应于预测模块和变形模块（warping module），如图 1 所示。

图 1：pose transfer pipeline 的概览：给定输入图像和目标姿势，使用 DensePose 来执行生成过程。

变形模块使用 DensePose 表面对应和图像修复（inpainting）来生成人物的新视图，而预测模块是一个通用的黑盒生成模型，以输入和目标的 DensePose 输出作为条件。

这两个模块具有互补的优点：预测模块成功地利用密集条件输出来为熟悉的姿势生成合理的图像；但它不能推广的新的姿势，或转换纹理细节。

相比之下，变形模块可以保留高质量的细节和纹理，允许在一个统一的、规范的坐标系中进行修复，并且可以自由地推广到各种各样的身体动作。但是，它是以身体为中心的，而不是以衣服为中心，因此没有考虑头发、衣服和配饰。

将这两个模块的输出输入到一个混合模块（blending module）可以得到最好的结果。这个混合模块通过在一个端到端可训练的框架中使用重构、对抗和感知损失的组合，来融合和完善它们的预测。

如图 3 所示，在修复过程（inpainting process），可以观察到一个均匀的表面，捕捉了皮肤和贴身衣服的外观，但没有考虑头发、裙子或外衣，因为这些不适合 DensePose的表面模型。

实验和结果

我们在 DeepFashion 数据集上进行实验，该数据集包含 52712 个时装模特图像，13029 件不同姿势的服装。我们选择了 12029 件衣服进行训练，其余 1000 件用于测试。

表1：根据结构相似度 (SSIM)、 Inception Score(IS)[41] 和 detection score(DS)指标，对DeepFashion 数据集的几种 state-of-the-art 方法进行定量比较。

我们首先将我们的框架与最近一些基于关键点的图像生成或多视图合成方法进行比较。

表 1 显示，我们的 pipeline 在结构逼真度（structural fidelity）方面有显著优势。在以IS 作为指标的感知质量方面，我们模型的输出生成具有更高的质量，或可与现有工作相媲美。

定性结果如图 4 所示。

图 4：与最先进的 Deformable GAN (DSC) 方法的定性比较。

密集人体姿态转换应用

在这项工作中，我们介绍了一个利用密集人体姿态估计的 two-stream 姿态转换架构。我们已经证明，密集姿势估计对于数据驱动的人体姿势估计而言是一种明显优越的调节信号，并且通过 inpainting 的方法在自然的体表参数化过程中建立姿势转换。在未来的工作中，我们打算进一步探索这种方法在照片级真实图像合成，以及处理更多类别方面的潜力。

作者：

● Rıza Alp Güler，INRIA, CentraleSupélec
● Natalia Neverova，Facebook AI Research

● Iasonas Kokkinos，Facebook AI Research

原文发布时间为：2018-09-10

本文作者：肖琴

本文来自云栖社区合作伙伴新智元，了解相关信息可以关注“AI_era”。

原文链接：【ECCV 2018】Facebook开发姿态转换模型，只需一张照片就能让它跳舞（视频）

【ECCV 2018】Facebook开发姿态转换模型，只需一张照片就能让它跳舞（视频）相关推荐

只需一台手机，熬夜剪辑视频赚了1531块，没有颜值才艺也可以
只需一台手机!熬夜剪辑视频赚了1531块,没有颜值才艺也可以,也有不少粉丝想要做视频剪辑. 具体要怎么做呢? 一.账号注册电脑端在网页搜索,手机端在应用商店内搜索想要注册运营的自媒体平台名称,下载并 ...
转换文档参数_Word、Excel、PDF多格式转换？只需1招全搞定
在工作学习中,我们常常会遇到一些文档需要进行格式转换,比如Word文档.excel表格与PDF的互转需求.而想要实现这一操作的技巧有很多,但今天君君要分享的这个PDF转换工具基本可以覆盖全平台了,真正 ...
python开发一个区块链只需40多行
40多行python代码开发一个区块链?可信吗?我们将通过Python 2动手开发实现一个迷你区块链来帮你真正理解区块链技术的核心原理.python开发区块链的源代码保存在Github. 尽管有人认为 ...
了解Java中的内存模型只需13张图！
前言了解Java中的对象.变量等存放的内存区域十分重要本文将全面讲解Java虚拟机中的内存模型 & 分区,希望你们会喜欢目录 1. 内存模型 & 分区 Java虚拟机在运行Jav ...
android开发--Canvas清屏只需三句话
这两三天一直在研究这个问题,今天终于成功了.我最终要实现的效果是,类似于照相机照相时,第一次按下按键,会出现矩形框框住人脸,这时我不想照相,再次按下会再次框出人脸,重新画个新的矩形框. 就这么简单. ...
阴阳师角色系统转移开通的服务器,阴阳师角色转移攻略，登录平台怎么转换？只需这样做...
因为更换手机,特别是不同系统的手机,导致了许多小伙伴放弃了肝了许久的游戏,以后就不用担心啦,近期,阴阳师开启了跨系统角色转移服务,虽然只是试运行,但是也已经收到许多小伙伴的追捧.那转移角色需要怎么样的 ...
让梦露和龙妈学着你说话，只需一张静态图和一个视频 | 项目开源
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送达十三发自凹非寺量子位报道 | 公众号 QbitAI 想让名人学着你说话,怎么办 ...
只需4步实现批量删除音视频的片头片尾
1,安装ffmpeg,地址:https://ffmpeg.org/download.html 2,将ffmpeg的安装目录设置到环境变量-系统变量-path中: 3,在要批量处理的文件同级目录下新建文 ...
ECCV 2018|商汤37篇论文入选，为你解读精选论文（附链接+开源资源）
整理 | Jane 出品| AI科技大本营 [导读]9 月 8 日-14 日,每两年举办一次的 2018 欧洲计算机视觉大会(ECCV 2018)在德国慕尼黑召开,本次会议总共收到了 2439 篇有效 ...

【ECCV 2018】Facebook开发姿态转换模型，只需一张照片就能让它跳舞（视频）

【ECCV 2018】Facebook开发姿态转换模型，只需一张照片就能让它跳舞（视频）相关推荐

最新文章

热门文章