浙大三维视觉团队提出 Neural Body，单目RGB视频重建人体三维模型，无需预训练网络...

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

今天，我们介绍一篇2021 CVPR的人体自由视角合成的论文：Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans，该论文由浙江大学CAD&CG国家重点实验室/浙大三维视觉实验室提出。

1.论文链接：arxiv.org/abs/2012.1583

2.论文代码：github.com/zju3dv/neura

3.Project page: zju3dv.github.io/neural

论文的两个demo

1. 从稀疏视角视频中生成的自由视角视频

2. 从单目视频重建出3D human shape

一、引言

1.1 论文的问题描述

论文希望生成动态人体的自由视角视频，这有很多应用，包括电影工业，体育直播和远程视频会议。大家在春晚或一些综艺类节目应该已经见过子弹时间的特效。

1.2 当前方法在这个问题的局限性

现在效果最好的视角合成方法主要是NeRF [3] 这个方向的论文，但他们有两个问题：

需要非常稠密视角来训练视角合成网络。比如NeRF论文中，一般用了100多个视角来训练网络。

NeRF的训练视角

对于静态物体，这是可以做到的，一般是对着静止的物体拍一圈图片。但如果对于动态场景来说，我们无法要求演员静止来让我们给他拍一圈图。为了拍摄稠密多视角视频，之前的方法需要昂贵的相机阵列来进行捕捉。这套设备特别昂贵，而且还很不方便，一般只在电影拍摄时用到。

http://henrybetts.co.uk/an-attempt-at-bullet-time/

NeRF只能处理静态场景。现在大部分视角合成工作是对于每个静态场景训一个网络，对于动态场景，上百帧需要训上百个网络，这成本很高。

1.3 我们的观察和对问题的解决

在稀疏视角下，单帧的信息不足以恢复正确的3D scene representation。论文的key idea是是通过整合时序信息来获得足够多的3D shape observation。大家平时应该能有这种感觉，观看一个动态的物体更能想象他的3维形状。我们论文用的就是这个intuition。

这里整合时序信息的实现用的是latent variable model。具体来说，我们定义了一组隐变量，从同一组隐变量中生成不同帧的场景，这样就把不同帧观察到的信息和一组隐变量关联在了一起。经过训练，我们就能把视频各个帧的信息整合到这组隐变量中，也就整合了时序信息。

二、论文方法

2.1 Prerequisite: Neural radiance fields

论文使用neural radiance field (NeRF) [3] 来表示一个3维场景。对于一个场景的任意一点，NeRF取出3维坐标和视角方向，输入到一个MLP中，输出color和density。这个表示能通过volume rendering从图片中很好的优化场景的3D模型。

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

这里的网络是一个global implicit function。global的意识是NeRF只用一个MLP网络去记录场景中所有3维点的颜色和几何信息。

2.2 Neural radiance fields on local latent codes

我们方法首先将NeRF改成一个local implicit function，也就是让NeRF从一组local latent codes中生成场景。

Neural radiance fields on local latent codes

Local latent codes的生成。比如对于某一帧，论文定义了一组离散的local latent codes。为了摆放这些latent codes，需要对这一帧预测一个人的粗糙的human mesh，比如SMPL模型。这里论文用了浙大三维视觉实验室开源的EasyMocap来检测每一帧的SMPL模型，代码地址为：zju3dv/EasyMocap。

然后我们在SMPL模型的mesh vertex上摆放latent codes，就像图中最左边的样子。

NeRF on local latent codes。Neural Body将local latent codes输入到一个3维卷积神经网络，得到一个latent code volume，这样就能通过插值得到空间中的任意一点的latent code。然后Neural Body把latent code送入NeRF的网络中，就能得到相应的color和density。这里说NeRF是local implicit function的原因是，相比于原来NeRF用一个MLP记录整个场景的信息，这里场景的信息记录在local latent codes。比如脸部和手部的latent codes分别记录脸和手的appearance和shape information。

2.3 Structured latent codes

为了从同一组latent codes中生成不同帧的场景，我们将这些latent codes摆放在一个可驱动人体模型的mesh vertex上，也就得到了structured latent codes。

Structured latent codes

我们通过人体模型驱动structured latent codes的空间位置

2.4 从同一组structured latent codes生成不同帧的场景

对于不同的视频帧，Neural Body将latent codes摆放为对应的人体姿态，然后输入到NeRF中得到对应帧的3维场景。像NeRF一样，论文用volume rendering从图片中优化网络参数。通过在整段视频上训练，Neural Body实现了时序信息的整合。

三、实验分析

3.1 多视角视频上的结果

论文采集一个叫做ZJU-MoCap的多视角数据集，在上面和NeRF [3], Neural Volumes [4], Neural Textures [5], NHR [6] 比较。数值结果上Neural Body远远超过之前的方法。

在可视化结果上，Neural Body在视角合成和三维重建的结果也远远超出了之前的方法。

PIFuHD [7] 是很出名的三维人体重建的工作。他是在大量的ground truth 3d data上训练重建网络。需要注意的是，我们的网络不需要ground truth 3d data，只需要在目标视频上进行训练。对于复杂的人体姿态，PIFuHD的泛化能力有限。我们重建的结果更符合图片中观察到的人体姿态。

3.2 单目视频上的结果

输入一段人在摄像机前转一圈的视频，Neural Body就能恢复出3维人体模型。

3.2 Ablation study

论文在camera view和视频长度上做了ablation study。

输入的camera view数量越多，视角合成的效果就越好。

在视频上训练比在单帧上训练的效果要好，但在很长的视频上训练会导致模型效果下降。

四. 参考文献

[1] 4DREPLAY. 4dreplay.com/

[2] Orts-Escolano, Sergio, et al. Holoportation: Virtual 3d teleportation in real-time. In UIST, 2016.

[3] Mildenhall, Ben, et al. Nerf: Representing scenes as neural radiance fields for view synthesis. In ECCV, 2020.

[4] Lombardi, Stephen, et al. Neural volumes: Learning dynamic renderable volumes from images. In SIGGRAPH, 2019.

[5] Thies, Justus, et al. Deferred Neural Rendering: Image Synthesis using Neural Textures. In SIGGRAPH, 2019.

[6] Wu, Minye, et al. "Multi-View Neural Human Rendering." In CVPR, 2020.

[7] Saito, Shunsuke, et al. PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization. In CVPR, 2020.

[8] Alldieck, Thiemo, et al. Video based reconstruction of 3d people models. In CVPR, 2018.

AI TIME欢迎AI领域学者投稿，期待大家剖析学科历史发展和前沿技术。针对热门话题，我们将邀请专家一起论道。同时，我们也长期招募优质的撰稿人，顶级的平台需要顶级的你，

请将简历等信息发至yun.he@aminer.cn！

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造一个知识分享的聚集地。

我知道你在看哟

点击 阅读原文 了解更多精彩

浙大三维视觉团队提出 Neural Body，单目RGB视频重建人体三维模型，无需预训练网络...相关推荐

浙大三维视觉团队提出Animatable NeRF，从RGB视频中重建可驱动人体模型 (ICCV'21)
关注公众号,发现CV技术之美本文经作者授权转载自知乎: https://zhuanlan.zhihu.com/p/421072327 我们介绍一篇2021 ICCV的人体重建论文:Animatabl ...
浙大三维视觉团队提出ENeRF：首次实现任意动态场景的实时照片级渲染 | SIGGRAPH Asia 2022...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入-> CV 微信技术交流群作者:林浩通 | 已授权转载(源:知乎)编辑:CVer https ...
基于单目RGB的3D人体姿态估计
基于单目RGB的3D人体姿态估计 1. 简介 2. 实现方案 1. 简介 3D Human Pose Estimation 目标:3D人体姿态估计是从图片或视频中估计出关节点的三维坐标 (x, y, ...
MO-LTR：基于单目RGB视频的多目标定位、跟踪与重建
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达标题:MO-LTR: Multiple Object Localization, Tracking a ...
面向单目深度估计的基于几何的预训练方式 -- Geometric Pretraining for Monocular Depth Estimation
一些前提知识 Monocular Depth Estimation:单目深度估计,从单张图片中去预测每个像素点具体的深度,相当于从二维图像推测出三维空间. ImageNet-Pretraining:基 ...
单目RGB相机重建穿衣服的人
引自视频号[三维匠心] 论文:<Learning to Reconstruct People in Clothing from a Single RGB Camera> 该工作是德国布伦瑞 ...
基于vc的freetype字体轮廓解析_MulayCap：基于多层表达的单目彩色相机的人体动作捕捉新方案...
MulayCap: Multi-layer Human Performance Capture Using A Monocular Video Camera 最近几年,深度学习的发展为基于单目RGB相 ...
Facebook何恺明团队提出SlowFast网络，视频识别无需预训练
Facebook FAIR 何恺明团队提出了用于视频识别的SlowFast网络.该网络通过两条路径以不同的时间率(快和慢)进行视频识别.在没有预训练的情况下,在Kinetics数据集上的准确率达到了7 ...
ECCV22 | 从单目RGB图像中进行类别级6D物体姿态估计的物体级深度重构
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达题目:Object Level Depth Reconstructi ...

浙大三维视觉团队提出 Neural Body，单目RGB视频重建人体三维模型，无需预训练网络...

3.1 多视角视频上的结果

浙大三维视觉团队提出 Neural Body，单目RGB视频重建人体三维模型，无需预训练网络...相关推荐

最新文章

热门文章