点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

今天,我们介绍一篇2021 CVPR的人体自由视角合成的论文:Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans,该论文由浙江大学CAD&CG国家重点实验室/浙大三维视觉实验室提出。

1.论文链接:arxiv.org/abs/2012.1583

2.论文代码:github.com/zju3dv/neura

3.Project page: zju3dv.github.io/neural

论文的两个demo

1. 从稀疏视角视频中生成的自由视角视频

2. 从单目视频重建出3D human shape

一、引言

1.1 论文的问题描述

论文希望生成动态人体的自由视角视频,这有很多应用,包括电影工业,体育直播和远程视频会议。大家在春晚或一些综艺类节目应该已经见过子弹时间的特效。

1.2 当前方法在这个问题的局限性

现在效果最好的视角合成方法主要是NeRF [3] 这个方向的论文,但他们有两个问题:

  • 需要非常稠密视角来训练视角合成网络。比如NeRF论文中,一般用了100多个视角来训练网络。

NeRF的训练视角

对于静态物体,这是可以做到的,一般是对着静止的物体拍一圈图片。但如果对于动态场景来说,我们无法要求演员静止来让我们给他拍一圈图。为了拍摄稠密多视角视频,之前的方法需要昂贵的相机阵列来进行捕捉。这套设备特别昂贵,而且还很不方便,一般只在电影拍摄时用到。

http://henrybetts.co.uk/an-attempt-at-bullet-time/

  • NeRF只能处理静态场景。现在大部分视角合成工作是对于每个静态场景训一个网络,对于动态场景,上百帧需要训上百个网络,这成本很高。

1.3 我们的观察和对问题的解决

在稀疏视角下,单帧的信息不足以恢复正确的3D scene representation。论文的key idea是是通过整合时序信息来获得足够多的3D shape observation。大家平时应该能有这种感觉,观看一个动态的物体更能想象他的3维形状。我们论文用的就是这个intuition。

这里整合时序信息的实现用的是latent variable model。具体来说,我们定义了一组隐变量,从同一组隐变量中生成不同帧的场景,这样就把不同帧观察到的信息和一组隐变量关联在了一起。经过训练,我们就能把视频各个帧的信息整合到这组隐变量中,也就整合了时序信息。

二、 论文方法

2.1 Prerequisite: Neural radiance fields

论文使用neural radiance field (NeRF) [3] 来表示一个3维场景。对于一个场景的任意一点,NeRF取出3维坐标和视角方向,输入到一个MLP中,输出color和density。这个表示能通过volume rendering从图片中很好的优化场景的3D模型。

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

这里的网络是一个global implicit function。global的意识是NeRF只用一个MLP网络去记录场景中所有3维点的颜色和几何信息。

2.2 Neural radiance fields on local latent codes

我们方法首先将NeRF改成一个local implicit function,也就是让NeRF从一组local latent codes中生成场景。

Neural radiance fields on local latent codes

  • Local latent codes的生成。比如对于某一帧,论文定义了一组离散的local latent codes。为了摆放这些latent codes,需要对这一帧预测一个人的粗糙的human mesh,比如SMPL模型。这里论文用了浙大三维视觉实验室开源的EasyMocap来检测每一帧的SMPL模型,代码地址为:zju3dv/EasyMocap。

然后我们在SMPL模型的mesh vertex上摆放latent codes,就像图中最左边的样子。

  • NeRF on local latent codes。Neural Body将local latent codes输入到一个3维卷积神经网络,得到一个latent code volume,这样就能通过插值得到空间中的任意一点的latent code。然后Neural Body把latent code送入NeRF的网络中,就能得到相应的color和density。这里说NeRF是local implicit function的原因是,相比于原来NeRF用一个MLP记录整个场景的信息,这里场景的信息记录在local latent codes。比如脸部和手部的latent codes分别记录脸和手的appearance和shape information。

2.3 Structured latent codes

为了从同一组latent codes中生成不同帧的场景,我们将这些latent codes摆放在一个可驱动人体模型的mesh vertex上,也就得到了structured latent codes。

Structured latent codes

我们通过人体模型驱动structured latent codes的空间位置

2.4 从同一组structured latent codes生成不同帧的场景

对于不同的视频帧,Neural Body将latent codes摆放为对应的人体姿态,然后输入到NeRF中得到对应帧的3维场景。像NeRF一样,论文用volume rendering从图片中优化网络参数。通过在整段视频上训练,Neural Body实现了时序信息的整合。

三、 实验分析

3.1 多视角视频上的结果

论文采集一个叫做ZJU-MoCap的多视角数据集,在上面和NeRF [3], Neural Volumes [4], Neural Textures [5], NHR [6] 比较。数值结果上Neural Body远远超过之前的方法。

在可视化结果上,Neural Body在视角合成和三维重建的结果也远远超出了之前的方法。

PIFuHD [7] 是很出名的三维人体重建的工作。他是在大量的ground truth 3d data上训练重建网络。需要注意的是,我们的网络不需要ground truth 3d data,只需要在目标视频上进行训练。对于复杂的人体姿态,PIFuHD的泛化能力有限。我们重建的结果更符合图片中观察到的人体姿态。

3.2 单目视频上的结果

输入一段人在摄像机前转一圈的视频,Neural Body就能恢复出3维人体模型。

3.2 Ablation study

论文在camera view和视频长度上做了ablation study。

  • 输入的camera view数量越多,视角合成的效果就越好。

  • 在视频上训练比在单帧上训练的效果要好,但在很长的视频上训练会导致模型效果下降。

四. 参考文献

[1] 4DREPLAY. 4dreplay.com/

[2] Orts-Escolano, Sergio, et al. Holoportation: Virtual 3d teleportation in real-time. In UIST, 2016.

[3] Mildenhall, Ben, et al. Nerf: Representing scenes as neural radiance fields for view synthesis. In ECCV, 2020.

[4] Lombardi, Stephen, et al. Neural volumes: Learning dynamic renderable volumes from images. In SIGGRAPH, 2019.

[5] Thies, Justus, et al. Deferred Neural Rendering: Image Synthesis using Neural Textures. In SIGGRAPH, 2019.

[6] Wu, Minye, et al. "Multi-View Neural Human Rendering." In CVPR, 2020.

[7] Saito, Shunsuke, et al. PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization. In CVPR, 2020.

[8] Alldieck, Thiemo, et al. Video based reconstruction of 3d people models. In CVPR, 2018.

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,

请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

我知道你在看

点击 阅读原文 了解更多精彩

浙大三维视觉团队提出 Neural Body,单目RGB视频重建人体三维模型,无需预训练网络...相关推荐

  1. 浙大三维视觉团队提出Animatable NeRF,从RGB视频中重建可驱动人体模型 (ICCV'21)

    关注公众号,发现CV技术之美 本文经作者授权转载自知乎: https://zhuanlan.zhihu.com/p/421072327 我们介绍一篇2021 ICCV的人体重建论文:Animatabl ...

  2. 浙大三维视觉团队提出ENeRF:首次实现任意动态场景的实时照片级渲染 | SIGGRAPH Asia 2022...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 作者:林浩通 | 已授权转载(源:知乎)编辑:CVer https ...

  3. 基于单目RGB的3D人体姿态估计

    基于单目RGB的3D人体姿态估计 1. 简介 2. 实现方案 1. 简介 3D Human Pose Estimation 目标:3D人体姿态估计是从图片或视频中估计出关节点的三维坐标 (x, y, ...

  4. MO-LTR:基于单目RGB视频的多目标定位、跟踪与重建

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 标题:MO-LTR: Multiple Object Localization, Tracking a ...

  5. 面向单目深度估计的基于几何的预训练方式 -- Geometric Pretraining for Monocular Depth Estimation

    一些前提知识 Monocular Depth Estimation:单目深度估计,从单张图片中去预测每个像素点具体的深度,相当于从二维图像推测出三维空间. ImageNet-Pretraining:基 ...

  6. 单目RGB相机重建穿衣服的人

    引自视频号[三维匠心] 论文:<Learning to Reconstruct People in Clothing from a Single RGB Camera> 该工作是德国布伦瑞 ...

  7. 基于vc的freetype字体轮廓解析_MulayCap:基于多层表达的单目彩色相机的人体动作捕捉新方案...

    MulayCap: Multi-layer Human Performance Capture Using A Monocular Video Camera 最近几年,深度学习的发展为基于单目RGB相 ...

  8. Facebook何恺明团队提出SlowFast网络,视频识别无需预训练

    Facebook FAIR 何恺明团队提出了用于视频识别的SlowFast网络.该网络通过两条路径以不同的时间率(快和慢)进行视频识别.在没有预训练的情况下,在Kinetics数据集上的准确率达到了7 ...

  9. ECCV22 | 从单目RGB图像中进行类别级6D物体姿态估计的物体级深度重构

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 题目:Object Level Depth Reconstructi ...

最新文章

  1. 第一课.python入门与环境介绍
  2. linux 安装 hadoop
  3. 8分钟学会Consul集群搭建及微服务概念
  4. 核心系统100%上云!全球最大流量洪峰,阿里云扛住了
  5. 9.特殊权限 软连接 硬链接
  6. 怎么判断一个机器可以跑多少用户和并发_美逛微信云发单机器人申请方法及其问题解答汇总...
  7. iOS从零开始学习直播之音频4.歌词
  8. 一个好用的用于前端的字体图标库
  9. 字符常量和字符串常量
  10. 计算机遥感毕设选题,遥感硕士毕业论文题目
  11. 年轻人,不要太浮躁,静下心来听听【钢琴曲】
  12. 腾讯单点登录系统跨域劫持漏洞
  13. nfc卡模式与标准模式_NFC的工作模式有哪些主动模式和被动模式的详细讲解
  14. 聊聊 Docker 的存储驱动 Overlay2
  15. GNU GRUB手册之安装(一)
  16. 手机上该怎么合并PDF?这个方法可不要错过
  17. leap motion java小程序_Motionleap动图制作神器app
  18. 关于MUI框架中的警告框
  19. 织梦安装会错版、乱码、二级目录安装问题
  20. 《这就是软件工程师》读书笔记

热门文章

  1. AOP的自动代理(基于AspectJ框架)
  2. python 简单爬虫 --- 人民日报
  3. matlab 雷达信号分选 聚类_毫米波雷达信号产生和分析方案
  4. 向日葵远程控制端 for Mac
  5. NC65增加自定义档案后移植问题
  6. 另类!这项目没有一行代码,30k star 和 近40w的内容收录,登顶GitHub热榜
  7. studio中read timed out
  8. 大学python程序题题库海师_中国大学MOOC的APP2021年Python编程基础题目及答案
  9. PWM的使用–舵机模块和电机驱动模块
  10. 【人工智能】人工智能与人类智能的关系