关注公众号,发现CV技术之美

本文经作者授权转载自知乎:

https://zhuanlan.zhihu.com/p/421072327

我们介绍一篇2021 ICCV的人体重建论文:Animatable Neural Radiance Fields for Modeling Dynamic Human Bodies,该论文由浙江大学CAD&CG国家重点实验室/浙大-商汤三维视觉联合实验室提出。

论文:https://arxiv.org/abs/2105.02872
代码:https://github.com/zju3dv/animatable_nerf
Project page:https://zju3dv.github.io/animatable_nerf/

01

引言

1.1 论文的问题描述

输入一段稀疏多视角的视频,论文希望生成一个可驱动的人体模型,也就是输入新的人体姿态,可以生成相应姿态下的人体图片,而且可以生成自由视点下的图片。该问题有很多应用,比如自由视角观赛、虚拟视频会议、影视制作。下面是论文的一个结果。

1.2 当前方法在这个问题的局限性

最近CVPR 2021有一些工作尝试解决这个问题。Neural Body [3]提出结构化隐变量,将neural radiance fields和参数化人体模型相结合,使得他可以表示动态人体。虽然Neural Body在训练过的人体姿态上效果很好,他在未见过的人体姿态上生成的图片很扭曲,效果不好。

CVPR 2021的另一个工作D-NeRF [4]尝试用另一种方式来表示动态人体。他把视频表示为一个标准人体模型和一组变形场。这里的标准人体模型用neural radiance field表示。变形场把各个视频帧的空间坐标和标准坐标系建立dense correspondences。

D-NeRF的表示虽然更有解释性,但他有两个limitations。一个是D-NeRF用translational vector表示deformation,有很高的自由度,导致从RGB视频优化网络很容易收敛到局部最优点。一个是D-NeRF用网络预测translational vector,导致他无法泛化到新的人体姿态上。

1.3 我们的观察和对问题的解决

为了解决之前方法的问题,我们提出用线性蒙皮模型来表示变形场。对于一个视频帧,我们用EasyMocap检测它的3维人体骨架。我们用网络预测视频帧空间中三维点的蒙皮权重,然后和人体骨架计算蒙皮公式,将三维点转到标准空间。

线性蒙皮模型相对于D-NeRF使用的translational vector field有两个优势:

1. 人体骨架可以从图片中检测,我们只需要优化蒙皮权重场。这使得我们在不需要复杂的regularization technique也能从图片中优化得到变形场。

2. 当人体模型训练完成后,可以用新的人体骨架进行驱动。

02

论文方法

2.1 Overview of the proposed pipeline

论文将视频表示为一个标准人体模型和一组变形场,其中变形场用线性蒙皮模型表示。具体步骤为:

1. 给定一个视频帧空间的三维点,论文在视频帧坐标系定义了一个neural blend weight field,使用全连接网络将三维点映射为蒙皮权重。

2. 输入当前视频帧下的人体骨架,生成变换矩阵,使用线性蒙皮模型将三维点转回标准坐标系。

3. 论文在标准坐标系上定义了一个neural radiance field。对于变换后的点,我们用neural radiance field预测三维点的volume density和color。

2.2 Neural blend weight field

我们发现如果让网络直接输出蒙皮权重,会容易收敛到局部最小值。为了解决这个问题,我们首先对任意三维点赋予一个初始化的SMPL蒙皮权重,然后用网络预测一个残差值,两者得到最终的蒙皮权重。

2.3 Training and animation

在训练时,论文通过最小化渲染图片和观察图片的误差来进行网络参数的学习。除此之外,我们在标准人体坐标系中学习了一个neural blend weight field。论文通过约束让视频帧坐标系和标准坐标系的对应点的blend weight相同来学习标准坐标系下的neural blend weight field。

在驱动人体模型时,我们需要优化视频帧坐标系下的neural blend weight field。这个也是通过约束视频帧坐标系和标准坐标系的对应点的blend weight相同来进行训练。需要注意的是,标准坐标系的neural blend weight field在驱动人体模型时参数是固定的。

03

实验分析

3.1 Ablation study

我们比较了使用neural blend weight和SMPL blend weight的效果,发现neural blend blend weight大大提高了渲染效果。

我们可视化了网络学习的blend weight的残差值,可以看到网络主要改进了拥有SMPL不能精细描述的区域,比如脖子、手部、胸部和裤子。

3.2 与其他方法的比较

论文在Human3.6M和ZJU-MoCap数据集上进行了和Neural Textures [1], Neural Human Rendering [2], Neural Body [3]的比较。数值结果上Animatable NeRF远远超过之前的方法。

参考文献

[1] Thies, Justus, et al. Deferred neural rendering: Image synthesis using neural textures. In ACM TOG, 2019.

[2] Wu, Minye, et al. Multi-View Neural Human Rendering. In CVPR, 2020.

[3] Peng, Sida, et al. Neural body: Implicit neural representations with structured latent codes for novel view synthesis of dynamic humans. In CVPR, 2021.

[4] Pumarola, Albert, et al. D-nerf: Neural radiance fields for dynamic scenes. In CVPR, 2021.

END

欢迎加入「三维视觉交流群

浙大三维视觉团队提出Animatable NeRF,从RGB视频中重建可驱动人体模型 (ICCV'21)相关推荐

  1. 浙大三维视觉团队提出 Neural Body,单目RGB视频重建人体三维模型,无需预训练网络...

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 今天,我们介绍一篇2021 CVPR的人体自由视角合成的论文:Neural Body: Implicit Neural Represen ...

  2. 浙大三维视觉团队提出ENeRF:首次实现任意动态场景的实时照片级渲染 | SIGGRAPH Asia 2022...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 作者:林浩通 | 已授权转载(源:知乎)编辑:CVer https ...

  3. 浙大蔡登团队提出CARL:基于序列对比学习的长视频逐帧动作表征

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 浙大蔡登团队携手微软亚洲研究院,提出了一个新的对比动作表征学习(CARL)框架,以自监督的方式学习逐帧动作表 ...

  4. Adam又要“退休”了?耶鲁大学团队提出AdaBelief,却引来网友质疑

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 要挑战Adam地位的优化器又多了一个. ...

  5. UTA研究团队提出首个3D点云+GAN新方法,让机器人“眼神”更犀利 | AI日报

    韩国NAVER AI LAB重新标注128万张ImageNet图片:多标签,全面提升模型性能 ImageNet是机器学习社区最流行的图像分类基准数据集,包含超过1400张标注图像.该数据集由斯坦福教授 ...

  6. DeepFake噩梦来了!武大阿里团队提出FakeTagger,重新识别率达95%

    [导读]DeepFake千千万,究竟怎么办?GAN的滥用已经让现在的世界不再「眼见为实」.于是,研究人员提出了FakeTagger系统,将视觉上无法辨别的ID信息嵌入到图像中,准确率高达95%. 拍照 ...

  7. 旷视SLAM组负责人刘骁:三维视觉与机器人

    点击我爱计算机视觉标星,更快获取CVML新技术 大家好,我是旷视研究院SLAM组负责人刘骁,很高兴能和大家分享机器人领域一些有关三维视觉技术的思考. 这次分享的主题集中在SLAM与三维重建两方面,大纲 ...

  8. 港中深、华为联合培养,韩晓光课题组招收三维视觉数字人方向博士生

    来源:机器之心 学校简介 香港中文大学(深圳)以创建一所立足中国.面向世界的一流研究型大学为己任,办学特色是国际化的氛围.中英并重的教学环境.书院制传统.通识教育.新型交叉学科设置和以学生为本的育人理 ...

  9. 逆转ISP,港科大陈启峰团队提出了可逆ISP

    编辑:Happy 首发:AIWalker Paper:https://arxiv.org/abs/2103.15061 code:https://github.com/yzxing87/Inverti ...

最新文章

  1. 03 基本数据类型、运算符 输入输出
  2. 从 volatile 说到 i++ 的线程安全问题
  3. Python3--自动化办公
  4. centos 安装java_在CentOS8上编译安装开源EDA工具——Surelog
  5. OJ 169 Majority Element
  6. 关于c#静态构造函数
  7. 成为oa的飞鸽传书重要标准应用与开发平台
  8. 8.霍夫变换:线条——基本的霍夫变换算法、霍夫变换的复杂性、霍夫例子_3
  9. Rabbitmq 安全账号管理方案
  10. html页面表格字体,如何在移动设备html页面的表格单元格中设置相同的字体大小...
  11. Unable to instantiate Action错误的解决
  12. 基于Insightface的人脸识别
  13. 第4代计算机的应用,在第四代计算机期间内计算机的应用逐步进入到().docx
  14. 用Python爬取wallhaven高清原图
  15. python怎么学比较有技巧_怎么学python学的快?学习技巧大分享
  16. java毕业生设计医保局综合办公系统计算机源码+系统+mysql+调试部署+lw
  17. 网盘直链工具 winform版 V1.0
  18. [源码和文档分享]基于java语言的C/S模式网络聊天室软件
  19. 关于AD19设计与印刷板制作过程的入门见解
  20. 根据医院编号,查询医院所有科室列表

热门文章

  1. TCP流式套接字的异步事件WSAAsyncSelect编程
  2. Spring框架 AOP
  3. Matlab【基础】【02】 将APP打包生成可执行EXE文件
  4. Python GUI界面编程初步 02 - Tkinter基础
  5. python 股票数据_从互联网获取股票数据(历史数据,Python + MySQL)
  6. Linux awk的 if语句,AWK if(条件)语句与循环简介
  7. 乱码 设置界面_三星手机突发系统崩溃,现黑屏、乱码!回应了
  8. java jexl 工具类_jexl表达式解析、计算工具类.md
  9. java httpclient4_httpclient4使用说明
  10. 副本验证失败,指定域文件复制服务(FRS)复制SYSVOL共享。FRS弃用。