点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

作者:林浩通 | 已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/586595657

我们介绍一篇SIGGRAPH Asia 2022的论文:Efficient Neural Radiance Fields for Interactive Free-viewpoint Video,该论文由浙江大学CAD&CG国家重点实验室提出。

论文链接:arxiv.org/abs/2112.01517

论文代码:github.com/zju3dv/ENeRF

论文主页:https://zju3dv.github.io/enerf/

  1. 引言

1.1 论文的问题描述

输入是多个相机在固定机位拍摄的某个动态场景的多目视频,论文希望能生成该动态场景的自由视点视频。该问题有许多应用,例如虚拟呈现,电影游戏制作等。

1.2 当前方法在这个问题上的局限性

为了支持自由视点视频的应用,自由视点视频的渲染效果需要足够逼真,生成制作需要足够快,生成后在用户端的渲染也需要足够快。

最近一些方法基于隐式神经表示,利用体渲染技术优化场景表示,从而制作自由视点视频。D-NeRF[Pumarola et al., CVPR 2021] 利用隐式神经表示恢复了动态场景的motions,实现了照片级别的真实渲染。但是,这一类方法很难恢复复杂场景的motions,他们训练一个模型需要从几小时到几天不等的时间。此外,渲染一张图片通常需要分钟级的时间。

D-NeRF [Pumrola et al., CVPR 2021]

基于图像的渲染技术克服了以上方法的一些问题。第一,对于动态场景,IBRNet[Wang et al., CVPR 2021]能够把每一帧图像都当作单独的场景处理,从而不需要恢复场景的motions。第二,基于图像的渲染技术可以通过预训练模型避免每一时刻的重新训练。但是,IBRNet渲染一张图片仍然需要分钟级的时间。

IBRNet[Wang et al., CVPR 2021]

1.3 我们的观察和对问题的解决

为了解决基于图像的渲染技术渲染过慢的问题,论文提出结合显式表示和隐式表示两者的优点。具体而言,我们观察到通过MVS方法预测显式表示,例如深度图像,通常是很快的。利用此显式表示去引导隐式表示的体渲染过程中的采样,能够大幅降低此前方法在空间内密集采样点(包括空地方的点和被遮挡的点)造成的计算开销,从而实现加速。

通过MVS方法快速计算新视角的深度,利用深度仅在物体表面进行采样计算辐射场

2. 论文方法

2.1 基于MVS方法预测新视角的深度图像

我们首先使用MVS方法预测新视角的深度图像。给定标定好的相机姿态,我们利用待渲染的视角空间上临近的图像建立级联代价体,使用3D卷积网络处理代价体获得深度图像以及置信区间。

建立级联代价体预测深度图像以及置信区间

2.2 在场景的表面附近预测辐射场

给定上一步预测的深度置信区间,我们在此区间内采样若干点,通过图像特征和3D卷积网络得到的3D特征体,泛化的预测这些采样点的辐射场和密度。

在深度区间内采样少量点,利用图像特征预测这些点的辐射场,使用体渲染技术得到渲染图像

2.3 使用RGB图像优化ENeRF

在得到渲染结果后,我们使用图像的均方差损失函数端到端的优化网络参数。我们实验发现仅使用RGB图像优化网络参数即可获得高质量的渲染结果。

使用RGB图像优化ENeRF

3. 实验分析


3.1 消融实验分析

我们提供了消融实验分析去研究论文方法的每一步带来的影响。

第一行展示了基线方法(与MVSNeRF[Chen et al., ICCV 2021]相似),每条光线采样128个点,这样有着好的渲染结果,但是渲染速度比较慢。直接降低采样点的数量后,会导致渲染质量显著下降。使用论文提出的采样方法(Depth-gui.)后,能提升渲染质量,同时基本保持比较快的渲染速度。

为了进一步提高渲染速度,论文使用了级联的设计(Cascade Cost Volume),通过我们仔细的设计,我们将速度从9.7FPS提升到20.31FPS。

此外我们研究了额外使用地面真值深度图像来监督网络学习,我们发现它对最后的渲染质量不会有很大的影响,这说明了论文方法使用RGB图像端到端优化的鲁棒性。

ENeRF的消融实验

3.2 与SOTA方法的对比

我们在DTU,NeRF Synthetic以及Real Forward-facing静态场景数据集以及ZJUMoCap和DynamicCap动态场景数据集上进行了和之前方法的比较,我们在渲染速度上实现了较大的提升,并且在渲染质量上取得了有竞争力的结果。

ENeRF与SOTA方法在静态场景上的可视化结果的对比

ENeRF与SOTA方法在静态场景上的量化结果对比

ENeRF与SOTA方法在动态场景上的可视化结果对比

ENeRF与SOTA方法在动态场景上的量化结果对比

点击进入—> CV 微信技术交流群

CVPR/ECCV 2022论文和代码下载

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

NeRF 交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-NeRF 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如NeRF+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

浙大三维视觉团队提出ENeRF:首次实现任意动态场景的实时照片级渲染 | SIGGRAPH Asia 2022...相关推荐

  1. 浙大三维视觉团队提出 Neural Body,单目RGB视频重建人体三维模型,无需预训练网络...

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 今天,我们介绍一篇2021 CVPR的人体自由视角合成的论文:Neural Body: Implicit Neural Represen ...

  2. 浙大三维视觉团队提出Animatable NeRF,从RGB视频中重建可驱动人体模型 (ICCV'21)

    关注公众号,发现CV技术之美 本文经作者授权转载自知乎: https://zhuanlan.zhihu.com/p/421072327 我们介绍一篇2021 ICCV的人体重建论文:Animatabl ...

  3. CVPR 2021 前景背景分开建模,UCLA 视觉研究组提出用于视频预测的动态语义模型...

    关注公众号,发现CV技术之美 本文分享 CVPR 2021 论文『Learning Semantic-Aware Dynamics for Video Prediction』,前景背景分开建模,UCL ...

  4. 浙大蔡登团队提出CARL:基于序列对比学习的长视频逐帧动作表征

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 浙大蔡登团队携手微软亚洲研究院,提出了一个新的对比动作表征学习(CARL)框架,以自监督的方式学习逐帧动作表 ...

  5. CVPR 2023 | 白翔团队提出:将CLIP模型用于场景文本检测

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[计算机视觉]微信技术交流群 转载自:CSIG文档图像分析与识别专委会  本文简要介绍CV ...

  6. 相机成像原理_【科研进展】动态虚拟相机:探索三维视觉成像新方法

    由于微信公众号试行乱序推送,您可能没办法准时收到"爱光学"的文章.为了让您第一时间看到"爱光学"的新鲜推送, 请您: 1. 将"爱光学"点亮 ...

  7. 机器人三维视觉技术及其在智能制造中的应用

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 摘要:三维视觉技术是智能机器人的一个热点研究方向,它是智能机器人进 ...

  8. 清华鲁继文团队提出DynamicViT:一种高效的动态稀疏化Token的ViT

    [导读] 由于随着ViT中的token数量的增长,会导致计算成本呈平方级急剧增加!近期,清华黄高团队提出了自适应序列长度的DVT方案,本篇文章,我们将介绍另一种方法.6月3日,清华鲁继文教授团队提出了 ...

  9. 【硕士论文】《动态场景下的语义三维地图构建 》西南科技大学 余东应

    概述 主要研究机器人在未知动态场景中实现鲁棒的定位及语义地图构建 针对动态场景定位.鲁棒性差.针对三维地图实用价值不高的问题. 动态场景下定位 对特征点匹配算法做出改进,提出自适应窗隔匹配模型,可剔除 ...

最新文章

  1. JUnit4测试框架设计与实现
  2. leetcode算法题--Flatten Nested List Iterator
  3. ​Python中面向对象的编程
  4. c#输入三个数选出最大的_C#写一个输入三个整数,按大到小顺序输出的小程序...
  5. linux命令 查看某安装包是否已安装
  6. Spring Cloud 入门 之 Eureka 篇(一)
  7. Oracle 和Mysql Group by的细节与坑
  8. 二月技术通讯.pdf丨核心数据库一波三折异常重启分析
  9. 手工给alv添加合计
  10. SuSE配置zypper(功能相当于RHEL中的yum)
  11. 解决ssh登录慢,等待时间长的问题
  12. 银河麒麟-麒麟软件操作系统 kylin 搭建yum源 ubuntu搭建yum源 yum软件仓库搭建ftp源、python源、硬盘源
  13. matlab系统解列模块,基于MATLAB的电力系统仿真终稿.doc
  14. 需要TrustedInstaller权限才可以删除解决办法
  15. 三极管做开关管的总结(理解三极管)
  16. 算法学习01- 生兔子的问题
  17. RGB图转为灰度图的方法
  18. 贝壳找房2018算法笔试
  19. 【CUDA 基础】3.1 CUDA执行模型概述
  20. 国美股价大跌围殴顾客? 此前四曝殴打消费者

热门文章

  1. 关于Linux 「Ubuntu」运行wine
  2. 初次使用虹软人脸识别SDK C++版本
  3. 双馈风力发电系统,双pwm变换器控制系统,采用直接转矩输入代替风力发电机
  4. 配置eclipse为ARM嵌入式开发板编程
  5. android 用canvas 绘制简单圆形时钟
  6. C++11 function和bind用法
  7. iOS音频采集过程中的音效实现
  8. 高可用网站架构设计与实现
  9. 大咖面对面 | Suji:从福岛到Mask Network
  10. labelme标注的json文件转化成ICDAR2015格式