蓝色
紫色
红色

Deblur-NeRF: Neural Radiance Fields from Blurry Images

Author From:

Abstract


  神经辐射场(NeRF)由于其显著的合成质量,在三维场景重建和新视图合成方面获备受关注。然而,在野外捕捉场景时经常发生由 散焦或运动 引起的图像模糊,大大降低了其重建质量。为了解决这个问题,本文提出了Deblur-NeRF,这是第一个可以从模糊的输入中恢复清晰的NeRF的方法。本文可对模糊成像的过程进行建模,通过对 模型合成的模糊结果进行分析 从而进行去模糊。这种模拟的核心是一个新颖的 可变形稀疏核(Deformable Sparse Kernel, DSK) 模块,它通过在每个空间位置变形一个典型的稀疏核来模拟空间变化的模糊内核。每个 核点的光线起始点 被联合优化,其灵感来自物理模糊过程。这个模块被参数化为一个MLP,它有能力被推广到各种模糊类型。联合优化NeRF和DSK模块 使我们能够恢复一个清晰的NeRF。本文方法可以用于 相机运动模糊和散焦模糊:这是真实场景中最常见的两种模糊类型。对合成和真实世界数据的评估结果表明,本文方法优于部分baseline。合成数据、真实数据及源码均已经开源。


关于图像模糊的参考学习链接:图像运动模糊及其去除,运动模糊-维基百科,散焦模糊的实现,图像模糊原理


焦距:是指镜头距底片的距离。如果焦距合适,景物反射的光通过镜头能够 聚集在成像平面上,成为一个点, 如果焦距不合适,则成为一个圆,从而导致照片 失焦模糊

维基百科:照相机

0. 作者讲解

【深蓝学院-非理想输入下的NeRF重建-马力】

0.1 模糊成因











1. Introduction

  在过去的几年里,在新的视图合成方面取得了巨大的进展,从稀疏的输入视图中重建一个 中间的三维表示 ,以插值或推断出任意的新视图。最近,NeRF作为一种有效的 场景表示 出现,实现了逼真的渲染效果。它将静态场景建模为一个连续的体积函数,将 三维位置 (x,y,z) 和二维视图方向 (θ,Φ) 映射为颜色 (rgb) 和密度 (σ)。这个函数被参数化为一个多层感知器(MLP),它的输出可以通过体积渲染技术以可区分的方式进行渲染。
  为了重建一个NeRF,需要从不同的角度拍摄几张图像。虽然当这些图像被很好地捕捉和校准时,训练NeRF的原始方法效果很好,但当出现模糊时,它将产生明显的伪影。例如,当使用 长曝光设置 来捕捉低光照场景时,图像对相机抖动更加敏感,导致相机 运动模糊 (motion blur) 。此外,当使用 大光圈(大尺寸的镜头) 拍摄深度变化较大的场景时,难免会出现散焦模糊 (defocus blur) 。这些模糊将大大降低降低重建的NeRF的质量,导致在渲染的新视图中出现伪影。

  最近有许多工作被提出来解决训练NeRF时的非理想输入:

  • NeRF-W 专注于有光照变化和移动物体的图像
  • Mip-NeRF 改善了输入跨越不同尺度时的NeRF
  • SCNeRF 输入的失真被考虑并同时进行校准

  据我们所知,还没有人考虑解决从模糊的输入图像中训练NeRF的问题。

  • The image-space baseline: 首先在图像空间对输入进行去模糊处理,然后用去模糊的图像训练NeRF。
    优点: 这种baseline通过利用单幅图像或视频去模糊的方法,在一定程度上提高了NeRF的新视图合成质量。
    缺点: 单幅图像的去模糊方法不能结合相邻视图的信息,不能保证多视图一致结果(multi-view consistent)。
  • Video-based methods: 设法将多帧考虑在内,通常依赖于图像空间操作,如光流和特征关系体(feature correlation volumes)。
    缺点: 这些方法未能利用场景的三维几何,导致跨视图的不准确对应关系,特别是当他们有一个大基线时。

  相反,本文方法通过结合所有充分感知三维场景的观测点信息实现去模糊。

  本文提出了Deblur-NeRF,这是一个有效的框架,在网络中显式模拟了模糊过程,并能够从模糊的输入中恢复清晰的NeRF。本文通过使用类似于盲反卷积方法的模糊核对 清晰的图像进行卷积 来模拟模糊的过程。本文根据以下观察提出了一个新的可变形稀疏核(DSK)模块来模拟模糊核:

  • 用密集核进行卷积对于NeRF这样的场景表示是不可行的(因为渲染过程中计算量和内存使用量会急剧增加)。为了解决这个问题,DSK使用稀疏射线来近似密集核。
  • 实际的模糊过程涉及到结合来自不同起点的光线,这也激励了本文联合优化光线发出点。
  • 为了模拟变化空间的模糊核,本文在每个2D空间位置对一个典型的稀疏核 (canonical sparse kernel) 进行变形。这个变形被参数化为一个多层感知器,可以泛化到不同的模糊类型。

  在训练过程中,只使用模糊的输入作为监督,联合优化DSK和清晰的NeRF,而在推理阶段,通过 去除DSK 可以呈现清晰的新视图。本文在有两种模糊类型(运动模糊和散焦模糊)的合成和真实数据集上进行了广泛的实验。结果表明所提出的方法优于原始的NeRF和image-space baseline(即结合NeRF和最先进的图像或视频去模糊方法)。

Contribution

  1. 提出了第一个能够从模糊的输入中重建清晰NeRF的框架。
  2. 提出了一个可变形的稀疏内核模块,使我们能够有效地对模糊过程进行建模,并可用于不同类型的模糊。
  3. 分析了物理模糊过程,并通过考虑每个核点的光线起点的平移 (translation) 将二维核扩展到三维空间。

2. Related Work

2.1 Neural radiance field

  NeRF的成功激发了许多扩展NeRF的后续工作。有几项工作已经探索了用非理想输入来训练NeRF。例如,BRAF、NeRF–和GNeRF试图在没有相机位姿的情况下训练NeRF。SCNeRF专注于联合校准一个更复杂的非线性相机模型。为了解决不受控制的野外照片的NeRF训练问题,NeRF-W引入了NeRF的几个扩展,成功地建模了不一致的外观变化和跨视图的瞬时物体。PixelNeRF只用一张或几张图片就能重建一个neural volume。此外,Jonathan等人提出了Mip-NeRF,它改进了不同尺度输入下的NeRF,产生了抗混叠的结果。然而,用模糊的图像训练NeRF仍然是一个未开发的领域,因为上述的工作似乎都没有明确考虑到这种退化。

2.2 Single image deblurring

图像去模糊化旨在从模糊的输入中恢复出清晰的图像。

  1. 通常,模糊图像被建模为 使用模糊核卷积清晰图像 ,去模糊过程被表述为 联合求解清晰图像和给定模糊观察的kernel。这项任务是ill-posed的,因为有许多 图像-模糊对(image-blur pairs) 集合可以生成所观察的模糊图像。经典的盲去模糊算法 通过引入人工给定或学习到的图像先验,同时优化清晰的图像和核来解决这个不确定(ill-posed)问题,例如total variation[4, 35], normalized gradient sparsity[13] and unnatural l0[49]。由于现实世界照片中的模糊通常是空间变化的,许多工作试图将模糊核重新参数化,使之成为一个较小的解空间。早期的工作使用投影运动模糊 (projective motion blur),它使用多个Homography拟合空间变化的模糊核,而基于区域的方法则假定piece-wise constant [16] or piece-wise projective [28]。此外,基于深度的模型被用来联合优化深度图和摄像机位置[29, 33]。
  2. 另一种对模糊核建模的方法是使用光流 [9]。这些方法要么对模糊模式做了强有力的假设,要么只能对一种特定类型的模糊进行建模。相比之下,本文方法使用MLP对spatially-varying kernel进行建模,它可以通用于不同的模糊类型。最近图像去模糊的趋势是引入深度神经网络,直接将模糊的图像映射到潜在的清晰图像[3, 14, 15, 23, 26, 39, 44, 48, 52, 53]。这些方法的表现优于传统方法。然而,这类工作高度依赖于训练数据,而且这些方法往往难以推广到现实世界中未见的模糊类型[45]。

2.3 Multi-image deblurring

多图像设置的去模糊化对 结合跨帧信息和保存时间一致性 提出了新的挑战。

  1. 光流是一个有用的工具,用于将相邻帧对齐到参考帧上[9, 27]。然而,估计准确的光流是很困难的并且ill-posed,特别是当输入模糊时。随着深度学习的发展,人们可以通过串联多个帧并直接使用CNN恢复清晰的帧来设计无流方法[41]。
  2. 另一个选择是使用递归结构,在各帧之间传播特征[10, 24, 40, 56]。Li等人[17]将光流扩展到特征相关体 (feature correlation volume) ,这极大地提高了性能。同样地,Son等人[40]提出像素体 (pixel volume),放松了对精确流的要求。然而,这些建立在图像空间操作上的多图像去模糊方法,未能利用场景的三维几何,并且难以解决具有大基线的多视图输入。

3. Preliminary

关于初版NeRF的输入输出表达、高频编码和渲染最终颜色的公式等。

可参考:NeRF 神经辐射场

4. Method

  使用模糊输入来训练NeRF的 核心思想显式地对模糊过程进行建模,并对清晰的NeRF和模糊参数进行联合优化,从而使合成的模糊图像与输入相匹配

  具体来说,为了在训练期间渲染一个模糊的像素,本文首先使用新提出的可变形稀疏内核(DSK)模块生成多个优化的光线,来模拟模糊过程。本文使用NeRF渲染这些光线,并将结果进行混合,得到最终的模糊颜色,然后由 模糊的输入 进行监督。注意:在推理阶段,直接渲染NeRF而不使用DSK,以获得清晰的新视图。

4.1 Deformable Sparse Kernel


对输入p(p→γ(p))p (p → γ(p))p(p→γ(p))进行位置编码可能提升效率,但是无法提升质量。一个可能的原因是spatially-varying kernel随着位置逐渐变化,而没有高频变化。

4.2 Convolution with Irradiance 入射卷积

模糊卷积模型应该使用scene irradiance而不是image intensity。在物理上的更准确模型是 bp=f(cp′∗h)b_p=f( c_p' * h)bp​=f(cp′​∗h) , c′c'c′表示scene irradiance,f(⋅)f(·)f(⋅) 表示将scene irradiance映射到image intensity的CRF。

相机响应函数(camera response function, CRF):从相机感光元件感受到的亮度值到图像实际像素值之间的非线性变换函数。

一个非线性的CRF可能会增加模糊核的复杂性,并让DSK的学习变得困难(如果使用了(4)中的线性模型),尤其在高对比度区域。为了补偿非线性CRF,本文假设sharp NeRF在线性空间中预测颜色,并且在最终输出中采用一种简单的伽马校正函数。
bp=g(∑q∈N(p)wqcq′)(7),g(c′)=c′12.2b_p=g( \sum\limits_{q \in N(p)} w_qc_q') \ \ \ \ \ \ \ \ (7) \ \ \ \ , \ \ \ \ g(c')=c'^{ \frac{1}{2.2} }bp​=g(q∈N(p)∑​wq​cq′​)        (7)    ,    g(c′)=c′2.21​

4.3 Optimizing the Ray Origin


卷积模型是真实模糊模型的2D近似,在卷积模型中,模糊结果是相邻像素的结合,而这些像素又是 具有相同相机光心发出的相邻光线的渲染结果。然而真实的模糊过程通常融合从不同起点投射的光线。考虑两种不同的模糊过程,如上图。

  1. 当采集运动模糊时,相机中心在一次拍摄中移动,会导致光线起点的改变。
  2. 对于散焦模糊,光线被散射到不同方向,这相当于来自不同起点的光线混合。

如果场景几乎是平面的,这个光线起点的平移就能够很好的用像素位置的2D平移来近似。然而由于视差影响和遮挡问题,这通常在深度不连续的情况下无法实现。本文根据三维场景表示开发了能够考虑不同起点光线变化的kernels。因此,本文联合优化了每个稀疏核点(sparse kernel location)的光线起点的平移。特别的,本文像(6)式一样 联合预测了每个核点的起点平移。

(△q,wq)=GΦ(p,q′,l),q′∈N′(p)(6)(△q,w_q)=G_Φ(p,q',l), \ q'∈N'( p) \ \ \ \ \ \ \ (6)(△q,wq​)=GΦ​(p,q′,l), q′∈N′(p)       (6)

(△oq,△q,wq)=GΦ(p,q′,l),q′∈N′(p)(8)(△o_q,△q,w_q)=G_Φ(p,q',l), \ q'∈N'( p) \ \ \ \ \ \ \ (8)(△oq​,△q,wq​)=GΦ​(p,q′,l), q′∈N′(p)       (8)

rq=(o+△oq)+tdq,q=q′+△q(9)r_q=(o+△o_q)+td_q,\ q=q'+△q \ \ \ \ \ \ \ (9)rq​=(o+△oq​)+tdq​, q=q′+△q       (9)

这些优化的光线会被渲染并且结合到最终的模糊像素上。


整个训练过程如下:

  1. 使用(8)式 预测 {△oq,△q,wq}q∈N(p)\{△o_q,△q,w_q\}_{q∈N( p)}{△oq​,△q,wq​}q∈N(p)​
  2. 通过(9)式 由变形经典采样位置并优化光线起点生成多个优化后的光线 {rq}q∈N(p)\{r_q\}_{q∈N( p)}{rq​}q∈N(p)​c
  3. 使用(3)式 渲染这些光线得到 cq′c_q'cq′​,使用(7)式 融合得到一个混合像素bpb_pbp​
  4. 合成的模糊像素由相应的gt像素颜色 bgtb_{gt}bgt​ 监督:
    Lreconstruct=∑p∈R∣∣bp−bgt∣∣22L{reconstruct}=\sum_{p∈R}||b_p-b_{gt}||_2^2Lreconstruct=p∈R∑​∣∣bp​−bgt​∣∣22​
    R是每个batch的像素集合

注意:测试时,直接使用存储的结合了gamma correction的sharp NeRF渲染清晰的结果。


4.4 Aligning the NeRF

如果自由地优化所有组件,例如NeRF和DSK、reconstructed NeRF可能会遭遇非刚性形变。这是可预料的,因为NeRF的场景表示和学习到的Kernel会一起变形而不影响重建的模糊结果。然而这通常是不被期待的。为了将NeRF模型限制对齐到观察上,本文首先初始化DSK,使得所有优化的光线 rqr_qrq​ 非常接近输入光线 rpr_prp​ ,可以通过给 (△oq,△q,wq)(△o_q,△q,w_q)(△oq​,△q,wq​) 中每个元素乘以 ∈=0.1∈=0.1∈=0.1 来实现。作为结果,光线发出点 oqo_qoq​ 和 kernel points qqq 被初始化到很接近相机中心和像素位置,并且在最开始所有 kernel points 都拥有大致一样的权重。本文还另外引入了一个对齐loss来强制其中一个优化光线 rqr_qrq​ 与输入的光线 rpr_prp​ 相似。

Lalign=∣∣q0−p∣∣2+λ0∣∣△oq0∣∣2(11)L_{align}=||q_0-p||_2+λ_0||△o_{q_0}||_2 \ \ \ \ \ \ \ (11)Lalign​=∣∣q0​−p∣∣2​+λ0​∣∣△oq0​​∣∣2​       (11)

其中 q0q_0q0​ 是 N(q)N(q)N(q) 中一个固定的元素:kernel的中心, λ0=10(12)λ_0=10 \ \ \ \ \ \ \ (12)λ0​=10       (12)

总的Loss:

L=Lreconstruct+λaLalign,λa=0.1L=L_{reconstruct}+λ_aL_{align},\ λ_a=0.1L=Lreconstruct​+λa​Lalign​, λa​=0.1

5. Experiments

5.1 Implementation Details

Training:

  • batch size = 1024 rays, 【coarse volume】each sample at 64 coordinates 【fine volumn】128
  • number of sparse locations N=5
  • Adam optimizer with default parameters
  • learning rate = 5∗10−45*10^{-4}5∗10−4
  • decay exponentially to 8∗10−58*10^{-5}8∗10−5 over the coarse of the optimization 【指数级衰减】
  • train 200k Nvidia V100 GPU
  • FΘF_ΘFΘ​: original NeRF 8 layers
  • GΦG_ΦGΦ​: 4 FC hidden layers, 64 channels/layer & RELU
  • shortcut connects first layer to last layer

5.2 Ablation Study

5.3 Comparisons

6. Discussion and Conclusion

6.1 Why the framework works

模糊输入视图不一致时,本文框架使用DSK来补偿不一致,导致一致的清晰场景和不一致模糊模式的分解。

6.2 Limitations

  • 视图一致时可能会失败:相机在所有视图中大致在相同的方向上晃动 或者 相机具有固定的焦点(聚焦在单个目标上)
  • 模糊非常严重时,COLMAP无法重建相机位姿

6.3. Conclusion

参考解读:【论文精读】Deblur-NeRF

Deblur-NeRF CVPR 2022相关推荐

  1. 5秒手机猫片也能重建猫咪3D模型,Meta提出新算法为变形物体建模 | CVPR 2022

    晓查 发自 凹非寺 量子位 | 公众号 QbitAI 众所周知,猫是一种液体. 这也给CVer带来了极大的烦恼:如何从2D视频中准确地对一只猫进行3D重建? 在很多情况下,3D重建模型得到的真是一滩液 ...

  2. CVPR 2022 | 看谷歌的单张图片人体重建效果如何?

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源丨人脸人体重建 本文作者均来自 Google Research,作者提出了一个新颖的端到端的深度神 ...

  3. CVPR 2022 论文列表(持续更新)

    本文包括论文链接及代码 关注公众号:AI基地,及时获取最新资讯,学习资料 GitHub链接:GitHub - gbstack/cvpr-2022-papers: CVPR 2022 papers wi ...

  4. CVPR 2022缅怀孙剑!同济、阿里获最佳学生论文奖,何恺明入围

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨新智元 编辑丨极市平台 导读 2年没见,CVPR 2022终于 ...

  5. CVPR 2022上人脸识别相关的论文分类整理

    人脸识别是AI研究的一个重要的方向,CVPR 2022也有很多相关的论文,本篇文章将针对不同的应用分类进行整理,希望对你有帮助 人脸识别 人脸识是一个热门话题,在当前的基准测试中要以相当大的提升击败 ...

  6. 英伟达这篇CVPR 2022 Oral火了!2D图像秒变逼真3D物体!虚拟爵士乐队来了!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 你见过乐器自己演奏么?看看这个: 图1. "活灵活现"的虚拟乐器还是在 NVIDIA 服 ...

  7. CVPR 2022 | 神经辐射场几何编辑方法NeRF-Editing

    阿里巴巴大淘宝技术的研究人员和中科院计算所提出了一种允许用户自由编辑神经辐射场几何内容的方法,以论文<NeRF-Editing: Geometry Editing of Neural Radia ...

  8. CVPR 2022 | 腾讯AI Lab入选论文解读,关注图像理解、生成、建模及可信AI

    感谢阅读腾讯AI Lab微信号第147篇文章.本文介绍腾讯 AI Lab 被 CVPR 2022 收录的研究成果. CVPR(Conference on Computer Vision and Pat ...

  9. 最新更新的 CVPR 2022 论文66篇

    以下是最新更新的 CVPR 2022 论文,包括的研究方向有:目标检测.预训练语言模型.Transformer.图像修复.模型训练.视觉语言表征学习.对比学习.深度估计.语义分割.动作检测.人脸防伪. ...

  10. 天大本科生论文入选CVPR 2022,实现深度学习长尾分类新SOTA

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 本科生搞科研到 ...

最新文章

  1. Tensorflow—变量
  2. Windows下Python添加MySQLdb扩展模块
  3. 人工智能、物联网和大数据如何拯救蜜蜂
  4. Category 特性在 iOS 组件化中的应用与管控
  5. SPOJ1716 GSS3(线段树)
  6. ubuntu20输入法qiehuan_UBUNTU 20 输入法问题
  7. Oracle 11g 新特性 – HM(Hang Manager)简介
  8. ubuntu /dev/sda1 contains a file system error …… (initramfs)的问题
  9. 手机里实现图片文字识别的实用方法
  10. Photoshop CC2018软件
  11. \ddd与\xdd保姆级讲解
  12. 24个扁平风格图标的PSD格式免费下载
  13. 回收站里的文件都清空了应该怎么恢复?
  14. 关注IT精英:微利时代如何赚大钱 (转载)
  15. 微信和 QQ 终于可以互通了
  16. Iptables—包过滤(网络层)防火墙
  17. 金山WPS:云端协同 AI赋能 WPS树起了Office新四大件|企服三会系列报道
  18. 路缘石滑模机在作业中进行效率作业的底气
  19. 实现百度网盘分享保存到自己的网盘
  20. 哈夫曼编码-Java实现

热门文章

  1. 深度学习之选择GPU或CPU方法
  2. Linux基础和命令大全
  3. 2021年安全员-B证(广西省-2021版)考试技巧及安全员-B证(广西省-2021版)
  4. 什么是光端机,什么是PDH光端机,什么是SDH,什么是SPDH
  5. 来自大脑的电信号(EEG)-脑电(1)
  6. 哪个软件能代替斐讯路由_斐讯路由(老版本无需登录)
  7. java 假设检验_Spark机器学习-Java版(二)-相关系数和假设检验
  8. MIUI12或android11找不到QQ文件的问题
  9. Vue 的身份证 手机号码 电话号码 邮箱等校验
  10. OSChina 周二乱弹 —— 你一辈子都不可能跟她这么亲近