nerf的理论性介绍已经比较多了。

1.NERF介绍与优化

NERF的提出

Mildenhall, B., Xiao, J., Barron, J.T., Chen, R., Radford, A., and Ng, R. 2020. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. In European Conference on Computer Vision (ECCV).

论文地址:[2003.08934] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (arxiv.org)

摘要: 我们提出了一种方法,通过使用稀疏的输入视图来优化基于连续体积场函数的底层连续体积场函数,从而实现合成复杂场景的新视图的最新结果。我们的算法使用完全连接的(非卷积)深度网络来表示场景,其输入是单个连续的5D坐标(空间位置(x,y,z)和视角(θ,ϕ)),其输出是该空间位置处的体密度和视角相关的发射辐射。我们通过查询沿着相机射线的5D坐标并使用经典的体积渲染技术将输出颜色和密度投影到图像中来合成视图。由于体积渲染是自然可微的,因此优化我们的表示所需的唯一输入是具有已知摄像机姿势的图像集。我们描述了如何有效地优化神经辐射场以呈现具有复杂几何和外观的场景的照片般逼真的新视图,并展示了优于神经渲染和视图合成先前工作的结果。视图合成结果最好作为视频查看,因此我们建议读者查看我们的补充视频以进行令人信服的比较。

加速算法:instant NGP

这个链接是关于Instant Neural Rendering with NVIDIA GPUs (InstantNRP)的。这是一种新的神经反射场(NRF)方法,可以实现近实时的高质量3D场景渲染。这种技术利用了NVIDIA的RTX GPU硬件加速,以实现更快的渲染速度和更高的图像质量。InstantNRP 可以用于虚拟现实(VR)、增强现实(AR)、3D设计和游戏等领域。它还包括一个Python API,可用于用户自定义的3D场景渲染。

https://github.com/NVlabs/instant-ngp

后续由 taichi language将其从 gpu环境通过python代码无缝切换到 cpu代码中。也取得了不错的效果,有效帮助了不会使用gpu代码调优的人也能够进行相应的内容适应。

https://github.com/taichi-dev/taichi-nerfs

加速算法: zip nerf

https://jonbarron.info/zipnerf/
来自于google的文章,将mip-nerf以及instant-ngp 输出速度不够快的情况,进行了进一步的优化。

2.NERF感知与识别

就如同opencv拥有识别物体的能力一样,nerf中也应该在重建后有识别物体的能力

instance nerf

目前是利用sam模型进行的nerf切割和识别。(实现更快的速度,注意和instant nerf不是一个东西

https://neuralradiancefields.io/nerf-segmentation-with-instance-nerf/

Visual Language Maps for Robot Navigation

项目地址:Visual Language Maps for Robot Navigation (vlmaps.github.io)

**摘要:**将语言与导航代理的视觉观察结合可以使用预训练的视觉语言模型,这些模型预先训练在互联网规模的数据上(例如图像标题)。虽然这对于将图像与目标的自然语言描述进行匹配很有用,但它仍然与映射环境的过程不相关,因此缺乏经典几何地图的空间精度。为了解决这个问题,我们提出了 VLMaps,这是一种空间地图表示形式,它将预先训练的视觉语言特征与物理世界的三维重建直接融合在一起。VLMaps 可以使用标准的探索方法从机器人的视频喂养中自主构建,并且可通过自然语言索引地图,无需额外的标记数据。具体而言,当与大型语言模型(LLMs)结合使用时,VLMaps 可以用于将自然语言命令翻译成一系列开放词汇的导航目标序列(除了之前的工作外,它们可以通过构造是空间的,例如“在沙发和电视之间”或“在椅子右侧三米处”),并直接定位在地图上,以及可以在具有不同实施例的多个机器人之间共享,以即时生成新的障碍物地图(使用障碍物类别列表)。在模拟和现实世界环境中进行的大量实验表明,VLMaps 可以根据比现有方法更复杂的语言指令进行导航。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-m3ijsT97-1681981545992)(https://s3-us-west-2.amazonaws.com/secure.notion-static.com/1ce8dc0a-35bc-40a9-8d9d-788087134a6d/Screenshot_2023-03-31-14-18-20-840-edit_com.linkedin.android.jpg)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FLEtWgKQ-1681981545993)(https://s3-us-west-2.amazonaws.com/secure.notion-static.com/4eeeb967-68c5-47b9-b093-67b28af9de5a/Untitled.png)]

细节:

VLMaps 在空间精度方面与传统的几何地图不同,因为它们直接将预训练的视觉语言特征与物理世界的三维重建融为一体,无需额外的标注数据即可对地图进行自然语言索引。这允许使用更复杂的语言指令进行导航,例如 “在沙发和电视之间” 或 “椅子右边三米”,这些指令在空间上非常精确。另一方面,传统的几何地图依赖于几何测量,可能无法捕获与 VLMaps 相同的空间细节水平。

传统的几何地图是使用环境的几何测量(例如距离、角度和方向)创建的地图。这些地图通常使用激光雷达或深度摄像机等传感器创建,这些传感器可以测量与环境中物体的距离。然后,测量结果用于创建环境的二维或三维表示,可用于导航或其他任务。但是,传统的几何地图可能无法捕捉到环境的所有空间细节,并且可能无法处理复杂的自然语言导航指令。另一方面,VLMaps 直接将视觉语言功能与物理世界的三维重建融为一体,允许使用更复杂的语言指令进行导航。

在模拟和现实环境中进行的实验表明,与现有方法相比,VLMaps 可以通过以下方式根据更复杂的语言指令进行导航:

  • VLMaps 允许在无需额外标注数据的情况下对地图进行自然语言索引,从而允许使用更复杂的语言指令进行导航。
    -VLMaps 可用于将自然语言命令翻译成一系列空间精确的开放词汇导航目标,例如 “在沙发和电视之间” 或 “椅子右边三米”。
    -VLMaps可以在具有不同实施例的多个机器人之间共享,以即时生成新的障碍物地图,从而在复杂的环境中实现更灵活和适应性更强的导航。

总体而言,实验表明,VLMaps提供了一种在复杂环境中使用自然语言指令进行导航的更有效和高效的方式。

“zero-shot” 是指VLMaps方法使机器人能够根据包含空间信息的自然语言命令进行导航,而无需额外的标签数据。这意味着机器人可以理解和遵循尚未接受过明确训练的命令,从而在复杂的环境中实现更灵活和适应性更强的导航(也就是说进行了路径很有可能是每次都不一样的。

创建完之后,还需要进行索引(使用自然语言进行分割

开放式词汇地标索引(Open Vocabulary Landmark Recognition and Segmentation for VLMaps)是本文中介绍的一种方法,用于在名为 VLMaps 的空间地图表示形式中对地标进行索引。这种方法允许使用自然语言描述来识别和分割环境中的障碍物,而无需额外的标签数据。

该过程包括应用开放词汇地标索引来获取所有已定义障碍物的分割掩码。为特定的机器人实施例选择了障碍物类别的子集,并结合了它们的分割蒙版来获得障碍物掩码。使用带有地板掩模的交叉路口获得最终的障碍物地图,可以忽略对地板区域障碍物的错误预测。

总体而言,开放式词汇地标索引是一种使用自然语言描述识别和分割环境中障碍物的有用技术,可以将其集成到 VLMaps 空间地图表示形式中,以实现更灵活和适应性更强的导航。

其中有一个作者是华人(本科吉林大学、后去了德国慕尼黑工业大学)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wYZk1m25-1681981545994)(https://s3-us-west-2.amazonaws.com/secure.notion-static.com/d2509413-8efc-401b-89b9-32d0c9fa0afa/Untitled.png)]

3,nerf再编辑

①物体替换编辑

instruct2instruct

https://instruct-nerf2nerf.github.io/

比如机器人能够再换个位置,机器人换个牌子,机器人手臂也发生下长短的变化。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Sz0FlCel-1681981545994)(https://s3-us-west-2.amazonaws.com/secure.notion-static.com/0c3abb14-33b8-40aa-b254-d7da2c1a239f/Untitled.png)]

SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing Field

Chong Bao(浙江大学3DV实验室),Yinda Zhang(Google),Bangbang Yang,Tianxing Fan, Zesong Yang,Hujun Bao,Guofeng Zhang,Zhaopeng Cui

项目主页:https://zju3dv.github.io/sine/
Github主页:https://github.com/zju3dv/SINE(即将发布)

**摘要:**尽管使用用户友好的工具(如Photoshop、语义笔划甚至文本提示)在2D编辑方面取得了巨大成功,但在3D领域中类似的能力仍然有限,要么依赖于3D建模技能,要么只允许在几个类别内进行编辑。在本文中,我们提出了一种新颖的基于语义的NeRF编辑方法,使用户可以使用单个图像编辑神经辐射场,并忠实地提供高保真度和多视角一致性的编辑新视图。为了实现这个目标,我们提出了一个先验引导的编辑场,以在3D空间中编码细粒度的几何和纹理编辑,并开发了一系列技术来协助编辑过程,包括使用代理网格的循环约束来促进几何监督,颜色合成机制来稳定语义驱动的纹理编辑,以及基于特征聚类的正则化来保持不相关内容不变。在真实世界和合成数据上的广泛实验和编辑示例表明,我们的方法使用仅一个编辑后的图像即可实现照片般逼真的3D编辑,推动了3D实际场景中基于语义驱动的编辑的边界。

Untitled

NeRFshop: Interactive Editing of Neural Radiance Fields (I3D 2023)

Clément Jambon(Inria, 蔚蓝海岸大学, 巴黎综合理工学院) Bernhard Kerbl, Georgios Kopanas, Stavros Diolatzis(Inria, 蔚蓝海岸大学), Thomas Leimkühler(马克斯普郞克学院) George Drettakis(Inria, 蔚蓝海岸大学)
项目主页: https://repo-sam.inria.fr/fungraph/nerfshop

Github主页:https://github.com/graphdeco-inria/nerfshop
.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fEOvFO35-1681981545995)(https://s3-us-west-2.amazonaws.com/secure.notion-static.com/61b10331-db10-496c-b688-ccf04dabf358/Untitled.png)]

Untitled

②环境替换编辑

PaletteNeRF: Palette-based Appearance Editing of Neural Radiance Fields

Zhangfei Kuang(斯坦福大学),Fujun Luan(Adobe), Zhixin Shu(Adobe), Gordon Wetzstein(斯坦福大学), Kalyan Sunkavalli(Adobe)

项目主页:https://palettenerf.github.io/

近期NeRF的发展已经让高保真的3D重建复杂场景下的新视角生成成为现实。但是,在保持真实感的情况下,有效地对它的外观进行编辑仍然非常挑战。在这个工作中,我们提出PaletteNeRF,一个新的基于3D颜色分解的NeRF真实感外观编辑工具。我们的方法可以每个3D点的外观分解到一个整场景共享调色板基的线性组合(如使用一组NeRF函数定义下的3D分割)我们的基于调色板基是视角无关的,同时,我们可以预测一个视角依赖的函数来捕捉颜色的残差(如镜面阴影等)。在训练过程中,我们联合优化了基函数和颜色调色板,另外我们也引入了新的规范化方法来提升分解的空间一致性。我们的方法可以让用户通过对颜色调色板,有效的对3D场景进行外观编辑。我们也使用压缩的语义特征来扩展了我们的框架,进行语义感知的外观编辑。我们展示了我们的技术相比baseline方法,在复杂真实场景的外观编辑上都取得了定量和定性的提升。

ClimateNeRF: Physically-based Neural Rendering for Extreme Climate Synthesis

YuanLi (UIUC, 浙江大学),Zhi-Hao Lin(UIUC), David Forsyth(UIUC), Jia-Bin Huang(马里兰大学), Shenlong Wang(UIUC)

项目主页:https://climatenerf.github.io/

物理模拟可以对天气效果达到非常好的预测效果。NeRF可以达到SOTA的场景建模效果。我们描述了一种新的NeRF编辑过程,可以将物理模拟与场景的NeRF模型合并起来,制造电影级别真实感的,场景的物理现象。我们的作品:ClimateNeRF,可以让人们可视化天气的变化对场景的效果影响。ClimateNeRF可以让我们渲染真实的场景效果,包括大雾、下雪和洪水。渲染效果可以被物理可理解的变量,如洪水大小等,来控制。定性和定量研究都发现,相比于之前SOTA的2D图片和3D NeRF风格化编辑效果,我们的模拟效果可以大幅度地提升真实感。

③物体运动编辑(

Learning Neural Volumetric Representations of Dynamic Humans in Minutes (CVPR 2023)

(人体动作仿真)

Chen Geng, Sida Peng, Zhen Xu, Hujun Bao, Xiaowei Zhou (浙江大学)
项目主页: https://zju3dv.github.io/instant_nvr/

Deforming Radiance Fields with Cages(ECCV 2022)

Tianhan Xu, Tatsuya Harada(东京大学)

项目主页: https://xth430.github.io/deforming-nerf/

Github地址:https://github.com/xth430/deforming-nerf
最近在神经辐射场(NeRF)方向的进展让真实感渲染静态或动态3D内容有了突破性进展。但目前仍然还没有支持如何可以对场景进行变形,而这是对场景操控和动画必须的功能。在这个工作里,我们提出了一种新的可以使辐射场变形的方法:自由态辐射场变形。我们用三角网格来包裹前景物体来做为载体,称之为笼子,通过控制笼子的节点,我们的方法可以让辐射场的自由变形变成可能。这种笼形变形也是网格变形中的常用方法,也是我们方法中的核心。我们提出了一种新的方式让它能扩展到辐射场,这样就可以将位置与采样点视角方向,从变形空间映射到标准向量空间。使用合成数据和真实数据集的变形结果显示出我们的工作是非常有效的。

PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification


Xuan Li(UCLA) , Yi-Ling Qiao(马里兰大学) , Peter Yichen Chen(MIT CSAIL, 哥伦比亚大学), Krishna Murthy Jatavallabhula(MIT CSAIL) , Ming Lin(马里兰大学) , Chenfanfu Jiang(UCLA) , Chuang Gan(马萨诸塞大学阿默斯特分校,IBM Watson AI Lab)
项目主页: https://sites.google.com/view/PAC-NeRF

Github主页:https://github.com/xuan-li/PAC-NeRF

现有的视频系统识别方法(估计物体的物理参数)假设已知物体几何形状,这排除了它们在大多数场景中的适用性,其中物体的几何形状复杂或未知。在本研究中,我们旨在从一组多视角视频中识别表征物理系统的参数,而不对物体的几何形状或拓扑作任何假设。为此,我们提出了“物理增强连续神经辐射场”(PAC-NeRF),用于从多视角视频中估计高度动态物体的未知几何形状和物理参数。我们设计PAC-NeRF仅生成物理上合理的状态,通过强制神经辐射场遵循连续介质力学的守恒定律实现。为此,我们设计了一种混合欧拉-拉格朗日表示的神经辐射场,即我们使用欧拉网格表示NeRF密度和颜色字段,同时通过拉格朗日粒子对神经辐射场进行移动。这种混合的欧拉-拉格朗日表示将高效的神经渲染与材料点方法(MPM)无缝地融合,以进行强大的可微物理模拟。我们验证了我们提出的框架在几何形状和物理参数估计方面的有效性,涵盖了各种材料,包括弹性体、橡皮泥、沙子、牛顿和非牛顿流体,并在大多数任务上展示出显着的性能提升。

Untitled