NeuralRecon：单目视频的实时Coherent 三维重建

标题：NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video

作者：Jiaming Sun Yiming Xie Linghao Chen Xiaowei Zhou Hujun Bao

机构：Zhejiang University ，SenseTime Research

来源：CVPR 2021

编译：万应才

审核: Yiru

转载：泡泡机器人SLAM

摘要

大家好，今天为大家带来的文章是 Estimating Motion Codes from Demonstration End-to-End Video Instance Segmentation with TransformersVideos。

本文提出了一种新的基于单目视频的实时三维场景重建框架NeuralRecon。与以往在每个关键帧上分别估计单视点深度图并进行融合的方法不同，本文提出了用神经网络直接为每个视频片段重建局部表面，表示为稀疏的TSDF体。基于学习的TSDF融合模块基于选通递归单元，用于指导网络融合先前片段的特征。这种设计使得网络能够在连续重构三维曲面时，获得曲面的局部光滑性先验和全局形状先验，从而实现精确、一致、实时的曲面重构。在ScanNet和7场景数据集上的实验表明，我们的系统在精度和速度上都优于现有的方法。据我们所知，这是第一个基于学习的系统，能够实时重建密集的Coherent三维几何体。

Code : https://zju3dv.github.io/neuralrecon/

图1 VisTR 整体框架.该模型以一系列图像作为输入，输出一系列实例预测。在这里，相同的形状表示一个图像中的预测，相同的颜色表示同一对象实例的预测。请注意，总体预测遵循输入帧顺序，不同图像的对象预测顺序保持相同（最好在屏幕上查看）

主要工作与贡献

本文介绍了一种新的单目视频实时三维重建系统NeuralRecon。其核心思想是利用三维稀疏卷积和GRU算法，对每个视频片段的稀疏TSDF体进行增量联合重构和融合。这种设计使NeuralRecon能够实时输出精确的相干重建。实验表明，NeuralRecon在重建质量和运行速度上都优于现有的方法。利用NeuralRecon重建的稀疏TSDF体可以直接用于三维目标检测、三维语义分割和神经渲染等下游任务。我们相信，通过与下游任务端到端的联合训练，NeuralRecon为基于学习的多视角感知和识别系统提供了新的可能性。

算法流程

1.整体框架

本文提出了一种新的单目实时经济结构的新框架NeuralReco，该框架将三维几何体直接重建和融合到体积TSDF表示中。给定由SLAM系统估计的一系列单目图像及其相应的相机姿态，NeuralRecon在独立于视图的三维体中增量重建局部几何体，而不是依赖于视图的深度图。具体地说，它取消图像特征以形成三维特征体积，然后使用稀疏卷积处理特征体积以输出稀疏TSDF体积。通过从粗到精的设计，预测的TSDF在每个层次上逐渐细化。通过直接重建隐式曲面（TSDF），网络能够在自然三维曲面之前学习局部平滑度和全局形状。

与基于深度的方法分别预测每个关键帧的深度图不同，在NeuralRecon中联合预测局部碎片窗口内的表面几何，从而产生局部Coherent几何估计。

图2NeuralRecon architecture..NeuralRecon采用三级从粗到精的方法预测TSDF，该方法逐渐增加稀疏体素的密度。首先将局部片段中的关键帧图像通过图像主干提取多级特征。这些图像特征随后沿每条光线反向投影，并聚合成三维特征体积Flt，其中l表示水平索引。在第一层（l=1），预测了一个稠密的TSDF体积S 1t。在第二级和第三级，最后一级的上采样S l−1t与Flt相连，并用作GRU Fusion和MLP模块的输入。在世界框架中定义的特征体积作为GRU的全局隐藏状态在每个级别上进行维护。在最后一级，输出Slt用于替换全局TSDF体积sgt中的相应体素，从而在时间t产生最终重建。

2.方法

给定SLAM系统提供的单目图像序列{It}和相机姿态轨迹{It}∈SE（3），目标是实时准确地重建稠密的三维场景几何。我们将要重建的全局TSDF体积表示为S(g/t)，其中t表示当前时间步长。

图3 2D玩具的例子来说明unprojection，GRU fusion and sparse TSDF representation.

2.1关键帧选择

为了提供足够的运动视差，同时保持多视点共视重建，所选关键帧之间既不能太近也不能太远。在之后，如果一个新的传入帧的相对平移大于t[max]并且相对旋转角度大于R[max]，则选择该帧作为关键帧。具有N个关键帧的窗口被定义为一个局部片段。选择关键帧后，在每个视图中使用固定的最大深度范围dmax计算包围所有关键帧视锥的立方体碎片边界体积（FBV）。在重建每个片段时，只考虑FBV内的区域。

2.2拼接片端重建与融合

我们建议同时重建局部片段S[l\t]的TSDF体积，并使用基于学习的方法将其与全局TSDF体积sgt融合。关节重建和融合是在局部坐标系下进行的。补充材料图1中说明了局部坐标系和全局坐标系的定义以及FBV的构造。

Image Feature Volume Construction.

根据每个体素的可见度权重对不同视图的特征进行平均，得到图像特征体积Flt。可见性权重定义为在局部片段中可以观察到体素的视图数。

Coarse-to-fine TSDF Reconstruction

我们采用从粗到精的方法，逐步细化每个级别的预测TSDF体积。我们使用三维稀疏卷积来有效地处理特征体F(lt)。稀疏体积表示也自然地与从粗到精的设计相结合。具体来说，TSDF volume Slt中的每个体素包含两个值，占用率得分o和SDF值x。在每个级别上，MLP预测o和x。占用分数表示在TSDF截断距离λ内的体素的置信度。将占位分数小于稀疏阈值θ的体素定义为空洞空间，并进行稀疏化。

NeuralRecon不是为每个关键帧估计单个视图深度图，而是在局部片段窗口的边界体积内联合重建隐式曲面。该设计指导网络直接从训练数据中学习自然曲面的先验知识。结果表明，重构后的曲面局部光滑，尺度一致。值得注意的是，与基于深度的方法相比，这种设计还减少了冗余计算，因为在碎片重建过程中，三维表面上的每个区域仅估计一次。

GRU Fusion

为了使片段间的重建保持一致，我们建议将当前片段的重建建立在先前片段重建的基础上。为此，我们使用了门控递归单元（GRU）模块的3D卷积变体。如图3 所示，在每一级，图像特征体积Flt首先通过3D稀疏卷积层以提取3D几何特征Glt。从碎片边界体积内的全局隐藏状态Hgt−1中提取隐藏状态Hlt−1。GRU将Glt与隐藏状态Hlt−1融合，并生成更新的隐藏状态Hlt，该Hlt将通过MLP层来预测该级别的TSDF卷Slt。通过直接替换相应的体素，将隐藏状态Hlt更新为全局隐藏状态Hgt。

Integration to the Global TSDF Volume

在最后的粗到精阶段，对S[3\t]进行了预测，并进一步稀疏到S[l\t]。由于在GRU融合中Slt与Sgt的融合是通过变换到全局坐标系后直接替换相应的体素来实现的。在每个时间步t，在Sgt上执行行进立方体来重建网格。

实验结果

图3 3D geometry metrics on ScanNet 我们使用两种不同的训练/验证划分，分别是Atlas[30]（顶部块）和BA Net[42]（底部块）。我们在补充材料中阐述了单层和双层的含义。

图4 2D depth metrics on ScanNet 我们使用两种不同的培训/验证划分，分别遵循Atlas[30]（顶部块）和BA Net

图5 Qualitative results on ScanNet.与基于深度的方法相比，NeuralRecon可以产生更多的Coherent重建结果。请注意，与Atlas[30]相比，我们的方法还恢复了更清晰的几何图形，这说明了我们方法中局部片段设计的有效性。仅在局部片段窗口内重建，避免了将来自远处摄像机视图的无关图像特征融合到三维体中。该颜色表示曲面法线。

图6 Ablation study

点击阅读原文，即可获取本文下载链接。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

NeuralRecon：单目视频的实时Coherent 三维重建相关推荐

中国女博士的「水淹食堂」大法：单目视频完美重建3D场景，画面毫无违和感...
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达一位程序员小哥,正在Facebook食堂愉快地准备喝咖啡. 突然,就被水淹了. 而另一位正好好坐着玩手 ...
ICCV 2019 | 基于无标签单目视频序列的单帧三维人体姿态估计算法
作者丨王璇学校丨西安交通大学研究方向丨人体姿态估计我们都知道,要训练一个准确的三维人体姿态估计深度神经网络,需要大量有三维标签的数据,越多越好.而在现实生活中,我们很难得到很多有标签数据,而无标 ...
所见即所得的单目视频三维场景实时重建
点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! We present a novel framework named NeuralRecon for real-time 3D scen ...
稠密单目SLAM，实时、稠密地重建三维场景
以下内容来自从零开始机器人SLAM知识星球每日更新内容 #论文# Probabilistic Volumetric Fusion for Dense Monocular SLAM 论文地址:http ...
cvpr 深度估计_无监督单目视频深度估计中的uncertainty方法(CVPR#x27;20)
Contribution 对11种使用uncertainty方法的全面评估深度挖掘uncertainty对depth estimation起到的作用提出一个新颖的self-teaching方法去m ...
m基于PCA-SA低纬紧致姿态空间学习算法的单目视频人体姿态提取matlab仿真
目录 1.算法仿真效果 2.MATLAB核心程序 3.算法涉及理论知识概要 4.完整MATLAB 1.算法仿真效果 matlab2013b仿真结果如下: 2.MATLAB核心程序 .......... ...
NeuralRecon拜读：单目视频实时连贯三维重建
CVPR2021:NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video Code:https://github. ...
Neural-RGBD: 从单目视频序列中估计深度及其不确定度
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者:路痴走不出户部巷 | 来源:知乎 https://zhuanlan.zhihu.com/p/11 ...
【单目视频人体姿态】基于ASF骨架数据的单目视频人体姿态提取算法的matlab仿真
1.软件版本 matlab2013b 2.算法仿真概述基于混合高斯模型的背景提取单高斯背景模型可以用来描述简单微变的场景,但是当场景多存在树叶,树枝的摇动,波澜的水面,飘舞的旗帜等状态的时候,呈现 ...

NeuralRecon：单目视频的实时Coherent 三维重建

NeuralRecon：单目视频的实时Coherent 三维重建相关推荐

最新文章

热门文章