简介

论文：https://arxiv.org/pdf/2003.04618.pdf
github：https://github.com/autonomousvision/convolutional_occupancy_networks

隐式方法的关键限制因素是其简单的全连接网络结构，不允许在观测中集成局部信息或纳入归纳偏差，如平移等方差

论文通过将卷积编码器与隐式占用解码器相结合，模型纳入了归纳偏差，使三维空间中的结构化推理成为可能

论文关键思想是建立丰富的输入特征，结合归纳偏差，整合局部和全局信息，利用卷积运算来获得平移等方差，并利用三维结构的局部自相似性

传统的隐式模型(a)由于其全连接的网络结构，其表达能力有限。论文提出利用卷积的卷积占用网络(b)，从而产生可伸缩的等变隐式表示。使用线性插值查询3D位置p∈R3的卷积特征。与占用网络(ONet)相比，提出了特征表示ψ(p, x)，因此同时依赖于输入x和3D位置p。图©显示了Matterport3D数据集上从噪声点云重建的两层建筑。

贡献点

确定了当前隐式3D重建方法的主要局限性
提出了一种灵活的平移等变架构，可实现从对象到场景级别的精确3D重建
模型能够从合成场景到真实场景以及新颖对象类别和场景的泛化。

实现流程

编码器(左)首先使用特定任务的神经网络将3D输入x(例如，噪声点云或粗体素网格)转换为特征。接下来，利用平均池化将特征投影到一个或多个平面(图2a)或一个体(图2b)。卷积解码器(右)使用2D/3D U-Nets处理生成的特征平面/体积，以聚合局部和全局信息。对于查询点p∈R3，通过双线性(图2c和图2d)或三线性(图2e)插值得到逐点特征向量ψ(x, p)。给定位置p处的特征向量ψ(x, p)，利用全连通网络fθ(p， ψ(p, x))预测占据概率。

Encoder

Plane Encoder 平面编码器

对于每个输入点，我们在标准平面(即与坐标系轴线对齐的平面)上进行正交投影，以H × W像素单元的分辨率离散该标准平面

对于体素输入，将体素中心视为一个点，并将其投射到平面上，使用平均池化的方法将投影到同一个像素上的特征进行聚集，得到的平面特征维数为H × W × d，其中d为特征维数

模型的两种变体，一是将特征投影到地平面上，二是特征被投影到所有三个正则平面上，前者的计算效率更高，而后者允许在z维中恢复更丰富的几何结构

Volume Encoder 体积编码器

平面特征表示允许在大空间分辨率(128^2 像素以上)进行编码，但是仅限于二维，为此提出体积编码器，可以更好地表示3D信息，但仅限于更小的分辨率(在我们的实验中通常为32^3体素)，与平面编码器一样，使用平均池化，但这次是对所有属于同一体素细胞的特征进行池化，从而产生一个维数为H × W × D × D的特征体积。

Decoder

使用2D和3D卷积沙漏(U-Net)网络处理编码器中的特征平面和特征体积，使模型具有平移等方差，U-Net网络由一系列带跳跃连接的下采样和上采样卷积组成，以整合局部和全局信息。选择U-Net的深度，使接收域等于各自的特征平面或体积的大小

单平面解码器(图2c)使用2D U-Net处理地平面特征

多平面解码器(图2d)使用权重共享的2d U-Nets对每个特征平面进行单独处理

体积解码器(图2e)使用3D U-Ne

由于卷积运算是平移等变的，所以输出特征也是平移等变的，从而使结构化推理成为可能。此外，卷积操作能够在保留全局信息的同时“inpaint”特征，从而支持从稀疏输入进行重构。

Occupancy Prediction

给定聚合的特征图，估计任意点p在三维空间中的占用概率

对于单平面解码器，将每个点p投影到地平面上，通过双线性插值查询特征值(图2c)。

对于多平面解码器(图2d)，通过对所有3个平面的特征求和来聚合来自3个正则平面的信息。

对于体积解码器，使用三线性插值(图2e)。输入x在p点处的特征向量为ψ(p, x)，我们用一个小的全连通占用网络来预测p的占用情况:

网络由多个ResNet块组成，在每个ResNet块的输入特征上加上ψ，对隐藏层使用32的特征维

Training and Inference

在感兴趣的体积内均匀采样查询点p∈R3，并预测其占用值。应用二元交叉熵损失之间的预测ˆop和真实占用值op

使用Adam优化器，学习率为10−4。在推理过程中，应用Multiresolution IsoSurface Extraction (MISE)来提取给定输入x的网格。由于模型是完全卷积的，能够通过在推理时以“滑动窗口”的方式应用它来重建大型场景。

效果

30、三维表面重建-Convolutional Occupancy Network相关推荐

14、三维表面重建-DeepSDF
简介传统的‎表面重建‎技术中,SDF是基于离散化体素对物体或者场景表面的一种表达,而现实中表面是连续的,DeepSDF是一种学习过的连续符号距离函数(SDF)表示一类形状,可以从部分和有噪声的3D输 ...
15、三维表面重建-Occupancy Networks
简介随着深度神经网络的到来,基于学习的三维重建方法逐渐变得流行.但是和图像不同的是,在3D中没有规范的表示,既能高效地进行计算,又能有效地存储,同时还能表示任意拓扑的高分辨率几何图形.很多先进的基于 ...
滚球法(Ball Pivoting)三维表面重建论文笔记
文章目录参考资料相关问题相关参数原理介绍 1.基本概念 1.1 顶点表示 1.2 边表示 1.3 数据结构 1.3.1 元素 1.3.2 存储方式 1.3.3 查找方式 2.算法实现 2.1 ...
CT图像的三维表面重建
对于医学图像的处理,ITK是一个具有丰富资源的库,专门对医学图像进行分割和配准,里面有丰富的函数.ITK可以直接读取单张的CT图像或者是序列的CT图像,最近新版本的VTK也可以实现这一功能,但对于CT ...
SSRNet：用于大规模点云表面重建的深度学习网络（CVPR2020）
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达整理人:袁赣张秦,付前程,张琛,廖新耀论文: [1] Zhengxin Mi#, Yiming Lu ...
可用于大规模点云表面重建的深度学习算法
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达整理人:袁赣张秦,付前程,张琛,廖新耀论文: [1] Zhengxin Mi#, Yiming Lu ...
平行轮廓线三维矿体重建算法研究
平行轮廓线三维矿体重建算法研究摘要: 从平行轮廓线重建三维表面是具有普遍意义的研究问题.根据一组平行轮廓线联接三角网构成三维实体必须解决三个基本问题:对应性问题(Correspondence), ...
ICCV 2021 Oral | 无需法向的大场景点云表面重建
编辑丨CVer 论文链接:https://arxiv.org/abs/2105.03582 代码已开源在github: https://github.com/tangjiapeng/SA-ConvON ...
【研究报告】从单目深度估计到单目三维场景重建-沈春华老师-VALSE Webinar 22-13（总第279期）
从单目深度估计到单目三维场景重建-沈春华老师-VALSE Webinar 22-13(总第279期) 报告总结 & 相关论文论文代码相关术语前言研究问题单目深度估计单目三维场景重建 ...

30、三维表面重建-Convolutional Occupancy Network

简介