全面感知通用目标:建模、分割和重建(CVPR2021)

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨 jiangpei

来源丨江佩视觉实验室

Fully Understanding Generic Objects:Modeling, Segmentation, and Reconstruction

Feng Liu Luan Tran Xiaoming Liu

Michigan State University, East Lansing MI 48824

论文链接：https://arxiv.org/pdf/2104.00858.pdf

代码链接：https://github.com/liuf1990/Fully_3D_Object

工程链接：http://cvlab.cse.msu.edu/project-fully3dobject.html

传统的方法一般从CAD生成的合成数据中学习，要么通过intrinsic decomposition生成2.5D深度图像，并不是从真实图像中推断，与完整的三维重建相差甚远。三维重建的挑战之一在于如何在没有真实数据的情况下利用大量真实的2D图像去重建。为了解决这个问题，我们采用了一种半监督学习方法。对于对象的2D图像，我们将提取出类别、形状、反射率、光照和相机投影矩阵，将这些信息分别解码可以得到分割的3D形状和反射率，并融合这些分量以渲染近似输入图像的图像。使用类别自适应的3D joint occupancy field (JOF)，利用完整的形状和反射率建模使我们能够在建模和模型拟合中更高效的利用真实的2D图像。

前言

First

从单一视角观察到的物体的三维结构是一个基本的计算机视觉问题，应用于机器人学、三维感知和增强现实/虚拟现实。当我们单看一个物体时，我们能够毫不费力地推断出完整的三维形状。

随着深度学习的发展，在2D视觉任务上表现出了人类水平的准确性，诸如检测、识别，匹配等。这一成功的一个关键原因是标签数据的丰富，通过监督学习可以获得良好的性能。也有一些学者将这一成功扩展到三维推理的监督学习中，由于三维标签的可用性有限，远远落后。

在这种情况下，研究人员专注于使用合成数据集，如包含纹理化的CAD模型ShapeNet。为了形成用于监督训练的图像-形状对，可以从CAD模型渲染得到2D图像。然而，单独使用合成数据有两个缺点。首先，制作3D模型需要人工成本，需要计算机图形专业知识。其次，合成数据训练的模型在真实图像上会出现性能下降。考虑到真实2D图像，例如ImageNet，采用自监督方法可能有希望探索。如果这些图像能够有效地用于三维物体建模或模型拟合，将对三维物体重建产生巨大的影响。

早期以自监督的方式从2D图像进行3D建模，但仅限于利用2D图像。给定一个图像，学习3D模型并构建2D轮廓。为了更好地建模，需要同一物体的多个视图的真实位姿或关键点注释。最近一些工作通过可微分渲染从2D纹理中学习，获得了很好的结果。然而，这些方法尚未充分利用3D表面法线信息，例如阴影。在以前的工作中，一个常见的问题是并未在建模中考虑反射率和光照，这是真实世界图像非常重要的的组成。

另一方面，早期3D建模工作通常构建特定类别的模型，其中每个模型对一个类别内的不同对象进行建模。随着shape representation的快速发展，研究人员开始开发针对多个种类的通用模型。虽然扩大了训练数据的规模，但同时捕捉类内和类间的形状变形仍然是一项挑战。

我们通过加入更多信息重建一个完整的3D 模型，这些信息包括3D形状和反照率，以及一个模型拟合模块来从多个 2D 图像中估计类别、形状、反射率、光照和相机投影参数来解决这些挑战。建模反射率以及估计环境照明条件使我们能够以自我监督的方式将渲染图像与输入图像进行比较。因此，未标记的真实世界图像可以有效地用于 3D 对象建模或学习拟合模型。因此，它可能会从真实数据重建 3D 对象产生深远影响。此外，我们的形状和反射率学习以类别为条件，这减轻了多个类别的 3D 建模负担。这种设计还增强了可见类别的表示能力和不可见类别的泛化能力。

这种基于学习的方法一个关键组成部分是有效表示不同对象类别的 3D 形状和反射率的表示。具体来说，我们提出了一个以类别为条件的3D joint occupancy field (JOF)，以表示多个类别的 3D 形状和反照率。使用占用场作为形状表示，我们可以表达各种各样的3D几何，而不受特定拓扑的束缚。扩展到反照率，色域给出了3D点反射率的RGB值。采用反射率而不是纹理建模，并利用阴影进行 3D 重建。此外，由于网格拓扑缺乏一致性，缺少 3D 形状之间的密集对应关系。我们建议联合重建对象的分割，利用其与形状和反射率的隐式相关性，为我们的模型拟合学习创建显式约束。

贡献点：

为多个类别建立了一个单一的模型；该模型通过三维联合占用场对分割后的三维形状和反射率进行了完整的建模；
建模内在的组件不仅使我们更好地利用视觉线索，可以增强模型的表示能力。
在JOF学习中引入类别码，可以增强模型的表示能力。
联合无监督分割使更好的约束微调形状和姿态估计。

方法

Second

半监督综合分析框架联合学习一个图像编码器和两个解码器，具有可微的渲染层。训练同时使用合成图像和真实图像，并在类标签和 3D CAD 模型、合成数据和真实数据的silhouette mask的监督下进行。

在这项工作中，对象由三个参数表示：类别、形状和反射率。通过两个深度网络，这些参数可以分别解码为3D形状和反射率。为了获得端到端的可训练框架，我们通过编码器网络（即拟合模块）估计这些参数以及光照和相机投影。三个网络通过结合基于物理的渲染层，为重建通用对象的输入图像的目标共同工作。

基于隐式表面的重建能够提供高质量的连续表面，受此的启发，我们提出了3D关键点占用场的表示，这种表示可以使用无监督的语义信息，同时对模型的形状和反射进行建模，为3D形状提供部位级别的对应。JOF在之前的隐式表面的学习上有三个新设计：

将无监督分割的思想从形状扩展到反射率
将形状分割集成到反射率解码器中，通过几何和外观线索引导分割
调节 JOF 对多个类别进行建模

为了从形状、反照率以及照明参数 L和投影渲染图像，首先找到一组对应于 2D 像素的3D表面点。然后使用照明 L 和解码器输出通过照明模型计算的每个像素的 RGB 颜色。

虽然我们的模型被设计成从真实图像中学习，并受益于CAD模型的预训练形状和反射率，但考虑到逆向任务中的模糊性。因此首先从图像中学习，然后从 CAD 模型中进行预训练。

我们的训练过程包含三个步骤：

DS、DA 和 E0 在彩色体素和相应的采样点值对上进行预训练
E通过最小化L2用合成图像进行预训练
E 和 DA 使用真实图像进行训练。

我们发现在更新形状解码器时，第 3 步训练具有增量增益，提高了我们的编码器将模型拟合到真实图像的泛化能力，学习真实图像的一个关键因素是可微渲染层。

实验

Three

我们使用 ShapeNet Core v1[5]进行预训练。使用 13 个类别的 CAD 模型和相同的训练/测试拆分。在使用相同的测试集时，我们自己渲染训练数据，添加光照和姿势变化。我们在第 3 步训练中使用 Pascal 3D+ [64] 的真实图像。选择了 5 个类别（飞机、汽车、椅子、沙发和桌子），它们与合成数据中的 13 个类别重叠。

由于建模形状、反射率和分割是密切相关的任务，联合建模允许利用它们的相关性，我们评估 CS 模型对飞机、椅子和桌子类别的共同分割和形状表示能力，该模型比 BAE-NET实现了更高的分割精度。此外，我们比较了两个模型在表示3D形状方面的能力。通过将测试集中的真实体素提供给体素编码器和形状解码器，我们评估了解码结果与真实CAD模型的匹配程度。更高的IoU和更低的CD表明我们提高了分割和表示的准确性。此外，图七展示我们的SU模型对13个类别的分割，特别是类别内和跨类别。

图七十三个种类模型的无监督分割

评估合成图像上的 3D 重建步骤中，我们与利用各种 3D表示的SOTA基线进行比较：3D-R2N2[9]（体素）、点集生成（PSG）[10]（点云）、Pixel2Mesh [60]、AtlasNet [15]、Front2Back [67]（网格）和 IM-SVR [7]、ONet [33]（隐式场）。除了学习 13 个模型的 IM-SVR 之外，所有基线都在 13 个类别上训练单个模型。

一般来说，我们的模型能够预测出与真实模型非常相似的3D模型。我们的方法在大多数类别中都优于基线。

图 8. (a) ShapeNet、(b) Pascal 3D+ 和 (c) Pix3D 数据集

单视图 3D 重建的定性比较

总结

Four

为了在 3D 建模中更好地利用真实世界的图像，我们提出了一种半监督学习方法，共同学习模型和拟合算法。虽然仍然需要 CAD 模型，我们的框架具有精心设计的表示、架构和损失函数，能够在没有 3D 地面实况的情况下有效地利用训练中的真实图像。本质上，如果室外2D图像和CAD 模型可用，我们的方法适用于任何对象类别。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列三维点云系列结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

全面感知通用目标:建模、分割和重建(CVPR2021)相关推荐

【CV】Mask R-CNN：用于目标实例分割的通用框架
论文名称:Mask R-CNN 论文下载:https://arxiv.org/abs/1703.06870 论文年份:2017 论文被引:18354(2022/05/03) Abstract We p ...
目标形体形状轮廓重建：ICCV2019论文解析
目标形体形状轮廓重建:ICCV2019论文解析 Shape Reconstruction using Differentiable Projections and Deep Priors 论文链接: ...
CVPR 2023｜UniDetector：7000类通用目标检测算法（港大清华）
作者 | CV君编辑 | 极市平台点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取点击进入→自动驾驶之心[目标检测]技术交流群导读论文中仅用了500 ...
基于区域注意的通用目标检测
Towards Universal Object Detection by Domain Attention Xudong Wa ...
三维图像分类、语义分割和重建
三维图像分类.语义分割和重建引言 1 三维数据的深度学习原理 1.1 三维数据表示方法 1.2 神经网络的优势 1.2.1 三维图的构成 1.2.2 多视觉图像 1.2.3 点云 1.2.4 图模型 ...
通用目标检测开源框架YOLOv6在美团的量化部署实战
基于美团目标检测模型开源框架 YOLOv6,本文介绍了一种通用的量化部署方案,在保持精度的同时大幅提升了检测的速度,为通用检测的工业化部署探索出一条可行之路,希望能给大家带来一些启发或者帮助. 1. ...
如何一个模型走天下？集成训练多数据集，打造通用目标检测模型方法详解
在目标检测的实际应用中,常常会出现需要泛化的目标检测系统的情况.如城市安防中,需要目标检测系统能够检测足够多类别的目标,才能达到更好的安防效果. 但目前常用的目标检测数据集中包含的类别数量有限,使用单 ...
通用目标检测的review
今晚去蹭了超强师姐的讲座,以下是今晚的笔记. 目前存在的目标检测可以分为以下几类: One-short, few-short, weakly supervised object detection:这 ...
CMMI入门-通用目标的实施- GG3
CMMI入门-通用目标的实施- GG3 如果我们说CMMI第二级是范围地把项目管理好,那么,第三级就是进行改进与提高效率.第二级的内容,主要是一些项目的先决条件与工作的举措,让项目可以高效完成与满足目 ...

全面感知通用目标:建模、分割和重建(CVPR2021)

全面感知通用目标:建模、分割和重建(CVPR2021)相关推荐

最新文章

热门文章