点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

基于点云的场景理解是目前特别具有挑战性的任务,本文作者提出了一种从三维场景点云中重建高精度物体网格的学习框架RfD-Net,把重建问题转变为“先检测,再重建”。

论文已被CVPR 2021收录。

论文链接:

https://arxiv.org/abs/2011.14744

代码链接:

https://github.com/yinyunie/RfDNet

项目主页:

https://yinyunie.github.io/RfDNet-Page/

一、引言

基于点云的场景理解是目前特别具有挑战性的任务,先前的工作主要是将点云转化为规则的网格,如体素和鸟瞰图,然后使用基于网格的卷积来进行场景理解。然而,基于网格的三维卷积往往需要消耗巨大的算力,从而以往的方法往往只能在低分辨率的状况下进行,并且,由于点云具有稀疏性和不规则的特点,将其直接转化为网格的卷积来进行场景的重建并不很合适。

二、文章思路

我们对于点云的语义实例重建提出了一种“先检测再重建”(reconstruction-from-detection)的框架,并主要有以下贡献:

1.我们为语义实例重建提供了一种新颖的学习方式,先前的方法严重依赖三维卷积来在体素化场景中进行学习,据我们所知,这是第一个直接从点云通过几何预测实例语义的一种学习方法,并且取得了不错的效果,如图1。

图1

2.我们提出了一种新的端到端结构,即RfDNet,用于从稀疏点云中学习对象语义和形状,它将语义实例重构分解为全局目标定位和局部形状预测,并通过跳转传播模块进行桥接,以便于联合学习。通过这种方式,我们的形状生成器支持隐式学习,这直接克服了现有技术中的分辨率瓶颈。

3.联合学习对象的姿势和形状相互促进,该方法在现有的检测主干上同样有效果,达到了了实例检测与补全的最新水平,在目标重建中提高了11个以上的IoU

三、网络框架

图2是网络的整体框架,主要思路是通过目标检测来进行三维重建,该网络由三个模块组成:三维检测器模块(3D detector),空间变换器模块(spatial transformer)和形状生成器模块(shape generator)

我们尽可能通用的设计这些模块来使其与现有的基于点云的三维网络主干兼容。具体来说,先让输入点云通过三维检测器模块在稀疏的三维场景中来产生包围盒的参数,接着我们设计了一个空间转换器模块来过滤冗余包围盒 (负样本) ,并对包围盒内的点进行聚合与对齐。最后,让聚合的物体点云通过形状生成模块将其转换至规范坐标系,再独立的学习一个隐式的空间占用函数来重建形状。

图2

1. 三维检测器模块

三维检测器模块可以从点云学习物体候选包围盒 (object proposals) 。首先,对于输入的点云,我们采用VoteNet[1]作为框架来产生候选包围盒,并以此为特征来预测包围盒的参数,包括包围盒中心,尺度,角度,语义标签和空间占有分数 (objectness score) ,当一个候选包围盒的中心与真实值之间的差距小于0.3m时,空间占有分数取正;当与真实值之间的差距大于0.6m时取负。最后我们使用了两层的多层感知机来回归包围盒的参数。

2. 空间变换器模块

该模块分为两部分:目标包围盒选取 (objectness dropout) 和点云聚合与对齐 (group&align) 。在目标选取 (objectness dropout) 部分的输入为“三维检测”部分输出的所有候选包围盒参数。输出为物体空间占有分数较高的物体包围盒。物体点云聚合与对齐 (group&align) 的目的是将原始点云聚类到物体包围盒中,并转换到局部规范坐标系。首先,由于之前提取出的物体包围盒过多,我们采用top-N dropout保留得分较高的物体包围盒;在聚合与对齐 (group&align) 部分,我们对原始点云进行采样,并聚类到以各个包围盒中心为球心的球中,并将这部分点云从世界坐标系转换到各自的局部坐标系中,最后,我们让这些点通过一个规范化系统来消除平移和旋转的误差来对齐坐标系。

3. 形状生成器模块

该模块具体细节如图3所示,分为特征编码 (skip propogation) ,形状解码 (shape decoder) 和网格生成 (marching cubes[2]) 三部分。

图3

在“特征编码”部分中,我们使用Pointnet[3],将每个box proposal中的点分为前景和背景,提取前景中的点之后,与之前“三维目标检测”提取出的proposal特征合并,再使用带有残差连接的Pointnet将合并后的特征编码成新的特征,这部分特征可以看作融合了局部信息与全局信息 (如三维形状,语义标签等) 。然后,在“形状解码”部分 (如图4) :

图4

我们采用条件Batch Normalization层回归出占用值 (occupancy values),将其与点和proposal特征一起送入隐式编码器中,回归出一个高斯分布的均值与标准差,再从这个分布上采样,得到一个隐式编码。最后,我们将隐式编码与点一起送入条件层块(conditional block),回归出最终的点占有值 (occupancy value) 。得到了最终的占用值后,我们采用marching cubes算法生成最终的网格。

4. 端到端的学习

我们提出的这个端到端的学习的损失函数分两部分,分别为包围盒损失(box loss)和形状损失(shape loss)

包围盒损失:三维检测器是用来预测物体空间占有分数 (objectness score) ,包围盒中心,尺度,角度和语义标签的,对于objectness score,我们设定阈值选取objectness score为正的点;对于包围盒中心,我们选用平滑L1损失函数;我们将尺度与角度的损失函数设为一个分类损失函数 (交叉熵) 与一个回归损失函数(平滑L1损失函数)的混合;对于语义标签,我们使用的是交叉熵损失函数;最后,由于我们使用了VoteNet作为主干,故又引入了一个投票损失函数。总体的包围盒损失函数如下:

形状损失函数:对于每个proposal里的点,我们使用了交叉熵损失函数来监督前景分割,形状生成器从我们采样的潜在编码 (latent code) 来学习均值和方差去近似训练中的标准正态分布,故形状损失函数可以写作:

最终的损失函数为包围盒损失与形状损失函数的线性组合:

四、实验分析

文章跟目前最新方法RevealNet进行了详细定性和定量对比。从定性结果 (图5) 可以看出,我们的方法能够预测更加准确的物体位置以及几何形状。物体几何分辨率也得到了极大地提升。

图5

定量分析中,文章主要与现有方法在场景补全 (表1) ,物体检测 (表2) ,物体重建 (表3) 方面进行了详细对比。结果均表示本文方法达到了最高分数。详细分析结果见文章。

表1、2、3

除此之外,文章还对不同点云数量输入进行了测试 (图6) 。结果显示,即使输入少量的点云,本文依然可以重建出较为合理的实例网格。

图6

五、总结

我们提出了一种全新的学习模型,即RfDNet,用于直接从点云进行语义实例重建。该方法把重建问题转变为“先检测,再重建”。实例的形状由全局的目标位置和局部的形状来预测,这将会使三维检测器模块和形状生成模块相互促进。此外,实验还证实了我们的方法在场景重建中会得到高质量的网格并且在目标重建,三维检测以及语义实例分割的对比中都比已有方法表现更好。

References:

[1]Qi, C. R., Litany, O., He, K., & Guibas, L. J. (2019).Deep hough voting for 3d object detection in point clouds. In Proceedings ofthe IEEE/CVF International Conference on Computer Vision (pp. 9277-9286).

[2]Lorensen, W. E., & Cline, H. E. (1987). Marching cubes: Ahigh resolution 3D surface construction algorithm. ACM siggraph computergraphics, 21(4), 163-169.

[3]Fan,H., Su, H., & Guibas, L. J. (2017). A point set generation network for 3dobject reconstruction from a single image. In Proceedings of the IEEEconference on computer vision and pattern recognition (pp. 605-613).

//

 作者介绍 

项目主要由香港中文大学(深圳)GAP实验室韩晓光博士带领主导完成。

该工作主要完成人聂隐愚,目前为慕尼黑工业大学Visual Computing Group博士后。团队成员还包括慕尼黑工业大学博士生侯骥与Matthias Niessner教授。

GAP实验室:

https://mypage.cuhk.edu.cn/academics/hanxiaoguang/index.html

TUMVisual Computing Group:

https://niessnerlab.org/

个人主页:

http://yinyunie.github.io/

Illustration by Oleg Shcherba from Icons8

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

CVPR 2021 | RfD-Net: 从点云中重建三维物体实例相关推荐

  1. 从点云中重建三维物体实例RfD-Net

    依赖项目: https://github.com/erikwijmans/Pointnet2_PyTorch 好像没有开源预训练: 基于点云的场景理解是目前特别具有挑战性的任务,本文作者提出了一种从三 ...

  2. CVPR 2021 | 基于Transformer的端到端视频实例分割方法

    实例分割是计算机视觉中的基础问题之一.目前,静态图像中的实例分割业界已经进行了很多的研究,但是对视频的实例分割(Video Instance Segmentation,简称VIS)的研究却相对较少.而 ...

  3. 66篇论文入选CVPR 2021,商汤的秘籍竟是“大力出奇迹”

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI CVer ...

  4. 用于点云视频时空建模的点4D transformer网络(CVPR 2021)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨paopaoslam@知乎 来源丨 泡泡机器人SLAM 标题:Point 4D Transfor ...

  5. CVPR 2021 | 论文大盘点:3D目标检测

    作者丨我爱计算机视觉@知乎 来源丨https://zhuanlan.zhihu.com/p/389319123 编辑丨3D视觉工坊 本篇汇总 3D 目标检测相关论文,包含基于单目.基于深度图.基于激光 ...

  6. CVPR 2021 | 跨模态点云补全新框架ViPC:用单一视图推断完整信息

     OPPO 随着CVPR 2021的落幕,越来越多专业论文进入大众视野.OPPO研究院团队与清华大学等多个机构学者群策群力, 基于点云数据不完整的问题联合提出了一种名为ViPC(view-guided ...

  7. 商汤 CVPR 2021的优异成绩单!

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 本届 ...

  8. 3D点云生成的扩散概率模型(CVPR 2021)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨paopaoslam 来源丨 泡泡机器人SLAM 标题:Diffusion Probabilis ...

  9. 字节跳动多篇论文入选 CVPR 2021,精选干货都在这里了

    CVPR 2021,近期刚刚落下帷幕. 作为计算机视觉领域三大顶级学术会议之一,CVPR每年都吸引了各大高校.科研机构与科技公司的论文投稿,许多重要的计算机视觉技术成果都在CVPR上中选发布. 今天, ...

最新文章

  1. PyTorch如何构建和实验神经网络
  2. #Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】
  3. 送书 | 经典框架Kaldi配套的语音识别实战
  4. 推荐一个优化分页查询的办法(分页数很大的情况)
  5. gitd mysql_MySQL GTID (一)
  6. ESP8266 多通道
  7. C++11 函数模板的默认模板参数
  8. 利用new Object创建对象
  9. linux mysql 数据恢复_怎样恢复Mysql数据库误删除后的数据
  10. 华为双前置摄像头_华为P40系列的前置双摄像头到底隐藏了什么?我们一起来看看...
  11. java相对路径的写法格式_java相对路径的写法
  12. 熬夜肝出囊括Java后端95%的面试题解析
  13. linux挂载u盘显示目录忙,linux下挂载u盘及iso8859-1 not found错误解决
  14. Oracle备份与恢复
  15. 系统渗透与防护——网络安全
  16. 小学生机器人编程是学的什么
  17. python *args和**kwds
  18. Ubuntu系统修复
  19. Qt设计师汉化方法总结
  20. win7c盘空间越来越小_系统盘空间越来越小,清理垃圾也没用,怎么办?

热门文章

  1. MySql错误代码1045的解决方案(修改密码)
  2. .net framework 注册到IIS上
  3. C#使用BerkeleyDB操作简介
  4. GIT之git常用配置和操作
  5. Arthas 实践——生产环境排查 CPU 飚高问题
  6. 全民K歌推荐后台架构
  7. 为什么Eureka比ZooKeeper更适合做注册中心?
  8. 互联网技术都应该了解的一种数据格式——JSON
  9. IT人面试必看!25个雷区和11个必问句!
  10. 亿级PV物联网的基础架构