重磅！谷歌开源TensorFlow 3D场景理解库

来源丨机器之心

编辑丨杜伟、陈萍

继 2020 年初 Facebook 开源基于 PyTorch 的 3D 计算机视觉库 PyTorch3D 之后，谷歌也于近日开源了一个基于 TF 框架的高度模块化和高效处理库 TensorFlow 3D。目前，该库已经开源。

3D 计算机视觉是一个非常重要的研究课题，选择合适的计算框架对处理效果将会产生很大的影响。此前，机器之心曾介绍过 Facebook 开源的基于 PyTorch 框架的 3D 计算机视觉处理库 PyTorch3D，该库在 3D 建模、渲染等多方面处理操作上表现出了更好的效果。

最近，另一个常用的深度学习框架 TensorFlow 也有了自己的高度模块化和高效处理库。它就是谷歌 AI 推出的 TensorFlow 3D（TF 3D），将 3D 深度学习能力引入到了 TensorFlow 框架中。TF 3D 库基于 TensorFlow 2 和 Keras 构建，使得更易于构建、训练和部署 3D 语义分割、3D 实例分割和 3D 目标检测模型。目前，TF 3D 库已经开源。

GitHub 项目地址：https://github.com/google-research/google-research/tree/master/tf3d

TF 3D 提供了一系列流行的运算、损失函数、数据处理工具、模型和指标，使得更广泛的研究社区方便地开发、训练和部署 SOTA 3D 场景理解模型。TF 3D 还包含用于 SOTA 3D 语义分割、3D 目标检测和 3D 实例分割的训练和评估 pipeline，并支持分布式训练。该库还支持 3D 物体形状预测、点云配准和点云加密等潜在应用。

此外，TF 3D 提供了用于训练和评估标准 3D 场景理解数据集的统一数据集规划和配置，目前支持 Waymo Open、ScanNet 和 Rio 三个数据集。不过，用户可以自由地将 NuScenes 和 Kitti 等其他流行数据集转化为类似格式，并在预先存在或自定义创建的 pipeline 中使用它们。最后，用户可以将 TF 3D 用于多种 3D 深度学习研究和应用，比如快速原型设计以及尝试新思路来部署实时推理系统。

下图（左）为 TF 3D 库中 3D 目标检测模型在 Waymo Open 数据集帧上的输出示例；下图（右）为 TF 3D 库中 3D 实例分割模型在 ScanNet 数据集场景上的输出示例。

3D 稀疏卷积网络

谷歌详细介绍了 TF 3D 库中提供的高效和可配置稀疏卷积骨干网络，该网络是在各种 3D 场景理解任务上取得 SOTA 结果的关键。

在 TF 3D 库中，谷歌使用子流形稀疏卷积和池化操作，这两者被设计用于更高效地处理 3D 稀疏数据。稀疏卷积模型是大多数户外自动驾驶（如 Waymo 和 NuScenes）和室内基准（如 ScanNet）中使用的 SOTA 方法的核心。

谷歌还使用各种 CUDA 技术来加速计算（如哈希算法、共享内存中分割 / 缓存滤波器以及位操作）。在 Waymo Open 数据集上的实验表明，这种实现的速度约是利用预先存在 TensorFlow 操作的实现的 20 倍。

TF 3D 库中使用 3D 子流形稀疏 U-Net 架构来提取每个体素（voxel）的特征。通过令网络提取稀疏和细微特征并结合它们以做出预测，U-Net 架构已被证实非常有效。在结构上，U-Net 网络包含三个模块：编码器、瓶颈层和解码器，它们均是由大量具有潜在池化或非池化操作的稀疏卷积块组成的。

下图为 3D 稀疏体素 U-Net 架构：

稀疏卷积网络是 TF 3D 中所提供 3D 场景理解 pipeline 的骨干。并且，3D 语义分割、3D 实例分割和 3D 目标检测模型使用稀疏卷积网络来提取稀疏体素的特征，然后添加一个或多个额外的预测头（head）来推理感兴趣的任务。用户可以通过改变编码器或解码器层数和每个层的卷积数，以及调整卷积滤波器大小来配置 U-Net 网络，从而探索不同骨干网络配置下各种速度或准确率的权衡。

TF 3D 支持的三个 pipeline

目前，TF 3D 支持三个 pipeline，分别是 3D 语义分割、3D 实例分割和 3D 目标检测。

3D 语义分割

3D 语义分割模型仅有一个用于预测每体素（per-voxel ）语义分数的输出头，这些语义被映射回点以预测每点的语义标签。

下图为 ScanNet 数据集中室内场景的 3D 语义分割结果：

3D 实例分割

除了预测语义之外，3D 实例分割的另一目的是将属于同一物体的体素集中分组在一起。TF 3D 中使用的 3D 实例分割算法基于谷歌之前基于深度度量学习的 2D 图像分割。模型预测每体素的实例嵌入向量和每体素的语义分数。实例嵌入向量将这些体素嵌入至一个嵌入空间，在此空间中，属于同一物体实例的体素紧密靠拢，而属于不同物体的体素彼此远离。在这种情况下，输入的是点云而不是图像，并且使用了 3D 稀疏网络而不是 2D 图像网络。在推理时，贪婪算法每次选择一个实例种子，并利用体素嵌入之间的距离将它们分组为片段。

3D 目标检测

3D 目标检测模型预测每体素大小、中心、旋转矩阵和目标语义分数。在推理时使用 box proposal 机制，将成千上万个每体素 box 预测缩减为数个准确的 box 建议；在训练时将 box 预测和分类损失应用于每体素预测。

谷歌在预测和真值 box 角（box corner）之间的距离上应用到了 Huber 损失。由于 Huer 函数根据 box 大小、中心和旋转矩阵来估计 box 角并且它是可微的，因此该函数将自动传回这些预测的目标特性。此外，谷歌使用了一个动态的 box 分类损失，它将与真值强烈重叠的 box 分类为正（positive），将与真值不重叠的 box 分类为负（negative）。

下图为 ScanNet 数据集上的 3D 目标检测结果：

参考链接：https://ai.googleblog.com/2021/02/3d-scene-understanding-with-tensorflow.html

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近3000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

重磅！谷歌开源TensorFlow 3D场景理解库相关推荐

继Facebook开源PyTorch3D后，谷歌开源TensorFlow 3D场景理解库
来源:机器之心本文约2000字,建议阅读5分钟谷歌于近日开源了一个基于 TF 框架的高度模块化和高效处理库 TensorFlow 3D. 继 2020 年初 Facebook 开源基于 PyTorch ...
继 Facebook 开源 PyTorch3D 后，谷歌开源 TensorFlow 3D 场景理解库
转自:机器之心 [导语]:继 2020 年初 Facebook 开源基于 PyTorch 的 3D 计算机视觉库 PyTorch3D 之后,谷歌也于近日开源了一个基于 TF 框架的高度模块化和高效处理 ...
基于全局场景背景图和关系优化的全景3D场景理解（ICCV 2021）
DeepPanoContext: 基于全局场景背景图和关系优化的全景3D场景理解(ICCV 2021) 论文标题:DeepPanoContext: Panoramic 3D Scene Underst ...
《安富莱嵌入式周报》第298期：迷你火星探测器，开源单片机3D实时渲染库, 开源USB工业相机，VS2022开始支持MarkDown，PC-lint 2.0发布
往期周报汇总地址:嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - P ...
点云深度学习的3D场景理解
转载请注明本文链接: https://www.cnblogs.com/Libo-Master/p/9759130.html PointNet: Deep Learning on Point Sets ...
谷歌开源 TensorFlow 的简化库 JAX
谷歌开源了一个 TensorFlow 的简化库 JAX. JAX 结合了 Autograd 和 XLA,专门用于高性能机器学习研究. 凭借 Autograd,JAX 可以求导循环.分支.递归和闭包函数 ...
阿里联合学界开源大型3D场景数据集，6813个户型，几何与纹理细节丰富
本文转载自机器之心. 机器之心专栏机器之心编辑部源于阿里巴巴淘系的工业生产流程,兼具质量与数量,模型包含丰富的几何与纹理细节,阿里巴巴联合学界开源的场景布局数据集 3D-FRONT 将填补大规模高 ...
机器学习实现计算不规则图形面积_谷歌开源 TensorFlow Graphics：专为 3D 图像打造的深度学习利器...
Github 项目链接:https://github.com/tensorflow/graphics 最近几年以来,能够插入神经网络架构中的新型可区分图层在数量上有所增加.从空间转换器到可变图形渲染器 ...
提速20倍！谷歌AI发布TensorFlow 3D，智能汽车场景亲测好用
来源丨新智元编辑丨极市平台导读 Google AI发布了TensorFlow 3D,将3D深度学习能力引入TensorFlow,加入3D稀疏卷积网络,在Waymo Open数据集上的实验表明,这种 ...

重磅！谷歌开源TensorFlow 3D场景理解库

重磅！谷歌开源TensorFlow 3D场景理解库相关推荐

最新文章

热门文章