来源丨机器之心

编辑丨杜伟、陈萍

继 2020 年初 Facebook 开源基于 PyTorch 的 3D 计算机视觉库 PyTorch3D 之后,谷歌也于近日开源了一个基于 TF 框架的高度模块化和高效处理库 TensorFlow 3D。目前,该库已经开源。

3D 计算机视觉是一个非常重要的研究课题,选择合适的计算框架对处理效果将会产生很大的影响。此前,机器之心曾介绍过 Facebook 开源的基于 PyTorch 框架的 3D 计算机视觉处理库 PyTorch3D,该库在 3D 建模、渲染等多方面处理操作上表现出了更好的效果。

最近,另一个常用的深度学习框架 TensorFlow 也有了自己的高度模块化和高效处理库。它就是谷歌 AI 推出的 TensorFlow 3D(TF 3D),将 3D 深度学习能力引入到了 TensorFlow 框架中。TF 3D 库基于 TensorFlow 2 和 Keras 构建,使得更易于构建、训练和部署 3D 语义分割、3D 实例分割和 3D 目标检测模型。目前,TF 3D 库已经开源。

GitHub 项目地址:https://github.com/google-research/google-research/tree/master/tf3d

TF 3D 提供了一系列流行的运算、损失函数、数据处理工具、模型和指标,使得更广泛的研究社区方便地开发、训练和部署 SOTA 3D 场景理解模型。TF 3D 还包含用于 SOTA 3D 语义分割、3D 目标检测和 3D 实例分割的训练和评估 pipeline,并支持分布式训练。该库还支持 3D 物体形状预测、点云配准和点云加密等潜在应用。

此外,TF 3D 提供了用于训练和评估标准 3D 场景理解数据集的统一数据集规划和配置,目前支持 Waymo Open、ScanNet 和 Rio 三个数据集。不过,用户可以自由地将 NuScenes 和 Kitti 等其他流行数据集转化为类似格式,并在预先存在或自定义创建的 pipeline 中使用它们。最后,用户可以将 TF 3D 用于多种 3D 深度学习研究和应用,比如快速原型设计以及尝试新思路来部署实时推理系统。

下图(左)为 TF 3D 库中 3D 目标检测模型在 Waymo Open 数据集帧上的输出示例;下图(右)为 TF 3D 库中 3D 实例分割模型在 ScanNet 数据集场景上的输出示例。

3D 稀疏卷积网络

谷歌详细介绍了 TF 3D 库中提供的高效和可配置稀疏卷积骨干网络,该网络是在各种 3D 场景理解任务上取得 SOTA 结果的关键。

在 TF 3D 库中,谷歌使用子流形稀疏卷积和池化操作,这两者被设计用于更高效地处理 3D 稀疏数据。稀疏卷积模型是大多数户外自动驾驶(如 Waymo 和 NuScenes)和室内基准(如 ScanNet)中使用的 SOTA 方法的核心。

谷歌还使用各种 CUDA 技术来加速计算(如哈希算法、共享内存中分割 / 缓存滤波器以及位操作)。在 Waymo Open 数据集上的实验表明,这种实现的速度约是利用预先存在 TensorFlow 操作的实现的 20 倍。

TF 3D 库中使用 3D 子流形稀疏 U-Net 架构来提取每个体素(voxel)的特征。通过令网络提取稀疏和细微特征并结合它们以做出预测,U-Net 架构已被证实非常有效。在结构上,U-Net 网络包含三个模块:编码器、瓶颈层和解码器,它们均是由大量具有潜在池化或非池化操作的稀疏卷积块组成的。

下图为 3D 稀疏体素 U-Net 架构:

稀疏卷积网络是 TF 3D 中所提供 3D 场景理解 pipeline 的骨干。并且,3D 语义分割、3D 实例分割和 3D 目标检测模型使用稀疏卷积网络来提取稀疏体素的特征,然后添加一个或多个额外的预测头(head)来推理感兴趣的任务。用户可以通过改变编码器或解码器层数和每个层的卷积数,以及调整卷积滤波器大小来配置 U-Net 网络,从而探索不同骨干网络配置下各种速度或准确率的权衡。

TF 3D 支持的三个 pipeline

目前,TF 3D 支持三个 pipeline,分别是 3D 语义分割、3D 实例分割和 3D 目标检测。

3D 语义分割

3D 语义分割模型仅有一个用于预测每体素(per-voxel )语义分数的输出头,这些语义被映射回点以预测每点的语义标签。

下图为 ScanNet 数据集中室内场景的 3D 语义分割结果:

3D 实例分割

除了预测语义之外,3D 实例分割的另一目的是将属于同一物体的体素集中分组在一起。TF 3D 中使用的 3D 实例分割算法基于谷歌之前基于深度度量学习的 2D 图像分割。模型预测每体素的实例嵌入向量和每体素的语义分数。实例嵌入向量将这些体素嵌入至一个嵌入空间,在此空间中,属于同一物体实例的体素紧密靠拢,而属于不同物体的体素彼此远离。在这种情况下,输入的是点云而不是图像,并且使用了 3D 稀疏网络而不是 2D 图像网络。在推理时,贪婪算法每次选择一个实例种子,并利用体素嵌入之间的距离将它们分组为片段。

3D 目标检测

3D 目标检测模型预测每体素大小、中心、旋转矩阵和目标语义分数。在推理时使用 box proposal 机制,将成千上万个每体素 box 预测缩减为数个准确的 box 建议;在训练时将 box 预测和分类损失应用于每体素预测。

谷歌在预测和真值 box 角(box corner)之间的距离上应用到了 Huber 损失。由于 Huer 函数根据 box 大小、中心和旋转矩阵来估计 box 角并且它是可微的,因此该函数将自动传回这些预测的目标特性。此外,谷歌使用了一个动态的 box 分类损失,它将与真值强烈重叠的 box 分类为正(positive),将与真值不重叠的 box 分类为负(negative)。

下图为 ScanNet 数据集上的 3D 目标检测结果:

参考链接:https://ai.googleblog.com/2021/02/3d-scene-understanding-with-tensorflow.html

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

重磅!谷歌开源TensorFlow 3D场景理解库相关推荐

  1. 继Facebook开源PyTorch3D后,谷歌开源TensorFlow 3D场景理解库

    来源:机器之心本文约2000字,建议阅读5分钟谷歌于近日开源了一个基于 TF 框架的高度模块化和高效处理库 TensorFlow 3D. 继 2020 年初 Facebook 开源基于 PyTorch ...

  2. 继 Facebook 开源 PyTorch3D 后,谷歌开源 TensorFlow 3D 场景理解库

    转自:机器之心 [导语]:继 2020 年初 Facebook 开源基于 PyTorch 的 3D 计算机视觉库 PyTorch3D 之后,谷歌也于近日开源了一个基于 TF 框架的高度模块化和高效处理 ...

  3. 基于全局场景背景图和关系优化的全景3D场景理解(ICCV 2021)

    DeepPanoContext: 基于全局场景背景图和关系优化的全景3D场景理解(ICCV 2021) 论文标题:DeepPanoContext: Panoramic 3D Scene Underst ...

  4. 《安富莱嵌入式周报》第298期:迷你火星探测器,开源单片机3D实时渲染库, 开源USB工业相机,VS2022开始支持MarkDown,PC-lint 2.0发布

    往期周报汇总地址:嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - P ...

  5. 点云深度学习的3D场景理解

    转载请注明本文链接: https://www.cnblogs.com/Libo-Master/p/9759130.html PointNet: Deep Learning on Point Sets ...

  6. 谷歌开源 TensorFlow 的简化库 JAX

    谷歌开源了一个 TensorFlow 的简化库 JAX. JAX 结合了 Autograd 和 XLA,专门用于高性能机器学习研究. 凭借 Autograd,JAX 可以求导循环.分支.递归和闭包函数 ...

  7. 阿里联合学界开源大型3D场景数据集,6813个户型,几何与纹理细节丰富

    本文转载自机器之心. 机器之心专栏 机器之心编辑部 源于阿里巴巴淘系的工业生产流程,兼具质量与数量,模型包含丰富的几何与纹理细节,阿里巴巴联合学界开源的场景布局数据集 3D-FRONT 将填补大规模高 ...

  8. 机器学习实现计算不规则图形面积_谷歌开源 TensorFlow Graphics:专为 3D 图像打造的深度学习利器...

    Github 项目链接:https://github.com/tensorflow/graphics 最近几年以来,能够插入神经网络架构中的新型可区分图层在数量上有所增加.从空间转换器到可变图形渲染器 ...

  9. 提速20倍!谷歌AI发布TensorFlow 3D,智能汽车场景亲测好用

    来源丨新智元 编辑丨极市平台 导读 Google AI发布了TensorFlow 3D,将3D深度学习能力引入TensorFlow,加入3D稀疏卷积网络,在Waymo Open数据集上的实验表明,这种 ...

最新文章

  1. OpenAI推新程序包:GPU适应十倍大模型仅需增加20%训练时间
  2. python对象编程例子-python面向对象编程练习
  3. java db 10.4.13_Spring Data MongoDB 1.10.13和Mongo 3.4
  4. 用户及用户组管理(week1_day4)--技术流ken
  5. mysql 查询一个字段快还是一条记录快_mysql (优化)查询一条再筛选某个字段和直接查询该条的某个字段的效率比较...
  6. 人工智能/数据科学比赛汇总 2019.2
  7. 1.3计算机硬件的主要指标
  8. notepad格式化html代码快捷键,Notepad++中代码格式化插件NppAStyle使用介绍
  9. MySQL Sleep进程
  10. respondsToSelector
  11. WINRAR 4.00版注册方法
  12. 超五类和六类网线的区别—Vecloud
  13. Java面试题----基础
  14. huge形式_huge什么意思怎么读
  15. 大学生活这样过,校招 offer 飞来找
  16. PLL-Hyd-PEG-COOH/NH2/NHS/OH/MAL/SH/N3 聚赖氨酸-腙键-聚乙二醇-官能团的制备
  17. 连接数据库超时设置autoReconnect=true,默认重试次数调整
  18. pytorch之深度神经网络概念全面整理
  19. shell中如何判断两个字符串相等
  20. 计算机能直接识别的算法表示形式,几种常用的图像置乱算法:图像识别算法

热门文章

  1. telephony 总篇
  2. 【Linux服务器架设】存储服务器构建原理-NFS
  3. Python爬虫:抓取多级页面数据
  4. centos7系统关机命令_centos关机与重启命令
  5. Mysql:Linux 中登录mysql客户端命令行以及常用命令
  6. Windows 10 启用telnet client功能
  7. elementui 表格的简单封装
  8. 【转】浅谈程序猿的职业规划,看你如何决定自己的未来吧。
  9. WebRTC系列-网络之带宽估计和码率估计(1)
  10. C#常见错误—未将对象引用设置到对象的实例