萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

当Transformer遇上3D点云,效果会怎么样?

一个是当下最热门的模型(NLP、图像领域表现都不错),另一个是自动驾驶领域、机器人抓取等领域的关键技术。

来自清华计算机系的团队,开发出了一个全新的PCT网络,相比于目前主流的点云分割模型PointNet,不仅参数量减少,准确度还从89.2%提升到了93.2%

而且,相比于主流的点云分割网络PointNet,分割的边缘明显更清晰:

但将Transformer推广到3D点云,相关研究还非常少。

为此,团队自己做出了一种Transformer模型,并创新了其中的一些结构,将之适配到了点云上。

将Transformer推广到点云上

点云是一个坐标系下点的数据集,包括坐标、颜色、强度等多种信息。

而3D点云,则是用点云表示三维世界的一种方法,可以想象成将三维物体进行原子化,用多个点来表示一种物体。

之所以3D建模采用点云这种方法,是因为它不仅建模速度快,而且精度高、细节更准确。

点云的生成方法,也符合激光雷达收集数据的特性,目前已经被用于自动驾驶技术中。

那么,为什么要用Transformer生成点云呢?

由于点云数据自身的不规则性和无序性,此前无法直接用卷积神经网络对点云进行处理。

如果想用深度学习处理点云相关的任务,就会非常不方便。

但当研究者们将目光放到Transformer上时,发现它的核心注意力机制,本身其实非常适合处理点云。

点云处理,需要设计一种排列不变、且不依赖于点之间连接关系的算子;注意力机制本身,就是这种算子。

加之Transformer在之前的图像任务上,都已经取得了非常不错的性能,用来做点云的话,说不定效果也不错。

因此,团队开发了一个名叫PCT(Point Cloud Transformer)的点云Transformer,成功实践了这一点。

网络结构整体分为三部分:输入嵌入、注意力层和分类分割。

输入嵌入部分的目的,是将点云从欧式空间xyz映射到128维空间。这里分为两种嵌入的方式,点嵌入和邻域嵌入,点嵌入负责单点信息,邻域嵌入则负责单点和邻域信息。

在注意力层中,作者采用了自注意力(self-attention)机制和偏置注意力(offset-attention)机制。

其中,offset-attention也是这篇论文的创新之处,作者为了让Transformer的注意力机制能更好地作用于点云,提出了这种注意力机制,性能要比自注意力机制更好。

而在分类分割操作上,作者选择对经过注意力层后的特征直接进行池化(采样),再分别进行分类和分割的下一步操作。

那么,这样的网络结构,是否效果真如想象中那么好?

参数少一半,效果还更好

事实上,从分类和分割的效果上来看,图像做得都还不错。

先看分类的效果,在ModelNet40数据集上的分类结果表明,PCT的分类精度可以达到93.2%,超越了目前所有点云的分类模型。

而在3D点云分割的效果上,模型做得也不错。

从注意力图(attention map,标量矩阵,查看层的重要性)的可视化来看,模型分割的边缘和形状也很清晰。

那么,与其他网络对比的分割效果如何呢?

下图是PCT与其他网络对比的效果。

从16类列出的物体检测精确度来看,PCT的效果达到了86.4%的水平,超过了目前所有3D点云分割的最新模型,同样达到了SOTA。

至于模型参数,最终的结果也非常不错。

其中参数最大的PCT,精度也达到了最高的93.2%,如果更侧重于小型参数量,那么NPCT和SPCT则在1.36M参数的情况下,精确度分别达到了91%和92%。

从实际对比情况来看,三种PCT网络结构的分割效果,都要比PointNet的效果好得多(最右边为初始模型)。

作者介绍

6名作者来自清华大学胡事民团队,卡迪夫大学。

清华大学计算机系的图形学实验室成立于1998年3月,相关论文曾多次在ACM SIGGRAPH、IEEE CVPR等重要国际刊物上发表。

实验室目前的主要研究方向为计算机图形学、计算机视觉、智能信息处理、智能机器人、系统软件等。

一作国孟昊,清华大学CS博士在读,来自胡事民团队。

国孟昊曾经是西安电子科技大学软件工程2016级本科生,大二曾获ACM金牌,数学建模美赛一等奖,在腾讯、商汤实习过。

目前,这一模型的相关代码已经开源,感兴趣的小伙伴可以戳文末地址查看~

PCT论文地址:
https://arxiv.org/abs/2012.09688

PCT项目地址:
https://github.com/MenghaoGuo/PCT

参考链接:
https://mp.weixin.qq.com/s/76fJy69LELdndbSqpbvRbw

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

清华团队将Transformer用到3D点云分割上后,效果好极了相关推荐

  1. 清华团队将Transformer用到3D点云分割上后,效果好极了丨开源

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 当Transformer遇上3D点云,效果会怎么样? 一个是当下最热门的模型(NLP.图像领域表现都不错),另一个是自动驾驶领域.机器人抓取 ...

  2. 清华大学胡事民是计算机视觉,清华团队将Transformer用到3D点云分割上后,效果好极了丨开源...

    萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI 当Transformer遇上3D点云,效果会怎么样? 一个是当下最热门的模型(NLP.图像领域表现都不错),另一个是自动驾驶领域.机器人抓取等 ...

  3. 清华团队将Transformer用到3D点云分割

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 当Transformer遇上3D点云,效果会怎么样? 一个是当下最 ...

  4. 收藏 | 清华团队将Transformer用到3D点云分割

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习> ...

  5. Transformer用到3D点云分割

    文章链接 git代码 来自清华计算机系的团队,开发出了一个全新的PCT网络,相比于目前主流的点云分割模型PointNet,不仅参数量减少,准确度还从89.2%提升到了93.2%.

  6. 清华大学提出点云Transformer!在3D点云分类、分割上表现优秀,核心代码已开源!...

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要5分钟 Follow小博主,每天更新前沿干货 转载自:量子位 当Transformer遇上3D点云,效果会怎么样? 一个是当下最热门的模型(N ...

  7. segMatch:基于3D点云分割的回环检测

    该论文的地址是:https://arxiv.org/pdf/1609.07720.pdf segmatch是一个提供车辆的回环检测的技术,使用提取和匹配分割的三维激光点云技术.分割的例子可以在下面的图 ...

  8. 详解3D点云分割网络 Cylindrical and Asymmetrical 3D Convolution Networksfor LiDAR Segmentation

    本文介绍一篇3D点云分割网络:Cylinder3D,论文已收录于 CVPR 2021. 这里重点是理解本文提出的 Cylindrical Partition 和 Asymmetrical 3D Con ...

  9. CVPR2020中关于3D点云分割

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:不知道叫什么好 | 来源:知乎 https://zhuanlan.zhihu.com/p/152 ...

最新文章

  1. 记一次小机器的 Python 大数据分析
  2. Midnight.js – 实现奇妙的固定头部切换效果
  3. 移动互联网高级开发学习笔记
  4. linux 验证邮箱账号,linux邮件服务器的身份验证(sasl)
  5. Bugzilla 使用指南
  6. 一图看懂软件缺陷检查涉及的内容
  7. 计算机原理期末考试,计算机原理期末考试题
  8. 5.4 机器翻译 数据集
  9. 小程序:微信小程序开发
  10. 古代汉语(王力版)笔记 通论6-7
  11. 使用爬虫下载x书视频
  12. 电脑win10计算机图标,告诉你如何显示win10计算机图标
  13. 小程序-实现 tab-及多个列表选项切换
  14. Openpcd安装过程记录
  15. 历练熟女给老实木讷男孩的恋爱建议(转贴)
  16. 双非跨考(管理跨考计算机)在努力为了研三可以去大厂工作
  17. 二维码防伪系统开发-实现了产品信息防伪的高效性
  18. python爬取东方财富网资金流向数据(在本地生成csv文件)
  19. hypermill后处理构造器安装_康明斯发动机尾气后处理系统常见故障及维修
  20. ICML 2022|达摩院多模态模型OFA,实现模态、任务和架构三个统一

热门文章

  1. 四月青少年编程组队学习(图形化四级)Task01
  2. 【建模必备】遗传算法的基本原理与步骤(变异)
  3. python文件读写1
  4. 【ACM】杭电OJ 1862
  5. 对人脑而言,阅读计算机代码和阅读语言有何不同?
  6. 大脑芯片公司Neuralink计划在人脑内植入芯片,他们到底想干什么?
  7. 结合Flink,国内自研,大规模实时动态认知图谱平台——AbutionGraph |博文精选
  8. 《评人工智能如何走向新阶段》后记(再续13)
  9. GitHub标星近1万:只需5秒音源,这个网络就能实时“克隆”你的声音
  10. 41款实用工具,数据获取、清洗、建模、可视化都有了