点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨paopaoslam

来源丨 泡泡机器人SLAM

标题:PCT: Point cloud transformer

作者:Meng-Hao Guo, Jun-Xiong Cai, Zheng-Ning Liu, Tai-Jiang Mu, Ralph R. Martin, and Shi-Min Hu

来源:CVM 2021

编译:林逸泰

审阅:王志勇

摘要

不规则与无序性使得设计处理点云的神经网络非常具有挑战性。本文提出了一种新的点云学习框架PCT(Point Cloud Transformer)。Transformer在自然语言处理方面取得了巨大的成功,在图像处理方面显示出巨大的潜力。它在处理点序列时具有固有的置换不变性,非常适合点云学习。为了更好地捕获点云中的局部上下文,我们利用最远点采样和最近邻搜索来增强输入的嵌入(input embedding)。大量实验表明,PCT在形状分类、部分分割、语义分割和法向量估计任务方面达到了最好的性能。

主要贡献

  • 我们提出了一种新的基于Transformer的点云学习框架PCT,该框架非常适合于非结构化、无序的不规则点云数据。

  • 我们提出了使用隐式拉普拉斯算子和归一化函数的offset-attention模块,与Transformer中的原始自注意模块相比,该函数具有固有的置换不变性,更适合点云学习。

  • 大量的实验表明,带有显式局部上下文增强的PCT在形状分类、部分分割和法向估计任务上取得了最好的性能。

主要方法

PCT结构

图中展示了分类和语义分割两个分支。编码器主要包括一个输入嵌入模块和四个堆叠的注意模块。解码器主要由多个线性层组成。每个模块上面的数字表示其输出通道。MA-Pool连接Max-Pool和Average-Pool。LBR结合了线性层、BatchNorm层和ReLU层。LBRD的意思是LBR后面跟着一个Dropout层。

Offset-Attention结构

张量上面的数字是维度N和特征通道D的数量,switch表示了Self-Attention或Offset-Attention,其中虚线为Self-Attention分支。它们最大的区别在最后的线性层的输入是Attention的计算结果还是Attention的计算结果减去输入。

Neighbor embedding结构

这个结构包含了两个LBR层和两个SG(采样和聚类)层。左:Neighbor embedding结构。中间:SG模块,有N个输入点,d个输入通道,k个邻居,N个输出采样点,d个输出通道。右上:采样(彩色球代表采样点)。右下:k-NN邻居分组。LBR上面的数量:输出通道的数量。SG以上个数:采样点个数及其输出通道个数。

实验结果

ModelNet40上的分类

ModelNet40上的法向估计

ShapeNet上的部分分割

S3DIS上Area5的语义分割

Abstract

The irregular domain and lack of ordering make it challenging to design deep neural networks for point cloud processing. This paper presents a novel framework named Point Cloud Transformer (PCT) for point cloud learning. PCT is based on Transformer, which achieves huge success in natural language processing and displays great potential in image processing. It is inherently permutation invariant for processing a sequence of points, making it well-suited for point cloud learning. To better capture local context within the point cloud, we enhance input embedding with the support of farthest point sampling and nearest neighbor search. Extensive experiments demonstrate that the PCT achieves the state-of-the-art performance on shape classification, part segmentation, semantic segmentation, and normal estimation tasks.

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

CVM2021| PCT: Point cloud transformer(分类+分割任务SOTA)相关推荐

  1. PCT: Point Cloud Transformer

    PCT:点云Transformer Meng-Hao Guo Tsinghua University gmh20@mails.tsinghua.edu.cn Jun-Xiong Cai Tsinghu ...

  2. 论文解读PCT: Point Cloud Transformer(用于点云处理的Transformer)

    最近几年transformer越来越火,在NLP.CV等领域都取得了很大的成功.这篇文章作者利用了transformer能够处理无序数据的特点,将transformer应用到点云的处理上.它的想法是基 ...

  3. Point Cloud Transformer(PCT)阅读翻译

    PCT: Point Cloud Transformer 1. Introduction transformer是一种 encoder-decoder结构,包含了三个模块:输入词嵌入,位置(顺序)编码 ...

  4. 【3D目标分类】PCT:Point Cloud Transformer

    文章目录 前言 摘要 1.介绍 2.相关工作 3.Transformer for Point Cloud Representation 3.1. Point Cloud Processing with ...

  5. Point Cloud Transformer(PCT)代码实现

    Point Cloud Transformer(PCT)代码实现 目前最火热的Transformer在自然语言和图像识别中扮演了极其重要的角色,在点云数据集中也不例外,清华大学近期提出在点云中运用Tr ...

  6. 论文阅读 PCT:Point Cloud Transformer

    论文阅读 PCT:Point Cloud Transformer PCT 介绍 Input Embedding native 版本 enhanced 版本 Attention PCT 介绍 PCT是基 ...

  7. 卷积神经网络必读的100篇经典论文,包含检测/识别/分类/分割多个领域

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 参考|学术头条 编辑|极市平台 作为深度学习的代表算法之一,卷积神经 ...

  8. 论文大盘点|卷积神经网络必读的100篇经典论文,包含检测/识别/分类/分割多个领域...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自:极市平台 作为深度学习的代表算法之一,卷积神经网络(Convolution ...

  9. 大盘点|卷积神经网络必读的 100 篇经典论文,包含检测 / 识别 / 分类 / 分割多个领域

    关注极市平台公众号(ID:extrememart),获取计算机视觉前沿资讯/技术干货/招聘面经等 原文链接:大盘点|卷积神经网络必读的 100 篇经典论文,包含检测 / 识别 / 分类 / 分割多个领 ...

最新文章

  1. 基于Springboot实现的固废物管理系统
  2. c语言赋值小数,c语言中将一个浮点型赋值给整型时,会不会四舍五入?
  3. Chrome浏览器对我的改变
  4. 原好未来CFO罗戎加盟百度 出任百度集团CFO
  5. Mac设置多屏幕的时候程序坞的位置
  6. java判断用户是否在某一个区域登录_单点登录实现原理
  7. SuperPoint学习---demo代码理解
  8. python通过类名创建对象_如何在Python中为自动创建的类对象分配名称
  9. 工程伦理 期末考试答案2022夏
  10. 【性能优化实战】日语java开发相关词汇
  11. python 网络音乐播放器(二):tkinter 实现歌词同步滚动
  12. android修改状态栏图标大小,安卓手机状态栏图标位置修改教程
  13. STM32定时器产生指定个数脉冲
  14. 小白入门之HTML--第四章 CSS样式深入
  15. 海洋cms标签-海洋cms模板标签手册-海洋cms模板标签全套
  16. 3.Ubuntu 安装Pinta图片处理工具
  17. pytorch中批量归一化BatchNorm1d和BatchNorm2d函数
  18. VMware Workstation Pro虚拟机安装Windows server 2008 r2
  19. 无缝滚动--基本实现
  20. 读书分享(万历十五年/圆圈正义)

热门文章

  1. 0308-标签的用法(a,ul/ol,table)
  2. 赠 看穿一切的var_dump
  3. IBM与思科在融合型基础设施领域实现另一突破
  4. MySQL count(*)空表为何会很慢
  5. oracle数据库备份恢复篇(一)
  6. 扫描 VNC 的脚本
  7. 官方iPhone SDK和开源工具链
  8. linux查看硬件和系统信息的相关命令简介
  9. 微软开放 .NET 框架源代码
  10. 2、String相关问题