CVPR 2022 | PTTR: 基于Transformer的三维点云目标跟踪

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨罗志鹏

来源丨商汤学术

导读

在CVPR 2022上，商汤研究院团队提出了基于Transformer的3D点云跟踪模型PTTR。PTTR首先在特征提取阶段提出利用特征关联进行采样以保存更多跟被跟踪物体相关的点，然后设计了点云关联Transformer模块进行点云特征匹配。最后，PTTR提出一个轻量化的预测修正模块来进一步提升预测的准确性。实验结果显示PTTR在多个数据集上获得显著精度提升。

论文名称: PTTR: Relational 3D Point Cloud Object Tracking with Transformer

问题和挑战

目标跟踪是一个基础的计算机视觉任务，在图像数据上已经获得了广泛的研究。近年来，随着雷达技术的发展，基于点云的目标跟踪也获得了更多的关注。点云数据有一些特有的挑战，比如点云的稀疏性、遮挡以及噪声。这些特点让我们无法直接使用基于图像的算法进行跟踪，而基于点云的跟踪算法目前还没有得到充分研究。点云跟踪的一大挑战是当物体离传感器较远时，稀疏的点云会给跟踪带来很大困难。另外，现有的点云跟踪算法主要采用余弦相似度这种线性方法进行特征的匹配，存在较大的提升空间。

方法介绍

针对以上提出的问题，我们提出了一个新颖的点云跟踪框架，如下图所示。模型分为三个阶段：在特征提取阶段，我们提出了一种新的关系感知采样方法(Relation-Aware Sampling)，利用模板和搜索区域的特征关系来进行采样，从而保存更多的前景点。在特征匹配阶段，我们提出了一个点云关系Transformer结构（Point Relation Transformer），对模板和搜索区域的特征进行有效匹配。最后我们提出一个预测修正模块（Prediction Refinement Module），通过特征采样的方式来进一步提高预测的准确性。

1. 关系感知采样(Relation-Aware Sampling)

点云的稀疏性是跟踪算法的一大挑战，而点云的特征提取通常伴随着下采样的过程。现有跟踪算法大多采用随机采样的方式，会在采样过程中在搜索区域丢掉大量的前景点，不利于后续的特征匹配。所以我们提出关系感知采样，利用模板和搜索区域的特征距离进行采样。由于模板区域大多数由目标物体上的点云组成，因此我们在搜索区域采样那些特征距离和模板尽可能小的点，就能尽可能地得到更多的前景点。如下图所示，我们对比了不同的采样方法，采样得到的点中位于3维目标框中的比例，可以明显地看到我们提出的关系感知采样最大程度地得到了前景点。

2. 关系增强匹配(Relation-Enhanced Feature Matching)

在跟踪问题中，我们需要匹配模板和搜索区域的点，大多数已有的3D单目标跟踪算法采用了特征的余弦距离，认为余弦距离小的点匹配程度高。与此不同的是，我们基于注意力机制在计算机视觉中的成功应用，设计了基于关系的注意力机制，来匹配模板和搜索区域的点云。如下图所示，我们设计的注意力模块利用了offset-attention，将query，key，value特征进行融合，并通过激活层引入非线性。具体来说，我们先通过一个self-attention模块来分别处理模板和搜索区域点云，接着我们将搜索区域点云作为query，模板区域点云作为key和value，输入到一个cross-attention，就得到了匹配之后的搜索区域点云特征。

3. 从粗到细的预测(Coarse-to-Fine Tracking Prediction)

大多数已有的3D单目标跟踪算法都简单地使用了3D检测器的预测模块，例如Votenet，RPN等。我们认为类似的检测预测模块不可避免地引入了多余的计算，导致了效率的降低。因此我们提出了一个新的预测修正模块，该模块通过从模板点云，搜索点云，融合后的搜索点云分别取出对应点云特征，将他们结合后直接预测。本质上，我们让搜索区域的每一个点，通过不同阶段的特征预测一个proposal。在inference阶段，我们将得分最高的那个proposal作为预测结果。

4. 数据集

除了方法上的贡献，我们还提出了一个基于Waymo Open Dataset新的大规模点云跟踪数据集。由于Waymo中对于每个目标都标注了对应的ID，因此可以提取出某个ID在不同时刻的位置信息，基于此，我们制作了Waymo的单目标跟踪数据集，如下表所示，我们制作的Waymo跟踪数据集在数据量上远远超过了KITTI，为学术界在大数据集上进一步的研究提供了一个baseline。

5. 实验

我们在KITTI， Waymo数据集上分别对比了PTTR和其他模型的效果，如下表所示，可以看到PTTR相比于已有的方法的优势。

为了验证每个模块的效果，我们进行了各种消融实验，实验结果也验证了我们提出的每个模块的有效性。

结语

在本文中，我们提出了一种新的3D点云跟踪模型。它利用关系感知采样来缓解点云稀疏的问题，利用Transformer的注意力机制完成有效的特征匹配，并且利用局部特征采样来进一步提升预测准确性。实验表明我们提出的该方法有效提高了点云跟踪的性能。

传送门

PTTR 的相关代码目前已经开源，欢迎各位同学使用和交流。

论文地址

https://arxiv.org/pdf/2112.02857.pdf

项目地址

https://github.com/Jasonkks/PTTR

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

CVPR 2022 | PTTR: 基于Transformer的三维点云目标跟踪相关推荐

matlab 光度三维重构 code,基于matlab的三维点云数据三维重建
基于matlab的三维点云数据三维重建,通过快速构建三角网,实现三维模型的建立,并提供实例数据用于实验. 三维重建的英文术语名称是3D Reconstruction. 三维重建是指对三维物体建立适合计 ...
三维点云目标提取总结（续）
三维点云目标提取(续) 3.三维点云目标提取 3.1一般流程先根据个人认识总结一下目标提取的一般性步骤: 如上所示,三维点云的目标提取关键性的两步即为:特征提取与选择.分类,是不是整个方法流程与图像 ...
P2B: Point-to-Box Network 点云目标跟踪（CVPR 2020）
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者: 不知道叫什么好 https://zhuanlan.zhihu.com/p/146512901 ...
基于特征点匹配的自适应目标跟踪算法
基于特征点匹配的自适应目标跟踪算法 2016-01-29 13:11 摘要:由于实际场景复杂多变,目标在运动过程中往往会出现形变.遮挡等问题,增加了跟踪的难度.为了解决上述问题,提出一种基于特征点匹 ...
kcf算法流程_基于运动检测与KCF算法的目标跟踪方法
基于运动检测与 KCF 算法的目标跟踪方法易诗,唐文 [摘要] 摘要:近年来机器视觉技术广泛采用于各个领域,本文设计实现了一种基于运动检测与 KCF 算法的目标跟踪方法,该方法相对于传统单一 ...
二十八. 智能驾驶笔记之基于PointNet++的三维点云分类和语义分割
第一部分基于三维点云的分类和语义分割介绍第二部分 PointNet和PointNet++ 第三部分 PointNet++关键代码分析第一部分基于三维点云的分类和语义分割介绍基于二维图像的神经 ...
IROS 2021 | PTT：把Transformer应用到3D点云目标跟踪任务
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 PTT: Point-Track-Transformer Module for 3D Single Obje ...
CVPR 2019 | 亮风台发布全球最大单目标跟踪数据集LaSOT
点击我爱计算机视觉标星,更快获取CVML新技术 CVPR 2019 正在美国加州举行,发布交流来自全球的工业界与学术界最新研究成果. 会上,亮风台公开大规模单目标跟踪高质量数据集LaSOT,包含超过3 ...
超强！MDETR：基于Transformer的端到端目标检测神器！开源！
点上方计算机视觉联盟获取更多干货仅作学术分享,不代表本公众号立场,侵权联系删除转载于:知乎:Sophia https://zhuanlan.zhihu.com/p/394548458 AI博士笔记 ...

CVPR 2022 | PTTR: 基于Transformer的三维点云目标跟踪

CVPR 2022 | PTTR: 基于Transformer的三维点云目标跟踪相关推荐

最新文章

热门文章