解析激光雷达中时序融合的研究现状和发展方向

本文转自：计算机视觉联盟

在自动驾驶领域，基于激光雷达 (LiDAR) 的3D物体检测和运动行为预测是一种普遍的方案。目前绝大部分关于激光雷达的物体检测算法都是基于单帧的。激光雷达的多帧时序数据，提供了对于检测物体的多视角观测 (multiple views)，历史记忆 (history memory)，安全冗余 (redundant safty)，以及运动特征 (motion kinematics) 等丰富的信息；可用来帮助提高检测速度和精度，并且增加检测结果的可靠性。对于感知的下游模块，例如追踪和预测，时序信息则更为重要。

在传统视频理解领域，时序信息融合研究相对比较成熟，具体方法主要通过后处理 (post-processing) 来建立检测物体间的对应关系 [1,2]；借助光流 (optical flow) 跨越多帧来传播高层特征 [3,4]；或者利用记忆对准 (memory alignment) 直接融合多帧特征信息 [5,6]。相较于视频或者图像，激光雷达的点云非常稀疏，导致对其提取的特征图谱 (feature maps) 也非常稀疏；此外，在点云鸟瞰图 (bird’s eye view) 中绝大多数前景物体如车辆和行人只占据很小的空间范围。所以如何有效融合激光雷达的时序信息对于学术界和工业界仍然是一个开放的问题。

时序融合—3D物体检测

FaF是一个具有代表性的考虑激光雷达时序信息的物体检测和行为预测算法：《Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net》发表于CVPR 2018。该论文提出了一种结合检测，跟踪和预测于一体的网络结构。通常自动驾驶系统包含检测，跟踪，轨迹预测与规划等模块，下游模块以上游模块的结果作为输入。这样的解决方案存在一个问题，即每个模块的误差会在下游逐步累积，例如误检或漏检的物体会对后续的跟踪与预测带来很大影响，从而造成错误的规划，最终对乘车舒适度甚至安全造成负面影响。FaF提出了一种端到端的网络用以同时完成检测，追踪和预测三项任务，从而在一定程度上缓解了各个模块错误的逐级累积。其具体做法是首先将相邻若干帧激光雷达扫描得到的点云转换到同一坐标系下，把每一帧的点云进行体素化 (voxelization)；同时为了避免在单帧上使用3D卷积及其所引入的计算复杂度，将高度这一维作为通道 (channel)，从而将每一帧表示成为一个三维张量以便使用2D卷积处理。网络以多帧点云的鸟瞰图作为输入，直接输出当前输入5帧的检测结果以及未来10帧的预测结果 (如下图所示)。

对于多帧点云的时序信息，FaF提出了两种融合方式：早期融合 (early fusion) 和后期融合 (late fusion)，具体做法如下图所示。早期融合 (下图a) 对输入的每一帧体素表示采取1D时间卷积，空间维度共享权重，将多帧信息合并在一起。这种做法十分高效，可以达到和单帧几乎一样的检测速度；论文中的实验指出，单帧处理需要9ms，早期融合处理5帧需要11ms；但早期融合的缺点是无法准确地捕捉复杂的运动信息。后期融合 (下图b) 则采取逐级融合的方式，通过3D时空卷积逐步将多帧时序信息融合在一起。论文在Uber内部数据集上报告的结果显示，后期融合效果最好，但推理时间也相应增加到30ms。

最近的一篇关于激光雷达时序融合的论文《LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention》收录于CVPR 2020。该论文首先利用图神经网络 (graph neural networks) 构建体柱信息传输网络PMPNet (Pillar Message Passing Network) 从而增加每个体柱特征的感受野 (receptive field) 来增强单帧激光雷达的特征提取。文中进一步提出了结合注意力机制的门控循环卷积AST-GRU (Attentive Spatio-temporal Transformer GRU) 进行时空建模。AST-GRU包含两部分：STA(Spatial Transformer Attention)和TTA (Temporal Transformer Attention)。STA关注于前景物体检测，TTA用以处理运动物体在特征图谱上的对齐，具体操作是通过可变形卷积(deformable convolution) 来对齐前后两帧特征图谱中的运动物体。该方法的网络结构如下图所示，它在nuScenes的3D物体检测数据集上相比于单帧算法有较大提升。

时序融合—3D物体行为预测和运动检测

FaF的后续工作《IntentNet: Learning to Predict Intention from Raw Sensor Data》收录于CoRL 2018。IntentNet在FaF的基础上进一步加入动态高精地图作为输入来提供静态 (如车道，交叉口，交通指示牌等) 和动态 (如红绿灯的状态转换) 语意地图 (semantic map)。包含时序信息的动态高精地图为3D物体检测，意图分类和轨迹预测提供了丰富的线索。为了更好的挖掘和利用激光雷达和动态地图的时序信息，如下图所示，IntentNet的输出端在FaF的3D物体检测 (detection) 和轨迹预测(regression)的基础上加入了行为意图分类(intention classification，例如左/右转，停/泊车，变道等) 一起进行端到端 (end-to-end) 的训练。如下图所示，行为意图分类的结果被连接补充到共享特征(shared features) 上进行基于行为意图分类的轨迹预测，使得轨迹预测获得了丰富的背景环境信息 (context)。相比于FaF，IntentNet的检测和预测的结果均有所提升。

利用时序信息进行物体运动检测是另一个值得关注的方向。这一方向近期有两篇论文发表，《MotionNet: Joint Perception and Motion Prediction for Autonomous Driving Based on Bird's Eye View Maps》发表于CVPR 2020，以及《Any Motion Detector: Learning Class-Agnostic Scene Dynamics from a Sequence of LiDAR Point Clouds》发表于ICRA 2020。这两篇论文的核心方法相近，都是利用多帧点云作为输入，通过网络在鸟瞰图上回归物体的运动行为。MotionNet通过时空金字塔网络 (spatio-temporal pyramid network) 内部的2D空间卷积和1D时间卷积来实现时空信息的提取和融合，从而实现鸟瞰图上以体柱 (pillar) 为单位的语意和状态分类以及运动检测。Any Motion Detector则提出自运动补偿层 (ego-motion compensation layer) 并结合循环2D卷积 (recurrent convolution) 来实现时序信息的高效融合。如下图所示，这类方法的优势在于检测激光雷达视野中所有运动的物体，包括训练集中没有见过的物体，这对自动驾驶的安全性十分有意义。目前点云算法对于常见的物体，例如车辆，行人和骑单车的人，具有较高的检测准确率；而对于不常见的物体 (尤其是运动的物体) 和突发状况，其结果往往并不满意。这类方法也为物体检测和感知提供了一种新的思路。

时序融合—总结

本文对于激光雷达的时序融合这一前沿方向进行了简单的梳理和总结。融合时序信息，可以提升对于3D物体检测的准确率；而对于3D物体的行为预测和运动检测，时序信息则更是必不可少。时序融合同时也为整合自动驾驶系统的感知，跟踪，预测甚至决策等模块提供了信息基础和可能性。相对于视频理解领域，时序融合在激光雷达中的研究和应用还处于相对早期阶段，希望这一重要方向能够吸引越来越多的研发和工程力量来得以不断推进和完善。

[1] W. Han, P. Khorrami, T. L. Paine, P. Ramachandran, M. Babaeizadeh, H. Shi, J. Li, S. Yan, and T. S. Huang. Seq-NMS for Video Object Detection. arXiv:1602.08465, 2016.
[2] K. Kang, W. Ouyang, H. Li, and X. Wang. Object Detection from Video Tubelets with Convolutional Neural Networks. CVPR, 2016.
[3] X. Zhu, Y. Wang, J. Dai, L. Yuan, and Y. Wei. Flow-Guided Feature Aggregation for Video Object Detection. ICCV, 2017.
[4] S. Wang, Y. Zhou, J. Yan, and Z. Deng. Fully Motion-Aware Network for Video Object Detection. ECCV, 2018.
[5] F. Xiao and Y. J. Lee. Video Object Detection with an Aligned Spatial-Temporal Memory. ECCV, 2018.
[6] C. Guo, B. Fan, J. Gu, Q. Zhang, S. Xiang, V. Prinet, C. Pan. Progressive Sparse Local Attention for Video Object Detection. ICCV, 2019.

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

解析激光雷达中时序融合的研究现状和发展方向相关推荐

3D物体检测、行为预测和运动检测全涵盖，一文解析激光雷达中时序融合的研究现状和发展方向
近年来,时序信息融合在激光雷达中的研究和应用吸引了一些学者的注意,领域内也涌现出了一些突出的研究工作.在本文中,作者重点介绍了时序融合在 3D 物体检测,以及行为预测和运动检测方面的几篇顶会论文,进而 ...
一文解析激光雷达中时序融合的研究现状和发展方向
在自动驾驶领域,基于激光雷达(LiDAR)的 3D 物体检测和运动行为预测是一种普遍的方案.目前绝大部分关于激光雷达的物体检测算法都是基于单帧的. 激光雷达的多帧时序数据,提供了对于检测物体的多视角观 ...
多无人机集群编队国内外研究现状和发展方向
`多无人机集群编队国内外研究现状和发展方向 - 搜狐网 https://m.sohu.com/a/403671784_99986805?trans=010004_pcwzy –编队控制技术最早是针对空 ...
华数机器人码垛_冲压机器人研究现状与发展方向
机器人是20世纪重大高科技成果之一,机器人产品已在各领域得到了初步应用,为提高世界冲压自动化水平发挥了重要作用.研究冲压机器人的应用现状,分析其发展方向将有助于更好地发展我国的冲压机器人产业. 目前冲 ...
Web数据挖掘的研究现状及发展
1．Web挖掘概述随着以数据库.数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,使海量数据不断产生.随之而来的问题是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息,更不用说有 ...
RNA测序研究现状与发展
RNA测序研究现状与发展 1 2,584 A+ 所属分类:Transcriptomics 收藏通常来说,某一个物种体内所有细胞里含有的DNA都应该是一模一样的,只是因为每一种细胞里所表达的RNA ...
包头新松机器人_煤矿机器人现状及发展方向
随着科技的不断进步和对机器人代替人类工作的不断需求,人工智能在煤矿的研究和应用得到了快速发展.<中国制造2025>发展规划提出,要实现关键工序智能化.关键岗位机器人替代.生产过程智能控制以 ...
计算机通信网络发展趋势,通信网络的现状及发展方向分析
孟凡宁++袁继朋 [摘要]随着通信技术的发展,民众信息沟通方式日趋多元化,通信网络发挥着至关重要的载体作用,为信息化社会建设与经济生活发展提供了巨大的技术力量.网络经济正呈现出一派蓬勃发展的态势,人 ...
云网融合相关研究现状
云网融合是一种将云计算技术与网络技术相结合的概念,目的是实现资源共享和优化网络性能.目前,云网融合研究主要集中在以下几个方面: 资源调度:研究如何在云网融合环境中有效地调度和分配资源. 网络优化:研究 ...

解析激光雷达中时序融合的研究现状和发展方向

解析激光雷达中时序融合的研究现状和发展方向相关推荐

最新文章

热门文章