本文主要内容为论文《Deep Multi-Modal Object Detection and Semantic Segmentation for Autonomous Driving:Datasets, Methods, and challenges》的阅读笔记，在原始论文的基础上加入了自己的一些理解，内容和图片主要参考该论文。

1.作者介绍

堤丰就职于德国伦宁根71272号罗伯特·博世有限公司的驾驶员辅助系统和自动驾驶公司，以及德国乌尔姆89081号乌尔姆大学的测量、控制和微技术研究所。
Christian Haase-Schütz就职于德国驾驶底盘系统控制工程认知系统部，以及德国卡尔斯鲁厄76131号卡尔斯鲁厄理工学院射频工程与电子研究所。
拉斯·罗森鲍姆、克劳狄乌斯·格拉泽和法比安·蒂姆在德国伦宁根71272号罗伯特·博施有限公司公司研究部的驾驶员辅助系统和自动驾驶部门工作。
海因茨·赫特林就职于德国罗伯特·博世有限公司工程认知系统、自动驾驶、底盘系统控制部门。
维尔纳·威斯贝克在德国卡尔斯鲁厄76131卡尔斯鲁厄理工学院射频工程与电子研究所工作。
克劳斯·迪特迈尔在德国乌尔姆89081乌尔姆大学测量、控制和微技术研究所工作。

2.按论文章节回顾具体内容

Abstract

深度学习推动了自主驾驶感知的最新进展。为了实现强大和准确的场景理解，自主车辆通常配备有不同的传感器(例如，摄像机、激光雷达、雷达)，并且可以融合多个感测模式来利用它们的互补特性。在这种背景下，许多方法已经被提出用于深度多模态感知问题。
然而，网络架构设计并没有一个通用的指导方针，“融合什么”、“何时融合”、“如何融合”的问题仍然没有定论。这篇综述文章试图系统的总结方法，并讨论在自主驾驶中深度多模态目标检测和语义分割的挑战。为此，我们首先概述了测试车辆上的车载传感器、开放数据集以及用于自主驾驶研究中的对象检测和语义分割的背景信息。然后，我们总结融合方法，并讨论挑战和未决问题。在附录中，我们提供了总结主题和方法的表格。

1.INTRODUCTION

fig1:自动驾驶的复杂城市场景。无人驾驶汽车使用多模态信号进行感知，例如RGB相机图像、激光雷达点、雷达点和地图信息。它需要准确、鲁棒和实时地感知所有相关的交通参与者和对象。为清晰起见，图像中仅绘制了一些对象的边界框和分类分数。

发展可靠的自动驾驶挑战巨大的原因

This is because driverless cars are intelligent agents that need to perceive, predict, decide, plan, and execute their decisions in the real world, often in uncontrolled or complex environments, such as the urban areas shown in Fig. 1.

这是因为无人驾驶汽车是需要在现实世界中感知，预测，决策，规划和执行其决策的智能代理，通常在不受控制或复杂的环境中（例如fig1所示的城市区域）。

无人驾驶汽车中的感知系统需要的性能

(1). accurate: they need to give precise information of driving environments;
(2). robust: they should work properly in adverse weather, in situations that are not covered during training (open-set conditions), and when some sensors are degraded or even defective;
(3). real-time: especially when the cars are driving at high speed. Towards these goals, autonomous cars are usually equipped with multi-modal sensors (e.g. cameras, LiDARs, Radars), and different sensing modalities are fused so that their complementary properties are exploited (cf. Sec. II-A).

(1)准确：他们需要提供准确的驾驶环境信息；
(2)坚固耐用：它们应在恶劣天气、训练期间未被覆盖的情况下(开放设置条件)以及某些传感器退化甚至有缺陷时正常工作；
(3)实时：尤其是在汽车高速行驶的时候。为了实现这些目标，自动驾驶汽车通常配备多模式传感器(如摄像头、激光雷达、雷达)，并融合不同的传感器模式，以利用它们的互补特性。

方法比对

fig2.平均精度（AP）与运行时间的关系可视化的是深度学习方法，这些方法使用LiDAR，相机或两者作为输入，以在KITTI鸟瞰测试数据集上进行汽车检测。总结了中等AP。结果主要基于KITTI排行榜[6]（于2019年4月20日访问）。在排行榜上，仅考虑已发布的方法。

fig2显示了一些最近发布的方法及其在KITTI数据集上的性能[6]。所有性能最高的方法都基于深度学习，并且融合相机和LiDAR信息的许多方法所产生的性能均优于单独使用LiDAR或相机的方法。在本文中，我们关注两个基本的感知问题，即对象检测和语义分割。

用于深度多模态对象检测或语义分割的方法需考虑的因素

输入数据

是否有可用的多模态数据集以及如何标记数据？
数据集是否涵盖不同的驾驶场景？
数据是否高质量？

神经网络体系结构的设计

应通过融合将哪些模态组合起来，以及如何正确表示和处理它们（“融合内容”）？
可以使用哪些融合操作和方法（“如何融合”）？
哪个阶段的特征表示最适合融合（“何时融合”）？

A.Related Works

以往的方法的问题

目前没有公开的摘要来检查可用的多模式数据集
没有网络体系结构设计的指导原则

B.Contributions

总结新发布的数据集
总结自动驾驶中深度多模式感知融合的方法
讨论剩余的挑战和有待解决的问题
提供了多模式传感器、测试车辆以及目标检测和语义分割中的现代深度学习方法的背景信息
总结了多模式数据集和感知问题
总结了关于“融合什么”、“何时融合”和“如何融合”的融合方法论
讨论了在开发深度多通道感知系统以满足“准确性”、“健壮性”和“实时性”的要求时面临的挑战和有待解决的问题，重点讨论了数据准备和融合方法
强调了数据多样性、时间和空间对齐以及标签效率对于多模式数据准备的重要性
强调了缺乏对雷达信号融合的研究，以及开发融合方法来解决开放数据集问题或提高网络健壮性的重要性。

2.BACKGROUND

A.自动驾驶的传感模式

视觉和热像仪：视觉和热像仪拍摄的图像可以提供车辆周围环境的详细纹理信息。
激光雷达：激光雷达(光探测和测距)以3D点的形式提供准确的环境深度信息。
雷达：雷达发射的无线电波被障碍物反射，测量信号的运行时间，并利用多普勒效应估计目标的径向速度。
超声波：超声波传感器发出高频声波来测量与物体的距离。
GNSS和HD地图：GNSS(全球导航卫星系统)通过全球卫星系统和接收器提供精确的3D物体位置。
惯性测量单元(IMU)和里程表：惯性测量单元(IMU)和里程表提供车辆的内部信息(即“本体感知传感器”)。IMU测量车辆的加速和转速，里程计测量里程。

B.测试车辆设置

fig3 (a)DARPA 2007上的Boss自动驾驶汽车[2]，(b)Waymo自动驾驶汽车[14]。

C.深度目标检测

fig4.更快的R-CNN目标检测网络。它由三部分组成：提取高级图像特征的预处理网络，产生区域建议的区域建议网络(RPN)，以及对每个区域建议进行微调的更快的RCNN头部。

两阶段目标检测：在第一阶段，从场景中提取几个与类别无关的候选目标，称为感兴趣区域(ROI)或区域建议(RP)。然后，根据分类分数和位置对这些候选人进行验证、分类和细化。OverFeat和R-CNN是利用深度学习进行目标检测的开创性工作。在这些工作中，感兴趣区域首先通过滑动窗口方法(OverFeat)或选择性搜索(R-CNN)生成，然后推进到区域CNN中提取特征，用于目标分类和边界盒回归。SPPnet[36]和Fast-RCNN[37]建议通过在整个图像上应用更大的CNN(例如VGG，ResNet，GoogLeNet)，直接从全局特征地图获取区域特征。更快的R-CNN统一了目标检测流水线，采用了区域Proposal Network(RPN)，一个小型的全连接网络，可通过CNN的高级专题地图生成ROI(参见fig.4)。顺着这一思路，R-FCN建议用卷积层替换RPN中的全连通层，并构建全卷积目标检测器。
一阶段目标检测：该方法旨在通过一个单一、统一的CNN模型将特征地图直接映射到包围盒和分类分数。例如，MultiBox通过CNN从整个输入图像预测二进制掩码，并在稍后阶段推断边界框。YOLO是一个更完整的统一检测器，它直接从CNN模型回归边界框。SSD通过用小的卷积过滤器回归多个不同分辨率的特征图来预测多尺度边界框来处理不同大小的对象。

D.深层语义切分

语义分割的目标是将场景划分为几个有意义的部分，通常是通过使用语义标记图像中的每个像素（像素级语义分割），或者同时检测对象并按实例逐像素标记（实例级）语义细分。全局图像信息为语义分割提供了有用的上下文线索。然而，普通的CNN结构只关注局部信息，接受范围有限。在这方面，已经提出了许多方法来合并全局信息，例如膨胀卷积、多尺度预测，以及添加条件随机场(CRF)作为后处理步骤。实时性能在自动驾驶应用中非常重要。然而，大多数工作只关注分割的准确性。在这方面，Siam et al.从运算(GFLOPs)和推理速度(Fps)两个方面对几种语义分割体系结构的实时性进行了比较研究。

3. MULTI-MODAL DATASETS

大多数深度多模态感知方法都是基于监督学习的。因此，训练这样的深层神经网络需要带有地面真实信息的多模式数据集。下面总结了自2013年以来发布的几个真实数据集，涉及传感器设置、记录条件、数据集大小和标签。

A. Sensing Modalities（传感模式）

All reviewed datasets include RGB camera images. In addition, [6], [59], [73]–[88] provide LiDAR point clouds,and [89]–[91] thermal images. The KAIST Multispectral Dataset [92] provides both thermal images and LiDAR data. Bus data is included additionally in [86]. Only the very recently nuScenes [88], Oxford Radar RobotCar [84] and Astyx HiRes2019 Datasets [93] provide Radar data.

B. Recording Conditions(记录条件）

Even though the KITTI dataset [74] is widely used for autonomous driving research, the diversity of its recording conditions is relatively low: it is recorded in Karlsruhe - a mid-sized city in Germany, only during daytime and on sunny days. Other reviewed datasets such as [59], [77], [78], [81], [86]–[88] are recorded in more than one location. To increase the diversity of lighting conditions, [59], [79]–[81], [81], [83], [85], [87]–[91] collect data in both daytime and nighttime, and [92] considers various lighting conditions throughout the day, including sunrise, morning, afternoon, sunset, night, and dawn. The Oxford Dataset [73] and the Oxford Radar RobotCar Dataset [84] are collected by driving the car around the Oxford area during the whole year. It contains data under different weather conditions, such as heavy rain, night, direct sunlight and snow. Other datasets containing diverse weather conditions are [59], [85], [87], [88]. In [94], LiDAR is used as a reference sensor for generating ground-truth, hence we do not consider it a multi-modal dataset. However the diversity in the recording conditions is large, ranging from dawn to night, as well as reflections, rain and lens flare. The cross-season dataset [95] emphasizes the importance of changes through-out the year. However, it only provides camera images and labels for semantic segmentation. Similarly, the visual localization challenge and the corresponding benchmark [96] cover weather and season diversity (but no new multi-modal dataset is introduced). The recent Eurocity dataset [87] is the most diverse dataset we have reviewed. It is recorded in different cities from several European countries. All seasons are considered, as well as weather and daytime diversity. To date, the dataset is camera-only and other modalities (e.g. LiDARs) are announced.

C. Dataset Size(数据集大小)

fig5.(a)KAIST多光谱[92]、KITTI[6]、Apolloscape59和nuScene数据集[88]中汽车、人和骑车人类对象的归一化百分比。(b)几个数据集中的摄像机图像帧的数量。可以看到数据集大小增加了两个数量级。

The dataset size ranges from only 1,569 frames up to over 11 million frames. The largest dataset with ground-truth labels that we have reviewed is the nuScenes Dataset [88] with nearly 1,4M frames. Compared to the image datasets in the computer vision community, the multi-modal datasets are still relatively small. However, the dataset size has grown by two orders of magnitudes between 2014 and 2019 (cf. Fig. 5(b)).

D. Labels(标签)

Most of the reviewed datasets provide ground-truth labels for 2D object detection and semantic segmentation tasks [59],[74], [87], [89]–[92]. KITTI [74] also labels tracking, optical flow, visual odometry, and depth for various computer vision problems. BLV3D [79] provides labels for tracking, interaction and intention. Labels for 3D scene understanding are provided by [59], [74], [78]–[83], [88].
Depending on the focus of a dataset, objects are labeled into different classes. For example, [89] only contains label for people, including distinguishable individuals (labeled as “Person”), non-distinguishable individuals (labeled as “People”), and cyclists; [59] classifies objects into five groups,and provides 25 fine-grained labels, such as truck, tricycle,traffic cone, and trash can. The Eurocity dataset [87] focuses on vulnerable road-users (mostly pedestrian). Instead of labeling objects, [76] provides a dataset for place categorization. Scenes are classified into forest, coast, residential area, urban area and indoor/outdoor parking lot. Reference [77] provides vehicle speed and wheel angles for driving behavior predictions. The BLV3D dataset [79] provides unique labeling for interaction and intention.
The object classes are very imbalanced. Fig. 5(a) compares the percentage of car, person, and cyclist classes from four reviewed datasets. There are much more objects labeled as car than person or cyclist.

4.DEEP MULTI-MODAL PERCEPTION PROBLEMS FOR AUTONOMOUS DRIVING（自动驾驶的深度多模式感知问题）

A.深度多模式目标检测

传感模式：现有的大多数工作都将视觉摄像机的RGB图像与3D LiDAR点云结合在一起。其他一些工作集中在融合视觉摄像机的RGB图像和热像仪的图像。此外，Mees et al. 使用Kinect RGB-D相机融合RGB图像和深度图像；Schneider等人从立体摄像机生成深度图像，并将其与RGB图像组合；Yang和Cascas等人利用高清地图提供道路拓扑的先验知识。
2D或3D检测：与2D检测相比，3D检测更具挑战性，因为需要估计目标到自我车辆的距离。因此，激光雷达传感器提供的准确深度信息是非常有益的。在这方面，文献[97]、[101]-[104]、[106]、[112]、[114]将RGB相机图像与LiDAR点云相结合用于三维目标检测。此外，梁等人也提出了自己的观点。[115]提出了一种多任务学习网络来辅助3D目标检测。辅助任务包括摄像机深度完成、地平面估计和2D目标检测。V-A部分讨论了如何恰当地表示这些模态。
检测内容：复杂的驾驶场景往往包含不同类型的道路使用者。其中，汽车、骑车人和行人与自动驾驶高度相关。在这方面，[97]、[98]、[105]、[107]、[109]使用多模态神经网络进行汽车检测；[100]、[107]、[108]、[116]-[119]侧重于检测非机动车道路使用者(行人或骑自行车者)；[60]、[90]、[99]、[101]-[104]、[110]、[114]、[115]都检测。

B.深度多通道语义切分

关于多模式语义分割的著作较少：[91]，[118]，[123]使用RGB和热图像，[60]融合了立体相机的RGB图像和深度图像，[124] [126]结合了RGB，热图像和深度图像，以在森林等各种环境中进行语义分割； [122]融合了RGB图像和LiDAR点云，用于越野地形分割； [127]-[131]用于道路分割。除了上面提到的在2D图像平面上进行语义分割的工作外，[124]，[132]还处理了LiDAR点上的3D分割。

5.METHODOLOGY

在设计用于多模式感知的深度神经网络时，需要解决三个问题-融合什么：应该融合什么传感方式，以及如何以适当的方式表示和处理它们；如何融合：应采用哪种融合操作；何时融合：在神经网络的特征表示的哪个阶段应该组合传感方式。在本节中，我们将基于这三个方面总结现有的方法。

A.What to Fuse（融合什么）

激光雷达点云
摄像机图像
深度多模态感知中LiDAR点和摄像机图像的处理
雷达信号

B.How to Fuse（如何融合）

fig7.“专家混合”融合方法的说明。在这里，我们显示了从专家网络的输出层派生的组合特征。它们也可以从中间层中提取。

为了简单起见，我们将讨论限于两种感应方式，尽管更多方式仍适用。将Mi和Mj表示为两种不同的模态，而flmif_{l}^{m_{i}}flmi 和flmjf_{l}^{m_{j}}flmj 表示它们的特征映射在神经网络的第l层。还将Gl（·）表示为对神经网络的第1层应用的特征变换的数学描述。

加法或平均均值：此联接操作按元素逐个添加特征图，即fl=Gl−1(fl−1mi+fl−1mj)f_{l}=G_{l-1}(f_{l-1}^{m_{i}}+f_{l-1}^{m_{j}})fl=Gl−1(fl−1mi+fl−1mj),或计算特征图的平均均值。

（未待完续…）

论文精读及分析：Deep Multi-Modal Object Detection and Semantic Segmentation for Autonomous Driving相关推荐

论文解读 | Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation
论文地址:Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation GitHub地址: http ...
论文笔记——Rich feature hierarchies for accurate object detection and semantic segmentation
最近在看一些目标检测的论文,本文是经典的R-CNN(Regions with CNN features),随之产生的一系列目标检测算法:RCNN,Fast RCNN, Faster RCNN代表当下目 ...
【论文精读】Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation（R-CNN）
论文Title:Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation.发表于2014年. 本 ...
目标检测经典论文——R-CNN论文翻译：Rich feature hierarchies for accurate object detection and semantic segmentation
Rich feature hierarchies for accurate object detection and semantic segmentation--Tech report (v5) 用 ...
自动驾驶论文:FisheyeMODNet: Moving Object detection on Surround-view Cameras for Autonomous Driving (2019)
FisheyeMODNet: Moving Object detection on Surround-view Cameras for Autonomous Driving 论文链接: https:/ ...
RCN-Rich feature hierarchies for accurate object detection and semantic segmentation
Rich feature hierarchies for accurate object detection and semantic segmentation 摘要标准的PASCAL V ...
【RCNN】《Rich feature hierarchies for accurate object detection and semantic segmentation 》
2014 CVPR 之前刚开始接触目标检测算法的时候,老是分不清deep learning中,物体检测和图片分类算法上的区别,弄得我头好晕,终于在这篇paper上,看到了解释.物体检测和图片分类的 ...
目标检测--Rich feature hierarchies for accurate object detection and semantic segmentation(CVPR 2014)
Rich feature hierarchies for accurate object detection and semantic segmentation 作者: Ross Girshick J ...
RCNN详细介绍 Rich feature hierarchies for accurate object detection and semantic segmentation
Rich feature hierarchies for accurate object detection and semantic segmentation Publisher: CVPR 201 ...

论文精读及分析：Deep Multi-Modal Object Detection and Semantic Segmentation for Autonomous Driving