Cooperative Perception协同感知学习记录

文章目录

Cooperative Perception协同感知学习记录
- 1. 首先介绍一篇不错的Revision文章：Deep Multi-modal Object Detection and Semantic Segmentation for Autonomous Driving: Datasets, Methods, and Challenges (2020)
- - 作者
  - 论文介绍
  - 自动驾驶中可以进行融合的传感器信息：
  - 作者总结的相关数据集
  - 传感器信息融合的关键问题
  - - What to Fuse
    - How to Fuse
    - When to Fuse
  - 作者总结的相关算法
  - 领域的主要挑战与开放性问题
- 2. 另一篇关于3D目标检测的Revision文章，A Survey on 3D Object Detection Methods for Autonomous Driving Applications
- - 作者
  - 论文介绍
  - 2D目标检测与3D目标检测的对比
  - 几种目前主流的自动驾驶相关3D目标检测算法对比
- 基于纯点云的传感器融合
- 1. TruPercept: Trust Modelling for Autonomous Vehicle Cooperative Perception from Synthetic Data (2019)
- - 作者
  - 应用技术
  - Motivation
  - Contributions
  - 项目地址
- 2. Cooperative Perception for 3D Object Detection in Driving Scenarios Using Infrastructure Sensors (2020)
- - 作者
  - 应用技术
  - Motivation
  - Contributions
  - Conclusions and Results
- 3. Cooper: Cooperative Perception for Connected Autonomous Vehicles based on 3D Point Clouds 2019
- - 作者
  - 应用技术
  - Motivation
  - Contributions
- 4. F-Cooper: Feature based Cooperative Perception for Autonomous Vehicle Edge Computing System Using 3D Point Clouds (2019)
- - 作者
  - 应用技术
  - Motivation
  - Contributions
- 基于视觉(+非视觉)的传感器融合
- 1. Cooperative Object Classiﬁcation for Driving Applications
- - 作者
  - 应用技术
  - Motivation
  - Contributions

1. 首先介绍一篇不错的Revision文章：Deep Multi-modal Object Detection and Semantic Segmentation for Autonomous Driving: Datasets, Methods, and Challenges (2020)

作者

Di Feng, Christian Haase-Sch¨utz, Lars Rosenbaum, Heinz Hertlein, Claudius Gl¨aser, Fabian Timm, Werner Wiesbeck, Klaus Dietmayer，来自罗伯特博世汽车公司的科研团队（Corporate Research of Robert Bosch GmbH）

论文介绍

这篇论文详细归纳总结了近些年的基于深度学习的2D、3D目标检测以及相关的传感器融合（单机位）方法，并且整理了相关的数十个数据集，最终总结了这个领域目前的挑战以及问题。
本篇论文的介绍将按照论文原始的结构顺序进行。

自动驾驶中可以进行融合的传感器信息：

光学和热成像相机
光学相机：可以提供详细的纹理特征、外貌特征信息。受环境影响大，很容易受到例如光照的影响，鲁棒性欠佳。
热成像相机：不受光线影响，可以提供物体的轮廓信息。但是与光学相机一样没用图像深度信息。
LiDAR与点云
可以准确的提供深度信息和3D点云信息。但是无法捕捉物体的纹理特征信息，并且对于远距离物体，点云成像效果差。
结合之前的工程经验，彩色点云或许可以解决物体纹理信息缺失的问题，但是与此同时对相机的成像效果质量要求较高，否则纹理信息也难以准确捕捉。
工业和实际应用中常见的问题：双目相机标定误差导致的成像偏差，飞点，强光下反光位置点云缺失。
雷达
在各种环境下都有较强的鲁棒性，但是因为分辨率太低，难以进行目标分类。
超声波
可以用于近场物体检测，适用于低速环境例如自动泊车。但是受空气质量影响较大，例如沙尘，湿度，雨水都可以造成影响。
GNSS（全球导航卫星系统）和高清地图信息
通过卫星定位获取车辆及其他物体的定位信息。不适用于实验室环境。
IMU（惯性测量单元）和里程表
主要用于记录车辆内部的信息而不是外界环境的信息。

作者总结的相关数据集

作者再此论文中列举了和归纳了数十种数据集，并且也归纳了各个数据集所拥有的传感器数据，以及发布时间，标签类别，大小，物体种类，以及对应的链接，如下图所示。
其中KITTI为最经典的自动驾驶场景数据集，但是局限性大：只在一个城市拍摄的所有照片，只有晴天日光环境数据，但是目前依旧是应用最多的benchmark数据集。

这些数据集里大多数是视觉与其他传感器的融合，纯视觉与纯其他传感器的只占少数。

传感器信息融合的关键问题

本文主要讨论的问题有三个：

What to fuse: 要对哪些传感器的数据进行融合，主流的融合信息有哪些
How to fuse: 融合的具体方法
When to fuse: 在检测的哪个阶段进行融合

What to Fuse

LiDAR点云信息
处理点云信息有3种方式
1. 将3d点云转换为3d模型体素化信息（相当于3d建模？），然后对体素化的点云进行学习和应用。
2. 直接应用3d点云在空间中的位置信息。
3. 把3d点云投影到2d特征图上进行学习。
相机照片
综合以上的1和2，现有的大部分方法都是整合RGB图片和LiDAR点云信息进行融合，主要有有以下几种方法进行整合：
1. 将点云映射到2d平面，与图片一样经过深度网络处理，并整合处理后的特征。得到3d region proposal。
2. 通过3d点云分割去得到3d region proposal。
3. 将3d点云和RGB图片都映射到bird’s eye view平面，进行多传感器特征对齐。
雷达信号信息
可以被转换成2d特征图以被深度网络所处理。

How to Fuse

特征图求和或者取平均
将多个feature map逐元素求和或者求平均。
连接
将多个特征图拼接起来。
组合
主要用于ROI的融合。
Mixture of Experts
以上几种融合方式没有考虑到各个传感器信息的权重问题，例如黑暗环境下图片所能提供的信息远远少于LiDAR，所以LiDAR的信息应当有更多的权重。此方法会自动对各个传感器的特征信息进行加权。

When to Fuse

主要分为三个融合阶段：

Early Fusion早期融合
融合原始数据或者是简单预处理（标准化，归一化）的传感器数据。
早期融合可以让网络更全面的学习到原始数据的组合特征信息，并且早起融合不会带来额外的运算负担，毕竟是把数据整合之后送到一个网络里面进行训练，参数量不会因此受到影响。
但是早期融合可能会受到数据对齐的影响，导致训练效果变差。并且当更换一个传感器进行组合时，真整个网络需要被从头开始重新训练。
Late Fusion晚期融合
晚期融合融合了多个网络的最终输出结果，例如置信度、3d目标框。
网络更灵活，可以更改需要融合的信息。
代价就是要分多个网络分别训练，成本更高。
Middle Fusion中期融合
中期融合是一种早期+晚期的折中融合方式，可以理解为特征级融合，例如先经过backbone网络进行特征提取，之后将提取出的特征图进行融合，可以又有灵活性又不至于太高的资源占用。但是目前还没有一个很好很确定的方法和流程来进行这种特征级的融合，只能比较机械的拉直特征图之后进行How to fuse里面的这些操作，或者是很粗暴的直接将多个并列的模型输出到同一组全连接层里，而这个过程非常的intuitive，没有合适的理论依据。

作者总结的相关算法

领域的主要挑战与开放性问题

目前领域的挑战主要有以下几种

没有特别统一的方法去进行传感器信息融合，还是需要去规定适用场景，目前的融合都是基于特定场景的实验。
训练数据集数量偏少。
场景信息不够多样性，难以全面覆盖各种情况，难以全面匹配自动驾驶所面对的复杂环境。
数据集内标签标注错误。
传感器数据时间空间上难以对齐，原文：Spatial and temporal misalignment of different sensors。
传感器的种类比较少，只有有限的种类可以使用。
特征级的融合和特征表达方式的相关研究很少，原文：Lack of studies for different feature representations。
特征融合的操作太过粗暴简单，目前常用的就是拼接（Feature Map Concatenation）。
不能为各个传感器的数据定量分析。例如阳光，下雨，雾霾，等外界环境的因素都会对识别到的信息进行影响，但是都难以定量去进行描述。
在检测速度/检测质量、计算资源占用/鲁棒性的权衡问题上探讨的内容很少，相关研究还很不成熟。例如3D目标检测中为了实时快速检测，物体的3D成像必须被压缩，这就导致信息的丢失。
多车协同、车路协同的多传感器数据传输速率、带宽、延迟也是一个很大的问题。目前有分布式计算和集中计算两种方式。
传感器数据的正确性和可靠性问题也需要解决（TruePercept就是在尝试解决这个问题）。

2. 另一篇关于3D目标检测的Revision文章，A Survey on 3D Object Detection Methods for Autonomous Driving Applications

作者

Eduardo Arnold, Omar Y. Al-Jarrah, Mehrdad Dianati, Saber Fallah, David Oxtoby and Alex Mouzakitis。英国华威大学的科研团队Warwick Manufacturing Group (WMG)

论文介绍

这篇论文归纳总结了3D目标检测目前的一些方法。鉴于3D目标检测已经相对成熟，所以只对这篇论文做简单的描述。

2D目标检测与3D目标检测的对比

	优势	劣势
2D目标检测	数据集多且完善，可以实现准确的检测。	缺少深度，位姿信息
3D目标检测	3D目标框提供了更详细的物体位置信息，有助于更好的理解语义和周遭环境。	需要深度、位姿信息的辅助，数据标注困难，数据集少，运算量大。

几种目前主流的自动驾驶相关3D目标检测算法对比

	方法/贡献	限制
MV3D	本文主要介绍了一种名为Deep Fusion的融合方式，可以融合多种传感器的信息，最终结合鸟瞰和前视的激光雷达图以及2D单目相机图像进行车辆检测。	只能识别汽车，激光雷达对远处的物体识别能力差。
AVOD	相比于MV3D去掉了激光点云的前视图输入，在俯视图中去掉了强度信息。MV3D是改进的VGG16做特征提取，而AVOD使用的是FPN，它可以在保证特征图相对于输入是全分辨率的，而且还能结合底层细节信息和高层语义信息，因此能显著提高物体特别是小物体的检测效果。k可以做到识别行人、骑手、汽车。	只对车前面的物体比较有效。
F-PointNet	F-PointNet也同时利用了RGB图像与点云，但不同的是F-PointNet没有对两类信息分别处理（并行）并进行fusion，而是使用了2d-driven 3d object detection（串行）的方式进行检测。舍弃了global fusion，提高了检测效率；并且通过2D detector和3D Instance Segmentation PointNet对3D proposal实现了逐维(2D-3D)的精准定位，大大缩短了对点云的搜索时间相比于在BEV(Bird’s Eye view)中进行3D detection，F-PointNet直接处理raw point cloud，没有任何维度的信息损失，使用PointNet能够学习更全面的空间几何信息，特别是在小物体的检测上有很好的表现。	受到串行结构的影响，F-PointNet中3d box estimation的结果严重依赖于2d detection，并且RGB信息对整个结构是至关重要的。然而，图像受到光照以及前后遮挡的影响，会导致2d detector出现漏检的情况。而MV3D, AVOD等并行结构，RGB信息与点云信息之间是相辅相成，且RGB相较于点云更次要一些。只对车前面的物体比较有效，夜间检测效果较差。

以上是对这个领域的一个大体总结和概况，本文接下来将对一些特定的论文进行简单介绍。

基于纯点云的传感器融合

1. TruPercept: Trust Modelling for Autonomous Vehicle Cooperative Perception from Synthetic Data (2019)

作者

Braden Hurl, Robin Cohen, Krzysztof Czarnecki, and Steven Waslander

应用技术

Trust Modeling，3D目标检测，虚拟数据集，点云相机。

Motivation

现代的传感器融合模型都是建立在传感器的数据是绝对可靠和可信的，然而有时传感器的数据不一定正确，错误的数据可能反而会影响正确的识别结果，从而进一步影响最终的决策，所以判断数据来源的可靠性也是一个很重要的问题。

Contributions

将传感器融合和信任建模(trust modeling)结合,实现了对数据来源可靠性的判断。
制作了一个源于于GTA5的虚拟数据集，没有场景局限性，可以应用于多种场景。

项目地址

https://github.com/bradenhurl/TruPercept/tree/master/tru_percept

2. Cooperative Perception for 3D Object Detection in Driving Scenarios Using Infrastructure Sensors (2020)

作者

Eduardo Arnold, Mehrdad Dianati, Senior Member, IEEE, Robert de Temple , and Saber Fallah，英国华威大学的科研团队Warwick Manufacturing Group (WMG)。

应用技术

3D目标检测，虚拟数据集，点云相机。

Motivation

现存的大多数方法(majority of existing methods)使用的是单机位多类型传感器融合，会存在遮挡，感知距离近等问题, 于是使用多机位传感器来消除遮挡和探测距离有限的问题。

Contributions

应用了早期融合、晚期融合对丁字路口和环岛路口进行了场景模拟和传感器融合实验，只利用了路边的固定传感器进行了数据融合，没有用到车载的传感器。
制做了一个虚拟数据集，用于测试融合效果，这个数据集包含环形交叉路口和丁字路口两种情况。
对早期融合和晚期融合两种方法进行了评估。
对传感器硬件设备的参数设置进行了评估，为日后的实际落地提供方便和理论依据。

Conclusions and Results

核心思想是设置一个centralized计算系统，可以处理多个传感器的数据，进行计算、融合之后再分发给附近的车辆。
得出了“增加传感器数量能够显著优化识别效果”的结论。
作者通过传感器感应区域的叠加来实现点云的增强。

3. Cooper: Cooperative Perception for Connected Autonomous Vehicles based on 3D Point Clouds 2019

作者

Qi Chen, Sihai Tang, Qing Yang and Song Fu. Department of Computer Science and Engineering, University of North Texas, USA。来自北德克萨斯州大学的科研团队。

应用技术

3D目标检测，稀疏点云检测，KITTI数据集，点云相机。

Motivation

单机位检测死角多，远处的感知信号弱，单机位传感器可能会产生错误的感知结果，这是第一个做车与车之间协同的raw data fusion的团队。

Contributions

提出了一种稀疏点云检测的算法，可以对稀疏点云实行目标检测，并且也可以用于密集点云的情况。
本系统可以撑过的延伸一辆车本身的感知范围
证明了车与车之间传递ROI LiDAR数据的可行性。

4. F-Cooper: Feature based Cooperative Perception for Autonomous Vehicle Edge Computing System Using 3D Point Clouds (2019)

作者

Qi Chen, Xu Ma, Sihai Tang, Jingda Guo, Qing Yang, Song Fu. Department of Computer Science and Engineering, University of North Texas, USA。来自北德克萨斯州大学的科研团队。

应用技术

3D目标检测，稀疏点云检测，KITTI数据集，点云相机，特征级融合。

Motivation

单机位检测死角多，远处的感知信号弱，单机位传感器可能会产生错误的感知结果，这是第一个做车与车之间协同的feature level fusion的团队，现在的深度网络还没能完全提取出3D点云的特征信息，3D点云的raw data对于V2V的传输带宽来说太大了。

Contributions

提出了一个端到端的特征级融合的深度网络，并且更好的提取出特征图里的特征，使得在算力增加不高的情况下获得了显著的准确度提升。并且避免了数据传输量过大的问题。

基于视觉(+非视觉)的传感器融合

1. Cooperative Object Classiﬁcation for Driving Applications

作者

Eduardo Arnold, Omar Y. Al-Jarrah, Mehrdad Dianati, Saber Fallah , David Oxtoby and Alex Mouzakitis。和上面华威团队的是一群人。

应用技术

多机位目标分类，多机位视觉信息融合，遮挡、噪声消除。

Motivation

3D目标检测相对于2D多机位来说会比较慢，本篇论文探究遮挡、噪声对于多机位2D目标分类的.

Contributions

创建了一个3视角物体分类数据集。
提出了几种视觉融合模型。
对提出的几种视觉融合模型进行了分析与总结。

模型如下图