【论文精读】Hybrid Bird’s-Eye Edge Based Semantic Visual SLAM for Automated Valet Parking

论文出处

ICRA2021

摘要

基于视觉的定位和建图方法有望被应用于自动代客泊车任务中。本文提出了一种利用鸟瞰图像的混合边缘信息的语义SLAM框架。为了从鸟瞰图和自由空间轮廓的合成图中提取有用的边缘信息用于SLAM任务，设计了不同的分割方法来消除合成视图中由逆透视变换引起的反光噪声边缘和失真的物体边缘。由于只有自由空间的分割模型需要训练，与以往的基于道路标记的方法相比，我们的方法可以显著减少标记负担。那些不正确和不完整的边缘信息分别通过在局部建图中连续边缘的时间融合被进一步清除和恢复，可以实时构建语义边缘点云地图和占用栅格地图。在停车场进行的实验表明，与以往基于点特征的方法相比，该框架具有更高的精度和性能。

贡献

提出了一种混合语义信息提取方法（结合了一个经典的无监督边缘检测器和一组基于IPM图像的边缘分割方法）

方法

框架

我们的框架是一个基于混合边缘的语义视觉SLAM系统，使用鸟瞰图图像作为输入，主要分为三个部分：

鸟瞰边缘提取：将合成的鸟瞰图像和分割后的自由空间图像作为系统的输入，检测了原始混合边缘，包括自由空间内的边缘和自由空间的轮廓，接着通过一个基于IPM的分割模块，去除大部分由地面反光引起的噪声边缘和地面上失真的物体边缘。
建图：利用提取的混合边，建图模块累积并生成了一个概率局部边缘地图，用于相对姿态估计。通过记录的轨迹和姿态图优化，可以得到全局边缘点云地图和占据栅格地图。
里程计：根据车轮里程计给定的初始变换（变换矩阵），通过语义点云配准来估计局部地图中的当前姿态，每一帧的姿态进一步累积，生成全局地图中的车辆轨迹。

鸟瞰边缘提取

边缘提取过程中有两个连接的子模块，首先，从输入的图像中检测出原始的边缘，然后考虑合成视图中IPM的失真效应，对这些边缘进行分割，去除噪声和失真部分。

A. 原始边缘检测

输入图像上的原始边缘可以通过两种传统的边缘检测算法(如Canny边缘检测器)进行检测。如图3(a)所示，一方面，道路标记的边缘和物体足迹会在整体上被成功检测；另一方面，这种探测器通常无法区分SLAM任务中有用的边缘和周围车辆、柱子或反光形成的无用噪声边缘。

在自由空间分割的帮助下，可以去除地面物体内部的边缘。然而，剩余部分仍然包含大量由反光和IPM失真引起的物体的干扰边缘，如图3(b)所示。

因此，在输送到建图和里程计模块之前需要进一步处理—基于IPM的边缘分割。

B. 基于IPM的边缘分割

从图3中可以看出，在合成的视图中，反光和物体的边缘被拉伸。图像中大多数的边缘都是径向的，大致通过每个相机的焦点，这种现象促使我们设计了多种不同的分割方法，如图4所示。

- 基于射线的分割
如图4(a)所示，用特定的角度步长均匀分割相机传感器的视图，将落在同一个角度框中的边缘点聚集起来，然后去除角度框中点数大于预定义阈值的边缘点。
基于射线的分割存在显著的缺点：

由于失真边缘通常不是笔直的，预定义的角度框分界线会将长失真边缘分成两部分。
由于没有考虑边缘的结构并在聚集过程中破坏了边缘结构，导致错误地去除了一些细小而密集的边缘。
由于角度步长和阈值耦合，基于射线分割的参数调整起来很困难。

- 基于单线的分割
考虑到边缘的几何分布，我们进一步尝试检测边缘图像上的线段。如图4(b)所示，线段由线段检测器(基于Hough变换的检测器)进行检测。然后计算相机焦点与各线段之间的距离，并与一个距离阈值进行比较。那些足够接近焦点的线段将被标记为失真边缘。
基于单线的分割的主要优点是减少了沿特定径向方向错误去除密集边缘的可能性，并对检测和分割阈值的参数进行了清晰的划分。
基于单线的分割存在的缺点：

由于线段检测通常是执行在边缘图像级别上的，因此来自未连接边缘的点可能被错误地认为是同一部分。
如果远离相机的边缘不够笔直，就很难满足去除的条件。

-基于多线的分割
为了进一步考虑精细的边缘结构，我们首先在分割前区分出不同的边缘实例。然后对每个边缘实例，应用Douglas-Peucker算法来简化边缘，并生成一个多段线来表示它。如图 4c 所示，焦点连接到每个多段线中的每个线段的中心，用一个角度阈值评估线段与连接线之间的角度距离，那些在失真边缘上的线段通常具有较小的角度。
基于多段线的分割方法的主要优点在于它简化了线的估计，并将其限制在边缘实例的级别上。
基于多段线的分割存在的缺点：

并没有完全去除一些来自反光的细小边缘。
在相同的径向上，一些有用的道路标记边缘，可能会被错误地去除。
对于这些分割错误，我们将通过利用连续观测的时间融合，在局部建图中进一步处理它们。

语义里程计和建图

在分割鸟瞰图边缘后，我们可以使用校准的比例因子将其转换为欧氏空间中的点云，利用这种具有两类边缘的混合点云（鸟瞰边缘和自由空间边缘），可以建立语义SLAM系统。

A. 局部地图生成

由于其机制的限制，分割模块无法完全去除噪声边缘，例如反光边缘的某些部分，同时，当某些道路标记或停车点边缘临时位于相机焦点的射线方向上时，可能会被错误地删除，因此，当前图像上提取的边缘通常是不完整和不稳定的，这将使基于关键帧的策略难以获得鲁棒的相对姿态估计。

为了克服单帧估计的局限性，我们交替地在连续帧中累积提取的边缘，并构建局部边缘地图以实现更稳定的运动估计，局部地图可以很容易地用第一帧上的边缘初始化，然后，通过迭代估计后续帧的姿势，逐帧变换新的边缘并将其添加到局部地图中，导出的局部地图样本如图5所示，其中不同帧的融合是概率性的。为了平滑地更新局部地图并填补小的空白，在将边添加到地图中之前，通过高斯滤波器进行处理。

为了去除添加到局部地图中不正确的分割边缘，应用了滑动窗口融合。局部地图的帧缓冲区长度被限制为一个固定的数字，当它满溢时，将从局部地图中移除最老的边。需要注意的是，那些具有足够高概率的边缘点在移除中不会被修改，这样可以将这些重要的边缘尽可能地保留在局部地图中。

当车辆的平移或旋转超过预先设定的阈值时，局部地图将被转换为当前的姿态，而那些在局部地图范围之外的边缘将不会被维护和更新。

B. 姿态估计

融合后的局部边缘地图被阈值化并转换为世界坐标系下的点云，为了在局部地图上估计当前车辆的姿态，首先通过车轮里程计的变换将当前帧中的边缘点投影到局部地图上，然后通过最近邻搜索建立数据关联，最后，可以通过解决以下问题来估计定位地图 Tvehiclelocal\mathbf{T}^{local}_{vehicle}Tvehiclelocal 的当前姿势：

其中 pilocal\mathbf{p}^{local}_{i}pilocal 和 pivehicle\mathbf{p}^{vehicle}_{i}pivehicle 是当前帧和局部地图之间的鸟瞰边缘点云的第iii个点的对应关系， pjlocal\mathbf{p}^{local}_{j}pjlocal 和 pjvehicle\mathbf{p}^{vehicle}_{j}pjvehicle 表示第 jjj 个自由空间边缘点的对应关系，ω\omegaω 是平衡上述两种不同类型的边缘之间成本的权重因子。

C. 全局建图

全局地图可以从车辆的局部地图和全局轨迹中导出，由于提取的自由空间边缘也可以被视为2D激光雷达测量，因此不仅可以同时构建语义点云地图，还可以同时构建占据栅格地图，如图2所示。当在局部地图中检测到回环时，将执行正常姿势图优化以校正漂移。

实验

A. 数据收集

用于评估我们的框架的数据序列是在一个地下车库中收集的。该序列的详细信息列于表一。合成鸟瞰图的图像大小为384×384，覆盖车辆周围15.3m×15.3m的区域。采用改进的 ICNet 模型得到了自由空间的分割结果。由于地下没有GPS信息，因此采用车辆里程计和高精度IMU测量的融合来计算地面真实轨迹。

B. 鸟瞰图边缘提取

1）定性结果：

图6中列出了几个样本图像及其相应的边缘提取结果。对于每个样本，我们手动标记被视图范围和自由空间所掩盖的边缘图像上(见图3(b))，以获得地面实况，然后比较每种方法输出的最终边缘与地面实况，并以不同的颜色进行可视化。

从图中我们可以发现，对于基于射线的分割，太多的反光边缘被错误地保留下来。这种情况可能发生在边缘被分成两个框或与阈值相比还不够长。对于基于单线的分割，大部分反光的边缘被成功地去除。但是，那些距离很远而且不笔直的无用边缘（特别是自由空间的轮廓）可能无法满足焦点的范围阈值，因此它们不会被过滤。最后，基于多段线的分割方法可以成功地去除大部分噪声和失真的边缘，但代价是缺少一小部分有用的边缘。

2）定量结果：

为了定量分析每种方法的性能，我们手动标记了30张边缘图像，以计算每种方法的精度和召回指标。为了进行公平的评估，我们调整了每种方法的阈值，使它们出现在相同的召回率级别上。

基于射线分割的边缘点数阈值设置为 110，射线角度步长为 4° 。基于单线的分割中对焦点的距离范围阈值调整到18.0。基于多段线的分割中的角度阈值设置为8.0°。

如表二所示，当每种方法的召回率均为 0.73 左右时，基于多段线的边缘分割方法的精度最高，远优于基于射线的方法（+23.2%）和基于单线的方法（+11.2%）。

C. 里程计和建图

1）不同边缘分割方法的轨迹：

由于SLAM系统的性能受输入数据质量的显著影响，我们记录和评估了用不同分割方法提取的边缘所生成的鸟瞰图像里程计。估计的轨迹绘制在图7中，表三列出了地面真值的均方根(RMS)误差。结果表明，与其他两种方法相比，基于多段线的方法提取的鸟瞰图边缘能显著提高视觉里程计系统的性能。

2）不同框架的轨迹：

为了证明鸟瞰边缘的有效性，我们将所提出的框架与我们之前的基于ORB特征和自由空间扫描方法的工作[12] ViLiVO: Virtual LiDAR-Visual Odometry for an Autonomous Vehicle with a Multi-Camera System 进行了比较。

如图8和表四所示，一方面，与ORB特征和自由空间扫描相比，基于鸟瞰边缘的里程计取得了更好的结果，说明混合边缘比我们之前工作中提出的的点特征更有效和稳定；另一方面，将鸟瞰边缘输入 Cartographer 时，没有姿态图优化的纯粹的视觉里程计有明显的漂移，回环闭合后可以消除漂移。

总结

本文提出了一种基于鸟瞰图像混合边缘提取的语义视觉SLAM框架，该框架可应用于AVP任务。一方面，与传统的稀疏点特征相比，边缘特征更密集，更稳健。另一方面，与现有的的语义道路标记点云相比，我们的分割方法只需要粗糙的自由空间标注进行训练，而不需要对道路标记进行耗时费力的标注。通过利用IPM的失真效应，所提出的分割方法可以滤除大部分噪声炫光边缘和失真物体边缘。以提取的边缘作为输入，建立了一个可视化的SLAM系统，并对地下车库的实际数据进行了评估。实验结果证明了我们的方法的有效性，以及集成到其他通用SLAM框架中的潜力。

论文链接

Hybrid Bird’s-Eye Edge Based Semantic Visual SLAM for Automated Valet Parking | IEEE Conference Publication | IEEE Xplore
https://www.bilibili.com/video/BV16K4y1T7eY?spm_id_from=333.999.0.0