IROS2020 论文阅读

1. Visual SLAM with Drift-Free Rotation Estimation in Manhattan World . Jiacheng Liu and Ziyang Meng . Department of Precision Instrument, Tsinghua University;

摘要：提出了一种高效、准确用于人工环境的SLAM系统。加入曼哈顿世界的假设，以此来获得全局位姿。无漂移旋转运动的估计是利用线特征从结构规律性推导出来的。提出了一种两阶段消失点（vanishing points）估计的方法，它由一个用来跟踪聚类线特征的短期跟踪模块和用来生成丰富的候选VPs集并检索最优的VPs一个长期搜索模块组成。构造并求解了一个最小二乘问题，使每一帧的结构线特征簇具有精确的VPs。充分利用了绝对方位估计来提升整个SLAM过程。特别地，我们利用绝对方向估计来提高前端定位精度，并利用已知旋转来形式化线性批量相机位姿的优化问题，以提高后端实时性能。在合成场景和真实场景的实验结果表明，与现有的先进方法相比，该方法在实时相机姿态估计过程中具有较高的精度，在姿态图优化过程中具有较快的速度。

引言：视觉SLAM中基于图优化的方法存在的问题：

(1) 前端的相机位姿估计的主要误差来源是旋转估计误差；

(2) 大多数方法由于缺乏GPS等全局测量，在运行一段时间后会产生累积漂移，唯一的解决办法是依靠闭环来纠正漂移;

(3) 为了修正闭环，现有策略构造并解决一个全局BA问题或位姿图优化问题，该问题是非线性的、非凸的和耗时的。而且，大多数求解器都是通过迭代的方式来优化，例如GN和LM法，如果初始估计不好，可能会导致收敛到局部极小值。

另一方面，大多数应用程序在特定的场景，如人造环境中工作的时间最多。根据曼哈顿世界假设，人工环境表现出较强的结构规律性，周围环境的大部分可以被模拟为一个具有三个相互正交的方向的盒子世界。每个曼哈顿世界都有一个单独的坐标系，它用曼哈顿坐标系(MF)表示，推断曼哈顿坐标系的算法在计算机视觉领域已经得到了广泛的研究。利用RGB-D相机，假设每个平面垂直于MF的一个轴，通过将表面法线聚类为正交耦合的，可以推断出MF。此外，MF也可以通过估算消失点(VP)来推断，消失点是曼哈顿世界主要平行线影像投影的交点。此外，可以通过线特征和曲面法线的联合统计分析来推断。

基于上述观测结果，我们在本文中利用MF估计对所考虑的3D V-SLAM问题提供相机方向的全局估计。这有助于减少前端的估计偏移，减少后端计算负担。具体而言，本文的主要贡献如下：

(1) 提出了一种快速、准确的两阶段MF推理方法。具体来说，每隔几帧检测一次VPs，并跟踪集群结构线特征来估计每一帧普通帧的VPs。

(2) 在前端引入了一种结构规则感知的相机姿态估计方法，利用绝对姿态估计来提高定位精度。

(3) 出了一种鲁棒的线性批处理相机姿态细分策略，进一步利用后端无漂移定位。

2. SaD-SLAM: A Visual SLAM Based on Semantic and Depth Information . Xun Yuan , Song Chen . 中科大

摘要：SLAM被认为是智能移动机器人自主寻路的重要技术。在过去的几年里，已经研制出了许多成功的SLAM系统，并在静态环境中取得了令人满意的工作效果。然而，在一些有移动物体的动态场景中，相机的姿态估计误差是不可接受的，甚至系统会失去它们的位置。在本文中，我们提出了基于ORB-SLAM2的视觉SLAM系统： SaD-SLAM，该系统在动态环境中取得了优异的性能。利用语义信息和深度信息，找出属于移动对象的特征点。然后我们检测这些特征点此刻是否保持不变。为了使系统在动态场景中准确、鲁棒地运行，我们同时使用了从静态对象中提取的特征点和从移动对象中提取的静态特征点来对相机的位姿估计进行优化。我们在TUM RGB-D数据集上评估了我们的算法。结果表明，与原始的ORB-SLAM2相比，SaD-SLAM的绝对轨迹精度有明显提高。我们还将我们的算法与适应动态场景的DynaSLAM算法和DS-SLAM算法进行了比较。

引言：在本文中，我们提出了一种基于ORB-SLAM2的基于特征的视觉SLAM算法，该算法能够在动态环境中鲁棒地工作。我们系统的输入是RGB图像，RGB- D相机的深度图像，以及通过Mask_RCNN获得的语义掩码。我们利用语义和深度信息来寻找动态特征点，以减少动态对象的影响。我们还检测了移动物体的静态特征点，并利用它们对前端的相机姿态估计进行微调，使跟踪算法更加鲁棒和准确。一个实例如下图所示：

Contributions：

(1) 提出了一种基于ORB-SLAM2的基于特征的RGB-D SLAM算法，该算法在动态环境下可以很好地执行。与ORB-SLAM2相比，该方法可以显著提高姿态估计精度，在高度动态的场景中运行更加稳定。

(2) 我们测试当前帧和前一帧特征点之间的极线约束，然后从动态物体和静态但可移动的物体(如椅子)中找出静态特征点，以帮助提高相机姿态估计的准确性和鲁棒性。

算法框架如下：

3. ROVINS: Robust Omnidirectional Visual Inertial Navigation System . Hochang Seok1 and Jongwoo Lim∗1,2 . Department of Computer Science, Hanyang University；MultiplEYE Co., Ltd.

摘要：视觉SLAM是机器人导航和自动驾驶的重要组成部分;然而，视觉传感器在快速运动或突然的照明变化中是脆弱的。这种缺陷可以通过惯性测量单元(IMU)进行补偿，在视觉感觉不稳定时保持短期运动，提高了利用惯性信息估计运动的质量。一种全向多视图视觉里程计(ROVO)最近通过对全向设置的不断特征观察，表现出了卓越的性能和稳定性;然而，视觉里程计的缺点仍然存在。本文介绍了一种可将惯性信息无缝集成到ROVO中的算法——ROVINS: (a)首先将惯性测量的软相对位姿约束添加到位姿优化公式中，从而在所有视觉特征丢失时实现盲运动估计;(b)利用估计速度的预测结果，对跟踪中的视觉特征进行初始化，使特征跟踪对视觉干扰具有更强的鲁棒性。实验结果表明，所提出的ROVINS算法明显优于纯视觉算法。

引言：在各种具有挑战性的情况下，VIO可用于提供准确和鲁棒的相机- imu刚体运动估计。：视觉和惯性运动信息是互补的，当缺乏视觉特征时，IMU可以保持跟踪位姿，而相机可以修正IMU的累计误差。VIO最常见的设置包括一个单目摄像机和一个IMU，这在智能手机中很常见。

在ROVO中，使用四个超宽鱼眼摄像机进行运动估计。这些相机配备220◦视场(FOV)镜头，以最大化重叠区域的立体匹配跟踪特征。与传统的单目或立体VO系统相比，ROVO表现出了优越的性能，因为特征点一直保持在视野中，直到被其他物体遮挡或距离太远。但是，它仍然具有传统VO算法的局限性，因为它纯粹依赖于视觉特征点。将惯性运动约束集成到ROVO优化框架中，本文提出的鲁棒全向视觉惯性导航系统(ROVINS)进一步提高了传统VIO或ROVO算法的运动估计性能。为了改进特征跟踪，根据IMU的相对运动测量值预测单个特征运动，然后在下一帧中作为特征跟踪的初始特征位置，如Kanade-Lucas-Tomasi (KLT)。在本文中，通过捕捉具有快速运动、严重照明变化和拥挤情况的非常具有挑战性的测试序列来评估所提出的ROVINS算法的性能。通过运动捕捉系统采集地面真实的刚体位姿数据，并进行定性和定量比较，验证了算法的改进性能。

4. GR-SLAM: Vision-Based Sensor Fusion SLAM for Ground Robots on Complex Terrain . Yun Su, Ting Wang, Chen Yao, Shiliang Shao, Zhidong Wang . the State Key Laboratory of Robotics, Shenyang Institute of Automation, Chinese Academy of Sciences；the Department of Advanced Robotics, Chiba Institute of Technology

摘要：近年来出现了许多优秀的基于相机的SLAM方法，特别是相机- imu融合(VIO)算法，大大提高了SLAM的精度和鲁棒性。然而，我们通过实验发现，现有的大多数VIO方法在无人机或无人机数据集上表现良好，但对于复杂地形的地面机器人，无法持续提供准确、鲁棒的定位结果。一些研究人员提出了地面机器人的研究方法，但由于假定地面机器人是平面运动的，这些方法的应用有限。因此，本文提出了用于复杂地形下地面机器人定位的GR-SLAM，它可以将相机、IMU和编码器数据以紧耦合的方式融合在一起，为机器人提供准确、鲁棒的状态估计。首先，提出了一种里程计增量模型，该模型融合编码器和IMU数据计算机器人在流形上的位姿增量，并通过预积分增量计算帧约束。然后提出了一种多传感器测量的评估算法，该算法可以检测出异常数据并调整其优化权重。最后，我们实现了一个基于滑动窗口的完整因子图优化框架，该框架可以将摄像机、IMU和编码器的数据紧密耦合，实现状态估计。在一个实际的地面机器人上进行了大量的实验，结果表明GR-SLAM能够为地面机器人提供准确、鲁棒的状态估计。

引言：虽然VIO算法已经有很好的性能，但是我们通过实验发现，现有的算法在无人机和公共数据集上表现很好，但是当算法应用于地面机器人时，性能下降了。我们总结的原因如下：

(1) 地面机器人在道路上奔跑时会产生振动，不同道路上的振动不同。振动会产生随机噪声，降低VIO的准确性，甚至状态突变。

(2) 地面机器人经常会有一些特殊的运动，如匀速直线运动、启停操作等，这些运动都会导致定位误差。

(3) 当图像信息丢失的时间较短(小于1s)时，可以使用IMU来传播机器人状态。然而，对于长期的图像数据丢失，VIO算法很快就会产生较大的误差。

以上原因导致现有VIO算法的性能下降甚至发散，无法持续提供准确、鲁棒的定位结果。在实际应用中，即使出现意外情况，算法仍应能够为机器人提供可接受的状态估计结果。因为在实际操作中，机器人状态的连续性比局部精度更重要。

因此，我们提出了用于复杂地形下的地面机器人定位的GR-SLAM，它可以将相机、IMU和编码器数据以紧密耦合的方式融合在一起，为机器人提供准确、鲁棒的状态估计。我们将本文的贡献总结如下:

(1) 提出了一种融合编码器和IMU数据的里程计增量模型，用于计算机器人在流形上的位姿增量，以适应大尺度三维环境中的复杂地形。

(2) 提出了一种完整因子图优化框架，该框架将摄像机、IMU和编码器数据紧密耦合，实现状态估计。还可以检测异常数据，调整各传感器的优化权重。

(3) 基于一个真实的地面机器人在室内和室外环境的大量实验证明了所提出的GR-SLAM用于地面机器人的准确性和鲁棒性。

5. Dynamic Attention-based Visual Odometry . Xin-Yu Kuo, Chien Liu, Kai-Chen Lin, Evan Luo, Yu-Wen Chen, and Chun-Yi Lee . Elsa Lab, Department of Computer Science, National Tsing Hua University, Hsinchu, Taiwan

摘要：本文提出了一种基于动态注意力的视觉里程计框架(DAVO)，这是一种基于学习的VO方法，用于估计单目相机运动。DAVO基于光流图，针对不同的运动场景动态调整不同语义类别的注意权重。这些加权的语义类别可以用来生成注意图，以突出输入帧中不同语义区域的相对重要性，用于姿态估计。为了检验所提出的DAVO，我们在KITTI视觉测程仪和SLAM基准套件上进行了大量实验，以定量和定性地检查动态调整的权重对评估轨迹精度的影响。此外，我们设计了一套消融分析来证明我们的每个设计选择，并验证了DAVO的有效性和优势。我们在KITTI数据集上的实验表明，所提出的DAVO框架在运动估计方面确实提供了令人满意的性能，并且与当代的VO方法相比，能够提供具有竞争力的性能。

引言：统的基于学习的VO工作通常利用整个RGB输入帧来确定相机的轨迹，其中一些可能需要额外的输入，如光流图(或简单的“流图”)，语义分割，深度图，或它们的融合。这些方法通常以相同的方式对待每一帧。然而，每一帧中的每一个语义类别都可以提供不同程度的信息，当它们被用于在不同的运动场景中估计相机的轨迹。例如，汽车或行人通常被认为是动态对象，可能会损害运动估计的性能。这促使最近的研究人员提出处理动态物体的技术，在估计相机的轨迹之前，直接从输入帧中移除它们。然而，在某些运动场景中，属于这些语义类别的对象是静态的，因此可以合理地作为自我运动估计的参考。在所有场景中，仅仅通过启发式或基于人类先验的注意权重来消除某些语义类别可能会限制VO模型的性能。此外，注意力不需要成为局限于特定语义类别的二元决策。基于上述观点，在本文中，我们假设在不同的运动场景中，动态调整输入帧在不同语义类别上的注意力权重，可能有助于获得相机的姿态(从而获得运动估计)。

为了验证这一假设，本研究提出在不同的运动场景下，利用流图(flow map)动态调整不同语义类别的注意力权重。光流是一种优秀的特征表示形式，它来源于包含像素位移信息的连续图像帧。由于流图包含了丰富的与相机运动相关的信息以及感知到的语义内容的信息，因此利用它们来区分不同的运动场景是合理的。为了实现这一目标，本研究提出根据流图的变化动态生成不同语义类别的注意权重。然后，这些加权语义类别可以用来生成注意力图，强调输入帧中不同区域的相对重要性，用于姿态估计。图1展示了我们在三种情况下的注意图变化示例:

注意图中较亮的部分对应着具有较高注意权重的区域。观察到，在情景(a)中，注意力地图更多地关注道路和天空区域，而抑制汽车区域。另一方面，对于场景(b)和(c)，汽车区域受到较少的抑制，而天空区域受到较少的聚焦。这些例子说明，在估计相机的运动时，注意图中语义区域的相对重要性可能不同。通过利用流图，上面讨论的概念可以在没有人类监督的情况下推导注意力图。

因此，在本文中我们提出了DAVO(Dynamic Attention-based Visual Odometry framework)，DAVO是一个基于dnns的学习框架，不使用depth map或循环记忆细胞。DAVO向其位姿估计DCNN提供连续的RGB输入帧和通过注意图调整的流图。每个注意图是由一个由SENet修正的注意模块生成的，并实现为语义分割通道的加权和。

根据在 Flying Chairs dataset上预先训练的FlowNet2.0生成的连续RGB输入帧的流图，动态调整权值。这些动态调整的权重允许DAVO改变它的注意地图，以适应不同的摄像机运动场景。为了检验DAVO的优势，我们在KITTI数据集上进行实验，并将评估轨迹的定量结果与一组基线方法进行比较。我们进一步说明了DAVO评估的轨迹以及基线方法，以比较它们与参考方法的差异。为了验证所提出的框架的有效性并证明我们的设计选择是正确的，我们对以下案例进行了一组消融分析:(1)有无注意模块，(2)动态和静态注意权重，(3)DAVO和基于特征的注意设计，(4)动态注意权重产生的来源不同。

Contributions：

(1) 一个基于学习的DAVO框架，提供RGB输入帧和流图，两者都由生成的注意力图加权到姿态估计DCNN。

(2) 一种利用流图为语义分割通道生成动态注意权值的概念。

(3) 一种不需要人工监督就能推导出注意权重的方法。

6. DXSLAM: A Robust and Efficient Visual SLAM System with Deep Features . Dongjiang Li1,2, Xuesong Shi3∗, Qiwei Long1,2 , Shenghui Liu3 , Wei Yang2 , Fangshi Wang2 , Qi Wei1 , Fei Qiao1∗. 1Tsinghua University ; 2Beijing Jiaotong University ;3Intel Corporation, China.

摘要：一个鲁棒高效的SLAM系统是实现机器人自主的关键。对于视觉SLAM算法，虽然在大多数方面已经建立了很好的理论框架，但在大多数情况下，特征提取和关联仍然是经验设计的，在复杂的环境下可能是脆弱的。本文表明，深度卷积神经网络(CNNs)的特征提取可以无缝地融合到现代SLAM框架中。提出的SLAM系统利用最先进的CNN来检测每个图像帧中的关键点，不仅给出关键点描述符，而且给出整个图像的全局描述符。这些局部和全局特征随后被不同的SLAM模块使用，与使用手工制作的特征相比，对环境变化和视角变化的鲁棒性更强。我们还使用BoW方法训练了局部特征的视觉词汇。基于局部特征、全局特征和词汇量，建立了一种高可靠的闭环检测方法。实验结果表明，所提出的模块的性能明显优于基线，并且整个系统对所有评估数据的轨迹误差和正确率都显著提高。此外，通过使用Intel OpenVINO工具包优化CNN，并利用Fast BoW库，系统大大受益于现代cpu中的SIMD(单指令多数据)技术。整个系统可以在没有任何GPU或其他加速器的情况下实时运行。代码开源：

https://github.com/ivipsourcecode/dxslam.

引言：现有的SLAM系统大多依赖于手工制作的视觉特性，如SIFT、Shi-Tomasi和ORB，在复杂环境中可能无法提供一致的特征检测和关联结果。大量的数据显示，CNN能够在不同的光照、背景和视角学习到鲁棒的特征。虽然大多数cnn的工作是处理图像区域级特征(例如语义)，但也有一些工作是专注于学习像素级特征。通常称为局部特征或局部描述符。虽然这些深度特征在很多方面都优于手工制作的特征，但在视觉SLAM系统中使用它们的作品并不多见。除了系统优化需要的计算量之外，一个原因可能是这些CNN需要GPU或其他硬件加速器来进行实时推断，这对于机器人或其他移动系统来说可能是不现实的。对于一些与SLAM密切相关的课题，包括视觉(重新)定位和环路闭合检测(LCD)，近期的研究更倾向于基于深度cnn的方法，因为与传统方法的性能差距很大。这些领域的研究通常需要提取每幅图像的全局特征。这可以通过聚合局部深度特征，例如bagof-words (BoW)方法，或使用端到端的CNN推理，例如NetVLAD。

本文提出了一种基于学习特征的视觉SLAM系统，旨在提高在变化环境下的终身定位能力。该系统名为DXSLAM(Deep CNN eXtract SLAM)，使用深度CNN从每幅图像帧中提取局部特征和全局特征。这些特征然后被输入到现代SLAM管道中，用于姿态跟踪、局部映射、LCD和重新定位，如图1所示。

Contributions：

(1) 它提供了一个完整的SLAM系统，具有闭环、全局优化和重新定位，所有这些都基于最先进的深度CNN的特征，比手工制作的特征提供了更强的抗环境和视角变化的鲁棒性。

(2) 提出了一种基于全局特征的图像检索和组匹配的鲁棒再定位方法。与传统的基于BoW的方法相比，该方法具有更高的成功率和更低的计算成本。

(3) 提出了一种基于全局特征和局部特征的可靠的LCD方法。一种新的视觉词汇被训练来聚集局部特征。

(4) 采用Intel OpenVINO特征提取工具包和用于LCD的Fast BoW对现代cpu的SLAM系统进行优化。据我们所知，这是第一个基于深度特征的SLAM系统，可以在没有gpu的情况下实时运行。

相关工作：

A) VSLAM的特征抽取：对于深度学习来说，关键点检测比patch描述更困难，因为关键点的标注在语义上是ill-posed的，无法直接进行数据标注。DeTone等人提出了一种自监督学习方法来解决这一问题，并使用它来训练一个全卷积神经网络，用于联合关键点检测和描述(SuperPoint)。另一个网络GCN也接受了同样的训练，但是有视觉里程计的监督。Dusmanu等人设计了D2-Net，其中可以进一步共享关键点检测和描述的知识。

在DXSLAM中，我们实证选择了HF-Net来提供类似于SuperPoint的关键点检测和描述。与之最相似的是GCNv2[9]，它也将深度学习的局部特征整合到ORBSLAM2的管道中。

B) Loop Closure Detection

LCD需要从当前的相机测量数据中识别出之前去过的地方。实时SLAM中常用的LCD方法是基于局部特征训练树形结构的视觉词汇来提高图像检索效率，该方法可以聚合局部特征，最终得到图像的向量表示。该方法最成功的应用之一是FAB-MAP，它使用SURF和BoW来训练用于位置识别的词汇表，并在视角变化的情况下显示了鲁棒的性能。FBoW(Fast Bag-of-Words)是BoW的优化实现。它在x86 cpu上使用单指令多数据(SIMD)技术，显著提高了词汇表加载和匹配的速度。

为了利用cnn的表示能力，最近的研究尝试将其与基于bow的LCD算法相结合。

C) 重定位

重新定位通常形成一个图像检索的通道，然后是相对姿态估计，类似于LCD，但通常有一个更大的候选图像数据库，并且更强调高召回，而不是LCD的高精度。对于图像检索，既可以使用带有聚集方法的局部特征，如BoW，也可以使用基于深度cnn的全局特征。区别在于后者中的聚合策略是从数据端到端学习的，因此它们通常具有更好的性能。最先进的方法聚合CNN的局部特征是使用NetVLAD层，它是由VLAD修改为可微的。HF-Net将一个类SuperPoint网络与一个NetVLAD网络绑定，并共享编码器层，以减少计算成本，方便训练。对于检索图像和查询图像之间的姿态估计，RANSAC方案的PnP方法在视觉定位和SLAM系统中都很流行。

7. DUI-VIO: Depth Uncertainty Incorporated Visual Inertial Odometry based on an RGB-D Camera . He Zhang and Cang Ye. Computer Science Department, Virginia Commonwealth University

摘要：本文提出了一种新的视觉惯性里程计算法法DUI-VIO，用于估计RGB-D相机的运动状态。首先，利用高斯混合模型(GMM)对相机彩色图像上各像素深度数据的不确定性进行建模;其次，将不确定性合并到VIO的初始化和优化过程中，以使状态估计更准确。为了执行初始化过程，我们提出了一种混合PnP方法来计算两个相机帧之间的姿态变化，并使用结果来三角测量初始视觉特征集的深度，其深度值在相机中不可用。混合PnP首先使用2D-2D PnP算法来计算旋转，这样可以使用更多的视觉特征来获得更准确的旋转估计。然后，它使用3D-2D方案，通过考虑深度数据的不确定性来计算平移，从而得到更准确的平移估计。Hybrid-PnP估计的姿态变化更准确，有助于提高初始化结果，从而提高状态估计的VIO性能。此外，Hybrid-PnP可以通过使用已知深度的少量特征来计算姿态变化。这提高了初始化过程的可靠性。最后，DUI-VIO将逆深度测量的不确定性纳入非线性优化过程中，从而减少了状态估计误差。实验结果表明，所提出的DUI-VIO方法在准确性和可靠性方面优于目前最先进的VIO方法。

8. Dual-SLAM: A framework for robust single camera navigation . Huajian Huang, Wen-Yan Lin*, Siying Liu, Dong Zhang, Sai-Kit Yeung . the School of information systems, Singapore Management University ; Institute for Infocomm Research, Singapore ; the School of Electronics and Information Technology, Sun Yat-sen University

摘要：SLAM寻求提供一个移动智能体实时自我定位。为了实现实时速度，SLAM增量传播位置估计。这使得SLAM速度更快，但也容易受到局部姿态估计失败的影响。由于局部姿态估计是病态的，局部姿态估计失败时有发生，使整个SLAM系统变得脆弱。本文试图纠正这一问题。我们注意到，虽然局部的姿态估计是病态的，但在较长的序列上的姿态估计是良好的。因此，局部位姿估计误差最终表现为建图不一致。当这种情况发生时，我们保存当前地图并激活两个新的SLAM线程。一个处理传入的帧来创建一个新的地图，另一个，恢复线程，回溯来链接新的和旧的地图。这创建了一个Dual-SLAM框架，在保持实时性能的同时，对局部姿态估计失败具有鲁棒性。对基准数据集的评估表明，Dual-SLAM可以显著减少88%的故障。

9. EAO-SLAM: Monocular Semi-Dense Object SLAM Based on Ensemble Data Association . Yanmin Wu1, Yunzhou Zhang1,2, Delong Zhu3, Yonghui Feng2, Sonya Coleman4 and Dermot Kerr4 . Faculty of Robot Science and Engineering, Northeastern University, Shenyang; College of Information Science and Engineering, Northeastern University; Department of Electronic Engineering, The Chinese University of Hong Kong ; School of Computing and Intelligent Systems,Ulster University

摘要：对象级数据关联和姿态估计在语义SLAM中起着重要的作用，但由于缺乏鲁棒性和准确性的算法，这些问题一直没有得到解决。在这项工作中，我们提出了一个集成数据关联策略来整合参数和非参数统计检验。通过利用不同统计量的特性，我们的方法可以有效地聚合不同测量值的信息，从而显著提高数据关联的鲁棒性和准确性。在此基础上，提出了一种精确的目标姿态估计框架，并提出了一种离群点鲁棒（outliers-robust）的质心尺度估计算法和目标姿态初始化算法，以提高姿态估计结果的最优性。此外，我们还建立了一个单目相机可生成半密集或轻量级面向对象的地图(object-oriented map)的SLAM系统。在三个公开可用的数据集和一个真实的场景上进行了广泛的实验。结果表明，我们的方法在准确性和稳健性方面显著优于最先进的技术。代码开源：https://github.com/yanmin-wu/EAO-SLAM.

摘要：近年来，在使SLAM服务于机器人导航、对象操作和环境表示方面，人们做出了更多的努力。语义SLAM是支持此类应用程序的一种很有前途的技术，受到了社区的广泛关注。除了传统的功能之外，语义SLAM还关注环境的详细表达，例如标记地图元素或感兴趣的对象，以支持不同的高级应用程序。对象SLAM是语义SLAM的典型应用，其目标是利用帧内对象的语义信息来估计更健壮和更准确的相机姿态。在这项工作中，我们进一步扩展了object SLAM的内容，使其能够构建轻量级和面向对象的映射。如图1所示，其中对象由立方体或二次曲面表示，其位置、方向和比例准确地登记。

Object SLAM目前存在的问题主要是在两方面：

(1) 现有的数据关联方法对于处理包含多个对象实例的复杂环境并不健壮或准确。目前还没有系统地解决这个问题的切实可行的办法。

(2) 目标姿态估计不准确，特别是单目目标SLAM。虽然在最近的研究中取得了一些改进，它们通常依赖于严格的假设，这在实际应用中很难实现。

在本文中，我们提出了EAO-SLAM系统，以解决数据关联和姿态估计问题。首先，我们结合参数统计检验和非参数统计检验，以及传统的基于iou的方法，对数据关联进行模型集成。与传统方法相比，我们的方法充分利用了不同统计量的特性，例如高斯和非高斯测量，因此在关联鲁棒性方面表现出显著的优势。针对目标姿态估计，提出了一种基于isolation forest(iforest)的质心和尺度估计算法和目标姿态初始化方法。该方法对异常值具有较强的鲁棒性和较高的精度，大大简化了关节位姿优化过程。

Contributions：

(1) 我们提出了一种集成数据关联策略，可以有效地聚合对象的不同测量值，以提高关联精度。

(2) 提出了一种基于iForest的目标姿态估计框架，该框架对异常值具有鲁棒性，能够准确估计目标的位置、姿态和尺度。

(3) 基于该方法，我们实现了EAO-SLAM来构建轻量级的、面向对象的地图。

(4) 我们在公开的数据集和真实场景上进行了全面的实验，验证了我们提出的方法的有效性。

相关工作：

A)数据关联

数据关联是语义SLAM不可或缺的组成部分，它用来判断当前帧中观察到的对象是否为地图中已经存在的对象。Bowman等人[5]使用概率方法对数据关联过程建模，并利用EM算法寻找观测地标之间的对应关系。后续研究[7]、[11]进一步扩展了这一思想，将动态对象关联起来或进行语义密集重构。这些方法可以实现较高的关联精度，但只能处理有限数量的对象实例。由于昂贵的EM算法优化过程，它们的效率还有待提高。目标跟踪是数据关联中另一种常用的方法。Li等人[13]提出将3D立方体投影到图像平面，然后利用Hungarian跟踪算法利用投影的2D边框进行关联。基于跟踪的方法运行时效率很高，但在复杂的环境中很容易生成不正确的先验，从而产生不正确的关联结果。

在最近的研究中，更多的数据关联方法是基于最大共享信息开发的。Liu等人[14]提出用随机游走描述符来表示对象之间的拓扑关系，共享描述符数量最大的视为同一个实例。相反，Yang等人[8]提出直接计算被检测对象上的匹配地图点的数量作为关联标准，从而产生非常有效的性能。Grinvald等人[2]提出测量语义标签之间的相似性，Ok等人[3]提出利用色相饱和度直方图的相关性。这些方法的主要缺点是设计的特征或描述符通常不够通用或健壮，很容易导致不正确的关联。

Weng等人[15]首次提出了语义数据关联的非参数统计检验，它可以解决统计数据不服从高斯分布的问题。随后，Iqbal等人[6]也验证了非参数数据关联的有效性。然而，这种方法不能有效地处理跟随高斯分布的统计量，因此不能充分利用SLAM中的不同测量值。基于这一观察，我们结合参数和非参数方法来执行模型集成，这在多类别对象存在的复杂场景中表现出优越的关联性能。

B) Object SLAM

得益于深度学习技术，目标检测被鲁棒地集成到SLAM框架中，用于在地图上标记感兴趣的对象。对帧内对象的利用极大地扩大了传统SLAM的应用范围。一些研究将物体作为地标来估计相机姿态或重新定位。一些研究利用物体大小来限制单目SLAM的尺度，或者移除动态物体来提高姿态估计精度。近年来，物体撞击与抓取的结合也引起了人们的广泛关注，促进了自主移动操纵的研究。

语义SLAM中的目标模型大致可分为三类:实例级模型、category-specific模型和通用模型。实例级模型依赖于一个良好的数据库，该数据库记录所有相关目标。目标的先验信息为图优化提供了重要的目标-相机约束。由于模型需要提前知道，因此这类方法的应用场景有限。也有一些关于category-specific模型的研究，这些研究侧重于描述 category-level的特征。例如，Parkhiya et al.[10]和Joshi et al.[19]使用CNN网络估计目标的视点，然后将3D线段投影到图像平面上对齐。一般模型采用简单的几何元素，如立方体[8]、[13]，四边形[18]和柱面[10]，来表示对象，它们也是最常用的模型。

在相机和物体姿态联合优化方面，Frost等人[20]简单地将物体质心作为点云整合到相机姿态估计过程中。Yang等人[8]提出了一种相机-目标-点联合优化方案来构造用于图优化的位姿和尺度约束。Nicholson等人[18]提出将二次曲面投影到图像平面上，然后计算投影的2D矩形与检测到的边界框之间的尺度误差。本文还采用了联合优化策略，但采用了一种新颖的初始化方法，可以显著提高解的最优性。

10. AVP-SLAM: Semantic Visual Mapping and Localization for Autonomous Vehicles in the Parking Lot . Tong Qin, Tongqing Chen, Yilun Chen, and Qing Su . IAS BU, Huawei Technologies

摘要：自动代客泊车是自动驾驶汽车的一个特殊应用。在这项任务中，车辆需要在狭窄、拥挤且没有gps定位系统的停车场行驶。准确的定位能力非常重要。传统的基于视觉的方法由于无纹理的区域、重复的结构和外观变化而导致跟踪丢失。在本文中，我们利用鲁棒语义特征来构建停车场的地图和车辆定位。语义特征包括路标、停车线、减速带等，这些特征通常出现在停车场。与传统特征相比，这些语义特征对透视和光照变化具有长期的稳定性和鲁棒性。我们采用四台环绕视角相机来增加感知范围。该系统在IMU和编码器的辅助下，生成全局视觉语义图。这张地图进一步用于在厘米水平上定位车辆。在实际实验中，我们对系统的准确率和召回率进行了分析，并与其他方法进行了比较。此外，我们还通过自动停车的应用证明了所提出的系统的实用性。

引言：近年来，对自动驾驶的需求越来越大。精确的定位是实现自主应用的重要前提。感知、预测、规划和控制都基于定位结果。为了实现鲁棒定位，车辆配备了各种传感器，如GPS、摄像头、激光雷达、IMU、车轮里程表等。在过去的几十年里，出现了大量的定位方法，如基于视觉的方法[1,2]，基于视觉惯性的方法[3]-[5]，基于lidar的方法[6]-[8]。对于商业化的生产，低成本的传感器，如imu和相机，是首选。除了定位，地图绘制也是自动驾驶的一项重要功能。对于一些私人区域，如封闭的工厂公园、停车场，没有预定义的地图。车辆需要自己构建地图。因此，定位和地图绘制能力对于自动驾驶来说是非常重要的。

自动代客泊车是自动驾驶的一个特殊应用，车辆需要导航到停车场，并自动停车到目标地点。由于停车场通常又小又窄又拥挤，精确的定位就显得尤为重要。任何定位错误都可能导致意外的崩溃。为了避免传感器的高成本，研究集中在基于视觉的定位方法。然而，这种场景给传统的视觉定位方法带来了巨大的挑战。一方面，室内和地下停车场大多由没有纹理的墙壁、柱子和地面组成。特征检测与匹配不稳定。传统的视觉方法容易丢失跟踪。另一方面，不同的车辆可能在不同的时间停留在不同的停车场，这使得外观变化很大。在很长一段时间里，很难通过基于外观的地图来重新定位车辆。

为了解决这一问题，我们采用了一种新的特征——语义特征。语义特征包括路标、停车线和减速带，这些通常出现在停车场。与传统的几何特征相比，这些语义特征对透视和光照变化具有长期稳定和鲁棒性。这项工作中，我们提出了一个基于语义特征的地图和定位系统，使车辆在停车场自动导航。

Contributions：

(1) 我们提出了一种新的语义特征(道路线、路标、停车位等)用于视觉SLAM框架。

(2) 我们提出了一个完整的停车场自动驾驶地图和定位系统。

(3) 我们在此系统的基础上进行了实际的自动停车应用。

Overview:

11. BIT-VO: Visual Odometry at 300 FPS using Binary Features from the Focal Plane . Riku Murai1, Sajad Saeedi2, Paul H. J. Kelly . Imperial College London, Department of Computing；Ryerson University

摘要：Focal-plane Sensor-processor(FPSP)是下一代相机技术，它使传感器芯片上的每个像素在捕获光强度的focal-plane上并行执行计算。SCAMP-5是用于本研究的通用FPSP，它在模数转换前进行模拟域计算。通过提取focal-plane上的图像特征，对数字化和传输的数据进行缩减。因此，SCAMP-5在保持低能耗的同时提供了高帧率。在这里，我们提出了BITVO，这是第一个使用FPSP的6自由度视觉里程计算法。我们的整个系统在自然环境中以300帧每秒的速度运行，使用由SCAMP-5检测到的二进制边缘和角落特征。

12. ARAS: Ambiguity-aware Robust Active SLAM based on Multi-hypothesis State and Map Estimations . Ming Hsiao∗, Joshua G. Mangelson∗, Sudharshan Suresh∗, Christian Debrunner†, and Michael Kaess∗. Robotics Institute, Carnegie Mellon University ; Lockheed Martin Corporation;

摘要：-在本文中，我们引入了ambiguity-aware robust active SLAM (ARAS)框架，该框架利用了多假设状态和地图估计来实现更好的鲁棒性。在一个多假设SLAM (MH-SLAM)系统中，如果它们暂时无法解决(由于信息不足)，模糊的测量可能会导致多个可能的解，我们的ARAS的目标是将所有这些可能的估计明确地考虑到决策制定和计划中，据我们所知，这还没有被任何以前的主动SLAM方法覆盖(每次只考虑一个假设)。1)采用局部轮廓进行有效的多假设探索;2)整合一个主动回环模块，重新访问地图区域，获取信息进行假设剪枝，以保持整体计算效率;3)演示了在多假设估计下如何使用输出目标位姿进行路径规划。通过广泛的模拟和真实世界的实验，我们证明了提出的ARAS算法在存在模糊性的情况下，可以比类似的单一假设方法更稳健地主动绘制一般室内环境。

13. D2VO: Monocular Deep Direct Visual Odometry . Qizeng Jia1∗, Yuechuan Pu1∗, Jingyu Chen1, Junda Cheng1, Chunyuan Liao2, Xin Yang1† . School of Electronic Information and Communications, Huazhong University of Science and Technology;

摘要：-在本文中，我们提出了一种基于深度学习和直方法的单目视觉里程计系统D2VO。我们的系统重建每个关键帧的密集深度图，并根据这些关键帧跟踪相机姿态。将直接法和深度学习相结合，系统的跟踪和建图都可以从几何测量和语义信息中受益。对于每个输入帧，都建立一个特征金字塔，并通过跟踪和建图过程共享。随后采用多视图层次深度估计网络对关键帧的深度图进行了由粗到细的有效估计。我们通过BA，使每帧重投影特征与参考关键帧之间的光度误差最小化，从而优化相机姿态。在TUM数据集上的实验结果表明，我们的方法在跟踪和映射方面都优于目前最先进的方法。

引言：随着深度学习技术的迅速发展，深度神经网络在大量的计算机视觉任务中表现出了强大的能力，如分类、识别、语义分割、立体视觉等。随着这些进步，许多基于学习的方法被提出来解决密集映射和相机跟踪。单视图深度估计网络[3]，[4]，[5]，[6]，[7]直接从单个输入的RGB图像中推断出深度图。与传统的几何方法不同，这些方法尝试学习RGB图像与其深度映射之间的映射关系。该网络用大量的数据进行训练，并回归输入RGB图像的每个像素的深度值。与传统的几何方法不同，这些方法尝试学习RGB图像与其深度图之间的映射关系。该网络用大量的数据进行训练，并回归输入RGB图像的每个像素的深度值。[8]，[9]研究了结合立体视觉线索和从单一视角深度CNN学习到的结构先验的可能性。这些方法以一种松散耦合的方式将多视角立体线索和单视角先验结合起来。多视图深度估计网络[10]，[11]，[12]的目的是在已知相机姿态下估计深度。几何信息被嵌入到网络中，通过输入参考图像及其成本量，计算一系列已知姿态的帧。为了估计相机的自我运动，基于深度学习的方法总是利用一个两帧的姿态网络作为输入和输出它们之间的相对姿态。：单视图深度估计网络和位姿网络可以很容易地组成一个类似VO的跟踪测绘系统，如[13]，[14]，[15]，[16]。与传统的VO系统相比，深度预测完全是基于训练数据集的先验知识，没有几何线索。此外，姿态网络过于雄心勃勃，无法仅凭两张RGB图像就预测相机的运动。另一个问题是，两个网络都没有对摄像机的内在信息进行编码，这意味着系统不能一般化到其他具有不同内在参数的摄像机。为了解决这些限制，[17]提出用直接最小化光度误差来代替位姿网来获得相机的位姿。BA-Net[18]将bundle平差(BA)嵌入到单个视图深度估计网络中。与使用位姿网相比，直接用BA估计相机位姿的方法更加实用和可靠。

通过几何计算，最先进的传统VO系统是鲁棒的，并在大多数情况下相机跟踪性能良好。然而，由于只测量特征点或高纹理区域的深度，重构的深度结构是不完整的。基于cnn的深度和位姿预测方法可以输出密集的深度图和相机的位姿，但位姿或位姿预测可能纯粹基于从训练数据集学习到的语义信息。如果没有几何测量，深度或姿态预测可能会在不熟悉或看不见的情况下崩溃。

对于实际的基于cnn的VO，我们的目标是利用深度学习对跟踪和建图过程中的几何信息进行编码。我们将深度学习和传统方法的优点结合在了一起。为此，我们提出了深部直接视觉里程计法，记作D2VO。对于密集建图，我们开发了一种多视图深度估计网络。该网络以具有相应摄像头姿态的帧作为输入。多视角几何信息基于相机位姿被编码为计算成本量。为了保持效率和准确性，深度图从粗到细按层次进行估计。使用RGB帧及其估计的密集深度，通过最小化当前帧和重新投影参考帧之间的光度误差，可以通过BA优化后面的相机姿态。为了利用CNN的优势，计算两帧特征之间的光度误差。利用神经网络对特征进行提取，并通过深度估计网络进行共享，以提高识别效率。基于这个多视图深度估计网络和基于特征的直接方法，我们设计了基于VO的关键帧的管道。在我们的系统中，我们只估计关键帧的深度。利用该关键帧之前的帧来估计该关键帧的深度，并基于该关键帧直接跟踪后续帧。传统方法将跟踪和建图过程相结合，利用CNN获取语义信息，输出密集深度图。对于系统初始化，我们设计了一种初始化方法，该方法与用于建图的网络深度相同。无需额外的网络进行初始化，可以节省程序的存储空间。

综上所述，我们的D2VO使用了一种高效的多视图深度估计网络进行映射和基于特征映射的直接方法进行跟踪。在我们的系统中，深度和姿态都是基于几何测量来估计的，因此我们的系统结合了CNN和传统方法的优点。我们还设计了一种具有相同深度估计网络的初始化方法。实验结果表明，我们的系统优于最先进的方法。

14. Deep Depth Estimation from Visual-Inertial SLAM . Kourosh Sartipi, Tien Do, Tong Ke, Khiem Vuong, and Stergios I. Roumeliotis† . University of Minnesota

摘要：本文研究了从室内场景的稀疏深度点和图像中学习完整的场景深度的问题。具体来说，我们研究了从VI-SLAM系统计算稀疏深度的情况。与激光雷达或Kinect等主动深度传感器的输入相比，生成的点云密度低，有噪声，空间分布不均匀。由于VISLAM只在有纹理的区域产生点云，我们通过利用它们的平面结构和它们的表面法线来补偿低纹理表面的缺失深度，这是一个重要的中间表示。然而，当测试图像的观看方向(特别是roll角)与训练图像存在显著差异时，预训练的表面法向网络性能会出现较大的退化。为了解决这个限制，我们使用VI-SLAM的可用重力估计来扭曲输入图像到训练数据集中主要的方向。这使得表面法向估计的性能显著提高，因此稠密深度估计。最后，我们表明，我们的方法在训练(ScanNet[1]和NYUv2[2])和测试(用Azure Kinect[3]收集)数据集上都优于其他最先进的方法。

15. Improving Visual SLAM in Car-Navigated Urban Environments with Appearance Maps . Alberto Jaenal∗, David Zuniga-Noel¨ ∗, Ruben Gomez-Ojeda, Javier Gonzalez-Jimenez . Machine Perception and Intelligent Robotics (MAPIR) Group, Department of Systems Engineering, University of Malaga

摘要：本文描述了一种方法，通过应用来自公共数据库的地理标记图像(谷歌街景，Mapillary等)的约束，纠正在不允许gps的环境中行驶的汽车的vslam估计轨迹的误差。这种方法被称为Appearance-based Geo-Alignment for Simultaneous Localisation and Mapping (AGA-SLAM)，它将现有的图像数据库编码为appearance map，用紧凑的整体描述符表示每个图像及其相关的地理标记的空间。通过将轨迹上已知位置的约束合并到基于位置的优化框架中，对VSLAM轨迹进行在线修正。本文提出了一种结合局部和绝对度量观测与Visual Place Recognition关联的无缝形式。整体图像描述符对天气或光照变化的鲁棒性保证了一种长期一致的提高汽车定位的方法。该方法已在4个不同数据集的70多个序列上进行了广泛的评估，证明了该方法对外观挑战的有效性和持久性。

16. OrcVIO: Object residual constrained Visual-Inertial Odometry . Mo Shan Qiaojun Feng Nikolay Atanasov . the Department of Electrical and Computer Engineering, University of California

摘要：在SLAM系统中引入目标级语义信息至关重要。这项工作提出了OrcVIO，用于在结构化目标模型上与跟踪和优化紧耦合的VIO。OrcVIO通过语义特征和bounding box重投影误差进行区分，对目标的姿态和形状执行批处理优化。估计的对象状态有助于实时增量优化IMU-camera的状态。利用真实数据评估了OrcVIO的精确轨迹估计和大规模目标级建图能力。

摘要：本文关注于VIO和物体级建图。生成几何一致和语义上有意义的地图允许压缩表示、改进的回环检测，以及根据人类可解释对象的机器人任务规范。基于目标的SLAM主要分为两大类：Category-specific和Category-agnostic。前者基于语义关键点或3D形状模型优化目标实例的位姿和形状。后者使用几何形状，比如球体、立方体、椭球体用于表示目标。CubeSLAM使用多视图BA生成并优化3D立方体，而不依赖先验模型。QuadricSLAM使用椭球表示，适合定义边界盒检测模型。通常在曼哈顿假设下观察到的基于支撑面和切面的结构约束也被提出。但是，使用通用对称形状会使对象实例的方向潜在地不可恢复。

我们的工作利用了特定和通用的表示，并提出了一个从粗到细的目标表示模型。我们在粗层次上使用椭球体来限制物体的位姿变化，在细层次上使用语义关键点来获得精确的形状变形。

Contributions：一种轻量级增量语义视觉-惯性里程计算法，与对象位姿和形状的迭代多视图优化紧耦合。该方法依赖于从惯性测量、几何特征、物体包围框检测和mid-level物体部分特征(如车轮、挡风玻璃、门)获得的残差和雅可比矩阵。受多状态约束卡尔曼滤波(MSCKF)的启发，我们将基于快速滤波的IMU-camera状态传播与基于对象状态的校正相结合，在多个视图上进行优化。为了强调语义误差在优化过程中的作用，我们将该方法命名为Object

residual constrained Visual-Inertial Odometry(OrcVIO)。OrcVIO能够生成有意义的物体地图，并估算精确的传感器轨迹，如下图所示：

17. Exploiting Semantic and Public Prior Information in MonoSLAM . Chenxi Ye1, Yiduo Wang2, Ziwen Lu3, Igor Gilitschenski4, Martin Parsley5 and Simon J. Julier3 . Department of Computer Science, University College London ；Oxford Robotics Institute, University of Oxford；Department of Computer Science, University College London；Computer Science and Artificial Intelligence Lab, MIT；Mo-Sys Engineering Ltd

摘要：在本文中，我们提出利用语义信息的来改进基于稀疏特征的单目SLAM系统中地图先验的使用。要想加入这个先验信息，先验和SLAM地图中的特征需要相互连接。大多数现有系统使用SLAM构建地图，然后将其与先前的地图对齐。然而，这种方法假设局部地图是准确的，并且其中的大多数特征可以受到先验的约束。我们的想法是创建许多先前的地图来提供语义信息。因此，只有当SLAM地图中的特征来自与前一个地图相同的语义对象时，有效的关联才存在。使用这个思想，我们使用DeepLabV3+来拓展ORB-SLAM2，从Open Street Map建筑足迹数据中合并先验信息。我们发现，在闭环之前，漂移量明显小于原始的ORB-SLAM2。此外，我们还表明，当使用ORB-SLAM2作为prior-aided VO时，跟踪精度等于或优于完整的ORB-SLAM2系统，而不需要全局映射或闭环。

18. Plug-and-Play SLAM: A Unified SLAM Architecture for Modularity and Ease of Use . Mirco Colosi Irvin Aloise Tiziano Guadagnino Dominik Schlegel Bartolomeo Della Corte Kai O. Arras Giorgio Grisetti .Department of Computer, Control, and Management Engineering ”Antonio Ruberti”, Sapienza University of Rome

摘要：SLAM被认为是一个成熟的研究领域，有许多应用程序和公开可用的开源系统。尽管如此成熟，现有的SLAM系统通常依赖于特定的实现，或者根据预定义的传感器设置进行定制。在这项工作中，我们解决了这些问题，提出了一个新的统一SLAM架构，专门设计来标准化SLAM问题和解决异构传感器配置。由于其模块化和设计模式，所提出的框架易于扩展，最大限度地重用代码，并提高计算效率。在我们的实验中，我们使用了各种典型的传感器配置，这些优势是在不影响最先进的SLAM性能的情况下产生的。结果表明，该体系结构有助于(多传感器)SLAM的进一步研究，并将其转化为实际应用。

引言：具有多个传感器的SLAM是解决这种具有挑战性的场景的一种方法，因为它利用了关于环境的冗余或互补信息。典型的例子包括图像与相机、激光测距仪或RGB-D传感器的距离数据的结合，以及与视觉惯性里程计(VIO)等触觉传感器的融合。多传感器SLAM已经在几个研究领域进行了研究，典型的最先进系统支持同时两个或多个传感器。然而，这些系统中的大多数都是与预定义的传感器组合一起使用的，并不是为了易于与其他传感器或系统进行扩展而设计的。这种灵活性和模块化的缺乏使得很难分析单个传感器、不同传感器组合、一个SLAM系统中不同组件的性能影响，以及比较最先进的(多传感器)SLAM系统。然而，这些问题是研究人员进一步推进该领域的关键，也是寻求给定用例的最佳成本效益解决方案的实践者的关键。

本文中，我们提出了一种新的统一SLAM体系结构来克服这些限制，旨在标准化单传感器和多传感器的SLAM。在过去的工作中，我们引入了基于图的SLAM构建模块的分类，我们将架构扩展到多个传感器，并使用户能够以即插即用（plug-and-play）的方式部署和组合传感器形态。由于其模块化和核心SLAM模块的分离，该体系结构提高了代码重用、效率和可用性。例如，只需编辑一个配置文件，就可以整合新的传感器提示。我们在多个使用2D激光雷达、车轮里程测量、立体和RGB-D摄像机的实验中评估了我们的架构，并获得了与最先进系统类似的性能结果。代码开源：http://srrg.gitlab.io/srrg2.html

19. TartanAir: A Dataset to Push the Limits of Visual SLAM . Wenshan Wang1, Delong Zhu2, Xiangwei Wang3, Yaoyu Hu1, Yuheng Qiu1, Chen Wang1, Yafei Hu1, Ashish Kapoor4, Sebastian Scherer1 . Robotics Institute of Carnegie Mellon University; Department of Electronic Engineering, The Chinese University of Hong Kong; control science and engineering of Tongji University

摘要：本文提出了一个具有挑战性的数据集：TartanAir。数据是在逼真的模拟环境中收集的运动物体，变化的光线和各种天气条件的存在。通过在仿真中收集数据，我们可以获得多模态传感器数据和精确的地面真实标签，如立体RGB图像、深度图像、分割、光流、相机姿态、激光雷达点云等。我们建立了大量具有不同风格和场景的环境，涵盖了使用物理数据采集平台难以实现的具有挑战性的视点和多样的运动模式。为了实现如此大规模的数据收集，我们开发了一个自动管道，包括建图、轨迹采样、数据处理和数据验证。我们利用我们的数据来评估各种因素对视觉SLAM算法的影响。最新算法的结果表明，视觉SLAM问题还远远没有解决。在已建立的数据集(如KITTI)上表现出良好性能的方法在更困难的场景下表现不佳。虽然我们使用了模拟，但我们的目标是通过为测试新方法提供一个具有挑战性的基准来推动视觉SLAM算法在现实世界中的极限，同时也为基于学习的方法使用大量不同的训练数据。数据集地址：t http://theairlab.org/tartanair-dataset.

20. Dynamic Object Tracking and Masking for Visual SLAM . Jonathan Vincent, Mathieu Labbe, Jean-Samuel Lauzon, Franc¸ois Grondin, ´Pier-Marc Comtois-Rivet, Franc¸ois Michaud .

摘要：在动态环境中，视觉SLAM技术的性能可能会受到来自移动物体的视觉特征的影响。一种解决方案是识别这些对象，以便在定位和建图时删除它们的视觉特征。本文提出了一种简单快速的管道，使用深度神经网络、扩展卡尔曼滤波器和视觉SLAM来改善动态环境下的定位和映射(在GTX 1080上大约14帧/秒)。在TUM的动态序列上的实验结果表明，使用RTAB-Map作为视觉SLAM方法达到类似的定位性能相对于其他先进的方法,同时提供跟踪动态对象的位置,一个3d地图,更好地与整个回环检测管道能够运行在一个机器人移动速度适中。架构：

21. Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO . Balazs Nagy, Philipp Foehn, Davide Scaramuzza . Robotics and Perception Group, Dep. of Informatics, University of Zurich, and Dep. of Neuroinformatics, University of Zurich and ETH Zurich

摘要：最近，强大的嵌入式图形处理单元(gpu)的引入允许在实时计算机视觉应用程序中前所未有的改进。它使算法能够在机上运行，远高于标准视频速率，不仅产生更高的信息处理能力，而且还减少了延迟。本工作的重点是在VIO领域，利用高效的低层次GPU硬件专用指令来改进现有的计算机视觉算法。VIO管道的大多数步骤都与视觉特性相关，但它们依赖于图像数据进行检测和跟踪，这两个步骤都非常适合并行化。特别是非极大值抑制和随后的特征选择是影响整体图像处理延迟的主要因素。我们的工作首先回顾了gpu特征检测的非极大值抑制问题，并提出了一个解决方案，选择局部响应最大值，施加空间特征分布，并同时提取特征。第二个贡献是提出一个增强的FAST特征检测器，应用上述的NMS方法。最后，我们将我们的方法与其他最先进的CPU和GPU实现进行比较，在特征跟踪和检测方面，我们总是优于所有这些方法，在嵌入式Jetson TX2平台上的吞吐量超过1000fps。此外，我们还演示了集成到VIO管道中的工作，实现了约200fps的度量状态估计。

22. From Points to Planes - Adding Planar Constraints to Monocular SLAM Factor Graphs . Charlotte Arndt1,2, Reza Sabzevari1 and Javier Civera2 . 1CV-Lab, Coorporate Research, Robert Bosch GmbH,Hildesheim, Germany；Universidad ´de Zaragoza

摘要：平面结构在人造环境中很常见。为了实现更完整和更高层次的场景表示，平面对单目SLAM算法的的补充。此外，它们引入的附加约束可能会在某些情况下减少估计误差。在本文中，我们提出了一种结合平面路标和平面约束的基于特征的单目SLAM新形式。具体来说，我们强制平面内的点精确地位于它们所属的平面上，并将这些信息传播到其他状态。我们的形式，不同于其他SOTA方法，它允许我们合并一般的平面，独立于深度信息或可用的CNN分割。我们在几个公共数据集序列中评估了我们的方法，显示出精确的平面估计和姿态精度与最先进的单目SLAM相当。

IROS2020 论文阅读相关推荐

论文阅读工具ReadPaper
对于搞科研的同学们来说,看论文是要经历的第一关,尤其是要读好多篇论文的时候,更是着实令人头大. 这不,最近无意中发现了个在线论文阅读网站:readpaper.com,号称「论文阅读笔记神器,硕博科研学 ...
多目标跟踪：CVPR2019论文阅读
多目标跟踪:CVPR2019论文阅读 Robust Multi-Modality Multi-Object Tracking 论文链接:https://arxiv.org/abs/1909.03850 ...
快速人体姿态估计：CVPR2019论文阅读
快速人体姿态估计:CVPR2019论文阅读 Fast Human Pose Estimation 论文链接: http://openaccess.thecvf.com/content_CVPR_201 ...
Action4D：人群和杂物中的在线动作识别：CVPR209论文阅读
Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...
深度学习点云语义分割：CVPR2019论文阅读
深度学习点云语义分割:CVPR2019论文阅读 Point Cloud Oversegmentation with Graph-Structured Deep Metric Learning 摘要本 ...
3D目标检测论文阅读多角度解析
3D目标检测论文阅读多角度解析一．前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...
3D目标检测论文阅读摘要
3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...
目标检测——Faster R-CNN论文阅读
论文阅读--Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks 文章目录论文阅读--Faste ...
【独家】深度学习论文阅读路线图
如果你是深度学习领域的一名新手,可能会遇到的第一个问题是"应该从哪篇论文开始读起呢?" 这里给出了深度学习论文阅读路线图! 路线图按照下面四个准则构建而成: 从提纲到细节从经典到 ...

IROS2020 论文阅读

IROS2020 论文阅读相关推荐

最新文章

热门文章