深度学习结合SLAM的研究思路/成果整理之（二）语义SLAM 端到端

续上一篇

1.2.2 在传统SLAM之上加入语义信息

图像语义分割&语义地图构建

Li X, Belaroussi R. Semi-Dense 3D Semantic Mapping from Monocular SLAM[J]. arXiv preprint arXiv:1611.04144, 2016.
单目SLAM的半稠密语义建图
（LSD-SLAM,室内外场景)
摘要：
将计算机视觉中的几何与图像相结合，已经被证明是机器人在各种各样的应用中的一种很有发展前景的解决方案。stereo相机和RGBD传感器被广泛用于实现快速三维重建和密集轨迹跟踪。然而，它们缺乏不同规模环境无缝切换的灵活性，比如说，室内和室外场景。此外, 在三维建图中，语义信息仍然很难获取。我们通过结合state-of-art的深度学习方法和半稠密的基于单目相机视频流的SLAM，应对此种挑战。在我们的方法中，二维的语义信息，结合了有空间一致性的相连关键帧之间的correspondence对应关系之后，再进行三维建图。在这里并不需要对一个序列里的每一个关键帧进行语义分割，所以计算时间相对合理。我们在室内室外数据集上评测了我们的方法，在通过baseline single frame prediction基准单帧预测实现二维语义标注方面取得了效果的提升。

基本框架图如下：
输入RGB图像->选择关键帧并refine->2D语义分割->3D重建，语义优化

Sünderhauf N, Pham T T, Latif Y, et al. Meaningful Maps With Object-Oriented Semantic Mapping[J]. 2017.
这个题目怎么翻译是好？面向对象语义建图的有意义地图
（输入：RGB-D图像 SSD ORB-SLAM2）
摘要：
智能机器人必须理解它们周围场景的几何和语义两方面的特性，才能跟环境进行有意义地交互。到目前为止，大多数研究已经分别解决了这两个建图问题，侧重于几何信息建图或者是语义信息建图。在本文中我们解决了，既包含有语义意义和对象级别的实体，也包含基于点或网格的几何表示的环境地图构建的问题。我们同时也对已知对象类别中看不到的实例建立了几何点云模型，并建立了以这些对象模型为中心实体的地图。我们的系统利用了稀疏的基于特征的RGB-D SLAM，基于图像的深度学习目标检测方法和三维无监督的分割方法。
基本框架图如下：
输入RGB-D图像 -> ORB-SLAM2应用于每一帧，SSD（Single Shot MultiBox Detector）用于每一个关键帧进行目标检测，3D无监督分割方法对于每一个检测结果生成一个3D点云分割 -> 使用类似ICP的匹配值方法进行数据关联，以决定是否在地图中创建新的对象或者跟已有对象建立检测上的关联 -> 地图对象的3D模型（3D点云分割，指向ORB-SLAM2中位姿图的指针，对每个类别的累计置信度）

Ma L, Stückler J, Kerl C, et al. Multi-View Deep Learning for Consistent Semantic Mapping with RGB-D Cameras[J]. 2017.
基于RGB-D相机和多视角深度学习的一致语义建图
（NYUDv2数据集）
摘要：
视觉场景理解是使机器人能够在环境中进行有目的的行动的一项重要的能力。本文中，我们提出了一种新型的深度神经网络方法以在RGB-D图像序列中进行语义分割。主要的创新点在于用一种自监督的方式训练我们的网络用于预测多视角一致的语义信息。在测试时，此网络的基于语义关键帧地图的语义预测，相比单视角图片训练出来的网络上的语义预测，融合的一致性更高。我们的网络架构基于最新的用于RGB和深度图像融合的单视角深度学习方法来进行语义风格，并且通过多尺度误差最小化优化了这一方法的效果。我们使用RGB-D SLAM得到相机轨迹，并且将RGB-D图像的预测扭曲成ground-truth的标注过的帧，以在训练期间提高多视角的一致性。（不是很理解）（We obtain the camera trajectory using RGB-D SLAM and warp the predictions of RGB-D images into ground-truth annotated frames in order to enforce multi-view consistency during training.）在测试时，多视角的预测被融合到关键帧当中去。我们提出并分析了在训练和测试过程中提高多视角一致性的方法。我们评价了多视角一致性训练的优点，并指出，深度特征的池化和多视角的融合，能够提升基于NYUDv2数据集评价指标的语义分割的性能。我们端到端方式训练的网络，在单视角分割和多视角语义融合方面，都取得了在NYUDv2数据集下，state-of-art的效果。

注：NYUDv2数据集数据集下载链接
用于室内场景语义分割的RGB-D图像数据集，来自Kinect，1449对已标注的RGB-Depth图像，40万张未标注图像。

Mccormac J, Handa A, Davison A, et al. SemanticFusion: Dense 3D Semantic Mapping with Convolutional Neural Networks[J]. 2016.
语义融合：使用CNN的稠密3D语义建图
（NYUDv2数据集室内场景实时）
摘要：
使用视觉传感进行更鲁棒，更准确和细节更丰富的建图，已经被证明有利于机器人在各种各样应用中的运用。在接下来的机器人智能和直观的用户交互中，地图需要扩展几何和外观信息–它们需要包含语义信息。我们使用卷积神经网络CNNs和state-of-the-art的稠密SLAM系统，以及提供了即使在多圈扫描轨迹时，也能得到室内RGB-D视频中帧间的长期稠密correspondence对应关系的ElasticFusion来解决这一问题。这些对应关系使得CNN的多视角语义预测，概率上融合到地图中去。此方法不仅能够生成有效的语义3D地图，也表明在NYUv2数据集上,融合多个预测能够提升预测性能，即使是基于基准单帧预测的2D语义标注。同时我们也证明在预测视角变化更多，重建数据集更小时，单帧分割的性能会进一步得到提升。我们的系统能够在实时的情况下有交互地使用，帧率能达到～25HZ。

* Bowman S L, Atanasov N, Daniilidis K, et al. Probabilistic data association for semantic SLAM[C]// IEEE International Conference on Robotics and Automation. IEEE, 2017:1722-1729.*
语义SLAM的概率数据关联
（KITTI数据集 ORB-SLAM2 数学公式多室内外场景实时暂未开源）
摘要：
传统的SLAM方法多依赖于低级别的几何特征：点线面等。这些方法不能给环境中观察到的地标添加语义标签。并且，基于低级特征的闭环检测依赖于视角，并且在有歧义和或重复的环境中会失效。另一方面，目标识别方法可以推断出地标的类型和尺度，建议一个小而简单的可识别的地标集合，以用于视角无关的无歧义闭环。在同一类物体有多个的地图中，有一个很关键的数据关联问题。当数据关联和识别是离散问题时，通常可以通过离散的推断方法来解决，传统SLAM会对度量信息进行连续优化。本文中，我们将传感器状态和语义地标位置的优化问题公式化，其中语义地标位置中集成了度量信息，语义信息和数据关联信息，然后我们由将这个优化问题分解为相互关联的两部分：离散数据关联和地标类别概率的估计问题，以及对度量状态的连续优化问题。估计的地标和机器人位姿会影响到数据关联和类别分布，数据关联和类别分布也会反过来影响机器人-地标位姿优化。我们的算法性能在室内和室外数据集上进行了检验论证。

另，有一篇我很感兴趣的论文，不过跟SLAM没有结合，亮点在于街景的语义分割
Pohlen T, Hermans A, Mathias M, et al. Full-Resolution Residual Networks for Semantic Segmentation in Street Scenes[J]. 2016.
用于街景语义分割的全分辨率残差网络
作者开放了源代码～～https://github.com/TobyPDE/FRRN

1.2.3 端到端SLAM

Zhu Y, Mottaghi R, Kolve E, et al. Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning[J]. 2016.
使用DRL深度加强学习实现机器人自主导航
摘要：
深度强化学习中有两个较少被提及的问题：1. 对于新的目标泛化能力不足，2. 数据低效，比如说，模型需要几个（通常开销较大）试验和误差集合，使得其应用于真实世界场景时并不实用。在这篇文章中，我们解决了这两个问题，并将我们的模型应用于目标驱动的视觉导航中。为了解决第一个问题，我们提出了一个actor-critic演员评论家模型，它的策略是目标函数以及当前状态，能够更好地泛化。为了解决第二个问题，我们提出了 AI2-THOR框架，它提供了一个有高质量的3D场景和物理引擎的环境。我们的框架使得agent智能体能够采取行动并和对象之间进行交互。因此，我们可以高效地收集大量训练样本。我们提出的方法 1）比state-of-the-art的深度强化学习方法收敛地更快，2）可以跨目标跨场景泛化，3）通过少许微调就可以泛化到真实机器人场景中（尽管模型是在仿真中训练的）4）不需要特征工程，帧间的特征匹配和对于环境的特征重建，是可以端到端训练的。
视频链接
https://youtu.be/SmBxMDiOrvs

Gupta S, Davidson J, Levine S, et al. Cognitive Mapping and Planning for Visual Navigation[J]. 2017.
用于视觉导航的感知建图和规划
摘要：
我们提出了一个用于在陌生环境中导航的神经网络结构。我们提出的这个结构以第一视角进行建图，并面向环境中的目标进行路径规划。 The Cognitive Mapper
and Planner (CMP)主要依托于两个观点：1.一个用于建图和规划的统一的联合架构中，建图由规划的需求所驱动的。2. 引入空间记忆，使得能够在一个并不完整的观察集合的基础之上进行规划。CMP构建了一个自上而下的belief map置信地图，并且应用了一个可微的神经网络规划器，在每一个时间步骤中决策下一步的行动。对环境积累的置信度使得可以追踪已被观察到的区域。我们的实验表明CMP的性能优于reactive strategies反应性策略和standard memory-based architectures 标准的基于记忆的体系结构两种方法，并且在陌生环境中表现良好。另外，CMP也可以完成特定的语义目标，比如说“go to a chair”到椅子那儿去。

图1：整个网络的架构：我们学习的导航网络由构图和规划模块组成。构图模块负责将环境信息引入到空间记忆中去，空间记忆对应于一个以自身为中心的环境地图。规划器使用这样的空间记忆与导航目标一起输出导航行为。构图模块没有明显的监督机制，而是在学习过程中自然地呈现出来。
谷歌大法好～代码，模型，演示视频链接 https://sites.google.com/view/cognitive-mapping-and-planning/

1.3 研究现状总结

用深度学习方法替换传统slam中的一个/几个模块：
目前还不能达到超越传统方法的效果，相较传统SLAM并没有很明显的优势（标注的数据集少且不全，使用视频做训练数据的非常少。SLAM中很多问题都是数学问题，深度学习并不擅长等等原因）。

在传统SLAM之上加入语义信息
语义SLAM算是在扩展了传统SLAM问题的研究内容，现在出现了一些将语义信息集成到SLAM的研究，比如说用SLAM系统中得到的图像之间的几何一致性促进图像语义分割，也可以用语义分割/建图的结果促进SLAM的定位/闭环等，前者已经有了一些研究，不过还是集中于室内场景，后者貌似还没有什么相关研究。如果SLAM和语义分割能够相互促进相辅相成，应该能达到好的效果。

另：使用SLAM帮助构建大规模的图像之间有对应关系的数据集，可以降低深度学习数据集的标注难度吧，应该也是一个SLAM助力深度学习的思路。

端到端SLAM