续上一篇

1.2.2 在传统SLAM之上加入语义信息

图像语义分割&语义地图构建
  • Li X, Belaroussi R. Semi-Dense 3D Semantic Mapping from Monocular SLAM[J]. arXiv preprint arXiv:1611.04144, 2016.
    单目SLAM的半稠密语义建图
    (LSD-SLAM,室内外场景)
    摘要:
    将计算机视觉中的几何与图像相结合,已经被证明是机器人在各种各样的应用中的一种很有发展前景的解决方案。stereo相机和RGBD传感器被广泛用于实现快速三维重建和密集轨迹跟踪。然而,它们缺乏不同规模环境无缝切换的灵活性,比如说,室内和室外场景。此外, 在三维建图中,语义信息仍然很难获取。我们通过结合state-of-art的深度学习方法和半稠密的基于单目相机视频流的SLAM,应对此种挑战。在我们的方法中,二维的语义信息,结合了有空间一致性的相连关键帧之间的correspondence对应关系之后,再进行三维建图。在这里并不需要对一个序列里的每一个关键帧进行语义分割,所以计算时间相对合理。我们在室内室外数据集上评测了我们的方法,在通过baseline single frame prediction基准单帧预测实现二维语义标注方面取得了效果的提升。

    基本框架图如下:
    输入RGB图像->选择关键帧并refine->2D语义分割->3D重建,语义优化


  • Sünderhauf N, Pham T T, Latif Y, et al. Meaningful Maps With Object-Oriented Semantic Mapping[J]. 2017.
    这个题目怎么翻译是好?面向对象语义建图的有意义地图
    (输入:RGB-D图像 SSD ORB-SLAM2)
    摘要:
    智能机器人必须理解它们周围场景的几何和语义两方面的特性,才能跟环境进行有意义地交互。到目前为止,大多数研究已经分别解决了这两个建图问题,侧重于几何信息建图或者是语义信息建图。在本文中我们解决了,既包含有语义意义和对象级别的实体,也包含基于点或网格的几何表示的环境地图构建的问题。我们同时也对已知对象类别中看不到的实例建立了几何点云模型,并建立了以这些对象模型为中心实体的地图。我们的系统利用了稀疏的基于特征的RGB-D SLAM,基于图像的深度学习目标检测方法和三维无监督的分割方法。
    基本框架图如下:
    输入RGB-D图像 -> ORB-SLAM2应用于每一帧,SSD(Single Shot MultiBox Detector)用于每一个关键帧进行目标检测,3D无监督分割方法对于每一个检测结果生成一个3D点云分割 -> 使用类似ICP的匹配值方法进行数据关联,以决定是否在地图中创建新的对象或者跟已有对象建立检测上的关联 -> 地图对象的3D模型(3D点云分割,指向ORB-SLAM2中位姿图的指针,对每个类别的累计置信度)

  • Ma L, Stückler J, Kerl C, et al. Multi-View Deep Learning for Consistent Semantic Mapping with RGB-D Cameras[J]. 2017.
    基于RGB-D相机和多视角深度学习的一致语义建图
    (NYUDv2数据集 )
    摘要:
    视觉场景理解是使机器人能够在环境中进行有目的的行动的一项重要的能力。本文中,我们提出了一种新型的深度神经网络方法以在RGB-D图像序列中进行语义分割。主要的创新点在于用一种自监督的方式训练我们的网络用于预测多视角一致的语义信息。在测试时,此网络的基于语义关键帧地图的语义预测,相比单视角图片训练出来的网络上的语义预测,融合的一致性更高。我们的网络架构基于最新的用于RGB和深度图像融合的单视角深度学习方法来进行语义风格,并且通过多尺度误差最小化优化了这一方法的效果。我们使用RGB-D SLAM得到相机轨迹,并且将RGB-D图像的预测扭曲成ground-truth的标注过的帧,以在训练期间提高多视角的一致性。(不是很理解)(We obtain the camera trajectory using RGB-D SLAM and warp the predictions of RGB-D images into ground-truth annotated frames in order to enforce multi-view consistency during training.)在测试时,多视角的预测被融合到关键帧当中去。我们提出并分析了在训练和测试过程中提高多视角一致性的方法。我们评价了多视角一致性训练的优点,并指出,深度特征的池化和多视角的融合,能够提升基于NYUDv2数据集评价指标的语义分割的性能。我们端到端方式训练的网络,在单视角分割和多视角语义融合方面,都取得了在NYUDv2数据集下,state-of-art的效果。

注:NYUDv2数据集 数据集下载链接
用于室内场景语义分割的RGB-D图像数据集,来自Kinect,1449对已标注的RGB-Depth图像,40万张未标注图像。


  • Mccormac J, Handa A, Davison A, et al. SemanticFusion: Dense 3D Semantic Mapping with Convolutional Neural Networks[J]. 2016.
    语义融合:使用CNN的稠密3D语义建图
    (NYUDv2数据集 室内场景 实时 )
    摘要:
    使用视觉传感进行更鲁棒,更准确和细节更丰富的建图,已经被证明有利于机器人在各种各样应用中的运用。在接下来的机器人智能和直观的用户交互中,地图需要扩展几何和外观信息–它们需要包含语义信息。我们使用卷积神经网络CNNs和state-of-the-art的稠密SLAM系统,以及提供了即使在多圈扫描轨迹时,也能得到室内RGB-D视频中帧间的长期稠密correspondence对应关系的ElasticFusion来解决这一问题。这些对应关系使得CNN的多视角语义预测,概率上融合到地图中去。此方法不仅能够生成有效的语义3D地图,也表明在NYUv2数据集上,融合多个预测能够提升预测性能,即使是基于基准单帧预测的2D语义标注。同时我们也证明在预测视角变化更多,重建数据集更小时,单帧分割的性能会进一步得到提升。我们的系统能够在实时的情况下有交互地使用,帧率能达到~25HZ。


  • * Bowman S L, Atanasov N, Daniilidis K, et al. Probabilistic data association for semantic SLAM[C]// IEEE International Conference on Robotics and Automation. IEEE, 2017:1722-1729.*
    语义SLAM的概率数据关联
    (KITTI数据集 ORB-SLAM2 数学公式多 室内外场景 实时 暂未开源)
    摘要:
    传统的SLAM方法多依赖于低级别的几何特征:点线面等。这些方法不能给环境中观察到的地标添加语义标签。并且,基于低级特征的闭环检测依赖于视角,并且在有歧义和或重复的环境中会失效。另一方面,目标识别方法可以推断出地标的类型和尺度,建议一个小而简单的可识别的地标集合,以用于视角无关的无歧义闭环。在同一类物体有多个的地图中,有一个很关键的数据关联问题。当数据关联和识别是离散问题时,通常可以通过离散的推断方法来解决,传统SLAM会对度量信息进行连续优化。本文中,我们将传感器状态和语义地标位置的优化问题公式化,其中语义地标位置中集成了度量信息,语义信息和数据关联信息,然后我们由将这个优化问题分解为相互关联的两部分:离散数据关联和地标类别概率的估计问题,以及对度量状态的连续优化问题。估计的地标和机器人位姿会影响到数据关联和类别分布,数据关联和类别分布也会反过来影响机器人-地标位姿优化。我们的算法性能在室内和室外数据集上进行了检验论证。

另,有一篇我很感兴趣的论文,不过跟SLAM没有结合,亮点在于街景的语义分割
Pohlen T, Hermans A, Mathias M, et al. Full-Resolution Residual Networks for Semantic Segmentation in Street Scenes[J]. 2016.
用于街景语义分割的全分辨率残差网络
作者开放了源代码~~https://github.com/TobyPDE/FRRN


1.2.3 端到端SLAM

  • Zhu Y, Mottaghi R, Kolve E, et al. Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning[J]. 2016.
    使用DRL深度加强学习实现机器人自主导航
    摘要:
    深度强化学习中有两个较少被提及的问题:1. 对于新的目标泛化能力不足,2. 数据低效,比如说,模型需要几个(通常开销较大)试验和误差集合,使得其应用于真实世界场景时并不实用。 在这篇文章中,我们解决了这两个问题,并将我们的模型应用于目标驱动的视觉导航中。为了解决第一个问题,我们提出了一个actor-critic演员评论家模型,它的策略是目标函数以及当前状态,能够更好地泛化。为了解决第二个问题,我们提出了 AI2-THOR框架,它提供了一个有高质量的3D场景和物理引擎的环境。我们的框架使得agent智能体能够采取行动并和对象之间进行交互。因此,我们可以高效地收集大量训练样本。我们提出的方法 1)比state-of-the-art的深度强化学习方法收敛地更快,2)可以跨目标跨场景泛化,3)通过少许微调就可以泛化到真实机器人场景中(尽管模型是在仿真中训练的)4)不需要特征工程,帧间的特征匹配和对于环境的特征重建,是可以端到端训练的。
    视频链接
    https://youtu.be/SmBxMDiOrvs

  • Gupta S, Davidson J, Levine S, et al. Cognitive Mapping and Planning for Visual Navigation[J]. 2017.
    用于视觉导航的感知建图和规划
    摘要:
    我们提出了一个用于在陌生环境中导航的神经网络结构。我们提出的这个结构以第一视角进行建图,并面向环境中的目标进行路径规划。 The Cognitive Mapper
    and Planner (CMP)主要依托于两个观点:1.一个用于建图和规划的统一的联合架构中,建图由规划的需求所驱动的。2. 引入空间记忆,使得能够在一个并不完整的观察集合的基础之上进行规划。CMP构建了一个自上而下的belief map置信地图,并且应用了一个可微的神经网络规划器,在每一个时间步骤中决策下一步的行动。对环境积累的置信度使得可以追踪已被观察到的区域。我们的实验表明CMP的性能优于reactive strategies反应性策略 和standard memory-based architectures 标准的基于记忆的体系结构 两种方法,并且在陌生环境中表现良好。另外,CMP也可以完成特定的语义目标,比如说“go to a chair”到椅子那儿去。

    图1:整个网络的架构:我们学习的导航网络由构图和规划模块组成。构图模块负责将环境信息引入到空间记忆中去,空间记忆对应于一个以自身为中心的环境地图。规划器使用这样的空间记忆与导航目标一起输出导航行为。构图模块没有明显的监督机制,而是在学习过程中自然地呈现出来。
    谷歌大法好~ 代码,模型,演示视频链接 https://sites.google.com/view/cognitive-mapping-and-planning/


1.3 研究现状总结

用深度学习方法替换传统slam中的一个/几个模块:
目前还不能达到超越传统方法的效果,相较传统SLAM并没有很明显的优势(标注的数据集少且不全,使用视频做训练数据的非常少。SLAM中很多问题都是数学问题,深度学习并不擅长等等原因)。

在传统SLAM之上加入语义信息
语义SLAM算是在扩展了传统SLAM问题的研究内容,现在出现了一些将语义信息集成到SLAM的研究,比如说用SLAM系统中得到的图像之间的几何一致性促进图像语义分割,也可以用语义分割/建图的结果促进SLAM的定位/闭环等,前者已经有了一些研究,不过还是集中于室内场景,后者貌似还没有什么相关研究。如果SLAM和语义分割能够相互促进相辅相成,应该能达到好的效果。

另:使用SLAM帮助构建大规模的图像之间有对应关系的数据集,可以降低深度学习数据集的标注难度吧,应该也是一个SLAM助力深度学习的思路。

端到端SLAM

深度学习结合SLAM的研究思路/成果整理之(二)语义SLAM 端到端相关推荐

  1. 深度学习结合SLAM的研究思路/成果整理之(一)使用深度学习方法替换SLAM中的模块

    整理了部分近两年深度学习结合SLAM的一些研究成果(参考知乎帖子https://www.zhihu.com/question/66006923 和泡泡机器人公众号,附上论文链接和已找到的源代码/数据集 ...

  2. 万字长文概览深度学习的可解释性研究

    ↑ 点击蓝字 关注视学算法 作者丨王小贱@知乎 来源丨https://www.zhihu.com/column/buaabigcity 编辑丨极市平台 本文仅用于学术分享,如有侵权,请联系后台作删文处 ...

  3. 详解深度学习的可解释性研究(上篇)

    作者 | 王小贱 来源 | BIGSCity知乎专栏 摘要:<深度学习的可解释性研究>系列文章希望能用尽可能浅显的语言带领大家了解可解释性的概念与方法,以及关于深度学习可解释性工作的研究成 ...

  4. ckpt下载 deeplabv3_煮酒论英雄:深度学习CV领域最瞩目的成果top46

    原标题:煮酒论英雄:深度学习CV领域最瞩目的成果top46 来源:Smarter 作者:皮特潘 [新智元导读]本文盘点深度学习CV领域杰出的工作,从基础研究.分类骨架.语义分割.实例分割.目标检测.生 ...

  5. 深度学习实体关系抽取研究综述笔记

    鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴.深度学习实体关系抽取研究综述.软件学报,2019,30(6): 1793−1818. http://www.jos.org.cn/1000-982 ...

  6. 干货 | 深度学习的可解释性研究(一):让模型「说人话」

    在这篇文章中: 可解释性是什么? 我们为什么需要可解释性? 有哪些可解释性方法? 在建模之前的可解释性方法 建立本身具备可解释性的模型 在建模之后使用可解释性性方法作出解释 关于 BIGSCity 参 ...

  7. NLP入门之综述阅读-基于深度学习的自然语言处理研究综述

    NLP入门-综述阅读-[基于深度学习的自然语言处理研究综述] 基于深度学习的自然语言处理研究综述 摘要 0 引言 1 深度学习概述 卷积神经网络 递归神经网络 2 NLP应用研究进展 3 预训练语言模 ...

  8. ISME Comm | 机器学习和深度学习在微生物组研究中的应用

    Review Article,2022-10-06,ISME Communications, DOI:https://doi.org/10.1038/s43705-022-00182-9 第一作者:R ...

  9. 基于深度学习的目标检测研究综述

    基于深度学习的目标检测研究综述 摘要:深度学习是机器学习的一个研究领域,近年来受到越来越多的关注.最近几年,深度学习在目标检测领域取得了不少突破性的进展,已经运用到具体的目标检测任务上.本文首先详细介 ...

  10. 基于深度学习的图像识别模型研究综述

    基于深度学习的图像识别模型研究综述 摘要:深度学习是机器学习研究中的一个新的领域,其目的在于训练计算机完成自主学习.判断.决策等人类行为并建立.模拟人脑进行分析学习的神经网络,它模仿人类大脑的机制来解 ...

最新文章

  1. 组织级项目管理实例分享——来自项目管理群的讨论
  2. APACHE服务器出现No input file specified.的完美解决方案
  3. 使用netsh.exe命令配置TCP/IP
  4. 基于java的学生点名系统_基于javafx的学生电子点名系统(在eclipse中编写完成)...
  5. oracle 11g 从rman全备中恢复控制文件,拥有RMAN全备(缺少后增文件),丢失全部数据文件,控制文件的恢复...
  6. Web项目性能优化之减少HTTP请求次数优化
  7. 让SAP云平台上的Web应用使用destination服务
  8. 嵌入式xworks系统初始化(PowerPC汇编)
  9. Photoshop一些人像处理技巧总结
  10. POJ1201 区间
  11. 优先队列实现迪杰特斯拉模板
  12. melogin.cn主页登录_melogin.cn登录官网
  13. go.mod 文件中的 //indirect
  14. rabbitmq实践demo
  15. VMware虚拟机中安装win10操作系统
  16. space-evenly的兼容性问题
  17. 一支口红用了5年_一支口红多久该扔掉?保质期过了还能用吗?
  18. 强化学习笔记: Model-based Approaches(2)
  19. 激光切割过程中遇到毛边怎么办?
  20. Python三维地址建模教程【Gempy】

热门文章

  1. 几种图片去水印方法的效果对比
  2. solidity合约调用合约方法的方式
  3. MYSQL 多表创建视图
  4. 2021-03-03-Beamforming algorithms - beamformers
  5. Command not found 解决
  6. 练习如下命令的使用: set mset get mget keys type exists ttl expire move 、select del flushdb flusha
  7. cornell movie-dialogs corpus 康奈尔大学电影对话语料介绍及下载 可用于dialog,chatbot
  8. 软件外包平台列表(转载-知乎网)
  9. SDL介绍----1、SDL与SDL安全活动
  10. python以写模式打开的文件无法进读操作_以写模式打开的文件无法进行读操作。...