Deep Learning Based Semantic Labelling of 3D Point Cloud in Visual SLAM

自己翻译的,水平有限,不太对的地方还请多多指正。
原文链接:https://pan.baidu.com/s/1R6T9uS4wZo1Yy1ZfKGX6ig
提取码:cn6x

摘要

三维点云理解对机器人的研究具有重要意义。然而,点云通常是不规则和离散的,从中获取语义信息是一项挑战。本文提出了一种利用二维图像标签和三维几何信息构建稠密语义地图的方法。稠密点云是使用RGB-D SLAM系统构建的。使用基于图的方法将其进一步分割为有意义的簇。然后利用卷积神经网络(CNN)提取SLAM过程中的图像关键帧来提取图像的语义标签。最后,将这些语义标签投影到点云簇上,实现三稠密集语义映射。我们在一个广泛使用的公共数据集上测试了该方法的效率。

介绍

场景理解对于自动驾驶和移动机器人技术至关重要。最近的研究主要集中在场景重建以构建稀疏或稠密的三维地图,如KinectFusion[1]、ElasticFusion[2]和DynamicFusion[3]。然而,这些地图中没有语义信息,机器人无法从中获得对周围环境的语义层次的理解。实际上在近年来,二维图像语义分割取得了很大的进展。借助CNN,我们可以分析图像中的二维语义信息,如FCN[4]、U-Net[5]、SegNet[6]、RefineNet[7]、PSPNet[8]和DeepLab[9-11]中的工作。同时,三维点云语义分割是计算机视觉领域的一个热点问题,近年来取得了很大的进展,包括PointNet[12]、PointNet++[13]和PointCNN[14]。然而,这些方法仅仅利用了三维信息来分析点云。

实际上,点云可以由RGB-D SLAM生成,例如ORB-SLAM2[15],使用廉价的Asus Xtion RGB-D传感器。在RGB-D SLAM中,RGB图像具有丰富的纹理信息,点云具有几何信息。在三维语义分割和建图中,现有的方法大多采用RGB图像或点云作为输入。然而,很少有方法同时利用二维和三维信息。本文介绍了一种融合二维和三维信息构建稠密语义地图的系统。本文的主要贡献概括如下:

•一种有效的三维点云分割方法
•融合二维图像信息和三维几何信息的三维点云语义标记方法
•三维密集语义地图系统

相关工作

2.1 语义SLAM

传统的SLAM系统主要集中在利用点、线、面等底层几何特征,而这些特征不能提供语义信息。语义SLAM可以提供环境的语义信息。它可以帮助机器人从几何和内容两个层面理解周围的场景。Salas Moreno等人。提出了SLAM++[16],可以在RGB-D跟踪和建图中进行目标检测。John McCormac等人的研究的是语义融合[17]。该方法利用卷积神经网络生成类概率图,并将这些预测融合到三维地图中。Keisuke Tateno等人。提出了一个实时稠密单目CNN-SLAM[18]。借助CNN,CNNSLAM不仅可以进行深度预测,还可以进行语义分割。D a-RNN[19]提出了一种新的循环神经网络(RNN)结构用于生成RGB-D视频语义标签,它利用多视角的信息来提高分割性能。Tong[20]将适用于不同场景检测的SLAM系统集合到了一起。

2.2 2D目标检测和语义分割

对象检测是获取语义信息的重要步骤,它可以定位图像中的对象实例。Girshick等人[21]提出了R-CNN,将其应用于目标检测。近年来还提出了其他类似的方法,如Fast R-CNN[22]、Faster RCNN[23]、Mask RCNN[24]和YOLO[25-26]。R-CNN使用选择性搜索算法生成分割区域,这种算法运行非常缓慢。Fast R-CNN用快速神经网络代替了选择搜索算法。Mask R-CNN改进了感兴趣区域(ROI)池化层,并将Faster R-CNN扩展到像素级图像分割。

语义分割是在一个像素级上理解一幅图像,它可以用一个类标识来标记每个像素。与目标检测类似,最新的语义分割方法也依赖于CNN。Long等人的FCN[4]。是第一个端到端的系统,它推广了CNN的语义分割体系结构。U-Net[5]是一种流行的编解码结构,它能更有效地利用带注释的样本,具有更高的精度。SegNet[6]是一种类似的编码器架构。SegNet从max pooling中复制索引以进行向上采样,这使它具有更高的内存效率。RefineNet[7]提出了一种融合高分辨率和低分辨率特征的RefineNet块方法。它解决了重复子采样操作时图像分辨率显著降低的问题。PSPNet[8]引入了金字塔池方法来聚合上下文。DeepLab[9-11]利用放大的卷积来增加视野。

语义分割是在像素级上理解图像,它可以用类来标记每个像素。与目标检测类似,最新的语义分割方法也依赖于CNN。Long等人提出的FCN[4]是第一个端到端的系统,它推广了CNN的语义分割结构。U-Net[5]是一种流行的编码-解码结构,它能更有效地利用标注的样本,具有更高的精度。SegNet[6]是一种类似的编码器架构。SegNet从max pooling中复制索引以进行上采样,这使它具有更高的内存效率。RefineNet[7]提出了一种融合高分辨率和低分辨率特征的RefineNet块方法。它解决了重复下采样操作时图像分辨率显著降低的问题。PSPNet[8]引入了图像金字塔池化方法来聚合上下文。DeepLab[9-11]利用放大的卷积来增加视野。

2.3 3D点云分割和语义分析

点云分割是将点云分割成不同区域的过程,每个区域都具有相似的特性。这是从点云去理解场景的重要一步。在机器人环境建模等特定应用的推动下,三维点云分割成为一个非常活跃的研究课题。Point Cloud Library (PCL)[27]是一种流行的提供开源分割算法的库。早期的方法[28]使用RANSAC来检测点云中的平面,然后用欧几里德分离来分割物体。在二维图像处理中提出了区域生长算法[29]。后来,它被用于与三维点云相关的工作中。Rabbani等人[30]提出了一种基于平滑约束的点云分割方法,该方法可以在点云中找到平滑的连通区域。Vo等人[31]提出了一种新的基于八叉树的区域生长算法,用于城市环境中三维点云的快速曲面分割。Stein等人[32]利用局部凸连通块(Lccp)算法将点云划分为若干个分段,利用法向量判断局部凸性。Golovinskiy等人[33]提出了一种基于最小切分的点云对象分割方法,该方法既适用于自动分割,也适用于交互式分割。

与二维图像不同,三维点云是不规则、无序的。因此,像卷积这样的二维图像处理的常用方法不适合它们。近年来,人们提出了基于深度神经网络的三维点云分类与分割方法,如PointNet[12]和PointNet++[13]。PointNet能够直接从无序点云中学习,结合局部点特征和全局信息进行三维分割。PointNet++在PointNet的基础上,引入层次神经网络,通过增加上下文规模来学习局部特征,可以高效、鲁棒地学习深层点集特征。PointCNN[14]提出了一种利用cnn进行点云处理的新方法——X-transformation。然而,这些方法只使用点云信息,很难扩展到语义标签。

论文翻译(上):Deep Learning Based Semantic Labelling of 3D Point Cloud in Visual SLAM相关推荐

  1. 交通预测论文翻译:Deep Learning on Traffic Prediction: Methods,Analysis and Future Directions

    原文链接:[2004.08555v3] Deep Learning on Traffic Prediction: Methods, Analysis and Future Directions (ar ...

  2. Data Mining 论文翻译:Deep Learning for Spatio-Temporal Data Mining: A Survey

    原文链接:[1906.04928] Deep Learning for Spatio-Temporal Data Mining: A Survey (arxiv.org) IEEE Transacti ...

  3. 深度学习文本分类文献综述(翻译自Deep Learning Based Text Classification: A Comprehensive Review)

    深度学习文本分类文献综述 摘要 介绍 1. 文本分类任务 2.文本分类中的深度模型 2.1 Feed-Forward Neural Networks 2.2 RNN-Based Models 2.3 ...

  4. 【论文翻译】Deep Learning for Multi-view Stereo via Plane Sweep: A Survey(2021)

    一.论文简述 1. 第一作者:Qingtian Zhu 2. 发表年份:2021 3. 发表期刊:CVPR 4. 关键词:MVS.深度学习.综述 5. 核心思想:读到的第一篇深度MVS的综述,总结的很 ...

  5. 【DeepSketch2Face论文阅读】A Deep Learning Based Sketching System for 3D Face and Caricature Modeling

    这篇文章是香港大学韩晓光老师等人在SIGGRAPH 2017的工作,创建了一个业余者也可以创建3D Face或漫画模型的系统. CV上目前存在许多场景,包含卡通角色,社交媒体上的虚拟形象,3D Fac ...

  6. 论文阅读:Deep Learning–Based Segmentation andQuantification in Experimental Kidney Histopathology

    实验性肾脏组织病理学中基于深度学习的分割和量化 一.实验对象 健康小鼠.五种小鼠疾病模型和临床前研究中使用的其他物种的周期性酸-希夫染色肾组织. 分割六个主要的肾脏结构:肾小球簇.包括鲍曼囊在内的肾小 ...

  7. 重读经典(点云深度学习开山之作):《Deep learning on point clouds for 3D scene understanding》(持续更新中)

    本文介绍的是 PointNet 作者的博士论文:3D场景理解中的点云深度学习.从上图可以看到,整个博士论文主要贡献有两块:一是点云深度学习的网络架构(PointNet 和 PointNet++):二是 ...

  8. 论文翻译七:Adversarial Transfer Learning for Deep Learning Based Automatic Modulation Classification

    30天挑战翻译100篇论文 坚持不懈,努力改变,在翻译中学习,在学习中改变,在改变中成长- Adversarial Transfer Learning for Deep Learning Based ...

  9. 论文翻译:2021_语音增强模型压缩_Towards model compression for deep learning based speech enhancement...

    论文地址:面向基于深度学习的语音增强模型压缩 论文代码:没开源,鼓励大家去向作者要呀,作者是中国人,在语音增强领域 深耕多年 引用格式:Tan K, Wang D L. Towards model c ...

  10. 【论文翻译】Deep Residual Learning for Image Recognition

    [论文翻译]Deep Residual Learning for Image Recognition [论文题目]Deep Residual Learning for Image Recognitio ...

最新文章

  1. 服务器架设笔记——Apache模块开发基础知识
  2. JVM运行时数据区---方法区(前言)
  3. 如何在mac终端上使用python3.5
  4. Mysql客户端中文乱码问题解决
  5. DRAM 各项基本参数记录
  6. 分页控件 实战 Post篇
  7. C#三层架构之第三次课 业务逻辑层
  8. Oracle存储使用情况,我收藏的oracle中一些分析空间使用情况的存储过程!
  9. psd文件超大?教你如何压! - 技巧篇
  10. ORM框架之Spring Data JPA(一)Hibernate实现JPA规范
  11. 【BZOJ2296】随机种子(构造)
  12. 二十三种设计模式[4] - 原型模式(Prototype Pattern)
  13. php的基本语法与字符串与增删改查
  14. anbmcmdn 上下文无关文法_词法分析 | 上下文无关文法和推导
  15. oracle限制条数
  16. python 实现文字识别提取
  17. 教你识别120多个车牌
  18. SOFA Weekly | QA 整理
  19. hexo博客yilia-puls主题使用aplayer音乐插件
  20. 电视剧房前屋后剧情介绍第1-47集

热门文章

  1. Log4j2 日志级别
  2. 腾讯下载的视频怎么转换成mp4格式
  3. NLTK03 《Python自然语言处理》code02 获得文本语料和词汇资源
  4. JAVA结合AE(Adobe After Effects),通过解析AE源文件AEPX,替换素材,渲染合成,转码等操作
  5. Codeforces Round #512 (Div. 2) - D. Vasya and Triangle (皮克公式)
  6. 华为USG防火墙通过nat64 ipv6用户访问内网ipv4服务(原创,转发请注明出处)
  7. 浏览器兼容性测试及常见问题
  8. EcmaScript 2022中的新特性
  9. 外文论文阅读生词积累
  10. 在unity商店中寻找资源_Unity资产商店:五月疯狂促销活动正在进行中!