基本情况

题目:HMS-Net: Hierarchical Multi-scale Sparsity-invariant Network for Sparse Depth Completion

出处:Huang, Z., Fan, J., Cheng, S., Yi, S., Wang, X., & Li, H. (2019). Hms-net: Hierarchical multi-scale sparsity-invariant network for sparse depth completion. IEEE Transactions on Image Processing29, 3429-3441.

摘要

密集的深度线索对于各种计算机视觉任务很重要。在自动驾驶中,激光雷达传感器用于获取车辆周围的深度测量值以感知周围环境。然而,由于其硬件限制,激光雷达的深度图通常是稀疏的。最近深度图完整吸引了越来越多的关注,其目的是从输入的稀疏深度图生成密集的深度图。

为了有效地利用多尺度特征,我们提出了三种新的稀疏不变操作,并在此基础上提出了处理稀疏输入的稀疏不变多尺度解码器网络(HMS-Net)稀疏特征映射。其他RGB特征可以被合并,以进一步提高深度补全性能。

我们在KITTI depth completion benchmark和NYU-depth-v2 dataset两个公共基准上进行了大量的实验和组件分析,证明了所提方法的有效性。截至2018年8月12日,在KITTI depth completion leaderboard上,我们提出的不使用RGB信息的无RGB指导的模型在所有同行评审方法中排名第一,有RGB指导的模型在所有RGB指导方法中排名第二。

1 介绍

深度完成,旨在为计算机视觉和机器人技术生成密集的深度任务。在图2(a),(b),(e)中,我们显示了一个示例输入稀疏深度图,其对应的RGB图像以及通过我们提出的方法实现的深度完成结果。由于目前的LIDAR传感器的局限性,深度完成的输入通常很少。例如,价值100,000美元的Velodyne HDL- 64E的垂直分辨率仅为0:4°,方位角分辨率为0:08°。它会生成稀疏的深度图,对于许多实际应用而言可能不足。深度完成算法可以从稀疏输入中估计密集的深度图,并且在实践中具有很大的意义。借助精确的深度完成算法,可以更有效地解决许多高级视觉任务,例如语义分割,3D对象检测,视觉里程表和带有3D点云的SLAM。因此,它成为无人驾驶汽车和无人机的热门研究课题,并被列为KITTI基准测试中排名第一的任务之一。

已经提出了许多不同的深度完成方法,这些方法通常可以分为基于学习的方法[1],[2],[3],[4]和基于非学习的方法[5],[6],[ 7]。

基于非学习的方法会根据手工制定的规则从稀疏输入生成密集的深度图。因此,这些算法的输出是基于人类假定的先验而生成的。结果,它们不足以抵抗传感器噪声,并且通常是专门为某些数据集设计的。此外,大多数基于非学习的方法会忽略稀疏输入深度点之间的相关性,并可能导致对象边界不准确。图2(e)显示了基于非学习方法的错误示例[5]。白框中的噪音根本没有消除,黄框中的汽车和树木的边界不准确。

对于基于学习的方法,最先进的方法主要基于深度神经网络。先前的方法主要利用深度卷积神经网络(CNN)从稀疏输入生成密集深度图。

  • Ma和Karaman [3]只需将0填充到没有深度输入的位置即可创建密集的输入图,这可能会给非常小的深度值带来歧义。
  • Chodosh等[4]提出从输入中提取多级稀疏代码,并使用3层CNN进行深度完成。但是,这两种方法都使用了为密集输入而设计的常规卷积运算(示例请参见图2(c))。
  • Uhrig等 [1]提出了稀疏不变卷积,它是专门为处理稀疏映射而设计的,并可以使用CNN更有效地处理稀疏输入。

但是,[1]中的稀疏不变卷积仅模仿常规密集型CNN中的卷积运算行为。其后期阶段的特征图会丢失大量空间信息,因此无法有效地集成低层和高层特征以进行精确的深度完成(请参见图1(a)进行说明)。另一方面,对于像元密集的分类任务,存在有效的多尺度编码器-解码器网络结构(见图1(b)),例如U-Net [8],特征金字塔网络[9],全分辨率残留网络[10]。将[1]中的稀疏不变卷积直接集成到多尺度结构中是不可行的,因为那些结构还需要其他操作来进行多尺度特征融合,例如稀疏不变特征上采样,平均和串联。

为了克服这种局限性,我们提出了三种新颖的稀疏不变操作,以使能够使用编码器-解码器网络进行深度完成。这三个新颖的运算包括稀疏不变的上采样稀疏不变的平均值以及联合稀疏不变的串联和卷积。为了有效地处理稀疏特征图,在特征图的所有位置都使用了稀疏蒙版。他们在每个处理阶段的输出处记录稀疏特征的位置,并指导向前和向后传播的计算。

每个稀疏性不变的操作都旨在正确维护和修改网络中的稀疏性掩码。这些操作的设计很简单,并且是使用具有稀疏特征的编码器-解码器结构的关键。基于这样的操作,我们提出了一种多尺度编码器-解码器网络HMS-Net,该网络采用一系列稀疏不变的压缩以及下采样和上采样来生成多尺度特征图和捷径路径,以有效地融合多尺度特征。在KITTI [1]和NYU-depth-v2 [11]数据集上的大量实验表明,我们的算法达到了最先进的深度完成精度。

我们工作的主要贡献可以概括为三个方面。

1)我们设计了三个稀疏不变操作来处理稀疏输入和特征图,这对于处理稀疏特征图很重要。

2)基于提出的稀疏不变操作,设计了一种融合来自不同尺度的信息的分层多尺度网络结构,以解决深度完成任务。

3)我们的方法在深度完成方面优于最新方法。 在KITTI深度完成基准测试中,我们的不带RGB信息的方法在所有带有RGB输入的同行评审方法中排名第一,而我们的带RGB指导的方法在所有RGB指导方法中排名第二。

如图 1 所示:(a)稀疏不变卷积的CNN只能逐渐对特征图进行下采样,在以后阶段失去大量分辨率;(b)提出的稀疏不变编码器-解码器网络可以有效地融合来自不同层的多尺度特征深度补全(depth completion)。

以下依次是三个稀疏不变操作:(a) 稀疏不变双线性上采样、(b) 稀疏不变叠加、和 (c) 联合稀疏不变的联结和卷积。

(a)

(b)

(c)

之前用于密集像素分类的多尺度编码器-解码器网络结构有U-Net、特征金字塔网络(FPN)和全分辨率残差网络(FRN)。将稀疏不变卷积直接集成到这些多尺度结构不可行,因为那些结构还需要其他操作做多尺度特征融合,如稀疏不变特征上采样,加法和串联。

如图是基于上述三个稀疏不变操作的的分级多尺度编码器-解码器网络(HMS-Net)结构,用于深度图完整化,(a)是不带RGB引导的架构,(b)是带RGB引导的架构。

图(a)提出两个基本构建块,一个2-尺度块和一个3-尺度块,由稀疏不变操作组成。2-尺度块具有一条上路径,通过k×k稀疏不变卷积非线性地变换全分辨率低层特征。而一条下路径将下采样的低层特征作为输入,通过另一个k×k卷积学习高层特征(k = 5)。然后,对生成的高层特征进行上采样,并添加到全分辨率低层特征。与2-尺度块相比,3-尺度块将特征从两个较高层融合到上低层特征路径中,利用更多辅助的全局信息。这样,全分辨率的低层特征可以有效地与高层信息融合在一起,并经过多次非线性转换学习更复杂的预测函数。最终网络在第一层运行5×5稀疏不变卷积;生成的特征经过3-尺度块,然后做稀疏不变最大池化,再进行三次上采样生成全分辨率特征图。最终特征图通过一个1×1卷积层转换生成最终的逐像素预测结果。

图(b)输入图像首先由RGB子网络处理得到中层RGB特征。子网的结构遵循ERFNet的前六个模块,由两个下采样模块和四个残差模块组成。下采样块有2×2卷积层(步幅为2)和2×2最大池化层。输入特征同时馈入到两层,其结果沿着通道维联结在一起,获得1/2大小的特征图。残差块的主路径有两组:1×3 conv → BN → ReLU → 3×1 conv → BN → ReLU。由于中层RGB特征下采样至原始大小的1/4,因此它们会被放大到输入图像的原始大小。通过一系列卷积对上采样RGB特征进行转换,充当附加的引导信号,并与不同多尺度块的低层稀疏深度特征图相连。

如图是HMS-Net和其他方法的实验结果比较:(a)输入稀疏深度图示例,(b)相应的RGB图像,(c)ADNN(基于压缩感知)的结果,(d)稀疏不变卷积的结果,(e)手工制作的传统(形态)图像处理方法得出的结果,以及(f)HMS-Net的结果。


论文笔记_S2D.32-2019-TIP_HMS-Net:用于稀疏深度补全的分层多尺度稀疏不变网络相关推荐

  1. 【深度补全算法】基于RGBD相机的深度补全算法(非Lidar)论文与GitHub代码总结

    目录 前言 一.经典的深度补全算法(2018-2019) 1.Deep Depth Completion of a Single RGB-D Image 2.Indoor Depth Completi ...

  2. 论文浅尝 - WWW2020 | 通过对抗学习从用户—项目交互数据中挖掘隐含的实体偏好来用于知识图谱补全任务...

    笔记整理 | 陈湘楠,浙江大学在读硕士. 现有的知识图谱补全方法都在试图设计全新的学习算法,来使用已知的事实信息去推理知识图谱中的潜在语义.但随着知识图谱的广泛使用,知识图谱中的许多实体对应着应用程序 ...

  3. CCKS 2018 | 最佳论文:南京大学提出 DSKG,将多层 RNN 用于知识图谱补全

    本文转载自公众号:机器之心. 选自CCKS 2018 作者:Lingbing Guo.Qingheng Zhang.Weiyi Ge.Wei Hu.Yuzhong Qu 机器之心编译 参与:Panda ...

  4. CCKS 2018 | 最佳论文:南京大学提出DSKG,将多层RNN用于知识图谱补全

    作者:Lingbing Guo.Qingheng Zhang.Weiyi Ge.Wei Hu.Yuzhong Qu 2018 年 8 月 14-17 日,主题为「知识计算与语言理解」的 2018 全国 ...

  5. 深度补全(Sparsity Invariant CNNs)-论文阅读-翻译

    (由于是直接从word上复制的,可能存在格式问题) Sparsity Invariant CNNs翻译 Abstract 本文考虑了基于稀疏输入的卷积神经网络,并将其应用于稀疏激光扫描数据的深度上采样 ...

  6. 论文浅尝 | 采用成对编码的图卷积网络用于知识图谱补全

    笔记整理:姚祯,浙江大学在读硕士,研究方向为知识图谱表示学习,图神经网络. 论文引用:Liu S, Grau B, Horrocks I, et al. INDIGO: GNN-based induc ...

  7. 论文浅尝 | 基于多模态关联数据嵌入的知识库补全

    链接:https://arxiv.org/pdf/1809.01341.pdf 动机(摘要) 当前的知识库补全的方法主要是将实体和关系嵌入到一个低维的向量空间,但是却只利用了知识库中的三元组结构 (& ...

  8. 【论文笔记】UNet++:一种用于医学图像分割的嵌套U-Net结构

    本文是<UNet++: A Nested U-Net Architecture for Medical Image Segmentation>论文的阅读笔记.强烈建议大家去看下作者对这篇论 ...

  9. 论文笔记:WWW 2019 Heterogeneous Graph Attention Network

    1.前言 论文链接:https://arxiv.org/pdf/1903.07293v1.pdf github:https://github.com/Jhy1993/HAN 图神经网络作为一种基于深度 ...

  10. 【论文笔记】FC-EF,FC-Siam-conc,FC-Siam-diff:用于变化检测的全卷积孪生神经网络

    本文是论文<FULLY CONVOLUTIONAL SIAMESE NETWORKS FOR CHANGE DETECTION>的阅读笔记. 文章提出了三个全卷积神经网络结构用来解决变化检 ...

最新文章

  1. 在寻找SD-WAN供应商之前,你应该考虑啥呢?
  2. java进销存培训_Java实例学习——企业进销存管理系统(2)
  3. python默认参数举例_Python中的默认参数实例分析
  4. 细说JDK动态代理的实现原理
  5. 学习编程你要记住以下几点
  6. 银行考试计算机重点知识,银行计算机考试试题
  7. biopython1_序列操作
  8. Tippy.js – 轻量的 Javascript Tooltip 工具库
  9. 计算机上u盘打不开,u盘打不开怎么办,插在电脑上有显示,但是打不开?
  10. PHP+MYSQL+SCWS 做自己的站内搜索引擎
  11. 像模拟人生的 java游戏下载_我的世界1.7.2模拟人生整合包
  12. 搭建超级实用的免费机器翻译api
  13. Unity 游戏入门 九、 精灵动画 Sprite Animation
  14. 分享一个盟重英雄脚本挂机工具(附随机数生成源码)
  15. Python 遗传算法实现字符串
  16. 关于F4高级定时器死区时间的计算
  17. excel空白单元格自动填充上一单元格内容
  18. ALtera DE2开发板学习01
  19. 机器学习文章引用参考
  20. Application.mk Android.mk

热门文章

  1. jQuery中的gt和lt
  2. J2EE部署项目至Tomcat报错 Unable to read TLD META-INF/c tld
  3. 数据库中多对多的关系设计
  4. 浅谈文件断点续传和WebUploader的基本结合
  5. ssh-keygen的使用方法及配置authorized_keys两台linux机器相互认证
  6. CentOS 上MySQL报错Can't connect to local Mysql server through socket '/tmp/mysql.scok' (111)
  7. bootstrap 响应式布局
  8. 《大象UML》看书笔记2:
  9. 利用TreeView实现C#工具箱效果
  10. 第二十三模板 1什么是模板