点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★,与你不见不散

编辑:Sophia
计算机视觉联盟  报道  | 公众号 CVLianMeng

转载于 :黄浴知乎,已获授权

https://zhuanlan.zhihu.com/p/90773462

【人工智能资源(书籍+视频)全网收集,附下载!】

推荐文章【点击下面可直接跳转】:

如何快速下载不同网站文档!

AI博士笔记系列推荐:

博士笔记 | 周志华《机器学习》手推笔记“神经网络”

最近讨论过数据层传感器融合问题,特别是最近采用深度学习方法估计深度图的方法。主要是激光雷达等深度传感器的数据比较稀疏分辨率低(特别是便宜的低线束激光雷达),好处是数据可靠性高;而摄像头传感器获取的图像比较致密并分辨率高,缺点是获取的深度数据可靠性差。下面介绍一下最近看到的深度学习方法。


“HMS-Net: Hierarchical Multi-scale Sparsity-invariant Network for Sparse Depth Completion ”2018

密集的深度线索对于各种计算机视觉任务很重要。在自动驾驶中,激光雷达传感器用于获取车辆周围的深度测量值以感知周围环境。然而,由于其硬件限制,激光雷达的深度图通常是稀疏的。最近深度图完整吸引了越来越多的关注,其目的是从输入的稀疏深度图生成密集的深度图。

为了有效利用多尺度特征,这里提出3种稀疏性不变(sparsity-invariant)操作。基于此,稀疏不变(sparsity-invariant)分层多尺度编码器/解码器网络(hierarchical multi-scale encoder-decoder network,HMS-Net)用于处理稀疏输入和稀疏特征图。可以合并其他RGB特征,以进一步提高深度完整系统的性能。

如图所示:(a)稀疏不变卷积的CNN只能逐渐对特征图进行下采样,在以后阶段失去大量分辨率;(b)提出的稀疏不变编码器-解码器网络可以有效地融合来自不同层的多尺度特征做深度完整。

以下依次是三个稀疏不变操作:(a) 稀疏不变双线性上采样、(b) 稀疏不变叠加、和 (c) 联合稀疏不变的联结和卷积。

(a)

(b)

(c)

之前用于密集像素分类的多尺度编码器-解码器网络结构有U-Net、特征金字塔网络(FPN)和全分辨率残差网络(FRN)。将稀疏不变卷积直接集成到这些多尺度结构不可行,因为那些结构还需要其他操作做多尺度特征融合,如稀疏不变特征上采样,加法和串联。

如图是基于上述三个稀疏不变操作的的分级多尺度编码器-解码器网络(HMS-Net)结构,用于深度图完整化,(a)是不带RGB引导的架构,(b)是带RGB引导的架构。

图(a)提出两个基本构建块,一个2-尺度块和一个3-尺度块,由稀疏不变操作组成。2-尺度块具有一条上路径,通过k×k稀疏不变卷积非线性地变换全分辨率低层特征。而一条下路径将下采样的低层特征作为输入,通过另一个k×k卷积学习高层特征(k = 5)。然后,对生成的高层特征进行上采样,并添加到全分辨率低层特征。与2-尺度块相比,3-尺度块将特征从两个较高层融合到上低层特征路径中,利用更多辅助的全局信息。这样,全分辨率的低层特征可以有效地与高层信息融合在一起,并经过多次非线性转换学习更复杂的预测函数。最终网络在第一层运行5×5稀疏不变卷积;生成的特征经过3-尺度块,然后做稀疏不变最大池化,再进行三次上采样生成全分辨率特征图。最终特征图通过一个1×1卷积层转换生成最终的逐像素预测结果。

图(b)输入图像首先由RGB子网络处理得到中层RGB特征。子网的结构遵循ERFNet的前六个模块,由两个下采样模块和四个残差模块组成。下采样块有2×2卷积层(步幅为2)和2×2最大池化层。输入特征同时馈入到两层,其结果沿着通道维联结在一起,获得1/2大小的特征图。残差块的主路径有两组:1×3 conv → BN → ReLU → 3×1 conv → BN → ReLU。由于中层RGB特征下采样至原始大小的1/4,因此它们会被放大到输入图像的原始大小。通过一系列卷积对上采样RGB特征进行转换,充当附加的引导信号,并与不同多尺度块的低层稀疏深度特征图相连。

如图是HMS-Net和其他方法的实验结果比较:(a)输入稀疏深度图示例,(b)相应的RGB图像,(c)ADNN(基于压缩感知)的结果,(d)稀疏不变卷积的结果,(e)手工制作的传统(形态)图像处理方法得出的结果,以及(f)HMS-Net的结果。


“Sparse and noisy LiDAR completion with RGB guidance and uncertainty”2019.2

这项工作提出了一种新方法,可以精确地完整化RGB图像引导的稀疏激光雷达深度图。对于自动驾驶车辆和机器人,必须使用激光雷达才能实现精确的深度预测。大量的应用程序取决于对周围环境的了解,并使用深度线索进行推理并做出相应的反应。一方面,单目深度预测方法无法生成绝对且精确的深度图。另一方面,基于激光雷达的方法仍然明显优于立体视觉方法。

深度完整(depth completion)任务的目标是从稀疏、不规则、映射到2D平面的点云生成密集的深度预测。这里提出了一个框架,同时提取全局和局部信息生成适当的深度图。简单的深度完整并不需要深度网络。但是,该文提出一种融合方法,由单目相机提供RGB指导,利用目标信息并纠正稀疏输入数据的错误,这样大大提高了准确性。此外,利用置信度掩码考虑来自每种模态深度预测的不确定性。

注:原代码在github.com/wvangansbeke。

如图所示,该框架由两部分组成:位于顶部的全局分支和位于下方的局部分支。全局路径输出三个图:引导图,全局深度图和置信度图(guidance map, global depth map,confidence map)。局部图通过全局网络的引导图预测置信度图)和局部深度图(local depth map)。该框架在后期融合方法中基于置信度图融合了全局和局部信息。

全局网络是基于ERFNet(实时分割网络模型)的编解码器网络,而局部网络是堆叠的沙漏网络(hourglass network)。后者由两个沙漏模块组成,获得原始深度预测的残差,总共只有350k参数。每个模块由六层组成,小感受野,通过跨步卷积(strided convolutions)做两次下采样。在第一个卷积层和第一个沙漏模块的编码器中,没有批次归一化(BN),因为零的数量会使该层的参数产生偏差,尤其是在输入稀疏度变化的情况下。

以利用全局信息,全局引导图与稀疏的激光雷达框架融合在一起,类似于前融合对局部网络的引导。将置信度图与其深度图相乘并添加来自两个网络的预测,可以生成最终预测。置信度图的概率用softmax函数计算。该选择过程,从全局深度图选择像素,或者从堆叠的沙漏模块中选择调整的深度值。因此,最终的深度预测dˆ开发置信度图X和Y。

如图看结果。


“3D LiDAR and Stereo Fusion using Stereo Matching Network with Conditional Cost Volume Normalization”2019.4

主动和被动深度测量技术的互补特性促使激光雷达传感器和立体双目相机融合,以改善深度感知。作者不直接融合激光雷达和立体视觉模块来估计深度,而是利用带两种增强技术的立体匹配网络:激光雷达信息的输入融合和条件成本容积归一化(Conditional Cost Volume Normalization,CCVNorm)。所提出的框架是通用的,并且紧密地与立体匹配神经网络中成本容积组件集成。

如图是3D 激光雷达和立体视觉融合方法的插图。立体匹配流水线的概念包括立体图像对2D特征提取、像素对应以及最终视差计算。与立体匹配网络紧密集成的(1)输入融合和(2)条件成本容积归一化(CCVNorm)。通过利用激光雷达和立体视觉模块的互补性,该模型可以生成高精度的视差估计。

3D LiDAR和立体融合框架的概述如图所示:(1)输入融合,将稀疏的激光雷达深度的几何信息与RGB图像结合起来,作为成本计算阶段的输入,学习联合的特征表示;以及(2)CCVNorm代替批量归一化 (BN)层,在立体匹配网络的成本正则化(Regularization)阶段以激光雷达数据为条件调制成本容积特征F。

在立体匹配网络的成本计算阶段,立体双目对的左图像和右图像都经过卷积层以提取特征。在输入融合(Input Fusion),通过深度变成视差的三角化原理,将激光雷达扫描重新投影到左右图像坐标转换为深度,从而形成与立体图像相对应的两个稀疏激光雷达深度图。

而将稀疏的激光雷达深度点信息纳入立体匹配网络的成本正则化阶段(即3D-CNN),学习去减少匹配的搜索空间并解决多义性问题。

受条件批量归一化(Conditional Batch Normalization,CBN)的启发,这里条件成本容积归一化(CCVNorm)将稀疏的激光雷达信息编码为4-D成本容积的C×H×W×D特征。由于以下三点考虑,在立体匹配网络中直接将CBN直接应用于3D-CNN可能会引起问题:(1)设置的条件输入是一个稀疏图,其像素间的值一直变化 ,这意味着归一化参数按像素进行;(2)需要一种替代策略来解决稀疏图中包含的无效信息;(3)稀疏图中的有效值对成本容积的每个视差级有不同的贡献。因此,CCVNorm根据成本特性更好地协调3D激光雷达信息,以解决上述问题。

这里采用两种不同的方法构造CCVNorm:

1) 分类CCVNorm(categorical CCVNorm):构造一个Dˆ-条目查找表,每个元素作为D×C向量,将激光雷达值映射到不同特征通道和视差级别的归一化参数{γ,β},其中激光雷达深度值离散化为Dˆ 级的条目索引。

2) 连续CCVNorm(Continuous CCVNorm):用CNN将稀疏激光雷达数据与D×C通道的归一化参数之间连续映射建模。这里用ResNet34的第一个块编码激光雷达数据,然后分别在不同层对CCVNorm进行一次1×1卷积。

为了减小模型大小,文中提出CCVNorm的分层扩展,即HierCCVNorm。如图是CCVNorm的示意图。每个像素(红色虚线框),基于相应激光雷达数据的离散视差,分类CCVNorm从Dˆ条目查找表中选择调制参数γ,而无效值的激光雷达点采用附加参数集单独处理(灰色表示)。另一方面,HierCCVNorm通过2步分级调制生成γ。

如图显示的是,该方法与其他基准方法及其变型相比,通过利用激光雷达和立体视觉模块的互补特性来捕获复杂结构区域(白色虚线框)中的细节。


”Deep RGB-D Canonical Correlation Analysis For Sparse Depth Completion”2019.6

完整关联网络(Correlation For Completion Network,CFCNet)是一种端到端的深度模型,用RGB信息做稀疏深度完整化。2D深度规范相关性分析(2D deep canonical correlation analysis,2D2CCA),作为网络约束条件,可确保RGB和深度的编码器捕获最相似语义信息。

该网络将RGB特征转换到深度域,并且互补的RGB信息用于完整丢失的深度信息。完整的密集深度图被视为由两部分组成。一个是可观察并用作输入的稀疏深度,另一个是无法观察和恢复的深度。

同样,相应深度图的整个RGB图像可以分解为两部分,一个称为稀疏RGB,在稀疏深度可观察位置保留相应的RGB值,另一部分是互补RGB(complementary RGB),即从整个RGB图像中减去稀疏RGB的部分。在训练期间,CFCNet会学习稀疏深度和稀疏RGB之间的关系,并用所学知识从互补RGB中恢复不可观察的深度。

如图所示,输入的0-1稀疏掩码表示深度图的稀疏模式。互补掩码(complementary mask)与稀疏掩码互补。通过掩码将整个图像分为稀疏RGB和互补RGB,然后将它们与掩码一起馈入网络。CFCNet接受稀疏深度图,稀疏RGB和互补RGB。在类似VGG16的编码器中使用稀疏-觉察注意卷积(Sparsity-aware Attentional Convolutions,SAConv)。

SAConv受到局部注意掩码(local attention mask,LAM)的启发,LAM引入了分割-觉察掩码(segmentation-aware mask),使卷积“聚焦”在与分割掩码一致的信号上。如图是SAConv架构图。⊙Hadamard积,⊗卷积, +逐元加法。对于卷积和最大池化,其内核大小3×3,步幅(stride)1。

为了传播来自可靠来源的信息,用稀疏性掩码(sparsity masks)使卷积操作参与来自可靠位置的信号。与局部注意掩码LAM的区别在于,SAConv不应用掩码归一化,它会影响之后2D2CCA的计算稳定性,原因是多次归一化后它产生的数值较小的提取特征。此外,在SAConv之后对掩码使用最大池化操作以跟踪其可见性。如果卷积核可见至少一个非零值,则最大池化将在该位置处计算得到值为1。

规范相关性分析(canonical correlation analysis ,CCA)是一种标准的统计技术,学习跨多个原始数据空间的共享子空间。对于两种模态,从共享子空间来看,每个表示形式对另一个的预测最强,而另一个的可预测性也最高。在小样本高维空间(high-dimensional space with small sample size,SSS)情况下,单向CCA(one-directional CCA)方法会遇到协方差矩阵的奇异性问题。所以,现在的方法已将CCA扩展为双向(two-directional)方式,以避免SSS问题。

大多数多模态深度学习方法只是联结或逐元添加瓶颈特征。但是,当元素之间提取的语义和特征数值范围不同时,多模态数据源的直接联结接和添加不会比单模态数据源产生更好的性能。为避免此问题,这里用编码器从两个分支提取更高级别的语义,2D2CCA确保从两个分支提取的特征具有最大的相关性。

直觉告诉我们,从RGB和深度域要捕获相同的语义。接下来,用变换器网络(transformer network)将提取的特征从RGB域转换为深度域,使不同来源提取的特征共享相同的数值范围。在训练阶段,用稀疏深度和相应的稀疏RGB图像特征来计算2D2CCA损失和转换器损失。

双向CCA的协方差矩阵为:

其中

而正则化常数r1和单位矩阵I的协方差矩阵为

这样,图像和深度特征之间的相关性,为

2D2CCA的损失即为−corr(FsD , FsI ) 。而整个损失函数是:

如图是一些结果例子:(a)RGB图像,(b)500点稀疏深度作为输入,(c)完整深度图。(d)MIT方法的结果。


“Confidence Propagation through CNNs for Guided Sparse Depth Regression“ 2019.8

通常,卷积神经网络(CNN)可在规则网格(例如网格)上处理数据,即普通相机生成的数据。设计用于稀疏和不规则间隔输入数据的CNN仍然是一个开放的研究问题。

本文有几个特点:

1) 提出的代数约束归一化卷积层,针对稀疏输入数据的CNN,相对来说网络参数量较少。

2) 提出从卷积运算确定置信度并将其传播到后继层的策略。

3) 定义一个目标函数,可同时最小化数据误差最大化输出置信度。

4)为了集成结构信息,提出融合策略,可以在标准化卷积网络框架中结合深度和RGB信息。5)使用输出置信度作为辅助信息来改善结果。

如图是示例图像的场景深度完整化的流水线。流水线的输入是一个非常稀疏的投影激光雷达点云、一个输入置信度图(在缺失像素处为0,否则为1)以及一个RGB图像。输入稀疏点云和置信度被馈送到多尺度无引导(unguided)网络,其作为数据的通用估计器。然后,将连续输出置信度图与RGB图像连接起来,并馈入特征提取网络。来自非引导网络和RGB特征提取网络的输出联结在一起馈送到融合网络,生成最终的密集深度图。

CNN框架的标准卷积层可用少量修改的归一化卷积层代替。首先,该层同时接受两个输入,即数据及其置信度。然后修改前向传递(forward pass),并修改后向传播(back-propagation)加入非负强制函数(enforcement function)的导数项。为了将置信度传播到后继层,已经计算的分母项被滤波器元素之和归一化。如图所示,归一化卷积层接受两个输入即数据和置信度,并输出一个数据项和一个置信度项。

下图是非引导场景深度完整任务中采用归一化卷积层的多尺度体系结构。用最大池化对置信度图下采样,池化像素的索引用于今后从特征图中选择置信度最高像素。上采样较粗尺度特征并将其与较细尺度特征连接起来,可以融合不同尺特征。然后,基于置信度信息归一化卷积层融合特征图。最后,1×1归一化卷积层将不同通道合并为一个通道,并生成密集深度图和输出置信度图。

对于引导场景深度完整任务,和两个常用的架构进行比较。如图所示:(a)一种多流体系结构(multi-stream architecture),其中包含一个深度流和一个RGB +输出置信度特征提取流。之后,融合网络将两个流合并产生最终的密集输出。(d)一种多尺度编码器-解码器体系结构,其中将深度馈入非引导网络,然后是编码器,随后将输出置信度和RGB图像连接起来,馈入相似编码器。两个流在对应尺度之间的解码器设置跳连接。(c)与(a)类似,不过算早期融合,(b)与(d)类似,但是早期融合。

第一个体系结构是早期融合(EF)的多流(MS)网络,称为MS-Net [EF],其变型为MS-Net [LF](后期融合)。第二种架构是编码器-解码器架构,其早期融合表示为EncDec-Net [EF],其变体是后期融合的EncDec-Net [LF]。如图是实验结果:(a)RGB输入,(b)MS-Net [LF] -L2方法(gd),(c)Sparse-to-Dense(gd)方法,和(d)HMS-Net(gd)方法。对每个预测,方法MS-Net [LF] -L2(gd)的性能略好,而“Sparse-to-Dense”由于使用平滑度损失而产生了更平滑的边缘。


END

声明:本文来源于知乎

如有侵权,联系删除

联盟学术交流群

扫码添加联盟小编,可与相关学者研究人员共同交流学习:目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟  

最新热文荐读

GitHub | 计算机视觉最全资料集锦(含实验室、算法及AI会议)

Github | 标星1W+清华大学计算机系课程攻略!

Github | 吴恩达新书《Machine Learning Yearning》

收藏 | 2020年AI、CV、NLP顶会最全时间表!

收藏 | 博士大佬总结的Pycharm 常用快捷键思维导图!

笔记 | 深度学习综述思维导图(可下载)

笔记 | 深度神经网络综述思维导图(可下载)

内推 | 4399小游戏

内推 | 无人驾驶~小马智行Pony.ai 2020

内推 | 虎牙直播2020校招

内推 | 字节跳动内推

前沿 | 阿里达摩院发布2019十大科技趋势!未来无限可期!

点个在看支持一下吧

论文 | 多传感器数据深度图的融合:最近基于深度学习的方法(上)相关推荐

  1. 论文 | 多传感器数据深度图的融合:最近基于深度学习的方法(下)

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :黄浴知乎,已获授权 htt ...

  2. 深度学习图像融合_基于深度学习的图像超分辨率最新进展与趋势【附PDF】

    因PDF资源在微信公众号关注公众号:人工智能前沿讲习回复"超分辨"获取文章PDF 1.主题简介 图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析.生物特 ...

  3. 基于深度学习的红外和可见光图像融合论文及代码整理

    基于深度学习的红外和可见光图像融合论文及代码整理 首先附上近期整理基于深度学习的图像融合论文的思维导图 本篇博客主要整理基于深度学习的红外和可见光图像融合的论文和代码 图像融合系列博客还有: 图像融合 ...

  4. 基于深度学习的多聚焦图像融合(Multi-Focus Image Fusion)论文及代码整理

    基于深度学习的多聚焦图像融合(Multi-Focus Image Fusion)论文及代码整理 首先附上近期整理基于深度学习的图像融合论文的思维导图 本篇博客主要整理基于深度学习的多曝光图像融合的论文 ...

  5. 基于深度学习的多曝光图像融合(Multi-exposure Image Fusion)论文及代码整理

    基于深度学习的多曝光图像融合(Multi-exposure Image Fusion)论文及代码整理 首先附上近期整理基于深度学习的图像融合论文的思维导图 本篇博客主要整理基于深度学习的多曝光图像融合 ...

  6. 综述|基于深度学习的深度图补全

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 在科学研究中,从方法论上来讲,都应"先见森林,再见树木".当前,人工智能学术研究方 ...

  7. 【综述专栏】基于深度学习的深度图补全

    在科学研究中,从方法论上来讲,都应"先见森林,再见树木".当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异.对于AI从业者来说,在广袤的知识森林中,系统梳理脉络 ...

  8. 基于深度学习的日志数据异常检测

    基于深度学习的日志数据异常检测 数据对象 智能运维(AIOps)是通过机器学习等算法分析来自于多种运维工具和设备的大规模数据.智能运维的分析数据对象多源运维数据包括系统运行时数据和历史记录数据,历史记 ...

  9. 基于深度学习的命名实体识别研究综述——论文研读

    基于深度学习的命名实体识别研究综述 摘要: 0引言 1基于深度学习的命名实体识别方法 1.1基于卷积神经网络的命名实体识别方法 1.2基于循环神经网络的命名实体识别方法 1.3基于Transforme ...

最新文章

  1. ubuntu安装snort
  2. ubuntu/mint 恢复模式 报read-only file system 的解决方法
  3. Python---常见问题
  4. 笔记三 vue中封装复用 过滤器 自定义组件 vue中component选项
  5. 本地---tcpserver与tcpclient
  6. 数据可视化|实验四 分析1996-2015年人口数据特征间的关系
  7. jzoj4637-大鱼海棠【博弈论】
  8. Python 的垃圾回收回收机制(源码)
  9. linux go missing git command,安装beego出现go: missing Git command
  10. Vue2.0 的漫长学习ing-2-6
  11. NVIDIA驱动瘫痪再重装的问题
  12. 红豆、绿豆、黑豆、花生、莲子、薏仁米放在一起吃,可以吗?
  13. Python菜鸟入门:day07条件循环
  14. linux 重新安装内核,升级操作系统内核(不重新安装UltraPath)
  15. 模拟猜数(POJ2328)
  16. 巧用JMP公式,让新变量的生成更简单
  17. python破解zip,rar文件密码问题
  18. excel----分组后统计
  19. python发送邮件发件人_在python电子邮件的from字段中添加发件人的名称
  20. SQL | DB2和MySQL分条件求和

热门文章

  1. jquery指定节点设css,jquery 获取和设置节点属性 css样式
  2. linux python开发环境sql数据迁移到mysql_linux环境下python怎样操作mysql数据库
  3. 哪些手机支持android q,安卓Q首批升级名单公布,华为终于有一款机型支持原生...
  4. html表格展开明细,展开/折叠HTML表格
  5. html button 自动提交,html+js表单form验证自动提交的2种提交方式button和
  6. mysql中phpmyadmin安装教程_phpmyadmin安装方法
  7. php中ajax方法的理解,基本的PHP和AJAX
  8. php面向对象教学笔记,php学习笔记之面向对象编程
  9. android qq空间 sdk,Android中使用腾讯的SDK完成分享图文到qq空间
  10. 网络硬件设备(职高高考笔记)