Attention-based Multi-Level Fusion Network for Light Field Depth Estimation

这篇论文主要是提出了分支内融合和分支间融合，分支内融合以中心视图为界，注意力有两个值，分支间融合注意力有4个值，每个分支有一个值。每个方向有不同值，每个方向有不同的遮挡情况，这里的话相当是8个方向。

摘要
从光场图像中估计深度是光场相关应用的一个重要基础。因为可以获得带有丰富信息的大量的view，如何有效融合这些view的特征就成为了精确的光场深度估计的关键点。在这片论文中，我们提出了一个新的基于注意力的多层融合网络。与四层分支网络结构结合，我们设计了一个intra-branch融合策略来分层融合不同view的有效特征。通过引入注意力机制，选择这些分支内部和之间的遮挡较少和丰富纹理的view特征来为深度估计提供更有效的特征。在进一步聚合之后得到估计的深度图。实验结果表明提出的算法在定量和定性评价上都达到了最好的效果，这些评价在4D光场基准数据集中也被经常使用。

介绍
光场记录不同方向的光，并且比传统图像用更多的信息描述场景。Lytro (Ng 2018) and Raytrix (Perwaß and Wietzke 2018)都是商业相机中成功的例子，通过在成像传感器钱放置微透镜阵列，一次拍着不同方向的多张图片。作为只管重要的一步，深度估计提供了结构信息用于多种研究，比如数字聚焦 (Ng et al. 2005b)，图像分割 (Ng et al. 2005b)，视图合成(Jin et al. 2020)，显著性区域检测(Li et al. 2014)和超分辨(Zhang, Lin, and Sheng 2019)。

为了估计出准确的深度（或等价的视差）信息，很多传统的方法已经被提出。基于光场view的photo-consistency。基于传统的立体匹配算法，一些算法(Jeon et al. 2015; Williem, Park, and Lee 2017; Sheng et al. 2017)通过cost volume设计。由于狭窄的基线，其他方法分析极平面图像中特定的线性结构（EPIs）或者是焦点叠的焦点加来估计深度。然而，因为局部深度估计对遮挡、造成和无纹理区域敏感，为了获得更平滑的深度图，更复杂的优化方法(Wanner, Straehle, and Goldluecke 2014; Wang, Efros, and Ramamoorthi 2015)是很有必要的。另外，这些方法也受害于大量的计算由于离散化的深度空间。

最近，一些基于深度学习的方法(Wanner, Straehle, and Goldluecke 2014; Wang, Efros, and Ramamoorthi 2015)被引入光场的深度估计。与传统的方法相似，一些方法(Luo et al. 2017; Feng et al. 2018)根据学习EPIs中线的斜率设计，而其他的方法(Luo et al. 2017; Feng et al. 2018)直接研究光场view的相似性。因为光场图像提供了大量的视角信息，如何在不同区域选择合适的view来进行匹配计算变成了一个重要的问题。然而，大部分这些方法都选择直接融合所有的特征(Shin et al. 2018)或者参考一个简单的整体图像的attention。

在这项工作中，我们引入了基于注意力的多层融合网络用来深度估计j.women考虑了光场的四个方向(0◦, 90◦, 45◦ and 135◦)并且将它们分成了四个分支。结合四层分支结构，提出了两个不同的特征融合方法：
· 基于通道注意力的分支内特征融合，在这种方法中，一个分支中的含有较少遮挡的view特征被选择出来。
· 基于分支注意力的分支间特征融合，在这种方法中，通过选择有更少遮挡和更丰富纹理的分支，分支间的特征被进一步融合。

通过进一步的特征提取和代价聚集，生成最终的深度图。在人工合成和真实世界的数据集上的实验结果表明，提出的方法比其他方法得到了更精确的估计深度图。提出的特征融合策略也被证明可以有效改进深度估计结果，特别是遮挡边界。在经常使用的HCI 4D光场基准数据集上的评价指标也表明我们的方法取得了最高的平均准确率并且到目前为止排名第一。

相关工作
在这个部分，复习原来的深度估计方法，包括传统方法和基于深度学习的方法。

传统方法
通过对光场图像的一个方向切片，在EPIs中可以直接显示深度信息。Wanner等人（2014）首先提出了基于结构张量的EPIs直线方向估计方法，然后采用快速去噪和全局优化相结合的方法进行局部估计。Zhang et al.（2016）提出了旋转平行四边形算子，通过假设直线两侧的差值最大来估计EPIs上直线的斜率。Zhang et al.（2017）提出了局部线性嵌入的深度估计方法，在不进行全局优化的情况下，提高了估计结果的精度，减少了计算时间。

基于深度学习的方法
图1：一个典型的与EPIs相关的例子，当view沿着右下方向变化时会被遮挡。与90°和135°EPIs进行比较，在0°和45°EPIs点P的线会断。对于0°和45°的EPIs，如果view用’+‘和’-‘两边分成两组，’+‘那边的线会更完整。
#（view阵列中右下区域view中p点被遮挡所致）

动机
因为光场图像包含从不同透镜得到的很多view，大量冗余信息可以被用来寻找颜色的一致性。因此，如何从LF中选择有效的角度信息用来深度估计是一个值得深入研究的问题。我们从图1中选择了一个有遮挡的典型的例子来深入分析。如图所示，当view以特定的角度沿着右下方向变化时，点P被遮挡。相关四个方向的EPIs也在图中展示了，通过直线的斜率可以直观反映一致性。如果在某一方向的view被组合起来，EPIs可以被看做是这组view中沿特定方向的切片。我们之后探索这些组内和组间的空间性质。
· 在这个例子中，0°和45°EPIs中的p点的线被前景物体挡住了。相比之下，在90°和135°EPIs中，没有遮挡并且斜线是完整的。因此更完整、符合更好的组应该被给与更多的注意力。
· 因为遮挡存在于右下方向，对于左上方向0°和45°的EPIs中的view，P点没有被遮挡别切EPIs中相关的线被完整保存。因此，当我们将EPIs分成’+‘和’-‘两边时，’+‘相应的一边没有遮挡，仍可用来提供正确的信息。
对于一张图片中的不同的点，遮挡可能来自不同的方向。因此我们设计了我们的网络，在每个点的分支内和分支之间有两个不同层的attention。基于上述研究，我们首先把一个分支中的view分成了两边，同时引入注意力机制来计算每边的重要性以便融合。也就是分支内融合策略。之后这四个分支通过分之间融合模块被融合生成attention map，在分支间模块中，这些有更少遮挡和符合更好的组被赋予更高的权重。

提出的方法
图2展示了提出的网络结构的细节，网络包含四部分。假设(x, y, u, v, c) ∈ R 维度是H×W×M×M×C，(x,y)和(u,v)分别表示空间和角度坐标。四个方向的M view被分组并分别送入四个分支（0°，45°，90°，135°）。对输入图像首先进行特征提取得到特征图，同时构建四个分支的初始cost volumes。我们之后基于通道特征设计了分支内特征融合模块，来将一个分支内每个view的特征融合到一起。使用分支注意力策略，在分支间融合模块中四个分支的cost volumes被进一步融合，有更少遮挡的cost volume将会被首选。最终，在代价聚合模块后，每个中心view的视差图被计算出来。

特征提取和代价矩阵构建
为了从view中完全提取不同尺度的特征，常用的SPP被引入。与（Yu Ju等人，2020年）相同，特征提取模块采用多个二维卷积、残差块和四级SPP模块。有层次背景信息的SPP模块的F个特征作为输出串联起来，串联起来的输出可以被定义为Fspp ∈ R（M×H×W×F）。通过分层特征提取策略，相邻区域更多有用的特征被补充到challenging 区域，即缺少纹理和反光区域。

在提取到每个view的特征之后，我们像(Yu-Ju et al. 2020)一样使用了view移动策略来扩大感受野。具体而言，是每个视图的特征Fspp根据其与中心视图的相对位置，以D=9的视差平面从-4手动移动到4。Fspp cost volume之后被扩展到M×D×H×W×F。当view移动时，在一个特定的cost volume中，大的视差减小，使用一个相对较小的感受野，相邻view的关系更容易被提取。

基于通道注意力的分支内融合
当每个view的特征被提取，之前的方法直接连接这些特征。然而，如图1分析，一些区域在一些view可见而在另一些view被遮挡。如果所有的特征被直接融合，被遮挡区域的cost volume将会模糊并且很难找到真正的视差。正如之间分析的，在只有一个遮挡的简单遮挡区域，当view沿一个方向变化时，这个点只能在中心view的一侧被遮挡。因此，我们提出了分支内融合模块，在这个模块中特征在分支内被融合来选择一边的view，有较小可能包含遮挡区域的一边。

具体来说，我们设计了分支内融合模块HAttc，使用了一个三维全局平均池化层，三个1x1x1卷积层和一个sigmoid层。通道注意力的计算方法是：
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210710145958822.png

Attc表示了中心view和它两边view的特征图的重要性。
没有估计一个分支中每个view的M权重，我们把 M view分成了两组，估计两组中的两个权重。用这个限制，减少了学习参数，网络更容易训练处合理的结果。图3中我们举了一个例子，图1中P点两边的四个方向的attentions被展示出来。由于遮挡存在于0°和45°的EPIs，在这两个分支两边的attention有较大的差异。在没有遮挡一边的view，权重（0.869和0.876）高于有遮挡一边的权重（0.176和0.287）。相比之下，由于在90°和135°的EPIs中，两边的view都没有遮挡，两边的权重有相似的值。

注意力Attc之后与相应的cost volume对应元素相乘：
基于分支注意力的分支间融合
分支内融合后，四个分支的FAttc已经获得。在这个小节中，我们进一步融合来自四个分支的特征来有效的整合信息。如之前分析，四个分支中简单像素的特征不同，一些可能被遮挡，一些可能缺少纹理。因此，我们没有用简单地连接，而是设计了分支间融合模块来融合来自不同分支的特征。
为了计算每个点在四个分支中的attention，cost volume FAttc首先经过3D卷积层，称为HAttb1：

四个特征FAttb1之后通过相应的点乘操作融合，以便于四个分支中同一像素的信息系可以更好相互联系。之后经过几个2D卷积层和一个sigmoid层将会生成attention map，称为HAttb2：

分别表示四个角度分支的分支注意力。最终，四个cost molumes与这四个分支注意力相乘：

FAttb进一步融合聚合了cost volume。通过这种方式，四个分支提供的信息有选择的合并，并且有更清楚匹配信息的分支对cost volume有更大的贡献。分支间融合更多的实验将在之后的消融实验中进行。

代价聚集
为了进一步聚集cost volume信息，我们在提出的网络结构中同样应用了广泛使用的空间注意力策略，如图2所示，空间注意力分支HAtts由两个平行的分支组成，分支包括1xk和kx1的2D卷积层（实验中k=9）。结果的注意力矩阵和cost volume元素对应相乘。空间注意力进一步加强了相邻像素的关系并且充分提取了背景信息。在这之后，cost volume通过八个3维CNN层：

最终，使用视差回归来估计连续的视差图：

其中cd是沿维度D的Ffinal的切片，并且表示视差标签D的代价。每个视差标签的概率由softmaxσ（·）计算。然后根据概率估计视差。

Attention-based Multi-Level Fusion Network for Light Field Depth Estimation相关推荐

光场深度估计（Light Field Depth Estimation）
[原文地址]:https://www.vincentqin.tech/posts/light-field-depth-estimation/(排版更美观) 本文将介绍光场领域进行深度估计的相关研究. ...
论文阅读：A Taxonomy and Evaluation of Dense Light Field Depth Estimation Algorithms
目录摘要二.光场深度估计 1. 子孔径图像和视差 2. 极平面图像 3. Surface cameras (SCams) 表面相机 4. focal stack 焦点堆栈三.算法 1. EPI ...
Occlusion-Aware Cost Constructor for Light Field Depth Estimation论文阅读
文章目录前言一.介绍二.相关工作 1.传统方法 2.深度学习方法三.方法 1.LF Structure and Occlusion Analysis 2.Occlusion-Aware Cos ...
论文阅读【Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network】
Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network 概述发表:ICCV 20 ...
Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记
GATED MECHANISM FOR ATTENTION BASED MULTIMODAL SENTIMENT ANALYSIS 阅读笔记最近在跟进多模态的情感分析发现多模态榜一又被刷下来了,这篇 ...
Complex Spectral Mapping With Attention Based Convolution Recurrent Neural Network（省略）---论文翻译
基于注意力的卷积递归神经网络的复杂频谱映射,用于语音增强 Liming Zhou1, Yongyu Gao1,Ziluo Wang1,Jiwei Li1,Wenbin Zhang11CloudWalk ...
光场相机 light field camera
EPINET: A Fully-Convolutional Neural Network Using Epipolar Geometry for Depth from Light Field Imag ...
【论文阅读】Attention Based Spatial-Temporal GCN...Traffic Flow Forecasting[基于注意力的时空图卷积网络交通流预测]（1）
[论文阅读]Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting[基于注 ...
【ACNET2019】：ATTENTION BASED NETWORK TO EXPLOIT COMPLEMENTARY FEATURES FOR RGBD SEMANTIC SEGMENTATION
ACNET: ATTENTION BASED NETWORK TO EXPLOIT COMPLEMENTARY FEATURES FOR RGBD SEMANTIC SEGMENTATION ACNE ...

Attention-based Multi-Level Fusion Network for Light Field Depth Estimation

Attention-based Multi-Level Fusion Network for Light Field Depth Estimation相关推荐

最新文章

热门文章