RGB-D显著性目标检测回顾

(文章由我个人翻译,请勿擅自转载)

文章结构

  • introduce:介绍了RGB-D显著性目标检测的任务和关键概念
  • review:回顾显著性目标检测的演化过程,尤其是对于RGB-D图的检测演化
  • present:展示典型的RGB-D显著性目标检测方法,在公开的数据集上对它们进行性能评估,并总结它们的问题所在
  • discuss:对一些公开的问题进行讨论,并且对未来的研究方法提出建议
  1. introduction:

提及显著性目标检测,其所指的就是在人类的视觉接受角度来看,在某一画面或者情境中相对于周围环境,找到更引人注意的目标。

显著性分析技术主要包括:

  • 注视预测
  • 显著性目标检测

不同于注视预测只在热力图(heat map)上突出显示几个点来呈现凝视点,显著性目标检测目的在于提取整个具有吸引力的目标。因此,显著性目标检测可作为诸如目标检测,信息恢复以及视频分析等各种视觉任务的基础。

实际上,人类的视觉系统是通过接收颜色和深度信息,将二者结合以从场景(scence)中分辨出显著性目标,深度线索帮助从背景中分辨出显著性。因此,在RGB-D图上使用深度和颜色线索相结合的方式做显著性目标检测时行之有效的。

然而,局限于现有获取深度图设备的性能问题,带来低质量,低分辨率,尤其是低准确度问题,这会对显著性目标检测者带来严重噪音并将目标检测引入歧途。如何在显著性目标检测问题中解决低质量的深度图问题,还没有答案。并且,尽管深度信息和颜色信息常常作为互补信息来做显著性目标检测,但是他们有时也会引起冲突。如何利用好两者的信息结合并消除不一致性,仍然需要做进一步的研究。

  1. 显著性目标检测的演进

早期的RGB显著性目标检测方法主要基于全局或局部对比度(high contrast)的手工特征,相应的RGB-D显著性目标检测方法同时也存在很多[8, 9, 14–16, 18, 22, 25, 28, 31]。这些方法在目标和背景比较简单和对比度较高的图像中表现较好。为了提高检测到的显着对象的完整性,使用基于图的模型在相邻和相似区域之间传播显着性,这可以有效地增强显着对象中的缺失部分,同时抑制背景上的残留显着性。基于图的方法也给RGB-D显著性目标检测带来了灵感[11, 22]。近来,基于深度学习的方法显示出了在显著性目标检测中的卓越性,包括深度神经网络,多语义深度网络,多尺度深度网路,对称性网络以及弱监督深度网络[3, 12, 23]

除了从单张图形中提取出显著性目标,共显著性(co-saliency)检测专注于从多张相关的图像中提取共同的显著性目标。通过探索图像之间的(inter-image)的相关性,共显著性从多张图像中有效提取出相似外观(appearance)的显著性对象。与RGB-D显着物体检测相比,用于共同显着性检测的多个图像具有相同的模态,即颜色提示,但没有不同的模态(Compared to RGB-D salient object detection, the multiple images used in co-saliency detection have the same modality, i.e., color cue, but not different ones. )。并且,共显著性检测要求目标在所有的图片中都具有显著性,但是在RGB-D显著性目标检测中,目标通常只展现出颜色和深度线索。

视频显著性目标检测致力于提取视频序列中的显著性目标[29, 30]。从某个角度来看,视频显着对象检测可以视为特殊的共显着性检测,其中所有相邻视频帧都包含外观相似的共同(common)显着对象。尽管如此,视频中的显著性目标检测通常使用不同的方法。在一方面来看,视频中相邻帧的目标和背景都具有相似性。并且,帧之间分析相对于单帧分析可以提供额外的信息。另一方面,从相邻帧估测到的动作(motion)线索在显著性目标检测中扮演重要角色,因为运动的目标更能引起人的注意力。动作线索的探索[29, 30]和深度线索的有一些相似之处,例如,估测目标的动作姿态通常不准确,并且有时候颜色线索和动作线索得到的检测结果互相冲突。因此,对于视屏显著性目标检测的 ,尤其是对于颜色和动作线索的混合研究,可以给RGB-D显著性目标检测带来有用的启发。

  1. RGB-D显著性目标检测

根据(based on)显著性目标检测中使用到的模态数量和图片数量,RGB-D显著新目标检测可以粗分为三类:基于深度的salient object detection,基于深度和颜色的salient object detection,以及RGB-D共显著性检测

3.1 基于深度的salient object detection

基于深度的显著性目标检测旨在直接和独立的在显著性目标检测中探索深度线索的有效性,也就是不考虑颜色线索,直接从深度图中提取出显著性目标。基于深度信息在生物视觉中是固有的这一假设,Ouerhani etal[21]研究了深度信息在显著性分析中的重要作用,其指出深度线索有助于预测人类注意力/视线(gaze)。Ju et al. [15, 16]基于显著性目标在深度图中相对于周围环境而言更加突出这一假设,提出了首个基于深度的显著性目标检测方法。该方法基于各向异性(anisotropic)的中心-周围差异,并通过集成3D空间先验(spatial proior)来完善其结果。 但是,他们使用固定权重来组合来自不同方向的深度对比度以预测像素级显着性,这可能会导致显着性图的某些特定方向上的质量较低。这一做法还存在着其他缺点:被选定的区域中每个像素生成的对比度在每个方向都是固定的,这会导致在一些情况下显著图的模糊,尤其是当显著性目标占据整个图像比例较大时。

为了更加轻松和准确的检测显著性目标,sheng等人[24]增强了显着对象和背景之间的深度对比度(depth comparison),而不是直接从深度图中提取特征,这是基于以下事实:由于用于捕获深度图的各种视点,许多深度图中像素之间的对比度并不明显。

深度线索相比于颜色线索在显著性目标分析中更加简单,毕竟深度信息只含有一个通道,颜色信息含有三个通道,然而,深度信息饱受低质量的影响,这让显著性目标检测的准确性受阻。并且,深度图和自然图片通常是相关联的,这又让不使用颜色辅助信息而直接分割背景图中的显著性目标这一做法受阻。

3.2 基于深度和颜色的salient object detection

相比较于只使用深度信息,在显著性目标检测中使用深度结合颜色的方法是更加常见且更好的方式;早期的方法直接将深度信息作为颜色信息的补充通道,或者直接将深度信息的特征与颜色信息、亮度和纹理信息(luminance and texture)混合使用,这一做法忽视了不同模态在显著性表现形式(representation)上的差异。

为了研究深度信息是否以及怎样影响视觉显著性的,Lang等人[18]使用Kinect建立了3D眼球注视(fixation)数据集来研究深度信息在注意力预测中的作用。基于他们的观察他们获得了一些结论,(1)人类会专注于深度中更近的区域,(2)大多数的注视区域的仅由少数感兴趣的目标组成,无论是2D还是3D。(3)显著性和深度之间的关系是非线性的,并且这种关系在不同场景的不同深度内是有所差异的。(4)深度信息的结合会导致2D和3D的注视分布之间的巨大差异,尤其是在一些复杂场景中。基于以上观察,他们将深度作为先验概率(probabilistic prior)集成到2D方法中,发现可以将预测效果提升6到7个百分点。但是,他们只是简单的求和或求积来组合深度先验,这种方法在颜色和深度信息冲突时是没什么效果(not efficient enough)的。基于观察到显着物体与背景之间存在明显的深度差距以及一些立体(stereoscopic,立体的,有立体感的)摄影领域知识,Niu提出了基于全局视差(global disparity contrast)计算显着性,并利用立体摄影领域知识进行显着物体检测。然而,他们这种将深度图作为颜色三通道之外的第四个通道的方法是存在缺陷的:他们忽略了不同模态之间的显著性表现形式的差异。在一些特定的显著性物体中,他们的深度与背景对比而言,是一致的,这一点与他们的基本假设相冲突。

peng等人通过使用Kinect,结合深度和现成的(existing)2D模型建立了RGB-D数据集以获得提升和改进。他们提出了一种多级别(multi-level)的显著图组合方法。对于低级的显著图,采用结合局部,全局以及背景对比度的多语义特征来评估像素的显著性。这种低级特征表现为一种固定的,被动的深度对比度测量。对于中级显著图,基于图的传播方法被采用,这有对于降低背景区域的显著性值有帮助。值的注意的是,多数没有经过进一步优化(further optimization)的基于对比度的方法都会遭受背景的高显著性问题,而基于图的方法在此问题上则表现出较好的性能。对于高级显著图,一些空间先验(spatial priors)被合并。事实上,由于多输的显著物体出现在场景(scene)的中间区域位置,空间先验有助于消除来自具有高对比度的颜色线索或深度线索的背景对象(或译为目标)的某些干扰。最终,他们通过把前两种级别的显著图相加再与高级别的显著图相乘的方法,结合了三种级别的显著图。尽管这种在低级别中多上下文(multi-contextual)特征以及在不同级别做各种特征提取的微妙过程,这种结合方法仅由简单的相加和相乘完成,这并不能有效组合不同的显著图。

为了消除背景中的高对比区域,Feng等人[9]及午安局部背景的闭合特征,然后将这一先验用于深度,空间,背景,并通过Grabcut分割细化(refine)了显著性物体的边界。相对于Ju等人 [15,

16] ,这种方法在充分利用深度线索上有所提升:(1)合并角度信息可以被看作为一种对比,自适应的对比度权重权重消除了各方向对比度的固定权重带来的问题。 (2)对于每一个像素的对比去区域相对于 [15, 16]被缩减了,本方法只将注意力集中于区分局部区域和显著性物体。

Guo等人[11]基于显著性研究的演进融合方法(based on saliency evolution),金贵不提出了显著性目标的检测方法,这种方法通过融合显著性分析结果融合到颜色线索和深度线索(fuse ... on ...,将...融合于...),生成了准确的但是不完整的显著性目标,并通过在超像素级别的相邻和相似区域之间传播显着性来完善(refine)显着性图。Guo等人的主要贡献在于,他们体处理一种有效的方法来结合颜色信息和深度信息(线索)。具体来说,用单层细胞自动机实现的(implemented)显着性进化策略可以减少背景中的高显着性区域并提高显着对象的完整性。然而,如果显著性目标的一部分相对于主要部分比较细小, 比如外星人的触角,那么最终的显著性图在这一细小部分的体现将会比较模糊,这是因为进化策略倾向于给一个周围区域都具有高显著性数值的区域分配高显著性值,然而对于细小的部分,它的周围并没有高的显著性数值,那么这种区域自然不会被分配到高显著性数值,导致最终的显著性图在这一部分显得模糊。

两个姓王的[28]提出了一种多阶段的显著性目标检测方法,这一方法生成了一种基于颜色和深度的显著图,给这些显著图赋予具有深度偏置(depth bias)和3D空间先验的权重,然后通过多层细胞自动机来融合所有的显著图。与Guo利用单层细胞自动机对不同的显著性图做乘法运算,双王通过多层细胞自动机来直接融合所有的显著图,这一方法便显出了卓越的性能。

Song利用多个级别的不同特征,并通过对数百个相应的区域显着性结果执行判别(discriminative,有判别力的)显着性融合,生成了多个多尺度显着性图。具体来说,判别显著性融合采用了随机森林回归的方法,找到最有判别力的显著图,这些显著图会被用做生成多尺度的显著图。与其他的已提出的使用权重相加和相乘的融合方法不同的是,这种判别性融合是非线性的,并且不会在显著性结果数量超过一百个的时候受影响。根据生成的多个多尺度显著图,得到最终的显著图需要进一步的融合。(bootstrap learning)自主学习被用到融合这些显著图,同时执行显著图像分割任务。显然,分割既有助于降低背景中的显着性值,又有助于完善显着性对象的边界。

近些年,与很多视觉任务相似,深度学习展现出其在显著目标检测的作用。然而,进来的深度学习方法主要将注意力集中到了颜色线索,它们之中鲜有兼顾颜色和深度线索的。在接下来的部分,我们主要介绍基于深度学习的两种RGB-D显著性目标检测方法。

Qu等人[23]设计的卷积神经网络融合不同的低级显著性线索到层次性特征中来做自动给的显著性物体识别。他们采用设计好的显著性特征向量,而不是直接的一行图片作为网络输入,这一做法可以充分利用显著性物体检测之前的有用知识,并减少学习的二义性,这样可以让显著性物体检测更加高效。它将拉普拉斯传播与学习后的CNN集成在一起,以提取空间一致的显着性图。多亏了CNN在融合不同特征向量的卓越性,相对于其他非基于深度学习的方法,其性能有所提升,当时Qu团队忽略了CNN在特征提取上的强大能力。

Han等人把基于RGB的深度神经网络转换后,使其适用于深度线索,并融合颜色和深度表现形式,自动获取最终的显著图。与Qu的不同,此方法将CNN用到了各个阶段,包括特征提取以及特征融合。

Chen和Li设计[3]设计了一个具有互补性的融合模块,并探索了各个水平的互补序列,以获得足够的融合结果。Han和Chen、Li不同的是,后者[12]是在特征提取之后再进行深度和颜色线索的融合,并且Chen,Li[3]从特征提取开始阶段就将两个线索进行融合,并在每一个阶段都执行融合。

3.3 RGB-D共显著性检测

RGB-D共显著性检测目的在于更进一步的探索图片间的对应关系,并在显著性目标检测上表现更好。

Fu[10]等人利用深度提示通过拟议的RGB-D共凸图来增强对相似前景对象的识别,以及改善对类似对象区域的检测,并提供基于深度的局部特征以进行区域比较。同时,他们通过互斥约束(mutual exclusion)的方法提出(formulate, 制定,规划,构想,阐述)了一种全联接的图结构,以解决公共对象(common object)出现多次或小于一次的图片。

Song[26]等人提出了一种包的聚类RGB-D联合显着性方法,该方法在单个图像上生成显着性图,将它们聚类为弱共显性图,然后将弱共显性图基于聚类标准自适应地集成到最终的显著图中。

Cong等人[7]提出一种迭代的RGB-D联合显性(co-saliency,也就是之前的共显性)方法,这一方法利用了现有的单显著图作初始化,然后利用完善的周期模型(refinement cycle model)来生成最终的联合显性图。

Cong提出的另一种方法[6]利用深度线索来增强联合显性的识别。该方法计算每幅图像上的内部显着图,并基于多约束特征匹配计算内部显着图,通过交叉标签传播优化显着图,并将所有原始和优化的显着图整合到最终的共同显着结果。

  1. 评估

4.1 数据集

对于基于深度和颜色的显著性目标检测的数据集,也适用于基于深度的显著性检测,现有两个数据集:RGB-D1000[22]和NJU2000[16]

对于RGB-D共显性,RGBD Coseg183[10]和RGBD Cosal150[6]

4.2 衡量评估(metrics)方法

三种衡量办法:

  • Area Under the Curve (AUC)越高越好,计算的是曲线下的面积
  • F-measure,越高越好
  • Mean Absolute Error (MAE),越低越好,这是平均错误率

4.4 对比分析

For depth-based salient object detection, we compared Ju et al. [16] and Sheng et al. [24]; for depth- and color-based salient object detection, we compared Lang et al. [18], Niu et al. [20], Peng et al. [22], Guo et al. [11], Qu et al. [23], and Chen and Li [3]; for RGB-D co-saliency detection, we compared Song et al. [26] and Cong et al. [6]

[对于对比部分,我们只关注deep learning的方法,所以只翻译了(iii)]:显然,chen&li的方法要优于qu的方法,因为qu的方法单独的利用深度线索和颜色线索生成了两张显著图然后做融合,而chen&li的方法利用卷积神经网络提取深度和颜色信息后,做特征融合,并生成最终的显著图,这一做法充分利用了CNN在特征提取的能力。当然,使用深度学习的方法其表现结果都要优于其他显著性检测方法,这也体现了深度学习在显著性特征表现上的优异性能。

  1. 讨论

通过分析上述的这些方法,我们总结出深度线索的对于显著性目标检测的作用有三个要点,这对于我们今后的RGB-D显著性检测模型的设计或许会产生启发作用

第一点是关于特征提取,过去这几年主要有两种特征提取的方法:一种是各种基于对比度的方法,另一类则是基于深度学习方法。值的注意的是,基于图结构的方法并不是特征提取方法,他们只是经常被用来做改进(fefinement)或者生成最终显著图。对于基于对比度的方法,很多不同的方法的产生都带来了较好的效果,但是对于深度学习方法而言,关注depth深度特征提取的方法就相对较少了。

第二点是关于显著图的融合。随着深度线索的加入,通常就随之需要融合几个候选显著图,或者融合一些中间的结果。不通的模型中产生的需要融合的中间结果的数量从200到300不等,尤其是时数量大于300时,融合方法的效率对于最终结果的影响比较大。最简单的犯法是权重相加和相乘,当然也有其他更多有效的方法,例如之前提到的基于演化的融合,基于多层细胞自动机的融合,以及随机森林方法的融合,bootstrap-based自主学习方法以及深度学习的融合方法。

第三点是显著图的改进优化,主要包括两个方面:第一个方面是,消除背景的显著性以及对前景做更好的分割。绝大多数的基于对比度的方法如果没有进行进一步的改进,就会遭受背景的显著性问题,这是因为很多背景中的目标哦相对于周围环境中无论是颜色还是深度来说,都具有较高对比度。为了避免背景中出现的高对比度,基于图的方法被踢出,基于一些种子点进行显著性传递,而不是直接从整张图或者深度图来生成显著性数值。另一个方面是,在很多特定领域,显著性目标经常会是不完整或者模糊的,这是由于目标的一些部分与背景区分不够明显,或者这些parts太小,以至于小到许多模型检测不到这个部分。这种情况下,使用Grabcut [9] and bootstrap-based segmentation [25] ,可以帮助获得更好的前景分割效果。

  1. 总结

本文全面回顾了RGB-D显著性目标检测的研究进展,包括三大方面:基于深度的salient object detection,基于深度和颜色的salient object detection,以及RGB-D共显著性检测。并介绍了显著性目标检测的噶站过程,分析了显著性目标检测和RGB-D显著性目标检测的关系,例如,RGB-d图像,用于共显著性检测的多图像和视频。进一步我们介绍了这个方面的典型方法,并在四大公开数据集上进行了性能评估。

尽管RGB-d显著性目标检测方法已经有很多,但是仍存在需要解决的问题:深度图的低质量问题可能会隐形RGB-D的检测性能,如何对深度图进行增强,或者说,如何增强对于深度图中噪声的鲁棒性,这对于RGB-D显著性检测是一个关键性问题;还要就是,相对于RGB显著性目标检测的数据集,RGB-D显著性目标检测的数据集比较稀少,它们的尺寸也是比较小,所以建立一个大尺度的RGB-d显著性目标检测数据集也十分重要。

『译』RGB-D Salient Object Detection, A Review『译』相关推荐

  1. Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Sal

    问题: 作者认为,显著性目标检测领域迄今为止的工作解决的是一个相当病态的问题.即不同的人对于什么是显著性目标没有一个普遍的一致意见.这意味着一些目标会比另一些目标更加显著,并且不同的显著性目标中存在着 ...

  2. Weakly Supervised Video Salient Object Detection

    Weakly Supervised Video Salient Object Detection 摘要 1. Introduction 2. Related Work 3. Our Method 3. ...

  3. A2dele: Adaptive and Attentive Depth Distiller for Efficient RGB-D Salient Object Detection

    A2dele: Adaptive and Attentive Depth Distiller for Efficient RGB-D Salient Object Detection 2020 IEEE ...

  4. 【arXiv2022】GroupTransNet: Group Transformer Network for RGB-D Salient Object Detection

    paper:https://arxiv.org/abs/2203.10785 目录 一 动机 二 方法 三 网络框架 3.1 模态纯化模块(MPM) 3.2 尺度统一模块 (SUM) 3.3 多 Tr ...

  5. Dynamic Selective Network for RGB-D Salient Object Detection

    Dynamic Selective Network for RGB-D Salient Object Detection 用于 RGB-D 显着目标检测的动态选择网络 IEEE TRANSACTION ...

  6. RGB-D Salient Object Detection with Cross-Modality Modulation and Selection

    RGB-D Salient Object Detection with Cross-Modality Modulation and Selection 具有跨模态调制和选择的 RGB-D 显着目标检测 ...

  7. 文献阅读20期:Transformer Transforms Salient Object Detection and Camouflaged Object Detection

    [ 文献阅读 ] Transformer Transforms Salient Object Detection and Camouflaged Object Detection [1] 表现SOTA ...

  8. Lightweight Adversarial Network for Salient Object Detection

    Abstract 作者提出了一种用于显着目标检测(salient object detection)的轻量级对抗网络,该网络通过进行对抗性训练来实现更高阶的空间一致性,并分别通过轻量级bottlene ...

  9. Semi-Supervised Video Salient Object Detection Using Pseudo-Labels 论文详读

    Semi-Supervised Video Salient Object Detection Using Pseudo-Labels --使用伪标签的半监督式的重要目标(显著目标)检测. abstra ...

最新文章

  1. Zookeeper分布式一致性原理(九):Zookeeper分布式应用
  2. NYOJ 143 第几是谁?
  3. Linux的Nginx三:类型|特点
  4. Windows系统CUDA10.2+CUDNN安装教程
  5. 五轴加工的RTCP技术
  6. python提供的三种基本数据类型是()_python基础之基本数据类型
  7. android 使用外部字体
  8. 数据结构作业第二章题解
  9. Android实例-利用WebBrowser实现浏览器(XE8+小米2)
  10. java类的成员变量和局部变量的区别
  11. 使用ifconfig命令来看网卡的IP,但是,输入命令之后,eht0里面只有 inet6 addr 而没有 inet addr...
  12. 机器学习技术:使用深度学习处理文本
  13. 【计算机网络】频带和频段(图解易懂)
  14. Android图表库MPAndroidChart(二)——线形图的方方面面,看完你会回来感谢我的
  15. ffmpeg截取指定视频中的一段视频
  16. 随机过程 Brown 运动(下)
  17. Linux常用系统工作命令、管理输入输出以及vim、管道的相关用法
  18. jquery替代品_UmbrellaJS是jQuery的替代品
  19. Android开发基础——Kotlin:高阶函数
  20. 使用R语言进行股票价格预测

热门文章

  1. 直播观看指南|SOFA 五周年,Live Long and Prosper!
  2. 简明 Vim 练级攻略(转自酷壳)
  3. apt-get 离线包安装
  4. SpringBoot+百度云API 实现人脸识别功能
  5. 电磁兼容——电子系统的EMC要求
  6. Halide示例学习五
  7. Scala中过滤操作filter与filterNot函数
  8. 2022-08-26 JQuery(二)
  9. java io bio nio aio 详解
  10. JAVA IO : BIO NIO AIO