typora-root-url: images

SaliencyReviews

显著性检测论文综述阅读笔记

Author: wbzhang 2020/3/19

E-mail: wbzhang233@163.com

1.Salient Object Detection in the Deep Learning Era: An In-Depth Survey

刊于2019.10 单张图片的显著性，DL

作者：王文冠

摘要：本综述主要致力于回顾基于深度学习的显著性检测方法，并且从不同的网络结构、监督信号层面、学习范式层面和目标/实例检测层面进行了综述。最后，总结了已有的SOD方法的评估数据集和评价指标。

并且基于先前的方法，特意编译通过了一个SOD benchmark评价方法。我们进一步分析了深度SOD模型的鲁棒性和迁移性。

最后讨论了一些SOD方面的挑战与问题。

1.引言

略，注释在论文上。

2.DL_SOD

2.1 SOD中具有代表性的网络架构

先有MLP，后有FCN。

MLP的方法通常采用超像素或者图像区块，并且手工设计特征来进行降维，并喂给MLP或者CNN进行预测。

因为MLP-SOD通过不能够很好的提取紧要的空间信息并且对每个子单元进行处理很耗时间，基于FCN的方法流行起来。

1）Single-stream 单流程架构

大多都使用编码-解码流来预测粗略的显著图，然后进行精细化，或在超像素层面上。

2)mulit-stream 多流程架构

通常在不同尺度上学习显著性特征，从不同流输出的特征进行结合产生最终的显著图预测结果。

3)side-out fusion 旁侧融合架构

利用CNN层次结构的固有多尺度表示，通常由GT进行监督。

4)bottom-up/top-down 自下而上/自上而下架构

通过逐步结合底层空间信息最丰富的的特征来精细化初步的显著性估计，并且在最顶层生成最终的显著图。

DHSNet ：通过使用RNN层来逐步结合浅层特征并对粗略的显著图进行精细化，所有的中间图均由GT进行全监督。
SBF：借鉴了DHSNet的网络体系结构，但是在几种无监督的启发式SOD方法提供的弱GT上进行训练。
BDMP：使用具有多种感受野的卷积层细化特征，并且使用门控双向通路实现层间交换。
RLN：使用一个inception形模块来纯化低层特征，在自上而下通路进一步通过循环机制来细化结合的特征。显著图通过边界细化网络来增加。
PAGR：通过合并多路径循环连接将高层语义信息传递到低层，从而增强了特征提取通路的学习能力。自上而下的通路嵌入了若干个通道空间注意模块用于细化特征。
ASNet：在前馈过程中学习一个粗略的显著图，然后利用一堆卷积LSTM层通过合并来自较浅层的多层特征来迭代地推断像素方向的显著对象分割。
PiCANet：
RAS：

5)branch network 分支结构

这个大概是结合了其他任务的显著性检测，知识量过于庞杂，暂且跳过。

6)hybrid network-based 混合网络结构

类似MLP与FCN相结合，不同类型的架构进行混组。

2.2 监督层面

主要分为像素层面的全监督，或者无监督/弱监督方法

非监督/弱监督里又包含类别层面监督和伪像素层面监督。

类别监督：采用图像层面标记的层级深度特征可以定位包含物体的区域，可以用于标记场景中的显著目标。

伪像素层面监督：虽然内容丰富，图像层面的标记对于实现精确的像素级的显著性分割还是过于稀疏。有些学者提出利用传统的非监督SOD方法，或者轮廓信息去自动生成带噪声的显著图，随后将其精细化（提纯）并且提供像素级别的监督信号，用来训练深度SOD模型。

2.3 学习范式

这方面咱也不是砖家，先跳过吧。

2.4 目标/实例层面的SOD

简而言之，通常不加额外说明的显著性只分别那个像素属于显著目标，但并不区分单个像素属于哪一个具体的目标，而实例层面则需要区分每个像素所述的目标。

3.SOD数据集

早期：仅仅标注了显著目标的boundingbox，被认为是不充分不可靠的评估。

中期并且主流：像素级的大尺度数据集，常用的GT二值图。

SOD–300张图片

包含了来自于Berkeley分割数据集的300张图片，许多图片可能具有超过一个显著性目标，这些显著性目标可能相对背景有较低的颜色对比度或者触及边界。

MSRA10K (THUS10K)–10k张图片

又称之为TUHS10K，包含来自于MSRA的10k张图片并且覆盖了ASD数据集中的1000张图片。这些图片具有一致的边界框标注，并且进一步进行了像素级别的注解。因为其具有较大尺寸和精准的标注，被广泛应用于训练深度SOD模型。

ECSSD–1k张

由1000张语义丰富的但是结构复杂的自然场景图片组成，GT由5位参与者给与标注。

DUT-OMRON–5168张

包含5168张内容丰富并且背景相对复杂的图片，每张图片均具有像素级的GT标注。

PASCAL-S–850张

包含了从PASCAL VOC2010中选出的850张具有挑战性的图片，另外对于注视预测，提供了粗糙的像素级和非二值显著目标标注。

HKU-IS–4447张

包含了4447张复杂场景图片，并且典型的包含了多个不连通的目标，具有相对多样化的空间分布，也就是说，至少有一个显著目标触及边界。

DUTS-(10553训练，5019测试)

最大的SOD数据集，包含10553张训练图片和5019张测试图片，训练集图片选自ImageNet DET 训练验证集，测试集选择ImgaeNet test数据集和SUN数据集。2017年之后，许多深度SOD模型在DUTS数据集上进行训练。

最近：每张图片具有高杂乱背景，并且有多个显著目标。有的还提供实例显著性级别的评估。

此外，还包括其他特殊的SOD数据集。

4.评价指标

PR曲线
P = T P / ( T P + F P ) P=TP/(TP+FP) P=TP/(TP+FP)

R = T P / ( T P + F N ) R=TP/(TP+FN) R=TP/(TP+FN)
F值
F β = ( 1 + β 2 ) ∗ P ∗ R / ( β 2 ∗ P + R ) ; β = 0.3 F_β=(1+β^2)*P*R/(β^2*P+R);β=0.3 Fβ=(1+β2)∗P∗R/(β2∗P+R);β=0.3
MAE（均方误差）

加权F_β值，扩展了F值，并且赋予TP、TN、FP、FN根据不同位置考虑周边信息来分配不同的权重给不同的错误，即导致P和R受加权改变。
F β F_β Fβ
S-Measure：与上述仅解决像素错误的指标不同，它评估了实值显著图和二进制真值GT之间的结构相似性。S值考虑了两项，
S o ：目标感知； S r ：区域感知；则总的 S = α × S o + ( 1 − α ) × S r S_o：目标感知；S_r：区域感知；则总的 S=α×S_o+(1-α)×S_r So：目标感知；Sr：区域感知；则总的S=α×So+(1−α)×Sr
分别表示目标感知和区域感知的结构相似度（Structure similarities，SSIM）
E-Measure:考虑了图像的全局均值与局部相似同时匹配。公式如下：
SOR（salient object ranking）

被设计用于显著目标替代，它是根据同一图像中多个显著物体的GT登等级排序(rank order)和预测等级顺序rgS之间的归一化Spearman等级顺序相关性来计算的。

5.BENCHMARKING与分析

6.讨论

7.结论

本文提出了基于DL的SOD的第一篇全面的综述。

…一堆废话…

我们以基准测试和基准测试的新方法调查了一些先前未充分研究的问题。我们通过编译和注释新数据集并测试几种代表性的SOD算法来执行基于属性的性能分析。

我们最终研究了深度学习时代SOD的一些开放性问题和挑战，并对未来可能的研究方向进行了深刻的讨论。

SaliencyReview：显著性检测综述阅读笔记相关推荐

2019 sample-free（样本不平衡）目标检测论文阅读笔记
点击我爱计算机视觉标星,更快获取CVML新技术本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...
深度学习超分辨率综述阅读笔记（翻译）
深度学习超分辨率综述阅读笔记(翻译) https://arxiv.org/abs/1902.06068 摘要:图像超分辨率(SR)是计算机视觉中增强图像和视频分辨率的一类重要图像处理技术.近几年来,图 ...
《A Survey on Deep Learning Technique for Video Segmentation》视频分割综述阅读笔记(翻译)
<A Survey on Deep Learning Technique for Video Segmentation>视频分割综述阅读笔记(背景部分翻译) 作者:Wenguan Wang ...
基于深度学习的性格探测综述阅读笔记
Recent trends in deep learning based personality detection 目录 Recent trends in deep learning based p ...
毫米波目标检测论文阅读笔记 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar
毫米波目标检测论文 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar Jie Ba ...
显著性检测数据集—学习笔记
文章目录 DUT-OMRON DUTS HKU-IS ECSSD/CSSD SOD PASCAL-S 参考资料 DUT-OMRON 数据集包含5168张图像,最大边长为400像素,数据集中具有一个或多 ...
SLAM综述阅读笔记六：基于图像语义的SLAM调研：移动机器人自主导航面向应用的解决方案 2020
转自[[论文阅读]A survey of image semantics-based visual simultaneous localization and mapping 语义视觉SLAM综述 - ...
SLAM综述阅读笔记二：Simultaneous Localization and Mapping: A Survey of Current Trends in Autonomous（2017）
转自[第八篇 SLAM:自动驾驶当前趋势综述 - 知乎] 说明该总结主要是针对自动驾驶 <Simultaneous Localization And Mapping: A Survey of C ...
早期的行人再识别与深度行人再识别研究——行人再识别技术综述阅读笔记
这是对李幼蛟的一篇行人再识别综述做的学习笔记.新人第一次写博客,很多地方写的不够完善,还请大佬们多多指正! 行人再识别:判断不同摄像头下出现的行人是否属于同一行人[1]. 1.早期的行人再识别早期的 ...

SaliencyReview：显著性检测综述阅读笔记