Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection

  • 1 简介
    • 1.1 github:
    • 1.2 动机和贡献
  • 2 提出的模型
    • 2.1 Feature-enhanced module(FEM)
      • 2.1.1 Contrast-enhancedNet(CEN)
      • 2.1.2 Cross-modal Fusion
    • Fluid Pyramid Integration(FPI)
  • 消融试验
  • 总结

1 简介

这是一篇程明明团队在2019年cvpr上发表的RGB-D显著性检测文章。超越了此前的9个SOTA方法。

1.1 github:

https://github.com/JXingZhao/ContrastPrior

1.2 动机和贡献

文章认为RGBD显著性检测面临两大挑战:1.缺乏高质量的深度图。并且深度图的噪声更大,且没有纹理。也没有像ImageNet这样的大规模深度图数据集,缺乏训练良好的BACKBONE
2.多尺度交叉模型融合是次优的。depth和RGB有非常不同的属性,例如绿色和草有很大的相关性,但是深度图没有。因此做出一个有效的多尺度融合模型是困难的。

贡献:
1.设计了一种对比度损失来应用于对比度先验,该先验已被广泛用于基于非深度学习的方法中,用于增强深度图。 基于RGBD的SOD模型成功利用了传统对比技术和深层CNN功能的优势。
2.提出了一种流体金字塔集成策略,以更好地利用多尺度交叉模式特征,其有效性已通过实验验证。

2 提出的模型

框架的整体模型如下图:

Feature-enhanced module(FEM)和fluid pyramid integration 被应用在VGG-16中。

2.1 Feature-enhanced module(FEM)

为了调制深度信息,文章提出了一种新颖的FEM模型。FEM由一个ContrastEnhanceNet 和一个 Cross-Modal Fusion strategy 组成。FEM独立于RGB主干网络,FEM模块穿插在每一个卷积块的输出后面去获得增强特征。

2.1.1 Contrast-enhancedNet(CEN)

首先,增强的图应与前景和背景对象的原始深度图保持一致。因此,对于生成的增强图,前景对象分布损失 lf 和背景分布损失 lb 可以表示为Eqn.1:lf=−log⁡(1−4∗∑(i,j)∈F(pi,j−p^f)2Nf)lb=−log⁡(1−4∗∑(i,j)∈B(pi,j−p^b)2Nb)\begin{array}{l}{l_{f}=-\log \left(1-4 * \sum_{(i, j) \in F} \frac{\left(p_{i, j}-\hat{p}_{f}\right)^{2}}{N_{f}}\right)} \\ {l_{b}=-\log \left(1-4 * \sum_{(i, j) \in B} \frac{\left(p_{i, j}-\hat{p}_{b}\right)^{2}}{N_{b}}\right)}\end{array} lf​=−log(1−4∗∑(i,j)∈F​Nf​(pi,j​−p^​f​)2​)lb​=−log(1−4∗∑(i,j)∈B​Nb​(pi,j​−p^​b​)2​)​
FB 是真值图的显着目标区域和背景。 NfNb 分别表示显着物体和背景中的像素数。类似地, p^f\hat{p}_{f}p^​f​ 和p^b\hat{p}_{b}p^​b​分别表示增强图的前景和背景中的值的平均值Eqn.2:p^f=∑(i,j)∈Fpi,jNf,p^b=∑(i,j)∈Bpi,jNb\hat{p}_{f}=\sum_{(i, j) \in F} \frac{p_{i, j}}{N_{f}}, \hat{p}_{b}=\sum_{(i, j) \in B} \frac{p_{i, j}}{N_{b}} p^​f​=(i,j)∈F∑​Nf​pi,j​​,p^​b​=(i,j)∈B∑​Nb​pi,j​​
Eqn.1 对显著目标和背景的方差进行建模以提升和原depth图的一致性。一个sigmoid层用来把CEN的输出压缩到[0,1]。因此,内部的最大方差为0.25,所以在Eqn.1中将方差 × 4 是为了确保 log 函数的范围在0~1之间。

接着, 应增强前景物体与背景物体之间的对比。 因此,我们将整个深度图像分布损失 lw 定义为Eqn.3
lw=−log⁡(p^f−p^b)2l_{w}=-\log \left(\hat{p}_{f}-\hat{p}_{b}\right)^{2} lw​=−log(p^​f​−p^​b​)2
通过对均差进行建模,可以确保前景目标和背景的对比度尽可能大。p^f\hat{p}_{f}p^​f​和p^b\hat{p}_{b}p^​b​在0到1之间,因此log函数中的参数值范围从0到1。

最后,对比度损失lc可以表示为 Eqn.4 :lc=α1lf+α2lb+α3lwl_{c}=\alpha_{1} l_{f}+\alpha_{2} l_{b}+\alpha_{3} l_{w} lc​=α1​lf​+α2​lb​+α3​lw​其中,α1α2α3是预定义参数,文章说建议分别定位5,5,1。
增强后的图片,相比于原来的深度图对比度更高,前、后景分布更为均匀。

2.1.2 Cross-modal Fusion

Cross-modal Fusion 是增强模块的一个子模块,用于通过增强的depth图来调制RGB特征。单通道增强图的作用类似于注意图,具体来说,我们将每个块的RGB特征图乘以增强的深度图,以增强显着区域和非显着区域之间的特征对比度。用残差链接来保留原始RGB的特征。 这些特征图为增强特征F~\tilde{F}F~,其计算公式为 Eqn.5:F~=F+F⊗DE\tilde{F}=F+F \otimes D_{E} F~=F+F⊗DE​
其中,FFF 是原始RGB特征,DED_{E}DE​是增强后的深度图 ⊗\otimes⊗ 表示逐像素相乘。通过将增强功能的模块插入每个块的末端,分别获得五个不同尺度的增强功能,分别为F1~\tilde{F_1}F1​~​~F5~\tilde{F_5}F5​~​

Fluid Pyramid Integration(FPI)

feature compatibility(特征兼容)是处理跨模式信息的关键,而Fluid Pyramid Integration(FPI) 可以很好的确保这一点。
具体来说,金字塔有5层。第一层由5个节点组成,并且每个节点都是一系列不同尺度的增强特征。然后,通过把F2~\tilde{F_2}F2​~​~F5~\tilde{F_5}F5​~​上采样到和F1~\tilde{F_1}F1​~​相同尺寸并且把这些上采样特征累加在一起,构造第二层的第一个节点。类似的,把 F3~\tilde{F_3}F3​~​~F5~\tilde{F_5}F5​~​上采样到和F2~\tilde{F_2}F2​~​ 一样的尺寸,并且把这些特征累加在一起,来构造第二层的第二个节点。
Fluid Pyramid Integration(FPI)在多尺度级别和跨模式级别都集成了信息。
总的loss LLL为,Eqn.6:
L=ls+∑i=15lciL=l_{s}+\sum_{i=1}^{5} l_{c_{i}} L=ls​+i=1∑5​lci​​
其中 lsl_s~ls​  是预测图和真值图之间的 cross-entropy loss 。 lcil_{c_{i}}lci​​是第iii个特征增强模块的对比度损失contrast loss,contrast loss 在之前已经写过,cross-entropy loss定义为Eqn.7
lf=Ylog⁡P+(1−Y)log⁡(1−P)l_{f}=Y \log P+(1-Y) \log (1-P) lf​=YlogP+(1−Y)log(1−P)
其中PPP和YYY分别代表预测图和真值图。

消融试验

不同的融合模型:

试验对比:

总结

这篇文章的关键在于FEM,通过不断的增强每一个VGG模块输出的特征,增强深度图的对比度,并且不断的叠加每一个level的特征,从而引导RGB图生成salient image。这个增强模块可以拿去用用试试。至于Fluid Pyramid Integration,是融合不同level的好的策略,对于既需要空间信息,又需要语义特征的情况应该很好用。

显著性检测学习笔记(3):CPFP_CVPR_2019相关推荐

  1. 显著性检测—学习笔记

    视觉显著性旨在模仿人类视觉系统选择视觉场景的某个子集的能力.而显著性物体检测(SOD)则侧重于检测场景中吸引最多注意力的物体,然后逐像素的提取物体的轮廓.SOD的优点在于它在许多计算机视觉任务中均有广 ...

  2. 显著性检测学习笔记(2):DMRA__2019_ICCV

    Depth-induced Multi-scale Recurrent Attention Network for Saliency Detection 简介 github: 动机和贡献 提出的模型 ...

  3. 《南溪的目标检测学习笔记》——模型预处理的学习笔记

    1 介绍 在目标检测任务中,模型预处理分为两个步骤: 图像预处理:基于图像处理算法 数值预处理:基于机器学习理论 关于图像预处理,请参考<南溪的目标检测学习笔记>--图像预处理的学习笔记 ...

  4. 《南溪的目标检测学习笔记》——COCO数据集的学习笔记

    1 COCO数据集 COCO数据集下载链接:COCO_download 1.1 数据概览 数据集大小 train: 118287张 train+val: 123287张 val: 5000张 目标数量 ...

  5. 《南溪的目标检测学习笔记》的笔记目录

    1 前言 这是<南溪的目标检测学习笔记>的目录~ 2 学习目标检测的思路--"总纲" <南溪的目标检测学习笔记>--目标检测的学习笔记 我在这篇文章中介绍了 ...

  6. 《南溪的目标检测学习笔记》——目标检测模型的设计笔记

    1 南溪学习的目标检测模型--DETR 南溪最赞赏的目标检测模型是DETR, 论文名称:End-to-End Object Detection with Transformers 1.2 decode ...

  7. 《南溪的目标检测学习笔记》——夏侯南溪的CNN调参笔记,加油

    1 致谢 感谢赵老师的教导! 感谢张老师的指导! 2 调参目标 在COCO数据集上获得mAP>=10.0的模型,现在PaddleDetection上的Anchor-Free模型[TTFNet]的 ...

  8. 9月6日关键点检测学习笔记——人脸和手部特征点检测

    文章目录 前言 一.干扰因素 1.主动因素 2.固有因素 二.特征点检测 1.PFLD 2.LLCV 三.人脸比对 1.人脸 1:1 2.人脸 1:n 3.人脸 1:N 4.人脸 M:N 四.高清分辨 ...

  9. [初窥目标检测]——《目标检测学习笔记(2):浅析Selective Search论文——“Selective Search for object recognition”》

    [初窥目标检测]--<目标检测学习笔记(2):浅析Selective Search论文--Selective Search for object recognition> 本文介绍 前文我 ...

最新文章

  1. GSG灰猩猩插件合集包
  2. Python的优点?
  3. 机器学习的优化目标、期望最大化(Expectation-Maximum, EM)算法、期望最大化(EM)和梯度下降对比
  4. 动态分辨率是什么意思_b站么么直播最新动态里都有啥 b站什么意思
  5. 2013\National _C_C++_A\2.骰子迷题
  6. 外设驱动库开发笔记10:SHT2x系列温湿度传感器驱动
  7. 【奇技淫巧】在安卓模拟器中安装busybox
  8. python怎么做项目_...内学习python和django,并做出一个项目需要怎么准备,可以做什么......
  9. 爬虫 requests模块的其他用法 抽屉网线程池回调爬取+保存实例,gihub登陆实例
  10. 容器技术Docker K8s 14 容器服务ACK基础与进阶-容器网络管理
  11. catia重心主惯量矩 m1_CATIA_Knowledge_Advisor_help
  12. oracle exadata中国保有量,Exadata
  13. 冰冻三尺非一日之寒-自学篇 浅谈个人学习方法
  14. POJ-1436Horizontally Visible Segments
  15. 2563: 阿狸和桃子的游戏
  16. mysql错误1273_mysql8 参考手册--错误代码1273-1294
  17. tp5微信公众号发送模板消息
  18. H5实现输入框添加语音功能的方法详解
  19. html中 title标签放在()位置,[单选] HTML中,title标签放在什么位置()
  20. 雷达回波脉冲压缩python代码

热门文章

  1. 我国制药装备市场规模不断扩大,技术水准和综合实力显著提升
  2. 人的本质是选择展示什么样的人性
  3. 单片机简谱音乐2(孤勇者)-连音与0调的音处理,一个音仅占一个字节(8bit)大小
  4. 位运算、二、八、十、十六进制介绍及相互转换
  5. latex 章节序号改为中文
  6. 乐优购物学习笔记(7)
  7. JTA+Atomikos解决分布式事务问题
  8. 2021-10-16周报
  9. 白话解析BS模型(三)
  10. 58同城职位分类数据 json