Uncertainty-aware Joint Salient Object and Camouflaged Object Detection阅读笔记
CVPR2021
Aixuan Li,Jing Zhang,Yunqiu Lv,Bowen Liu,Tong Zhang,Yuchao Dai
https://arxiv.org/abs/2104.02628
一、简介
显著物体检测旨在发现吸引人类注意力的显著物体,而伪装物体检测则旨在发现隐藏在周围的伪装物体。
本文提出了一种利用矛盾信息来增强显著目标检测和伪装目标检测能力的方法。
提出了一种数据扩充策略,将伪装数据集中的简单样本作为显著性检测的困难样本,实现了一个鲁棒的显著性模型。
设计了相似性度量模块来显式地建模两个任务的“矛盾”属性。
在对抗式学习框架下引入第一个联合显著目标检测和伪装目标检测网络,明确建模每个任务的预测不确定性。
二、数据扩充
如图1所示,显著突出的物体和伪装的物体是矛盾的属性。但是也存在既突出又矛盾的对象,如图中的北极熊。
数据扩充可以为SOD框架带来性能上的增益,例如图像翻转、旋转、裁剪等,但是这些并不是专门为SOD任务设计的。SOD作为一项基于上下文的任务,更有效的数据扩充应该是上下文感知的。为此,我们利用COD数据集中的简单正样本作为SOD任务中的困难正样本,以提高SOD模型的鲁棒性。
从COD数据集中选择样本,用训练好的SOD模型计算其MAE,要求MAE最小。
我们选择400张最小MAE的COD数据集图像随机替代SOD数据集中的图像。
三、Contradicting modeling
使用相似测量模块来连接SOD和COD任务。相似性度量模块的基本假设是,用于两个任务的相同图像的激活区域应该不同,导致潜在特征是彼此分离的。
为此,将PASCAL VOC 2007数据集作为连接建模数据集Dp,这些额外图像实现相似性度量,并迫使这两个任务关注图像的不同区域。
。Dc是COD数据集,Ds是数据扩充后的SOD数据集。
对抗建模框架使用“特征编码模块”来提取伪装特征和显著特征,然后使用相似测量模块将两个任务与建模数据集连接起来。
3.1 Feature Encoder
使用两个相同backbone结构的显著性编码器Eαs和伪装编码器Eαc。α表示参数。
使用ResNet50作为backbone,通道为[256, 512, 1024, 2048]。其输出特征用F={f1,f2,f3,f4}表示。
3.2 Similarity measure
将Fs和Fc中的四个特征两两拼接送到同一个全连接层中,得到显著性潜在特征和伪装潜在特征。维度为700。
我们假定SOD和COD应该关注不同的区域,从而导致不同的特征表示。
我们选择余弦相似性来测量,潜在空间下,显著性特征和伪装特征的不同。
Figure4展示了来自显著性编码器(第一行)和伪装编码器(第二行)的同一图像的激活区域(经处理的预测)。具体来说,给定相同的图像Xp,我们计算它的伪装图和显著图,并用红色突出显示检测到的前景区域。图4显示,两个编码器聚焦于图像的不同区域,其中显著性编码器更关注从上下文中突出的区域,伪装编码器更关注与背景颜色或结构相似的隐藏对象,这与我们假设这两个任务在总体上相互矛盾是一致的。
四、Uncertainty-aware adversarial learning
如Figure5,对于SOD数据集,不确定性来源于显著性的模糊性。例如a和b,红色框的球是突出的,但是他在背景中。
对于COD数据集,不确定性来源于标注的困难性。例如c和d,橙色区域是伪装对象,但是他与背景过于相似,很难创建准确的注释。
为此,我们引入了一种不确定性感知的对抗性训练策略,在我们的联合学习框架中对特定任务的不确定性进行建模,该框架包括一个“预测解码器”模块来产生与任务相关的预测,一个“置信度估计”模块来估计每个预测的不确定性,以及一个用于鲁棒模型训练的对抗性学习策略。
4.1 Prediction decoder
我们设计了一个共享解码器结构。我们认为,不同的“特征编码器”模块可以为SOD图像和COD图像生成特定任务的特征。然后,“预测解码器”模块旨在将任务特定特征与它们相应的较低级别特征相结合以产生预测。
Re是residual channel attention module,它有利于提取更好的特征。
Da是dual attention module,它能够有效地将较高层语义信息与较低层结构信息融合。
conv是3×3的卷积,输出通道数是32。[]是拼接操作。
Ccla是3×3的卷积,它为每个任务将特征映射到一个通道预测。
R3和R4是ResNet50的第三阶段和第四阶段。
公式(5)和(6)就是最终的预测解码器结构。
4.2 Confidence Estimation
引入置信度估计模块来对网络预测的置信度建模。
设计了一个完全卷积鉴别器网络D,结构如Table1。
该网络旨在产生与ground truth相同的输出。
4.3 Adversarial Learning
structure-aware loss:
为学习特定任务设计的。
w是边缘感知权重。Lce是交叉熵损失。Liou是边界IOU损失。
adversarial loss:
对抗学习,鉴别器以模型预测为输入,试图将其识别为ground truth。
1是都是1的矩阵。
对于置信度估计模块,我们希望它能清晰地区分模型预测和ground truth。
4.4 Objective Function
给定输入连接建模数据集Dp,COD数据集Dc,数据扩充后的SOD数据集Ds。先使用3.2中的公式(1)学习特征编码器和相似性测量模块。
然后我们训练显著性生成器分支(显著性编码器和预测解码器)的对抗性学习。损失函数如公式(15)。λ1=0.01。
类似地,我们为伪装生成器分支(伪装编码器和预测解码器)训练具有损失函数的对抗学习。损失函数如公式(16)。λ2=0.01。
然后我们用公式(16)训练置信度估计模块。
五、实验
对于显著目标检测,我们使用增强的DUTS训练数据集训练我们的模型;对于伪装物体检测,我们使用COD10K训练集训练我们的模型。
编码器使用在ImageNet数据集上训练的ResNet50模型。图片大小为352×352,最大迭代次数为36000。迭代更新三次显著性分支和一次伪装分支。初始学习率为2.5e-5,我们采用“步长”学习率衰减策略,将衰减步长设置为24000次迭代,衰减率为0.1。
5.1 SOD实验
表2显示,除了在SOC测试数据集上,我们实现了5/6的最佳性能。主要原因是在足球比赛中存在纹理图像,这些图像可能被当作伪装的物体,从而影响我们的表现。
在图6中显示了我们和SOTA模型的预测,其中“不确定性”是基于来自鉴别器的预测获得的。具体来说,我们将鉴别器输出的梯度大小定义为不确定性。图6显示了我们产生了准确的预测和合理的不确定性估计,其中不确定性图的较亮区域表示较不确定的区域。
5.2 COD实验
生成的不确定性图清楚地表示了模型对当前预测的信心,从而导致了可解释的预测。
Uncertainty-aware Joint Salient Object and Camouflaged Object Detection阅读笔记相关推荐
- 论文阅读:Uncertainty-aware Joint Salient Object and Camouflaged Object Detection
论文地址:https://arxiv.org/abs/2104.02628 代码地址:https://github.com/JingZhang617/Joint_COD_SOD 发表于:CVPR 20 ...
- 《Uncertainty-aware Joint Salient Object and Camouflaged Object Detection》—CVPR2021—SOD+COD
文章:https://arxiv.org/abs/2104.02628 代码:https://github.com/JingZhang617/Joint_COD_SOD 摘要: 本文做的是显著性目标检 ...
- Mutual Graph Learning for Camouflaged Object Detection阅读笔记
CVPR 2021 Qiang Zhai, Xin Li, Fan Yang, Chenglizhao Chen, Hong Cheng, Deng-Ping Fan https://arxiv.or ...
- Bilateral attention network for RGB-D salient object detection阅读笔记
IEEE 2021 Zhao Zhang; Zheng Lin; Jun Xu; Wen-Da Jin; Shao-Ping Lu; Deng-Ping Fan 论文地址 一.简介 提出了双边注意模块 ...
- Camouflaged Object Detection阅读笔记
CVPR 2020 Deng-Ping Fan, Ge-Peng Ji, Guolei Sun, Ming-Ming Cheng, Jianbing Shen, Ling Shao https://o ...
- D2C-Net: A Dual-branch, Dual-guidance and Cross-refine Network for Camouflaged Object Detection阅读笔记
IEEE Transactions on Industrial Electronics 2021 Kang Wang; Hongbo Bi; Yi Zhang; Cong Zhang; Ziqi Li ...
- Depth-Guided Camouflaged Object Detection阅读笔记
arXiv 2021 Jing Zhang, Yunqiu Lv, Mochu Xiang, Aixuan Li, Yuchao Dai, Yiran Zhong 论文地址 一.简介 探索深度信息对伪 ...
- STD: Sparse-to-Dense 3D Object Detector for Point Cloud 阅读笔记
Yang Z, Sun Y, Liu S, et al. Std: Sparse-to-dense 3d object detector for point cloud[C]//Proceedings ...
- Occlusion Aware Facial Expression RecognitionUsing CNN With Attention Mechanism阅读笔记
论文链接:https://ieeexplore.ieee.org/document/8576656 代码链接:https://github.com/mysee1989/PG-CNN 主要目的 通过注意 ...
最新文章
- 如何轻松阅读 GitHub 上的项目源码?
- IntelliJ idea 缓存和索引 清理方法
- 【HeadFirst设计模式】8.模板方法模式
- a*算法流程图_学好流程控制结构轻松应对高考数学程序算法题
- Keras梯度累积优化器:用时间换取效果
- 声明式事务基于注解@Transactional的理解
- c语言统计数据,数据统计
- 试验ConcurrentHashmap
- 关于mysql的一些问题
- Tomcat中的Out Of Memory错误
- android让图片旋转
- .bat以管理员身份运行
- 存储虚拟化技术之解读
- 南阳理工ACM 题目252 01串
- Tomcat8下载及安装配置教程(官网)
- I2S 总线学习:I2S驱动WM8978
- Libre 6008 「网络流 24 题」餐巾计划 (网络流,最小费用最大流)
- [0CTF 2016]piapiapia BUUCTF 详细writeup
- matlab建立模糊规则表,请教matlab怎样建立模糊控制查询表?
- python正负数排序_带有负值的Python sort()问题
热门文章
- android unicode字符串转广播2312,系统字符集不同UTF-8,GB2312转换
- 机器视觉(第3期)----图像采集之镜头原理详述
- MTK QT Linux flashtool试用总结
- filter / map 基础学习
- flv/f4v/m4v
- loadrunner java脚本_用loadrunner11写java脚本小例子(java Vuser)
- 西邮GCTF2022-个人WriteUp
- Linux操作系统学习笔记(二十八)深入理解CPU
- sql 把某一列拼接_关于Sql写法的一些规范
- uniaccess安全助手卸载_手把手教你卸载电脑的流氓软件(每天一个小知识)