作者丨Lart

编辑丨极市平台

导读

本文在显著性目标检测任务(SOD)中,首次引入自监督预训练。凭借提出的有效的前置任务(pretext task),在仅使用少量无标签的RGB-D数据进行预训练的情况下,该模型仍能够具有竞争力的表现。

大连理工 IIAU Lab 提出 SSLSOD:自监督预训练的 RGB-D 显著性目标检测模型。该文在显著性目标检测任务(SOD)中,首次引入自监督预训练。凭借提出的有效的前置任务(pretext task),在仅使用少量无标签的RGB-D数据进行预训练的情况下,该模型仍能够具有竞争力的表现。

论文链接:https://arxiv.org/pdf/2101.12482.pdf

工作动机

现有的全监督SOD方法几乎都是采用基于ImageNet预训练的Backbone作为编码器,与解码器(随机初始化)同时进行微调来完成SOD这一下游任务(downstream task)。然而,ImageNet数据量庞大且需要人工标注,对ImageNet的过度依赖会产生许多负面影响。最近几年,自监督学习发展火热,潜力巨大。

对于 RGB-D SOD 任务本身,从特征融合角度,主要涉及跨模态融合以及跨层级融合。然而,现有的 RGB-D SOD 方法主要关注于跨模态融合,并为之设计了各式各样甚至繁琐的结构,却忽略了跨层级融合的设计。从网络结构角度,Saliency map的生成最终是由解码器完成的,倘若跨层级融合不充分,那么即使跨模态融合相当完美,最终的性能也将会大打折扣。RGB与Depth,High-level 与 Low-level 的融合,其根本属性都是一对具有互补属性关系的特征。因此,从互补属性出发,设计一个简单&有效&通用的融合模块是十分有必要的。

解决方案

为了制定合理的自监督预训练任务,我们需要详细分析为何采用 ImageNet 预训练可以在 SOD 获得不错的效果。首先,借助分类任务,经过 ImageNet 预训练的网络其通过类激活图(CAM)可以观察到,对于显著性目标往往有着较高的注意力。在现实生活中,显著性目标在深度位置上,相比于背景也往往有着较明显的对比(Depth)。

为此,利用 Depth Estimation 这一任务,能够帮助编码器提升显著性目标的定位能力。然后,我们列举了一个典型的基于 ImageNet 预训练的 RGB-D 抽象结构图。RGB 与 Depth 同时加载相同的 Classification 的预训练权重,解码器联合两个模态特征完成 SOD 这一相同任务。

类比以上过程,我们首先提出了第一个Pretext task:跨模态自编码器(Cross-modal Auto-encoder)。两模态间的相互预测,能够缩减其之间的 GAP(主要是指 RGB 模态反映了一个场景的外观,而深度模态体现了不同位置的相对空间距离。显著目标可能外观光滑,但深度不同,反之亦然。为了完整地分割目标,我们必须对齐多模态特征,即缩小两种模态之间的差距。跨模态自编码器可以促进 RGB 和深度编码器相互深度感知,使得每个编码器的特征流具有多模态属性,从而实现对齐)。设计 Depth 预测 RGB 的另一个好处是可以挖掘Depth编码器的潜能(越困难的任务往往越有利于上下文信息的挖掘 [Scaling and benchmarking self-supervised visual representation learning, CVPR 2019]。)

接着,我们按照图中类比设计了第二个Pretext task:深度轮廓估计(Depth-contour Estimation)。 该任务的设计来源于三方面:(1)确定的预测任务为模态间的融合提供了条件。(2)Contour 是下游任务的预测图中的一个基本属性,倘若能够有着精准的 Contour Estimation,会极大的缓解下游任务的压力,即仅需完成 Contour 内外的前景/背景分类。(3)Depth-Contour 相比于 RGB-Contour 的背景干扰更少且关于显著性的信息更多。

两阶段自监督流程图

我们提出了一个称为一致性-差异聚合(CDA)的通用模块,以实现跨模态和跨层级的融合。具体来说,对于具有互补关系的两类特征,我们计算它们的联合一致(JC)特征和联合差异(JD)特征。JC更加关注它们的一致性,抑制非显著信息的干扰,而 JD 描绘了它们在显著区域的差异,鼓励跨模态或跨层级对齐。

网络框架

本文的自监督预训练和下游任务均采用的同一个网络框架。因此,能够在预训练结束后,可以无缝地加载预训练权重,更容易训练。

实验结果

Ours-SSL 虽然没有超过 Ours-ImageNet,但是却可以超越一些其他 ImageNet-based 的方法。

定性比较图

展现了CDA模块的有效性

展现了自监督前置任务的有效性

展现了预训练数据规模的影响

我们设计的第一个前置任务的权重,可以直接作为其他 RGB-D SOD 的编码器初始化,可以看到相比于随机初始化,具有明显的优势。

我们给出一些本文的潜在/未来工作:

(1)对解码器进行自监督预训练。以往的方法忽视了对解码器预训练,仅是简单的使用随机初始化解码器权重(潜在工作)。

(2)半自监督。半监督与自监督交织在一起(未来工作)。

(3)虽然,本文设计的自监督模型与 ImageNet-based 模型之间的性能仍有差距,但是当前仅使用了少于 0.5% ImageNet 规模的数据量,增大预训练规模,潜力巨大(未来工作)。

总结

  • 本文是第一个引入自监督预训练到SOD任务中的工作。

  • 本文是第一个旨在统一跨模态与跨层级融合的RGB-D SOD工作。

代码后续开源(预计AAAI 2022线上开会结束后),请关注:https://github.com/Xiaoqi-Zhao-DLUT/SSLSOD

更多相关工作,请关注作者个人主页:https://xiaoqi-zhao-dlut.github.io

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

大连理工IIAU Lab提出SSLSOD:自监督预训练的RGB-D显著性目标检测模型(AAAI 22)相关推荐

  1. UP-DETR:收敛更快!精度更高!华南理工微信开源无监督预训练目标检测模型...

    关注公众号,发现CV技术之美 0 写在前面 基于Transformer编码器-解码器结构的DETR达到了与Faster R-CNN类似的性能.受预训练Transformer在自然语言处理方面取得巨大成 ...

  2. 干货!半监督预训练对话模型 SPACE

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 如何将人类先验知识低成本地融入到预训练模型中一直是个NLP的难题.在本工作中,达摩院对话智能团队提出了一种基于半监督预训练的新训练范式, ...

  3. SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

    ©作者 | 社媒派SMP 来源 | 社媒派SMP 中国科学院深圳先进技术研究院自然语言处理团队(SIAT-NLP)联合阿里巴巴达摩院云小蜜智能对话团队提出了一篇针对于任务型对话预训练的工作SPACE, ...

  4. CVPR 2021 Oral | Transformer再发力!华南理工和微信提出UP-DETR:无监督预训练检测器...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文作者:飞奔的啦啦啦   |  来源:知乎 https://zhuanlan.zhihu.com/p/31 ...

  5. NeurIPS 2022|南大腾讯提出VideoMAE:视频自监督预训练新范式

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 作者丨童湛   腾讯AI Lab 研究员 来源丨https://z ...

  6. CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架...

    ©作者 | 机器之心编辑部 来源 | 机器之心 来自上海交通大学.Mila 魁北克人工智能研究所以及字节跳动的研究者提出了一种具有层级语义结构的自监督表征学习框架,在 ImageNet 数据集上预训练 ...

  7. CVPR 2021 华南理工和微信的Transformer:UP-DETR无监督预训练检测器

    点击上方"机器学习与生成对抗网络",关注星标 获取有趣.好玩的前沿干货! 作者:飞奔的啦啦啦   知乎 https://www.zhihu.com/question/4323211 ...

  8. CVPR 2022 | CNN自监督预训练新SOTA!上交等联合提出HCSC:具有层级结构的图像表征自学习新框架...

    来源丨机器之心 编辑丨极市平台 层级结构无处不在,自然界中存在「界 - 门 - 纲 - 类 - 科 - 属 - 种」这样的层级关系, 大规模自然图像数据集中也天然存在.例如,ImageNet 数据集的 ...

  9. 超越ImageNet预训练,Meta AI提出SplitMask,小数据集也能自监督预训练

    ©作者 | 陈萍 来源 | 机器之心 大规模数据集对自监督预训练是必要的吗?Meta AI 认为,小数据集也能自监督预训练,效果还不错. 目前,计算机视觉神经网络被大量参数化:它们通常有数千万或数亿个 ...

最新文章

  1. Sayjoy┊多媒体在线编辑创作工具
  2. 购华为第1书,写书评赢大奖
  3. Android NDK JNI开发3
  4. Entity Framework part2
  5. 在终端显示文本的中间部分
  6. 在Ubuntu上安装misterhouse
  7. pandas读取excel带汉字的列头_Pandas在读取csv时如何设置列名--常用方法集锦
  8. LMS Virtual Lab 流固模态分析
  9. ARMedia问题记录
  10. this调用语句必须是构造函数中的第一个可执行语句_详解-JavaScript 的 this 指向和绑定...
  11. vs2008安装包及安装教程
  12. 如何利用 Flutter 实现炫酷的 3D 卡片和帅气的 360° 展示效果
  13. Tomcat原理详解
  14. 项目管理表格模板/实用表格-项目启动
  15. 微信小程序:使用阿里icon图标
  16. cad批量 谷歌翻译lisp_LISP批量打开CAD图操作
  17. Redis闲谈:你一定需要的知识图谱
  18. 新浪微博开放平台接入
  19. Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition论文阅读翻译
  20. 二、MySQL 介绍及 MySQL 安装与配置

热门文章

  1. win10应用开发——如何判断应用是在手机上运行还是电脑上运行
  2. java自学入门心得体会 0.1
  3. 通过JS控制各种元素的点击事件的【时间间隔】,特别适合【发表评论】功能...
  4. eclipse 关联 Maven本地仓库的配置
  5. 灰鸽子敢说自己不是病毒?
  6. MySQL基础篇:数据操作语言DML
  7. 高性能缓存 Caffeine 原理及实战
  8. 老牛吃嫩草塞到牙?某程序员追到00后女朋友,却吐槽她整天买盲盒,已经买一屋子了!...
  9. 某程序员统计同事工作时间上厕所次数!有人一天去两次,有人一天去十次!楼主:懒人屎尿多!网友:最闲的是你!...
  10. 生猛!PDF 版本 万赞 Java 手册开放下载!