CVPR2021|深度感知镜面分割方法(RGBD数据)
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
作者丨paopaoslam
来源丨 泡泡机器人SLAM
编辑丨3D视觉工坊
标题:Depth-Aware Mirror Segmentation
作者:YHaiyang Mei ,Bo Dong , Wen Dong,Pieter Peers, Xin Yang, Qiang Zhang,Xiaopeng Wei
机构:Dalian University of Technology
来源:CVPR2021(Oral)
编译:Cristin
审核: zhh
摘要
大家好,今天为大家带来的文章是 Depth-Aware Mirror Segmentation
我们提出了一种新的镜像分割方法,该方法利用基于ToF的相机的深度估计作为额外线索,以消除具有特殊情况下的错误,其中镜像反射和周围场景之间的RGB颜色对比度或关系是微妙的。一个重要的观察结果是,ToF深度估计值不反应镜面的真实深度,而是返回反射光路径的总长度,从而在镜面边界处产生明显的深度不连续性。为了在镜像分割中利用深度信息,我们首先构建了一个RGB-D镜像分割数据集,然后利用该数据集来训练一个新的深度感知镜像分割框架。我们的镜像分割框架首先基于颜色和深度的不连续性和相关性来定位镜面。接下来,我们的模型通过考虑颜色和深度信息的上下文对比度进一步细化镜像边界。我们广泛验证了我们的深度感知镜像分割方法,并证明我们的模型优于最先进的基于RGB和RGB-D的镜像分割方法。实验结果还表明,深度是镜像分割的有力线索。
主要工作与贡献
1、第一种考虑RGB和深度的镜像分割方法;
2.一个新的RGB-D镜像分割数据集,便于在镜像分割中使用深度的研究;
3.一种新颖的深度感知镜像分割网络,利用RGB和深度不连续性以及镜面内外的相关性;
4.一种新的融合RGB和深度相关的动态加权方案。
算法流程
1. 数据集
我们的第一个贡献是引入了一个新的RGB-D镜像分割数据集,名为RGBD mirror,它包含3049个RGB图像和相应的深度贴图。我们不是自己捕获RGB-D图像,而是从四个流行数据集(即Matterport3D[2]、SUN-RGBD[45]、ScanNet[8]和2D3DS[1])的选定示例合成RGBD镜像,以确保广泛的多样性和广泛的覆盖范围;汇总见表1,代表性示例见图2(a)。每个选定图像至少包含一个镜像区域,像素级精确参考镜像遮罩由专业注释器创建。据我们所知,RGBD镜像是第一个RGB-D镜像分割数据集。
2. 方法
我们的方法基于对镜面的两个关键观察。首先,镜面在语义和深度上引入了不连续性。前者可以在RGB域中检测到,并已被先前的镜像分割工作所利用。后者称为深度不连续,是深度传感器获得反射场景深度而非镜面物理深度的结果。其次,镜像也会在镜像区域的内部和外部之间产生关联。除了可在RGB域中有效检测到的语义相关性外,还存在深度相关性,因为反射场景的视深度通常比镜子及其周围环境的真实深度更深。我们设计了我们的定位和描绘网络(PDNet),以利用RGB和深度的不连续性和相关性来有效分割镜像。
图1 网络框图(a) 我们的定位和描绘网络(PDNet)及其两个主要构建模块的概述:(b)定位模块(PM)和(c)描绘模块(DM)。
PDNet(如图1(a)所示)通过两个不同的多级特征提取器提供RGB-D图像,以获得RGB和深度特征。深度特征由5个级联的3×3卷积块(8-16-32-64-128通道配置)和最大池提取。我们选择ResNet-50[16]来提取RGB特征。为了计算效率,在将提取的RGB特征与深度特征一起馈送到定位模块(b)或描绘模块(c)之前,将其通过额外的信道缩减卷积。定位模块(PM)使用RGB和深度中的全局和局部特征估计镜子的初始位置。描绘模块(DM)根据局部不连续性和上一级的特征细化镜像边界。最后一次DM的预测被用作最终的镜像分割。
2.1 Positioning Module
给定最高级别的RGB和深度特征,PM根据RGB和深度中的全局和局部不连续性和相关性线索,估计初始镜像位置以及用于指导后续DM模块的相应特征。PM的训练由真实镜面Mask监督。我们的PM模块(图3(b))由两个子分支组成:不连续感知分支(DPB)和相关感知分支(CPB)。
2.2 Delineating Module
给定来自PM或上一级DM的高级镜像检测功能,DM会细化镜像边界(图1(c))。DM的核心是一个描绘块,它利用RGB和深度中的局部不连续性来描绘镜像边界。由于此类优化只应发生在镜像周围的区域,因此我们利用上一个模块(PM或DM)的更高级别功能作为指南,以缩小潜在的优化区域。
2.3 Loss Function
BCE损失是前景-背景分割任务中使用最广泛的损失,它平均且独立地计算每个前景和背景像素的损失。在许多情况下,背景像素的数量超过前景像素的数量,导致偏置损失。为了补偿此类情况,我们还包括map级IoU损失。此外,我们还使用了面片级边缘保留损失来更加关注前景边界。
实验结果
表1 最先进的语义分割方法的定量性能(以◦ 符号),显著目标检测方法(△), RGB-D显著性检测方法(▽), 和RGB镜像分割方法(⋆) 在RGBD镜像训练集中重新训练,并在RGBD镜像测试集中进行比较。需要额外CRF[20]后处理步骤的方法用†符号标记。我们还包括一种基于训练集中镜像掩码位置统计信息的阈值方法。第一、第二和第三个最佳结果分别以红色、绿色和蓝色突出显示。我们的方法在所有四个评估指标中都达到了最佳性能。
图2 PDNet与在RGBD镜像数据集上重新训练的最新分割方法的视觉比较。PDNet在具有小镜像(第1-3行)、大镜像(第4-6行)和多个镜像(第7-9行)的场景以及具有相似边界和/或外观(第10-12行)的挑战性场景上的性能优于其他方法。
图3 不同PDNet变体的视觉消融比较。
点击阅读原文, 即可获取本文下载链接。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉精品课程推荐:
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
CVPR2021|深度感知镜面分割方法(RGBD数据)相关推荐
- 利用RGB-D数据进行人体检测 带dataset
利用RGB-D数据进行人体检测 LucianoSpinello, Kai O. Arras 摘要 人体检测是机器人和智能系统中的重要问题.之前的研究工作使用摄像机和2D或3D测距器.本文中我们提出一种 ...
- 【智能驾驶】自动驾驶深度感知技术对车和行人的检测
来源:小马智行第二场技术沙龙 今天我主要想分享自动驾驶感知技术在探索的过程中,采用的传统方法和深度学习方法.传统方法不代表多传统,深度学习也不代表多深度.它们有各自的优点,也都能解决各自的问题,最终希 ...
- 图像语义分割方法研究进展
全监督学习的图像语义分割方法研究进展 简介 1 全监督学习的图像语义分割方法 1.1 基于全卷积的图像语义分割方法 1.2 基于编码器解码器结构的图像语义分割方法 1.3 基于注意力机制的图像语义分割 ...
- Pri3D:一种利用RGB-D数据固有属性完成3D场景感知的表示学习方法
Pri3D:Can 3D Priors Help 2D Representation Learning? (ICCV2021) 代码地址:https://github.com/Sekunde/Pri3 ...
- 【论文精读】基于网络立体数据监督的单目相对深度感知
基于网络立体数据监督的单目相对深度感知 Paper Information Abstract 1 Introduction 2 Related Work 3 Proposed method 3.1 O ...
- Matterport3D:室内环境RGB-D数据的深度学习
Matterport3D:室内环境RGB-D数据的深度学习 Taylor Guo, 2017年9月24日 Matterport3D: Learning from RGB-D Data in Indoo ...
- ICCV 2021 | PMF: 基于视觉感知的多传感器融合点云语义分割方法
作者丨月明星稀风萧萧@知乎 来源丨https://zhuanlan.zhihu.com/p/419187044 编辑丨3D视觉工坊 今天,我将分享一个 ICCV 2021 中的工作,基于视觉感知的多传 ...
- PMF: 基于视觉感知的多传感器融合点云语义分割方法(ICCV2021)
作者丨月明星稀风萧萧 来源丨https://zhuanlan.zhihu.com/p/419187044 编辑丨3D视觉工坊 今天,我将分享一个 ICCV 2021 中的工作,基于视觉感知的多传感器融 ...
- 一种基于深度卷积神经网络(DCNN)用于于头发和面部皮肤实时分割方法
团队信息 摘要 现代的语义分割方法通常过于关注模型的准确性,因此引入繁琐的主干,这会带来沉重的计算负担和内存占用.为了解决这个问题,作者提出了一种基于深度卷积神经网络(DCNN)的高效分割方法,用于头 ...
最新文章
- Java课程设计---项目数据库设计(含实体类)
- Java转型(向上转型和向下转型)
- [20170825]不启动监听远程能连接数据库吗2
- 【Flink】Flink 流计算 容错 source节点进行数据容错
- 安装mysql 遇到最后一步卡死解决方案
- Aspose.Words转换为PDF的时候字体丢失的问题解决
- public protected private
- 【收藏】机器学习与深度学习核心知识点总结
- php表单提交 邮箱_PHP的一个基础知识 表单提交
- MyBatis官方文档——动态SQL部分
- Python3爬取淘宝网商品数据
- 14.荔枝派 zero(全志V3S)-驱动OV2640拍照、录制视频
- OV2640拍摄jpg图像无法解析
- H3C认证安全技术高级工程师
- P9 android8 第三方,华为P9--第三方安卓8.0ROM--GZOSP Oreo--XDA 已发布!
- 计算机启动修复怎么还原,电脑开机出现系统恢复选项该怎么办
- 三国大时代java_横跨,塞班、安卓、pc的国产良心作《三国大时代》系列
- 史上最详尽的RGB-D传感器选型调研报告
- android跌倒检测,基于Android手机的老人跌倒检测方法的研究与设计
- 被尘封的故事技能点bug_12个人闯进失落的世界,发现了尘封盛世的秘密