Project Link:https://sites.google.com/view/cleargrasp

简介

对于标准的3D传感器来说,扫描透明物体一直是个难题,传统的双目,结构光或ToF RGB-D镜头都对透明物体束手无策,它们难以产生准确的深度估计,通常在许多情况下,透明物体会显示为一堆无效的噪点或失真的近似平面,如下图。谷歌+Synthesis AI+哥伦比亚大学的研究团队推出了ClearGrasp技术,通过深度学习的引入增强识别和估计透明物体。

为什么3D镜头无法对透明物体呈像,原因是传统3D传感器的算法会假定所以物体的表面都符合完全漫反射(Lambertian) 即所有方向上的反光都是均匀的,然而透明物体却不符合这个假设,不光存在反射,还存在折射。

基本原理: 给定任意一个透明的RGB-D图像对象,ClearGrasp使用深度卷积网络来推断表面法线(Normal)透明物体的掩膜(Mask)遮挡边界(Occlusion Boundary, 深度上不连续)。然后使用这些输出来优化和完善初始深度估计场景中所有的透明表面。

人工合成数据集: 一个大规模的人工合成数据集(上图),包含超过5万张RGB-D图像用于训练和测试(~100GB,开源),一共9个CAD模型(图片是使用Blender渲染出来的)

真实数据集: 一个采集于真实世界透明物体的测试集(上图),286个采集于真实世界物体的数据集,10个物体。采集时使用了两套几何形状一模一样的物体,一套透明,一套不透明,拍摄透明物体后,保持场景不变,借助相机软件将前一帧的图像和当前相机图像混合显示,将不透明物体替换透明物体,保持空间位置不变。

网络架构

  1. 为了移除原始深度图中的不可靠深度区域,即透明物体所占的像素区域,作者提出使用透明物体分割网络(Transparent Object Segmentation Network),输入单张RGB图片,输出场景中透明物体的像素Mask,即判断每个像素点是属于透明或者非透明物体,在后续优化中会去除被判定为透明物体的像素,得到修改后的深度图(Modified Depth)。
  2. 边缘识别网络(Boundary Detection Network) 对于单张RGB输出遮挡边缘(Occlusion Boundary)和相连边缘(Contact edge)信息,这帮助网络更好的分辨图片中不同的边缘,对深度不连续的边缘做出更准确的预测。
  3. 表面法向量估计(Surface Normal Estimation) 同样使用了RGB图片作为输入,输出做了L2正则化。
  4. 以上三个网络均采用了 Deeplabv3+ 和 DRN-D-54 作为骨干网络。
  5. 全局优化(Global Optimization): 全局优化集合了上述三个网络的输出,加上原始深度图(修改过的),输入能量方程:
  6. E_D:预测深度和观测的原始深度的距离
  7. E_S:邻近点的深度差
  8. E_N:预测深度和预测表面法向量的一致性
  9. B:权重,基于此像素是否是遮挡边界

结果

  1. 物体表面法向量预测在透明物体遮挡不透明物体的场景下,受到影响较大,效果不佳。
  2. 深度估计任务在人工数据集上泛化能力不强,在真实数据上反而表现出了更好的泛化能力
    (上图)。
  3. 超过了baseline:单目估计深度系统“Dense Depth”[1],如下图:

笔者评价和思考

  • Mask估计这项任务的精度在IoU评价下在真实场景下出现了30%的drop,说明其分割在真实场景下泛化能力不强(上图)
  • 训练集中透明物体的种类太少了,都是常见的瓶瓶罐罐,而且场景单一,比较适合在机器人抓取之类的可控环境使用,不适合复杂场景,因为算法会受复杂场景中的高遮挡,复杂光线条件,影子,散焦等问题影响鲁棒性。
  • 此方法的前提是利用RGB-D图片中非透明物体的深度来估计透明物体的深度,那如果整个场景中都是透明物体,在这样的极端情况下,算法就不可用了。

[1] Ibraheem Alhashim and Peter Wonka. High quality monocular depth estimation via transfer learning. arXiv e-prints, abs/1812.11941:arXiv:1812.11941, 2018.
[2] Blender. Blender Physics Engine, 2019. URL https://docs.blender.org/manual/en/latest/physics/index.html.
[3] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016
[4] David Eigen and Rob Fergus. Predicting depth, surface normals and semantic labels with a common multiscale convolutional architecture. In Proceedings of the IEEE international conference on computer vision, pages 2650–2658, 2015
[5] Cody J Phillips, Konstantinos G Derpanis, and Kostas Daniilidis. A novel stereoscopic cue for figure-ground segregation of semi-transparent objects. In 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops), pages 1100–1107.
[6] Tao Wang, Xuming He, and Nick Barnes. Glass object localization by joint inference of boundary and depth. In Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012), pages 3783–3786. IEEE, 2012.

谷歌《ClearGrasp》阅读笔记相关推荐

  1. T5: Text-to-Text Transfer Transformer 阅读笔记

    作者:徐啸 知乎专栏:自然语言处理学习之旅 https://zhuanlan.zhihu.com/p/89719631 写在前面 谷歌用一篇诚意满满(财大气粗)的基于实验的综述,试图帮助研究者们「拨开 ...

  2. 2019 sample-free(样本不平衡)目标检测论文阅读笔记

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...

  3. 【阅读笔记】精益开发实践用看板管理大型项目

    [阅读笔记]精益开发实践用看板管理大型项目 参考 精益开发实践用看板管理大型项目 文章目录 [阅读笔记]精益开发实践用看板管理大型项目 一.我们如何工作(案例研究) 1.项目背景 2.组织团队 3.每 ...

  4. 【CCM-SLAM论文阅读笔记】

    CCM-SLAM论文阅读笔记 整体框架结构 如图所示:单智能体只负责采集图像数据,运行实时视觉里程计VO以估计当前位姿和环境地图,由于单智能体计算资源有限,负责生成的局部地图只包含当前N个最近的关键帧 ...

  5. 论文阅读笔记(五)——狐猴识别系统:一种便于狐猴个体识别的面部识别系统

    论文阅读笔记(五)--狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文简介 论文中文翻译:狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文名称:<LemurFaceID: a fac ...

  6. A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记

    A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记 //2022.1.7 日下午16:00开始阅读 双阶段检测器示意图 单阶段检测器 ...

  7. 文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check

    A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记 论文相关信息: EMNLP-201 ...

  8. 《Consistent Video Depth Estimation》阅读笔记

    <Consistent Video Depth Estimation>阅读笔记 文章目录 <Consistent Video Depth Estimation>阅读笔记 前言: ...

  9. [论文阅读笔记53]2021深度神经方法的关系三元组抽取综述

    1. 题目 Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive Survey Tapas Nayak†, N ...

  10. YOLOv5代码阅读笔记

    本来想先总结yolov5的各种知识点,但是看了一位大佬发的博客,瞬间就跪了,链接放上: 深入浅出Yolo系列之Yolov5核心基础知识完整讲解代码看完一遍后,感觉理解还不够深刻,决定近期再把代码过一遍 ...

最新文章

  1. HashSet的使用
  2. 挑战61年未被质疑的经典心理学理论—— 大脑识别图像并非“趣味导向”
  3. Lua_第17 章 数学库
  4. Linux下临时以非root身份执行命令
  5. ProSolid下的遍历访问封装代码
  6. centos中安装nginx
  7. 学会计需要学计算机应用吗,会计都要学什么
  8. sql注入之时间注入
  9. nodejs开发环境安装-连载【1】-企业级系统开发实战连载系列 -技术栈 :vue、element-ui、qt、c++、sqlite
  10. kdev-ruby 停止开发,原 maintainer 转用其它编辑器
  11. 【面试题 10.11】峰与谷
  12. ftp服务器重装,有哪些ftp服务器软件好用的?适合新手的,最好一键安装的?
  13. NETSCOUT宣布推出Omnis Cyber Intelligence解决方案
  14. 成员属性私有化的优点
  15. pascal语言基础(三)
  16. 牛顿迭代法及其实际应用(附C++代码)
  17. DBeaver 转存数据库或执行脚本报错(全方位解析)
  18. 【微信小游戏实战】零基础制作《欢乐停车场》三、游戏场景制作
  19. CAXA PLM助力湖南郴粮机提升粮食机械研发效率
  20. 【Matlab】 多年NDVI数据的sen趋势分析

热门文章

  1. 求一份fm收音机源码
  2. 鸿蒙系统会和安卓一样垃圾多,“鸿蒙系统”和“安卓系统”到底有什么区别?网友:细节定成败!...
  3. 三相异步电机pwm变频调速matlab,基于MATLAB三相异步电机恒压频比调速仿真.doc
  4. mysql 网络io_如何在MySQL源码中看其网络IO模型
  5. 【Excel VBA】批量拆分工作表为独立文件批量复制文件内容到总文件的工作表
  6. 我在 GitHub 黑市买“水军”:一万颗 star 只要 4000 多元,人人都能“一夜爆火”...
  7. 招聘计算机专业的英文广告,计算机专业英文面试自我介绍
  8. Description Resource Path Location Type Target runtime Apache Tomcat v8.0 is not defined.
  9. PHP 不同地图坐标系经纬度转换 GCj02 WGS84 BD-09
  10. 剩余类、剩余系与完全剩余系