谷歌《ClearGrasp》阅读笔记

Project Link：https://sites.google.com/view/cleargrasp

简介

对于标准的3D传感器来说，扫描透明物体一直是个难题，传统的双目，结构光或ToF RGB-D镜头都对透明物体束手无策，它们难以产生准确的深度估计，通常在许多情况下，透明物体会显示为一堆无效的噪点或失真的近似平面，如下图。谷歌+Synthesis AI+哥伦比亚大学的研究团队推出了ClearGrasp技术，通过深度学习的引入增强识别和估计透明物体。

为什么3D镜头无法对透明物体呈像，原因是传统3D传感器的算法会假定所以物体的表面都符合完全漫反射（Lambertian) 即所有方向上的反光都是均匀的，然而透明物体却不符合这个假设，不光存在反射，还存在折射。

基本原理： 给定任意一个透明的RGB-D图像对象，ClearGrasp使用深度卷积网络来推断表面法线（Normal），透明物体的掩膜（Mask） ，遮挡边界（Occlusion Boundary，深度上不连续）。然后使用这些输出来优化和完善初始深度估计场景中所有的透明表面。

人工合成数据集： 一个大规模的人工合成数据集（上图），包含超过5万张RGB-D图像用于训练和测试（~100GB，开源），一共9个CAD模型（图片是使用Blender渲染出来的）

真实数据集： 一个采集于真实世界透明物体的测试集（上图），286个采集于真实世界物体的数据集，10个物体。采集时使用了两套几何形状一模一样的物体，一套透明，一套不透明，拍摄透明物体后，保持场景不变，借助相机软件将前一帧的图像和当前相机图像混合显示，将不透明物体替换透明物体，保持空间位置不变。

网络架构

为了移除原始深度图中的不可靠深度区域，即透明物体所占的像素区域，作者提出使用透明物体分割网络（Transparent Object Segmentation Network），输入单张RGB图片，输出场景中透明物体的像素Mask，即判断每个像素点是属于透明或者非透明物体，在后续优化中会去除被判定为透明物体的像素，得到修改后的深度图（Modified Depth）。
边缘识别网络（Boundary Detection Network） 对于单张RGB输出遮挡边缘（Occlusion Boundary）和相连边缘（Contact edge）信息，这帮助网络更好的分辨图片中不同的边缘，对深度不连续的边缘做出更准确的预测。
表面法向量估计（Surface Normal Estimation） 同样使用了RGB图片作为输入，输出做了L2正则化。
以上三个网络均采用了 Deeplabv3+ 和 DRN-D-54 作为骨干网络。
全局优化（Global Optimization）: 全局优化集合了上述三个网络的输出，加上原始深度图（修改过的），输入能量方程：
E_D：预测深度和观测的原始深度的距离
E_S：邻近点的深度差
E_N：预测深度和预测表面法向量的一致性
B：权重，基于此像素是否是遮挡边界

结果

物体表面法向量预测在透明物体遮挡不透明物体的场景下，受到影响较大，效果不佳。
深度估计任务在人工数据集上泛化能力不强，在真实数据上反而表现出了更好的泛化能力
（上图）。
超过了baseline：单目估计深度系统“Dense Depth”[1]，如下图：

笔者评价和思考

Mask估计这项任务的精度在IoU评价下在真实场景下出现了30%的drop，说明其分割在真实场景下泛化能力不强（上图）
训练集中透明物体的种类太少了，都是常见的瓶瓶罐罐，而且场景单一，比较适合在机器人抓取之类的可控环境使用，不适合复杂场景，因为算法会受复杂场景中的高遮挡，复杂光线条件，影子，散焦等问题影响鲁棒性。
此方法的前提是利用RGB-D图片中非透明物体的深度来估计透明物体的深度，那如果整个场景中都是透明物体，在这样的极端情况下，算法就不可用了。

[1] Ibraheem Alhashim and Peter Wonka. High quality monocular depth estimation via transfer learning. arXiv e-prints, abs/1812.11941:arXiv:1812.11941, 2018.
[2] Blender. Blender Physics Engine, 2019. URL https://docs.blender.org/manual/en/latest/physics/index.html.
[3] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016
[4] David Eigen and Rob Fergus. Predicting depth, surface normals and semantic labels with a common multiscale convolutional architecture. In Proceedings of the IEEE international conference on computer vision, pages 2650–2658, 2015
[5] Cody J Phillips, Konstantinos G Derpanis, and Kostas Daniilidis. A novel stereoscopic cue for figure-ground segregation of semi-transparent objects. In 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops), pages 1100–1107.
[6] Tao Wang, Xuming He, and Nick Barnes. Glass object localization by joint inference of boundary and depth. In Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012), pages 3783–3786. IEEE, 2012.