SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation

转载请注明作者和出处： http://blog.csdn.net/john_bh/

paper 地址：SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation
作者及团队：季向阳团队 & 清华大学 & 慕尼黑工业大学 & 谷歌
会议及时间：ICCV 2021
code：https://github.com/shangbuhuan13/SO-Pose

文章目录

1. 主要贡献
2. Related Works
3. Methodology
- 3.1. Selfocclusion for Robust Pose Estimation
- 3.2. Crosslayer Consistency
- 3.3. Overall Objective
4. Evaluation
- 4.1 Training Details
- 4.2 Result
- 4.3 Ablation Study
5. Conclusion

1. 主要贡献

相比two-stage 方法，end-to-end 方法在预测效果上仍有一些差距，作者深入研究发现：当网络逼近最优时，由于无纹理物体表面固有的匹配模糊性，不可避免地会出现由噪声引起的错配误差，往往导致一个对应域对应多个拟合误差相似的6D位姿。这导致训练过程收敛到次最优，阻碍了总体6D姿态估计性能。 由于消除噪声引起的误差不是一件简单的事情，解决这个问题的另一种解决方案是用更精确的三维物体表示代替对应场，从而减少噪声的影响。
受三维重建 [“3d scene reconstruction with multi-layer depth and epipolar transformers”–ICCV 2019] 中使用的多层模型的启发，专注于self-occlusion信息，以建立一个以观察者为中心的物体姿态的两层表示。

第一层保留目标上可见点及其投影的对应场；
第二层包含 self-occlution 信息。本质上，作者并没有直接识别每个 visible point 是否以及在哪里遮挡了物体，而是通过检查每个像素和物体坐标平面之间的 self-occlusion 来简化过程。

创新点以及主要贡献：

提出 SO-Pose，从3D object 的two-layer 表示中直接回归 6DoF pose；
利用self-occlution 和 2D-3D对应关系来为3D空间中的每个对象建立一个两层表示，可以用来加强两个跨层的一致性，可以进一步提高准确性和鲁棒性；
SO-Pose在各种具有挑战性的数据集上始终超越所有其他end-to-end 方法。此外, SO-Pose与其他sota的两阶段方法相比，也可以达到相当的精度，同时速度更快。

2. Related Works

3. Methodology

大多数基于CNN方法的6DoF 方法只关注物体可见部分，忽略了遮挡部分的信息。因此，单层表示法不能完全准确地编码物体的几何特征，不能够准确的估计物体6D位姿。 SO-Pose方法，如图2 (d)和(e)，将自遮挡与估计的2D-3D对应相结合，建立一种新的两层表示，用于描述三维空间中物体的姿态。

3.1. Selfocclusion for Robust Pose Estimation

想象一条光线从相机中心发出并穿过物体。这条射线与物体表面相交于多个不同的点，其中第一个点是可见的，而其他的都是自遮挡的。与[34]记录自遮挡点的坐标不同，作者记录的是每条射线与物体坐标平面之间的交点坐标。如图3所示，射线 OPOPOP 与物体坐标系 o−yz,o−xz,o−xyo-yz,o-xz,o-xyo−yz,o−xz,o−xy 的交点是 Qx,Qy,QzQ_x,Q_y,Q_zQx,Qy,Qz。
对于单个物体，合并P,Q={Qx,Qy,Qz}P,Q=\{Q_x,Q_y,Q_z\}P,Q={Qx,Qy,Qz} 到 two-layer model :

其中 VVV 表示当前视图 w.r.t.w.r.t.w.r.t.摄像机坐标系下的可见点。注意，QQQ 可以从PPP 的解析推导出来，已知旋转 RRR 和平移 ttt。将 PPP 投影到二维图像平面上，得到：

其中KKK 表示相机内参数矩阵，P=[XP,YP,ZP]TP=[X_P,Y_P,Z_P]^TP=[XP,YP,ZP]T 表示可见的3D 点，相机坐标系下物体坐标平面表示为（有点没太明白）：

其中 XXX 表示对应如下坐标平面上的3D 点：

从以上信息可以导出 QxQ_{x}Qx,它位于射线 OPOPOP 和平面 o−yzo-yzo−yz 的交点处：

同理，带入 ny,nzn_y, n_zny,nz 可以得到 Qy,QzQ_y,Q_zQy,Qz。

由于PPP和QQQ是用摄像机坐标系表示的，它们对应的物体坐标系是用摄像机坐标系表示的:P0=RTP−RTt,Q0=RTQ−RTtP_0=R^{T} P - R^{T}t, Q_0=R^TQ-R^TtP0=RTP−RTt,Q0=RTQ−RTt。

为了优化的稳定定，P0,Q0P_0,Q_0P0,Q0 是根据物体直径做了标准化处理。
值得注意的是，当光线通过摄像机中心 OOO 和一个可见点 PPP 时，可能会平行于物体的一个坐标平面，因此光线可能永远不会与这个平面相交。因此，为了规避这些情况并增强鲁棒性只考虑物体的最小边界长方体内的交点，如3所示。

3.2. Crosslayer Consistency

3.3. Overall Objective

4. Evaluation

4.1 Training Details

Data
LM，LMO，YCB-V
Metrics
ADD-S，BOP metrics

4.2 Result

在(d)钻机中，我们证明了由于强遮挡导致6D位姿预测错误。

Runtime Analysis
在 Inter 3.30GHz CPU 和 TITAN X (12G) GPU的机器上，输入 640∗480640*480640∗480 图像是，处理当个物体大概需要30ms，处理整张图像需要50 ms，其中包括使用 YOLO-v3 进行2D localization 的15ms。如图5所示，YCB-V上的Speed-AR评分图。该方法取得了第二好的效果(AR: 0.715)，进一步验证了该方法在实际应用中的巨大潜力。
Qualitative evaluation
在图6中，显示了SO-Pose 的模型预测的YCB-V对象的规范化两层表示。对于(a)表示物体，在(b)中展示了其2D-3D点匹配，在(d)， (e)和(f)中展示了其self-occlusion坐标。©、(g)、(h),(i) 是 (b), (d), (e), (f) 的 corresponding error map。

4.3 Ablation Study

5. Conclusion

在本文中，作者提出了一种新的两层模型，该模型结合了2D-3D点对应和self-occlusion信息来明确地封装三维物体的空间线索。在此基础上作者提出了 SO-Pose，一个end-to-end 的 6DoF pose 直接回归算法框架，在数据集上相比效果有很大提升。实验评估也表明，两层模型适用于广泛的6D姿态估计框架，并能持续提高性能。未来，作者计划将两层模型集成到 self-supervised 6D姿态估计和 category-level 未见物体分析中。