文章目录

摘要
背景
相关工作
贡献
CenDerNet
- 从图像到中心和曲率热图
- 从中心热图到3D中心
- 6D姿态估计
实验

摘要

我们介绍了CenDerNet，一个基于中心和曲率表示的多视图图像6D姿态估计框架。为反射、无纹理物体找到精确的姿态是工业机器人面临的关键挑战。我们的方法包括三个阶段：首先，一个完全卷积的神经网络预测每个视图的中心和曲线热图；其次，中心热图用于检测对象实例并找到它们的3D中心；第三，使用3D中心和曲率热图估计6D物体姿态。通过使用渲染和比较方法联合优化视图中的姿势，我们的方法自然地处理遮挡和对象对称。我们表明，Cen DerNet在两个行业相关数据集（DIMO和T-LESS）上的表现优于以前的方法。

背景

6D姿态估计是工业机器人技术的一个重要方面。今天的大批量生产线由可靠执行重复动作的机器人提供动力。然而，随着制造业向高混合、低批量生产转变，人们对能够处理更多变化的机器人的需求越来越大[2]。估计不同物体组的6D姿势对实现这一目标至关重要。

制造用例提出了独特的挑战。许多工业物体具有反射性和无纹理，划痕或锯齿图案会影响其外观[32,4]。零件通常以密集的成分堆叠，有许多闭塞。这些密集堆叠的反射部件对于现有深度传感器来说是有问题的。此外，物体的形状变化很大，往往表现出对称性，导致姿势不明确。许多应用需要亚毫米精度和快速集成新的、看不见的部件的能力。

这项工作提出了针对这些条件的6D姿态估计框架。我们的方法从具有已知相机内部和外部特征的RGB图像预测已知无纹理部分的对象姿态。我们使用多视图数据，因为单目图像在外观和深度上存在模糊。在实践中，使用多相机或手持式眼睛设置可以轻松收集来自多个视点的图像。此设置反映了许多真实的工业用例。

贡献

我们提出了一个基于中心和曲率表示的多视图图像6D姿态估计框架CenDerNet。首先，训练卷积神经网络来预测中心和曲率热图。其次，中心热图用于检测对象实例并找到它们的3D中心。这些中心初始化并约束姿势目标。第三，曲率热图用于使用渲染和比较方法进一步优化这些姿势。

我们的系统概念简单，易于使用。许多现有方法由多个阶段组成，每个阶段都有不同的训练和调优要求。我们的框架更简单。我们使用单一的、完全卷积的神经网络将RGB图像转换为可解释的表示。接下来，我们使用需要很少调整的经典优化技术。

使用渲染和比较方法，我们联合估计场景中所有对象在所有视点上的姿势。因此，我们的方法自然地处理遮挡和对象对称。我们提供了渲染和比较方法的GPU实现，允许每秒评估2000多个场景姿势估计。

我们使用DIMO和T-LESS这两个具有挑战性的行业相关数据集来评估CenDerNet。在DIMO上，我们的方法大大优于PVNet。在T-LESS上，CenDerNet优于领先的多视图方法CosyPose的2020 ECCV结果。

CenDerNet

我们的系统包括三个阶段：
1.卷积神经网络预测多视图输入图像的中心和曲率热图。
2.将预测的中心热图转换为3D中心点。这些3D中心初始化并约束预测对象姿势的集合。
3.通过将曲率渲染与预测曲率热图进行比较来优化对象姿势

图2：步骤1：通过单个完全卷积网络将多视图RGB图像转换为中心和曲率热图

从图像到中心和曲率热图

此步骤通过将图像转换为中心和曲率表示来消除与任务无关的变化。由于光线、背景和纹理的变化，RGB图像可能会发生显著变化。但是，这些更改不会影响对象姿势。此步骤通过将图像转换为简化姿势估计的表示来消除这些影响。因为我们希望我们的系统适用于广泛的对象，所以这些表示应该与类别无关。我们将中心和曲率识别为具有互补性质的合适表示。

中心我们使用中心热图-建模对象中心点的概率-来检测对象并粗略估计其位置。先前的工作表明，将物体检测为中心点是简单而有效的[34]。此外，可以将2D中心点三角化为3D，初始化对象姿势并启用几何推理。例如，位于不可能位置的中心预测可以被丢弃。在预测中心点时，需要在空间精度和泛化之间进行权衡。相似对象之间的精确中心位置可能会有细微差异。这使得学习系统很难预测不可见物体的精确中心。由于我们希望我们的系统能够推广到看不见的类别，我们通过训练我们的模型来预测中心位置的高斯斑点，从而放宽了空间精度要求。我们对所有对象类别使用单个中心热图。

曲率我们使用曲率热图来突出显示局部几何体，并在图像和渲染之间进行比较。基于3D几何体的表示对照明、纹理和背景的变化具有鲁棒性，并且可以从无纹理的CAD文件创建。基于全局几何[30]或类别级语义[5,20]的表示不能推广到看不见的对象类型。因此，我们专注于局部几何。先前的研究表明，几何边缘可以用于准确估计6D姿态[14,13,3]。我们的表示基于视图空间曲率。为了获得这些视图空间曲率，我们首先在视图空间中渲染法线。接下来，我们使用Prewitt算子来近似每个像素的梯度[22]。最后，我们计算这些梯度的2-范数以获得每像素曲率值。具有高曲率的区域对应于几何边缘或对象边界，并且在视觉上是不同的。类似地，视觉相似的区域，如重叠的平行平面，不包含曲率值，如图3b所示。

图3：（a）通过在视图空间中渲染法线、使用Prewitt算子逼近每像素梯度并计算2-范数来计算曲率。
（b）视觉上相似的区域，如重叠的平行平面，没有曲率值

模型和训练我们使用完全卷积网络来预测中心和曲率热图。相同的权重应用于来自不同视点的图像。该架构基于U-net[24]，如图4所示。共享主干输出的特征图具有与输入图像相同的空间分辨率。单独的头部用于预测中心和曲率热图。地面实况中心热图是通过将3D对象中心投影到每个图像并使用高斯核将生成的点散开来创建的，标准偏差根据对象大小和距离进行调整。曲率热图如第2.1节所述创建。二元交叉熵损失用于两个输出。更多详情见附录。

从中心热图到3D中心

此步骤将多视图中心热图转换为三维中心点。首先，使用峰值-局部最大滤波器在每个热图中找到局部最大值[29]。这些2D最大值中的每一个表示由各自的相机内部和外部定义的3D射线。接下来，对于每对3D射线，计算最短相互距离和中点[25]。当该距离低于阈值dt时中点被添加到候选集合。在此集合中，将合并比距离dc更接近的点。最后，使用Scipy的Nelder-Mead优化器，通过最大化视图之间的重投影得分来细化剩余的点[28]。这会产生一组3D点，每个点都有每个视图的热图得分。如果有关场景中对象数量的信息可用，则会进一步修剪该集。3D中心按其聚集的热图得分（针对所有视图累加）进行排序，如果它们与较高得分点的距离比距离更近，则将其移除。

图4：我们的全卷积网络架构基于U-net。输入图像首先由共享主干处理。然后，分离磁头输出中心和曲率热图。

图5：步骤2：将多视图2D中心热图转换为3D中心点。

中点被添加到候选集合。在此集合中，将合并比距离dc更接近的点。最后，使用Scipy的Nelder-Mead优化器，通过最大化视图之间的重投影得分来细化剩余的点[28]。这会产生一组3D点，每个点都有每个视图的热图得分。如果有关场景中对象数量的信息可用，则会进一步修剪该集。3D中心按其聚集的热图得分（针对所有视图累加）进行排序，如果它们与较高得分点的距离比距离更近，则将其移除。

6D姿态估计

此步骤使用基于曲率的渲染和比较方法优化所有检测对象的6D姿势。对象CAD模型、相机内部和外部都可用。因此，可以为每组6D对象姿势候选渲染曲率贴图。我们定义了一个成本函数，将这种曲率渲染与预测的曲率热图进行比较。该成本函数用于优化由先前检测到的3D中心初始化的一组对象姿态。

图6：步骤3：多视图曲率热图和3D对象中心用于查找6D对象姿势。

成本函数预测曲率热图被转换为具有阈值tb的二值图像。接下来，使用scikit图像的距离变换，为每个二进制图像创建距离图，其中每个像素包含到最近的非零（真）像素的距离[29]。生成的距离图只需计算一次，并且可以在整个优化过程中重用。

图7：目标曲率热图（左）转换为二值图像（中心）。接下来，计算距离贴图（右），其中每个像素包含到最近的非零（真）像素的距离。

使用这些距离贴图，可以有效地将曲率渲染与目标热图进行比较。渲染到距离贴图的逐像素相乘将返回一个图像，其中每个像素包含到最近的真实曲率像素的距离，并由其曲率值加权。因此，曲率高的区域权重更大，曲率为零的区域不起作用。最终成本值是通过对结果图像求和并除以渲染的曲率贴图的和而获得的。这是为每个视点完成的。结果成本由视图特定权重wv加权并相加，从而得到最终标量成本值。

图8：成本函数概述。首先，为每组6D物体姿态估计绘制曲率图。将这些曲率图与基于目标曲率的预先计算的距离图进行比较。这将导致并行计算每个样本的成本值。

图8显示了成本函数的概述。我们在GPU上实现了这个功能——包括曲率渲染。我们的实现在NVIDIA RTX3090 Ti上以每秒2000次调用的速度运行，每次调用6个256×320图像。

优化我们通过评估由检测到的3D中心锚定的姿态，依次优化6D物体姿态。由于场景可以由具有许多遮挡的密集堆叠对象组成，因此我们按顺序优化对象。我们认为，高度可见的对象更容易优化，关键是，在优化它们遮挡的对象时，应将其考虑在内。对于每个3D中心，我们使用每个视图中心的热图得分作为可见性的代理。我们按照降低可见性的顺序优化对象，并根据这些分数衡量每个视图对成本的贡献。在估计对象姿势时，我们首先评估一组2000个姿势候选，其随机旋转和平移通常分布在3D中心周围。然后，使用有界Nelder-Mead优化器对最佳候选进行进一步优化[28]。

实验

我们对DIMO[4]和T-LESS[9]这两个行业相关数据集的BOP挑战[11]中定义的6D本地化任务的方法进行了评估。在DIMO上，我们发现我们的方法明显优于PVNet[20]，这是一个强大的单视图基线。在T-LESS上，CenDerNet改进了领先的多视图方法CosyPose[15]的2020 ECCV结果。

CenDerNet: Center and Curvature Representations for Render-and-Compare 6D Pose Estimation相关推荐

The Center of Attention: Center-Keypoint Grouping via Attention for Multi-Person Pose Estimation
该论文发表于ICCV2021 本文是将Transformer应用于关键点分组的创新工作.实际上是自底向上方法中分组操作的优化,利用Transformer进行关键点分组,达到端到端训练与加快模型推理速度 ...
笔记：PoseCNN:A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes
PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes (Robotics: ...
SLAM系列——机器人顶刊T-RO！用于关联、建图和高级任务的物体级SLAM框架
系列文章目录 SLAM系列--第一讲预备知识[2023.1] SLAM系列--第二讲初识SLAM[2023.1] SLAM系列--第三讲三维空间刚体运动[2023.1] SLAM系列--第四讲 ...
CVPR 2021 论文和开源项目合集(Papers with Code)
摘自:https://github.com/amusi/CVPR2021-Papers-with-Code CVPR 2021 论文和开源项目合集 CVPR 2021 论文和开源项目合集(Papers ...
【ECCV2020】完整论文集part2
ECCV2020将于2020年8月23-28日在线上举行,今年共接受了1361篇论文,本文是接收论列表的第二部分,第一部见链接 Paper ID Paper Title Category 2515 T ...
ECCV2022论文列表（中英对照）
Paper ID Paper Title 论文标题 8 Learning Uncoupled-Modulation CVAE for 3D Action-Conditioned Human Motio ...
论文阅读：CVPR2016 Paper list
原文地址:http://blog.csdn.net/xizero00/article/details/51386667 在过几天CVPR2016就要召开了,先放个list. ORAL SESSION ...
CVPR 2016 摘要阅读
为了说明看过CVPR2016全部文章的摘要,总结一下,摘要只保留了创新点部分. ORAL SESSION Image Captioning and Question Answering Monday, ...
基于视觉的机器人抓取: 论文及代码(Vision-based Robotic Grasping: Papers and Codes)
本文同步于微信公众号:3D视觉前沿,欢迎大家关注. 本文总结了基于视觉的机器人抓取的相关论文及代码,同步于 GitHub. 机器人抓取必需的信息是相机系下抓取器的6DoF位姿,包括抓取器的3D位置和抓 ...

CenDerNet: Center and Curvature Representations for Render-and-Compare 6D Pose Estimation

文章目录

摘要

背景

相关工作

贡献

CenDerNet

从图像到中心和曲率热图

从中心热图到3D中心

6D姿态估计

实验

CenDerNet: Center and Curvature Representations for Render-and-Compare 6D Pose Estimation相关推荐

最新文章

热门文章