CosyPose: Consistent multi-view multi-object 6D pose estimation

摘要

我们介绍一种用于恢复场景中多个已知对象的6D姿势的方法，该场景由一组具有未知相机视点的输入图像捕获。首先，我们提出一种单视图单对象6D姿势估计方法，该方法用于生成6D对象姿势假设。其次，我们开发了一种鲁棒的方法来匹配不同输入图像上的单个6D对象姿势假设，以便共同估算单个一致场景中所有对象的相机视点和6D姿势。我们的方法显式处理对象对称性，不需要深度测量，对丢失或不正确的对象假设具有鲁棒性，并自动恢复场景中的对象数量。第三，我们针对给定多个对象假设及其在视图之间的对应关系，开发了一种用于全局场景优化的方法。这是通过解决对象级别的束调整问题来实现的，该问题可以细化摄像机和对象的姿势，以使所有视图中的重投影误差最小。我们证明了被称为CosyPose的拟议方法在两个具有挑战性的基准上大大优于当前的单视图和多视图6D对象姿态估计的最新结果：YCB-Video和T-LESS数据集。项目页面上提供了代码和预训练模型。

1简介

这项工作的目标是估算由多个位置未知的摄像机捕获的3D场景中多个已知对象的准确6D姿势，如图1所示。这是一个具有挑战性的问题，因为纹理-许多对象的性质较少，存在多个相似对象，场景中对象的数量和类型未知以及相机的位置未知。然而，解决该问题将在机器人技术中具有重要的应用，其中场景中对象的准确位置和方向的知识将允许机器人计划，导航和与环境交互。

物体姿态估计是最古老的计算机视觉问题之一[1-3]，但它仍然是一个活跃的研究领域[4-11]。在RGB(无深度)图像上操作的最佳方法[7，8，10-12]是基于可训练卷积神经网络的，并且能够处理对称或无纹理对象，这对于依赖局部[3，13-16]或全局[17]基于梯度的图像特征的早期方法是具有挑战性的。然而，这些作品中的大多数都是独立考虑对象，并使用单一输入(RGB)图像来估计它们的姿势。然而，在实践中，场景由许多对象组成，并且场景的多个图像通常是可用的，例如通过单个移动摄像机或在多摄像机设置中获得。在这项工作中，我们解决了这些限制，并开发了一种方法，该方法结合来自多个视图的信息，并联合估计多个对象的姿势，以获得单个一致的场景解释。

虽然从多个视图联合估计多个对象的姿势的想法可能看起来很简单，但需要解决以下挑战。首先，当摄像机之间的相对变换未知时，在单个图像中做出的物体姿态假设不容易在公共参考系中表达。在实际场景中，由于场景缺乏纹理或基线较大，使用局部特征配准不能很容易地恢复摄像机校准，这种情况经常出现。第二，单视图6D物体姿态假设存在误报和漏检的严重错误。第三，从输入图像估计的候选6D对象姿态是有噪声的，因为它们受到单视图方法固有的深度模糊的影响。

在这项工作中，我们描述了一种解决这些挑战的方法。我们从6D对象姿势假设开始，我们使用一种受DeepIM启发的新的渲染-比较方法从每个视图估计这些假设[10]。首先，我们在不同的视角下匹配各个对象的姿态假设，并使用得到的对象级别的对应关系来恢复摄像机之间的相对位置。其次，采用基于RANSAC的稳健目标级匹配方法，解决了目标检测中的粗差问题，优化了整体场景一致性。第三，使用基于对象级束调整的全局精化过程显著改善了噪声单视对象姿势。我们的方法优化了多视图一致性，因此被称为CosyPose，其结果是输入场景的单个一致性重建。我们的SingleView单对象姿态估计方法在YCB-Video[18]和T-less[19]数据集上获得了最先进的结果，在T-less上获得了比最先进的[7]显著的34.2%的绝对改进。我们的多视角框架在YCB-Video上的表现明显优于[20]，同时不需要已知的摄像机姿势，也不限于每个场景中每个类别的单个对象。在这两个数据集上，我们显示我们的多视角解决方案在单视角基线上显著提高了姿态估计和6D检测精度。

2 Related work

我们的工作建立在基于RGB图像和对象级SLAM的单视图和多视图物体6D姿态估计结果的基础上。

单视图单对象6D位姿估计。

物体姿态估计问题[15，16]已经通过使用局部不变特征[3，13]从2D-3D对应关系估计物体姿态，或者通过使用模板匹配直接估计物体姿态[14]来实现。但是，局部特征不适用于纹理较少的对象，并且全局模板通常无法检测到部分遮挡的对象。这两种方法(基于特征和模板匹配)都使用深度神经网络进行了重新研究。卷积神经网络(CNN)可用于检测2D[4，6，18，21，22]中的对象特征或直接找到2D到3D的对应关系[5，7，8，23]。深度方法也被用来匹配隐式姿势特征，这可以在不需要地面真实姿势注释的情况下学习[12]。可以使用有效地在对象周围移动相机以使对象的渲染图像与输入图像最佳匹配的迭代过程来进一步细化对象的估计的6D姿势[4，10]。这样的改进步骤提供了重要的性能改进，并且正在成为评估过程的最后阶段的常见实践[8，11]。我们在第3.2节中描述的单视图单对象姿态估计建立在DeepIM[10]的基础上。使用深度传感器[10，11，18]可以进一步提高6D位姿估计的性能，但在这项工作中，我们关注的是最具挑战性的场景，即只有RGB图像可用。

多视图单目标六维位姿估计。

可以使用对象的多个视图来解决深度模糊问题，并获得有关遮挡的稳健性。以前使用局部不变特征的工作包括[15，16，24，25]，并且涉及某种形式的特征匹配，以建立跨视图的对应关系，从而聚集来自多个视点的信息。最近，利用深度神经网络重新讨论了多视图单对象姿势估计问题，该深度神经网络预测每个视图[20]中的对象姿势候选，并在假定相机姿势已知的情况下从多个视图聚集信息。相反，我们的工作并不假设摄像机的姿势是已知的。我们通过实验证明，尽管我们需要的信息更少，但是我们的方法要优于[20]。

多视点多对象6D姿态估计。

其他作品将场景中的所有对象放在一起考虑，以便以对象和摄像机姿势在公共坐标系中的紧凑表示形式联合估计场景的状态。这个问题被称为对象级SLAM[26]，其中基于深度的对象姿态估计方法[27]被用来从单个图像中的数据库中识别对象并估计它们的姿态。假设传感器的运动是连续的，则使用深度测量跨帧跟踪各个对象。连续的深度测量还可以使用ICP[28]生成相机姿势的假设，并在联合优化过程中最终细化对象和相机的姿势。另一种方法[29]使用局部RGBD面片来生成对象假设并找到场景的最佳视角。然而，所有这些方法都强烈依赖深度传感器来估计场景的3D结构，而我们的方法只利用RGB图像。此外，它们假定视图之间的时间连续性，这也不是我们的方法所要求的。

其他工作认为单目RGB仅限于目标级SLAM[30-32]。相关的还有[33]，其中跨多个视图和局部特征的语义2D关键点对应被用来联合估计单个人的姿势和观察摄像机的位置。所有这些工作都依赖于局部图像特征来估计相机姿势。相反，我们的工作利用了神经网络生成的6D姿势假设，该假设允许在基于特征的配准失败的情况下恢复相机姿势，例如，对于T-less数据集的复杂的无纹理图像就是这种情况。此外，[31，32]不考虑对象的全6D姿势，[20，33]只考虑每个对象的单个实例的场景。相比之下，我们的方法能够处理具有同一对象的多个实例的场景。

3 多视点多目标6维姿态估计

在这一部分中，我们提出了我们的多视点多目标姿态估计框架。我们首先概述一下该方法(SEC.。3.1和图2)，然后在其余部分详细说明该方法的三个主要步骤。

3.1方法概述

我们的目标是在给定一组RGB图像的情况下重建由多个对象组成的场景。我们假设我们知道感兴趣对象的3D模型。但是，场景中可以有多个相同类型的对象，并且没有关于场景中对象的数量或类型的信息。此外，在某些视图中可能看不到对象，摄影机之间的相对姿势也是未知的。我们的输出是一个场景模型，其中包括每种类型的对象的数量、它们的6D姿势以及摄像机的相对姿势。我们的方法由三个主要阶段组成，如图2所示。

图2：多视角多目标6D姿态估计。在第一阶段，我们分别获得每个视图中的初始候选对象。在第二阶段，我们将这些候选对象在不同的视图上进行匹配，以恢复单个一致的场景。在第三阶段，我们对所有物体和摄像机姿态进行全局细化，以最小化多视点重投影误差。

在第一阶段，我们在单视RGB目标检测和6D姿态估计的最新方法的成功基础上进行了改进。给定一组具有已知3D模型的对象和场景的单个图像，我们为每个对象输出一组候选检测，并且对于每个检测，输出对象相对于与该图像相关联的相机的6D姿势。请注意，这些检测和姿势有些是错误的，有些是丢失的。因此，我们认为在该阶段中获得的姿势是一组初始对象候选，即，可以在给定视图中看到的对象以及它们相对于该视图的姿势的估计。此对象候选生成过程在小节中介绍。3.2.。

第二阶段称为对象候选匹配，在小节中有详细介绍。3.3中，我们对多个视图中可见的对象进行匹配，以获得单个一致的场景。这是一个困难的问题，因为来自第一阶段的候选对象通常包括许多错误，这是由于(I)可能被误识别或姿势估计可能完全错误的严重遮挡对象；(Ii)相似对象之间的混淆；以及(Iii)未出现在训练集中且未被正确检测到的不寻常姿势。为了应对这些挑战，我们从运动结构(SFM)文献[34，35]中使用的稳健补丁匹配策略中获得灵感。特别是，我们设计了一种在精神上类似于[36]的匹配策略，但是我们在不同视图之间匹配整个3D对象以获得单个一致的3D场景，而不是匹配单个3D对象上的局部2D补丁[36]。

我们方法的最后阶段(在第3.4节中介绍)是全局场景优化。我们从捆绑调整[37]中获得灵感，但优化是在对象级别执行的：所有对象和相机的6D姿势都被细化，以最大限度地减少全局重新投影误差。

3.2阶段1：对象候选生成

我们的系统采用场景{ia}的多张照片和一组3D模型作为输入，每个照片与对象标签l相关联。我们假设与图像ia相关联的相机Caa的固有参数是已知的，这通常是单视图姿势估计方法中的情况。在每个视图Ia中，我们使用对象检测器(例如，FasterRCNN[38]，RetinaNet[39])获得一组对象检测，并且使用单视图单对象姿势估计器(例如，PoseCNN[18]，DPOD[8]，DeepIM[10])获得一组候选姿势估计。虽然我们的方法与使用的特定方法无关，但我们在DeepIM[10]的启发下开发了我们自己的单视图单对象姿态估计器，它比现有技术有了很大改进，我们将在下一段描述这一点。视图中的每个2D候选检测由索引α标识，并且对应于对象候选Oa、α，该对象候选与预测的对象标签La、α和相对于相机Ca的6D姿势估计TCaOa、α相关联。我们将6D姿态T∈SE(3)建模为由3D旋转矩阵和3D平移向量组成的4×4均匀矩阵。

单视图六维位姿估计。
本文介绍了一种基于DeepIM[10]思想的单视六维物体姿态估计方法，并对其进行了一些简化和技术改进。首先，我们使用基于EfficientNet-B3[40]的较新的神经网络结构，并且在训练时不包括辅助信号。其次，我们利用了最近在[41]中引入的旋转参数化，它已经被证明比四元数更稳定地产生CNN训练。第三，我们在[42]之后的损失中分离深度和平移预测，并像在[9]中那样显式地处理对称性，而不是使用点匹配损失。第四，我们不是像[10]中那样在训练过程中将焦距固定为1，而是使用与裁剪后的图像相当的相机焦距。第五，除了两个数据集提供的真实训练图像外，我们还使用为T-less提供的CAD模型和为YCB-Video提供的重建模型为每个数据集绘制了一百万幅图像。CNN首先只使用合成数据进行预训练，然后在真实图像和合成图像上进行微调。最后，我们在训练模型的同时对RGB图像进行了数据增强，这已经被证明是在T-less上获得良好性能的关键[12]。我们还注意到，这种方法只需在训练和测试过程中提供一个规范姿态作为输入姿态估计，就可以用于粗略估计。我们在距摄像机1米处渲染物体，并使用这种方法对T-less进行粗略估计。附录中提供了更多详细信息。

对象对称性。
处理对象的对称性是对象姿态估计的主要挑战，因为对象的姿态只能估计到对称。对于我们的对象候选姿势估计，这一点尤其正确。因此，我们需要明确地考虑对称性和姿态估计。每个3D模型l与一组对称S(L)相关联。遵循[43]中介绍的框架，我们将对称集S(L)定义为保持对象l的外观不变的变换集S：
其中R(l，X)是在姿势X中捕获的对象l的渲染图像，S是与对称关联的刚体运动。请注意，对于具有对称轴的对象(例如碗)，S(L)是无穷大的。

在给定3D对象l的一组对称性S(L)的情况下，我们定义了对称距离DL，它度量由变换T1和T2表示的两个6D姿势之间的距离。给定与|XL|3D点x∈XL的集合XL相关联的对象l，我们定义：
DL(T1，T2)测量通过T1和T2变换的点之间的平均误差，以使对称S最好地对齐(变换的)点。在实践中，为了计算具有对称轴的对象的这一距离，我们围绕每个对称轴使用64个旋转角对S(L)进行离散化，类似于[9]。

3.3.阶段2：对象候选匹配

如图2所示，给定所有视图的对象候选对象{Oa，α}，我们的匹配模块的目标是(I)移除不同视图之间不一致的对象候选对象，以及(Ii)匹配对应于同一物理对象的对象候选对象。我们通过以下两个步骤来解决这个问题：(A)选择所有视点对中的候选对象对；(B)场景级匹配。

A.2-视图候选对选择。
我们首先关注场景的单个视图对(Ia，Ib)，并找到所有对象候选对(Oa，α，Ob，β)，每个视图中一个对象对对应于这两个视图中的同一物理对象。为此，我们使用RANSAC程序，其中我们假设两个相机之间的相对姿势，并计算内插点的数量，即两个视图中一致的候选对象对的数量。然后，我们选择具有最多内置值的解决方案，这给出了两个视图中的候选对象之间的关联。在这一节的其余部分，我们将更详细地描述如何对相对相机姿势进行采样，以及如何定义内嵌候选对。

相对相机姿势的采样。
采样有意义的相机姿势是我们方法面临的主要挑战之一。事实上，直接随机采样可能的相机姿势的空间将是低效的。取而代之的是，像在RANSAC中一样，我们在两个视图中采样候选对象对(与相同的对象标签相关联)，假设它们对应于相同的物理对象，并使用它们来推断相对相机姿势假设。然而，由于对象可以具有对称性，单个候选对象对不足以获得没有歧义的相对姿势假设，因此我们采样了两对对象候选对象，这在大多数情况下足以消除对称性的歧义。

具体地，我们对两个具有成对一致性标签的候选对象对(Oa，α，Ob，β)和(Oa，γ，Ob，δ)进行了采样，并利用它们构建了一个相对相机姿势假设TCaCb。我们通过(I)假设(Oa，α，Ob，β)对应于相同的物理对象，以及(Ii)通过假设(Oa，γ，Ob，δ)也对应于相同的物理对象来消除对称性的歧义，从而选择使它们的对称距离最小的对称，从而获得相对相机姿势假设
其中l=la，α=lb，β是与第一对对象关联的对象标签，S是与第二对对象(Oa，γ和Ob，δ)关联的点云最佳对齐的对象对称。如果两个物理对象的并集是对称的，例如两个球体，则计算出的姿势可能不正确，但不会被第三对对象验证，并且该假设将被丢弃。

计算成对的Inlier候选者。
让我们假设相机TCaCb之间有一个相对姿势假设。对于第一视图中的每个对象候选Oa，α，我们在第二视图Ob，β中找到具有相同标签l=1a，α=lb，β的对象候选，其最小化对称距离DL(TCaOa，α，TCaCbTCbOb，β)。换句话说，在相机之间假设的相对姿势下，Ob，β是第二视图中最接近Oa，α的候选对象。如果关联的对称距离小于给定的阈值C，则这对(Oa，α，Ob，β)被认为是内插器。内插器的总数被用来对相对相机姿势TCaCb进行评分。请注意，我们放弃了内嵌器少于3个的假设。

B.场景级匹配。
我们使用应用于每个图像对的两视图候选对选择的结果来定义所有候选对象之间的图形。每个顶点对应于一个视图中的一个候选对象，而边对应于从两视图候选对选择中选择的对，即具有足够内嵌支持的对。我们首先删除孤立的顶点，这些顶点对应于尚未由其他视图验证的候选对象。然后，我们将唯一的物理对象与图中的每个连接组件相关联，该物理对象对应于来自不同视图的一组初始候选对象。我们称这些物理对象为P1，……PN，其中N是物理对象的总数，即图中连通分量的数量。我们写(a，α)∈Pn)表示对象候选Oa，α在对象Pn的连通分量中的事实。由于连接组件中的所有对象共享相同的对象标签(否则它们不可能被连接)，所以我们可以无歧义地将对象标签ln关联到每个物理对象Pn。

3.4阶段3：场景细化
经过前一阶段，知道了各个图像中候选目标之间的对应关系，去除了不一致的候选目标。最后一个阶段的目标是通过对物体和摄像机姿势进行全局联合细化来恢复唯一和一致的场景模型。
详细地说，此阶段的目标是估计由变换TP1表示的物理对象PN的姿势。。。、TPN和摄影机CV，由变换TC1、.。。。，TCV，在一个共同的世界坐标框架中。这类似于标准的捆绑调整问题，其目标是恢复场景的3D点以及相机姿势。这通常是通过最小化重建损失来解决的，该重建损失测量3D点的投影与它们在相机中的测量之间的2D差异。在我们的例子中，我们引入了在对象级别操作的重建损失，而不是像在捆绑平差设置中那样在点级别进行操作。
更正式地说，对于场景中出现的每个对象，我们引入一个考虑了对称性的对象候选重新投影损失。我们定义与物理对象PN相关联的候选对象Oa、α(即，(a，α)∈Pn))的损失以及相对于CAA的估计候选对象姿势TCaOa、α：
其中||·||是截断的L2损失，l=ln是物理对象Pn的标签，Tpn是对象Pn在世界坐标框架中的6D姿势，TCa是相机在世界坐标框架中的姿势，Xl是与对象l的3D模型相关联的3D点集，S(L)是对象模型l的对称性，并且运算符πa对应于相机Ca的固有校准矩阵在相机帧Ca中表达的3D点的2D投影。公式中的内部和。(5)是(I)对象模型l的3D点x与与物理对象相关联的变换Tcaoα的单视图估计(即，(a，α)∈Pn)(第一项，图像测量))与(Ii)通过相机Ca的全局估计(第二项，全局估计)投影到图像的对象Pnn上的3D点Tpnx之间的误差。

恢复最能解释测量的独特场景的状态包括解决以下共识优化问题：
其中第一和是所有物理对象Pn上的和，第二和是对应于物理对象Pn的所有对象候选Oa、α上的第二和。换句话说，我们希望找到对象姿势Tpn和相机姿势TCato的全局估计，以匹配在个体视图中获得的(Inlier)对象候选姿势TCaOa，α。该优化问题采用Levenberg-MarQuart算法进行求解。我们在附录中提供了更多详细信息。

表1：单视图6D姿态估计。在YCB-Video(A)和T-less数据集(B)上与最新方法的比较。

4结果

在本部分中，我们在YCB-Video[18]和T-less[19]数据集上对我们的方法进行了实验评估，这两个数据集都为包含多个对象的杂乱场景提供了多个视图和基本真实的6D对象姿势。在证券交易委员会。4.1，我们首先验证和分析了我们的单视图单目标六维位姿估计器。值得注意的是，我们的单视图单对象6D姿态估计方法已经改善了这两个数据集的最新结果。在证券交易委员会。4.2中，我们通过演示对单视图基线的一致改进来验证我们的多视图多对象框架。

4.1单视单对象实验

YCB-Video评估。
在[5，10，18] 之后，我们从12个测试场景的视频中评估了2949个关键帧的子集。我们使用标准的Add-S和Add(-S)指标及其曲线下面积18。我们使用与PoseCNN[18]提供的DeepIM[10]相同的检测和粗略估计来评估我们的精化方法。我们运行了两次姿势优化网络迭代。结果列於表一a。我们的方法比目前最先进的DeepIM[10]在Add-S和Add(-S)度量的AUC上改进了大约2个点。

对T-less的评估。
如第3.2节所述，我们使用单视图方法进行粗略姿势估计和精细处理。我们将我们的方法与最近两种仅支持RGB的方法Pix2Pose[7]和Implative[12]进行了比较。为了进行公平的比较，我们使用了与[7]中相同的RetinaNet模型中的检测。我们报告了SISO任务的结果[44]，并使用标准的视觉表面差异(VSD)回忆度量，其参数与[7，12]中的相同。结果载列於表1b。在evsd<0.3度量上，与现有最先进的方法相比，我们的{粗略+细化}解决方案获得了显著的34.2%的绝对改进。请注意，[10]没有报告T-less的结果。我们还在此数据集上评估了与DeepIM[10]中使用的组件相比，我们的单视图方法的关键组件的优势。更准确地说，我们评估了基本网络(我们的EfficientNet与FlowNet预先训练的)、损失(对称的、无纠缠的与L1范数的点匹配损失)、旋转参数化(我们使用[41]与四元数)以及数据增强(我们的颜色增强，类似于[12]与无)的重要性。损失、网络和旋转参数带来了微小但明显的改善。在T-less数据集上使用数据增强是至关重要的，在T-less数据集上，训练仅在暗背景下的合成数据和对象的真实图像上执行。

4.2多视图实验

如上所示，我们的单视图方法在两个数据集上都获得了最先进的结果。我们现在评估我们的多视图方法在具有多个对象和多个视图的场景中估计6D姿势的性能。

实现详情。在这两个数据集上，我们使用相同的超参数。在阶段1中，我们只考虑得分高于0.3的对象检测，以限制检测的数量。在第二阶段，我们使用RANSAC 3D Inlier阈值C=2 cm。此低阈值确保在关联候选对象时不会考虑离群值。对于每对视图，我们使用的最大RANSAC迭代次数为2000次，但只有包含数十个检测的T-less数据集的最复杂场景才能达到这一限制。例如，在两个视图的上下文中，每个视图中有六个不同的6D候选对象，仅15次RANSAC迭代就足以探索所有相对相机姿势假设。对于场景优化(阶段3)，我们使用100次Levenberg-MarQuart迭代(优化通常在不到10次迭代中收敛)。

评估详情。在单视图评估中，对象的姿势是相对于相机帧来表达的。为了与SingleView基线进行公平的比较，我们还评估了摄像机帧中的对象姿势，这是我们使用全局场景细化方法估计的绝对对象姿势和摄像机位置来计算的。6D姿态估计的标准度量强烈地惩罚了检测召回率低的方法。为了避免因删除无法在多个视图中验证的对象而受到惩罚，我们因此将初始候选对象添加到预测集合中，但其置信度得分严格低于我们的全景重建的预测。

多视图多对象定量结果。就我们所知，在由几幅从未知视点拍摄的RGB图像捕获的场景中，恢复多个已知对象的6D对象姿势的问题还没有在YCBVideo和T-less数据集上的先前工作报告结果中得到解决。最近的工作是[20]，它考虑了YCB-Video上的多视角场景，并使用地面真实相机姿势来对齐视点。在[20]中，使用5个视图提供预测结果。我们使用表2：多视图多对象结果。(A)在单视图和多视图场景中，我们的方法在YCB-Video数据集上的性能都明显优于[20]，而且不需要已知的摄像机姿势。(B)无人数据集上的结果。使用多个视图明显改善了我们的结果。

表3：场景优化阶段的好处。我们报告全局场景细化前后Inlier候选对象的姿势添加-S错误(以毫米为单位)。场景细化提高了6D位姿估计精度。

我们的方法使用相同数量的输入图像，但没有使用地面真实校准和报告结果，如表2a所示。我们的方法在单视图和多视图场景中的性能都明显优于[20]

我们还对T-less进行了多视角实验，观看次数可变。对于add-S<0.1d和evsd<0.3，我们遵循多实例BOP[44]协议。我们还分析了类似于目标检测的标准做法的准确率和召回率之间的权衡。我们考虑满足ADDS<0.1d和报表MAP@ADD-S<0.1d的正预测。表2b显示了1000张图像的活体任务的结果。据我们所知，还没有其他方法报告这项任务的结果。正如预期的那样，与单视图基线相比，我们的多视图方法带来了显著的改进。

场景优化的好处。为了证明全局场景细化(阶段3)的好处，我们在表3中报告了在求解公式(6)的优化问题之前和之后Inlier候选的平均Add-S误差。我们注意到明显的相对改善，在两个数据集上都有20%左右的改善。

相对相机位姿估计。该方法的一个重要特点是，它不需要知道摄像机的位置，而是从6D候选对象中稳健地估计出摄像机位置。我们研究了联合相机姿态估计的替代方案。首先，我们使用了流行的基于特征的SfM软件COLMAP[45，46]来恢复相机姿势。在YCB-Video数据集中随机抽样的5个视图组上，COLMAP只在67%的情况下输出相机姿势，而我们的方法有95%的情况下输出相机姿势。在比较困难的T-less数据集的8个视图组上，COLMAP只在4%的情况下输出相机姿势，而我们的方法只有74%的情况下输出相机姿势。因此，与COLMAP相比，我们的方法表现出了很大的兴趣，COLMAP使用特征来恢复相机姿势，特别是对于像T-less数据集中这样复杂的无纹理场景。其次，我们没有使用我们的方法估计相机姿势，而是使用两个数据集可用的地面真实相机姿势进行了调查。我们发现，与由我们的方法自动恢复的摄像机姿势相比，使用地面真实摄像机姿势的改进很小：T-less(4个视图)和YCBVideo(5个视图)在1%以内，T-less(8个视图)在3%以内。这表明，即使对于只包含对称对象的场景，我们的方法也可以恢复准确的相机姿势，就像在T-less数据集中一样。

定性结果。我们在图3中提供了恢复的6D对象姿势的例子，其中我们显示了候选对象和最终估计的场景。有关其他结果，包括故障模式的详细讨论，请参阅附录。YCB-Video的结果可以在项目网页6上看到。

计算成本。对于每个视图有4个视图和6个2D检测的常见情况，我们的方法大约需要320ms来预测场景的状态。该定时包括：用于估计所有候选的6D姿势的190ms(阶段1，粗略和细化网络的1次迭代)，用于对象候选关联的40ms(阶段2)和用于场景细化的90ms(阶段3)。例如，可以通过利用视频序列中的时间连续性来实现对实时性能的进一步加速。

5结论

我们开发了一种名为CosyPose的方法，用于恢复由多个未校准相机查看的多个已知对象的6D姿势。我们的主要贡献是将可学习的6D姿态估计与稳健的多视角匹配和全局细化相结合，以重建单个一致的场景。我们的方法显式地处理对象对称性，不需要深度测量，对丢失和错误的对象假设具有很强的健壮性，并自动恢复摄像机姿势和场景中的对象数量。这些结果向视觉驱动的机器人操作所需的健壮性和准确性迈进了一步，在具有移动摄像机的不受约束的场景中，并为将物体姿势估计包括在主动视觉感知循环中打开了可能性。