摘要
1 介绍
2 相关工作
- 2.1 合成视频数据集中的关系推理
- 2.2 视频推理架构
3 学习的设置:关于不可见物体的推理
4 我们的方法
5 LA-CATER数据集
6 实验
- 6.1 基准和模型变体
- 6.2评价指标
7 结果
- 7.1 使用完美感知进行推理
- 7.2 仅从可见帧学习
- 7.3 与CATER数据集的比较
- 7.4 定性的例子
8 结论

译者：子鱼
论文地址：https://arxiv.org/pdf/2003.10469.pdf
代码地址：https://github.com/ofrikleinfeld/ObjectPermanence
参考文献和附录请见原文。译者水平有限，错误难免，恳请读者批评指正。译者目前正在做这个方向的研究，欢迎读者与我交流，可博客留言或发邮件至infinitylyceum@163.com

摘要

客体永久性(Object Permanence)让人们可以推理不可见物体的位置，因为人们知道当一个物体不可直接感知时物体依旧存在。客体永久性在建立世界模型时很重要，因为自然视觉场景中的物体动态地互相遮挡或被包含。发展心理学的深入研究表明，客体永久性是一项具有挑战性的任务，是通过广泛的经验学习的。
本文介绍了从带标签视频中学习客体永久性的计划。我们解释了为什么这个学习任务可以被分解成四个部分：(1)可见的物体、(2)被遮挡的物体、(3)被另一个容器包含的物体、(4)被一个容器搬运的物体。第四个子任务最具有挑战性，因为它要求系统对不可见物体的移动位置进行推理。然后，我们提出了一个统一的深度体系结构，它学习在这四种场景下预测物体位置。我们在基于CATER的新数据集上对体系结构和系统进行了评估，发现它的性能优于以往的定位方法和各种基准。

1 介绍

理解动态的自然场景往往受到被包含或相互遮挡的物体的挑战。为了在这些视觉场景中进行正确的推理，系统需要发展一种客体永久性(OP)[20]的感觉。即理解物体继续存在并保持其物理特征，即使它们没有被直接感知。例如，我们希望系统了解到，被卡车遮挡的行人可能会从另一边出现，但进入汽车的人会从现场“消失。
OP的概念在认知发展文献中得到了广泛的关注。皮亚杰假设婴儿发育OP相对较晚（两岁），这表明，这是一项具有挑战性的任务，需要基于感觉-运动与物体的相互作用对世界进行深度建模。后来的证据表明，儿童学习被遮挡物体的OP要更早[1,2]。然而，只有在较晚的年龄，儿童才会发展对由其他物体包含的物体的理解[25]。基于这些实验，我们假设当不可见的物体被带到其他移动的物体中时，推断它们的位置可能会困难得多。

图1：在丰富的动态场景中推理物体的位置涉及四种不同的任务和两种不同类型的推理。(a)目标是一个红色的球，完全可见。(b)目标被静态立方体完全或部分遮挡。©目标位于立方体内，并被完全覆盖。(d)不可见目标位于另一运动物体内;即使它不直接可见，它的位置也会改变。

在视频场景中，对目标物体位置的推理涉及到四个不同的子任务，这些子任务的复杂度越来越高(图1)。这四个任务基于目标物体的状态，取决于它是否(1)可见，(2)被遮挡，(3)被包含或(4)被搬运。可见情况可能是最简单的任务，对应于目标检测任务，定位可见的物体。目标检测技术在计算机视觉系统中得到了广泛的研究，并被认为是计算机视觉系统的关键组成部分。第二项任务，被遮挡，是检测被一个移动物体遮挡的瞬间变得不可见的物体(例如，自行车被挡在卡车后面)。追踪遮挡下的物体是非常具有挑战性的，特别是在长期遮挡下[18,14,4,30]。

第三，在被包含场景中，目标物体可能位于另一个容器物体中，并变成不可见的(例如，一个人进入一个商店)。最后，第四种情况下被搬运的物体可以说是最具挑战性的任务。它需要推断出一个不可见的物体在一个移动的容器物体中的位置[28] (例如，一个人进入一辆离开场景的出租车)。这项任务最具有挑战性的方面是需要保存在每个时间点应该追踪哪个物体的一个表示，以及需要随着时间动态地“切换状态”。到目前为止，这一任务在计算机视觉界很少受到关注。

我们认为，关于不可见物体位置的推理应该解决两种截然不同的情况:遮挡和包含。首先，为了定位被遮挡的物体，智能体必须建立一个内部状态来模拟物体如何移动。例如，当我们观察一个人走在街上，我们可以预测她不断变化的位置，即使她被一辆大型公共汽车遮挡。在这种模式下，我们的推理机制会持续关注这个人，并从过去的数据中推断出她的位置。其次，定位被包含物体的方法是根本不同的。它需要一个推理机制来（从关注被包含的物体——译者注）切换到关注可见的物体容器。这里，即使被包含的物体是不可见的，它的位置可以准确地从可见的物体容器的位置来推断。我们将在下面说明，合并这两种推理机制可以在所有四个子任务中实现更精确的定位。

具体地说，我们开发了一个统一的方法来学习视频中的所有四个物体定位子任务。我们设计了一个深层架构，它学会了可能是可见的、被遮挡的、被包含的或被搬运的物体定位。我们的架构由两个推理模块组成，用于推理(1)被携带或被包含的目标和(2)被遮挡或可见的目标。第一个推理组件使用LSTM来衡量场景中物体被感知到的位置，来回答“现在应该追踪哪个对象?”第二个推理组件利用被追踪的对象的信息和先前已知的物体位置来定位目标物体，即使它被遮挡。最后，我们还介绍了一个基于来自CATER[8]的视频的数据集，其中添加了关于任务类型和所有物体的真实位置的新标签。

本文主要的贡献是：(1)我们概念化了定位不可见物体需要两种类型的推理：关于被遮挡的物体和关于被携带的物体。(2)我们定义了四种定位任务的子类型，并为CATER数据集引入了新注释，以方便对这些子任务的评估。 3)我们为所有四个子任务设计了一个新的统一架构，它可以捕获两种类型的推理，并且我们的经验验证了它优于多个强基准线。

2 相关工作

2.1 合成视频数据集中的关系推理

最近，一些研究提供了合成数据集来探索对象交互和推理。这些研究中的许多都是基于CLEVR[12]，一个被设计用于通过视觉问题回答来进行视觉推理的合成数据集。CLEVRER[31]将CLEVR扩展到视频，专注于物体相互作用背后的因果结构。它证明了基于感知任务的视觉推理模型在因果推理任务中往往表现得很差。

与我们的论文最相关的是，CATER[8]是一个关于视频中物体动作和交互的推理数据集。在CATER中定义的三个任务之一，“金色飞贼” (Snitch, CATER数据集中的一个特殊物体，长得像《哈利波特》里的金色飞贼——译者注) 定位任务，与这里研究的OP问题密切相关。它被定义为在视频结束时定位目标，目标通常是可见的。我们的工作改进了他们的设置，学习通过整个视频定位目标，并把预测分成四种类型的定位任务。最终，我们提供了解决复杂的定位任务所需的架构和推理的详细信息。

2.2 视频推理架构

最近的几篇论文研究了基于CNN的视频动作识别体系结构的有效性。许多方法使用三维卷积进行时空特征学习[3,27]并通过添加光流作为第二流来分离时空模式[6,24]（译者没看此处的参考文献，不知道这是什么意思，所以翻译可能有误——译者注）。这些模型在计算上很昂贵，因为三维卷积核的计算可能很昂贵。因此，他们可能限制序列长度到 20-30 帧[3,27]。在文献[33]中，他们提出了稀疏采样视频帧来捕获动作识别数据集中的时间关系。然而，对于含有长时遮挡和包含的序列，稀疏采样可能是不够的，这是我们OP任务关注的核心。

时间聚合的另一种策略是使用循环网络架构，如LSTM[10]，沿着时间维[32]连接底层CNN输出。[7,26,23]将LSTM与空间注意力相结合，随着视频的进行，学习注意视频帧中与任务相关的部分。在第6部分，我们实验了空间注意模块，它学习动态地注意相关对象。

遮挡物体追踪。 大量的工作已经用于追踪[18]对象。对于在复杂遮挡下的物体，如搬运，早期的工作是使用经典的技术和没有深度学习的方法来研究追踪。例如，[11,19]利用客体永久性的思想来追踪长期遮挡下的物体。他们利用自适应外观模型、空间分布和遮挡关系定位物体。相比之下，本文提出的方法侧重于单一的深度可微模型来学习端到端运动推理。[9]通过学习被遮挡物体的运动如何与其他可见物体的运动相耦合，成功地追踪被遮挡目标。不幸的是，这里研究的数据集CATER[8]，物体间运动耦合被设计得很弱。具体地说，当测量目标物体和其他物体的运动之间的相关性时(如[9])，我们发现94%的视频的相关性在统计学上不显著。

最近，基于Siamese神经网络的模型在目标追踪中实现了SOTA[5,15,34]。尽管这些架构很强大，但追踪高遮挡对象仍然是一大挑战[18]。[34]的追踪器，DaSiamRPN，扩展了[15]的区域提议子网络。它是专为长期追踪和处理全遮挡或视野外的场景而设计的。在CATER[8]中，DaSiamRPN被用作金色飞贼定位任务的基准，我们在第6节中评估了它在OP问题上的性能。

包含。最近很少有研究探讨包含关系的概念。[16]通过对包含关系的推理恢复了不完整的物体轨迹。[28]提出了一种无监督模型来分类空间关系，包括物体之间的包含关系。这些研究中定义的包含设定与这里定义的不同之处在于，所包含的对象始终至少是部分可见的[28]，或者包含不涉及搬运[16,28]。

3 学习的设置:关于不可见物体的推理

接下来我们正式定义OP任务和学习的设置。我们有一组视频v1,…,vNv_1,…,v_Nv1,…,vN，其中视频viv_ivi中的每一帧xtix_t^ixti都伴有目标物体的边界框位置BtiB_t^iBti 作为其标签。我们的目标是在每一帧预测一个目标物体的边界框 B^ti\hat B _t^iB^ti ，最接近(L1距离)真实的边界框BtiB_t^iBti。
我们定义了四个定位任务：(1)定位可见物体，我们将其定义为至少部分可见的物体。(2)定位被遮挡的物体，我们将其定义为被另一个物体完全遮挡的物体。(3)定位被一个物体包含的目标物体，因此也完全不可见。(4)定位由容器物体沿表面搬运的物体。因此，在这种情况下，目标物体是在完全不可见的情况下移动的。这四个任务一起构成了一个定位任务，我们称之为客体永恒性定位任务，或OP。
在7.2节中，我们还研究了半监督学习设置，在训练时，目标的位置BtiB_t^iBti只在可见的帧中提供。这与儿童学习客体永恒性的情况相对应，当一个物体被隐藏时，关于它的位置没有明确的反馈。
值得注意的是，我们这里讨论的任务与关系或反应识别的任务有何不同[13,17,22]。在这些任务中，模型被训练为输出描述交互或关系名称的显式标签(例如,“后面(behind)”,“携带(carry)”)。在我们的任务中，模型的目标是预测目标物体的位置(一个回归问题)，但是它没有被训练来明确地命名它(遮挡，包含)。虽然模型可能会创建一些描述可见性类型的隐式表示，但这不是由损失函数或体系结构强制要求的。

图2：客体永久性网络(OPNet)的结构由三个部分组成。(a)用于检测的感知模块。(b)推理模块，在搬运或包含目标的情况下，用于推断要跟踪哪个目标。©第二推理模块，用于被遮挡或可见目标，并用于细化预测目标的精确位置。

4 我们的方法

我们描述了一个用于处理OP任务的四个定位子任务的深度网络架构。我们将该体系结构称为OPNet。它包含三个模块，用于实现促进OP的感知和推理计算(参见图2)。

感知检测模块(图2a):感知模块，负责检测和追踪可见物体。我们使用了一个Faster R-CNN[21]物体检测模型，根据数据集中的帧进行了微调，作为模型的感知组件。经过预训练，我们使用检测器输出任意给定帧中所有物体的边界框和可见性标识。具体地说，我们用一个K×5矩阵表示一帧。矩阵中的每一行使用5个值代表一个物体：4个边界框的值(x1,y1,x2,y2)(x_1,y_1,x_2,y_2)(x1,y1,x2,y2)和一个可见性标识。随着视频的进行，我们为每个新识别的物体分配唯一的行。如果在给定帧中未检测到某物体，则将其对应的信息(指定的行)设置为零。实际上，K = 15是我们数据集中单个视频中物体的最大数量。值得注意的是，我们使用的数据集中的视频不包含两个相同的物体，但我们发现检测器有时会将一个物体错当成另一个物体。

“追踪谁” 模块(图2b) (原文这里是2c，下段是2b，疑有误——译者注)：负责了解当前是哪个物体是遮蔽了目标。该组件由一个具有包含256个神经元的一个隐藏维度的单一LSTM层，和一个线性投影矩阵组成。在将LSTM应用到物体边界框之后，我们将其输出投影到K个神经元，每个代表这一帧中的一个不同的物体。最后我们应用一个softmax层，在这一帧的物体上产生一个分布。这个分布可以被看作是一个聚焦于覆盖此帧中目标的物体的注意力遮罩。重要的是，我们没有对这种注意力遮罩提供明确的监督(例如，通过在培训期间明确地“告诉模型”什么是正确的注意力面具)。相反，我们唯一的监督是目标的位置。这个模块的输出是5个数字每帧。其计算方法为前一阶段K×5个输出的加权平均值，用注意力遮罩加权。

“它在哪” 模块(图2c)：学会预测被遮挡目标的位置。最后一个组件由第二个LSTM和一个投影矩阵组成。使用前一个组件的输出，该组件负责预测目标位置。它接受前一步的输出(每帧5个值)，将其输入到LSTM中，并将其输出投射到四个单元中，这四个单元代表每帧目标的预测边界框。

5 LA-CATER数据集

为了训练模型并评估它们在上面定义的四个OP子任务上的性能，我们向CATER数据集[8]引入了一组新的标记。我们将其称为定位标记(LA-CATER)。

CATER数据集由使用Blender 3D引擎编程生成的5500个视频组成。每个视频长10秒(300帧)，包含5到10个对象。每个物体的形状(立方体、球体、圆柱和圆锥)、大小(小、中、大)、材料(闪亮的金属和哑光橡胶)和颜色(八种颜色)都有特点。每个视频都包含一个金色的小球体，被称为“金色飞贼”，它被用作需要定位的目标对象。

出于这项研究的目的，我们生成的视频与CATER使用的类似，但我们在生成视频时计算了额外的标记。具体地说，我们用所有物体的真实边界框位置增强了CATER数据集。通过把物体的三维坐标投影二维像素空间，这些标记以编程方式从Blender引擎中提取出来。

我们进一步用详细的帧级标记标注视频。每一帧都被标记为四种类型之一：可见、完全遮挡、被包含(即，被覆盖，静态的和不可见的)和被搬运的(即，被覆盖，移动的和不可见的)。这种帧分类对应着OP问题的四个定位子任务。为了计算这些标记，我们计算了从摄像机位置开始的视线，以确定一个目标是被另一个物体遮挡还是遮挡了它。

LA-CATER包括1.4万个被分成训练，验证和测试数据的视频。对于每个定位子任务的视频帧数，请参见表1。关于数据集准备的进一步细节在附录C中提供。

表1：在LA-CATER的训练，验证和测试集中，每个类型的帧的比例。遮挡和搬运任务的帧只占不到8%，但它们提出了最具挑战性的预测任务。

6 实验

我们描述了我们的实验设置，比较方法和评估指标。实施详情载于附录B。

6.1 基准和模型变体

我们将我们提出的OPNet与其他六种为解决OP任务而设计的架构进行比较。因为我们不知道以前是否有为了一次性解决所有的OP任务设计的统一架构，我们使用现有的模型作为基准线中的组件。所有基准线模型都接收到目标检测组件的预测(感知)作为它们的输入。

(A) 程序化模型。我们评估了两个程序化模型。这些模型是“硬编码的”，而不是学习得来的。它们被设计用来反映程序化解决推理任务的模型。

(1)检测器+跟踪器。该方法利用检测到的目标物体位置，启动DaSiamRPN追踪器[34]追踪目标。当目标物体不再可见时，追踪器将重新启动以追踪位于目标物体的最后已知位置的对象。
(2)检测器+启发式。当目标未被检测到时，模型从追踪目标物体切换到追踪距离目标物体最后已知位置最近的目标。该模型还采用启发式逻辑来调整当前跟踪目标和原始目标的大小。

(B) 学习模型。我们评估了4个学习基准，并提高了表示复杂度。

(3)OPNet。我们设计的模型，如第4节所述。
(4)基准LSTM。该模型使用一个隐藏状态为512个神经元的单向LSTM层，在时域(帧)维度上运行。LSTM的输入是物体输入表示的串联。这是最简单的学习基准，因为输入表示在被输入到LSTM之前没有进行非线性转换。
(5)非线性+ LSTM。该模型是对前一个模型的扩充，增加了场景表示的复杂性。使用线性层和ReLU激活函数对输入表示进行上采样，从而为框架中的每个对象生成一个256维的向量表示。这些高维对象表示被连接到LSTM中。
(6)Transformer + LSTM。这个模型扩充了之前的基准，为框架中的对象引入了更复杂的表示。在对输入表示进行上采样后，我们使用了Transformer 编码器[29]，在帧内所有物体上使用了自注意力。我们使用了一个有2层和2个注意头的Transformer 编码器，产生一个包含目标表示的单一向量。这些值与框架中的其他物体相对应，然后被送入LSTM。
(7) LSTM + MLP。这个模型(图2)去除了第4节中给出的模型中的第二个LSTM模块(c )。

6.2评价指标

我们通过比较目标预测位置和目标真实(Ground truth, GT)位置来评估模型在给定帧t下的性能。我们使用如下的两个度量指标。第一，交并比(IoU)。
IoUt=BtGT∩BtPBtGT∪BtPIoU_t=\frac{B_t ^{GT}\cap B_t^P}{B_t^{GT} \cup B_t^P } IoUt=BtGT∪BtPBtGT∩BtP这里BtPB_t^PBtP表示在帧t的目标物体预测框，BtGTB_t ^{GT}BtGT表示真实边界框。
其次，我们使用平均的平均精度(MAP)度量来评估模型。MAP是通过对每一帧使用指示函数来计算的，确定IoU值是否大于预先定义的阈值，然后在单个视频和数据集中的所有视频中对帧进行平均。
AP=1n∑t=1n1t,where1t={1IoUt>IoUthreshold0otherwiseMAP=1N∑v=1nAPvAP=\frac{1}{n} \sum_{t=1}^n \bold{1_t},\qquad where \bold{1_t}=\left\{ \begin{array}{cl} 1 & IoU_t>IoU \ threshold \\ 0 & otherwise \end{array} \right.\\ MAP=\frac{1}{N}\sum_{v=1}^nAP_v AP=n1t=1∑n1t,where1t={10IoUt>IoU thresholdotherwiseMAP=N1v=1∑nAPv这些每帧指标允许我们分别量化四个OP子任务的性能。

7 结果

我们首先将OPNet与6.1节中提供的基准线进行比较。然后，我们通过在7.1节中使用“完美感知”重复评估，对模型的性能提供更多的见解。第7.2节描述了只使用可见框架的半监督训练设置。最后，7.3节在原始的CATER数据上，我们将OPNet与CATER论文中提出的模型进行比较。

表2：各模型在LA-CATER测试数据上的平均IoU性能。“±”表示均值的标准误差(SEM)。OPNet在所有子任务中始终执行良好。此外，在包含和搬运两种帧上，OPNet明显优于其他方法。

我们首先比较OPNet和6.1节中提供的基准线。表2显示了四个子任务中所有模型的IoU，图3显示了不同IoU阈值下模型的地图精度。
从表2中可以看出，OPNet在所有子任务中始终执行良好，并且总体上优于所有其他模型。在可见和被遮挡帧的性能类似于其他基准线，但在被包含和被搬运帧上，OPNet明显优于其他方法。这可能是由于OPNet对要追踪的物体进行了显式建模。

表2还报告了两种OPNet变体的结果:OPNet (LSTM+MLP)和OPNet (LSTM+LSTM)。前者缺少了用于处理遮挡的第二个模块(图2中的“它在哪”)，实际上对于遮挡帧(“遮挡的”和“包含的”子任务)性能较差。这突出了使用图2中的两个LSTM模块的重要性。

图3：平均的平均精度(MAP)作为IoU阈值的函数。当IoU阈值较低时，检测器+追踪器(蓝色)和检测器+启发式(橙色)这两种编程模型表现良好，提供了较好的目标位置粗略估计。OPNet在所有子任务上执行得很好。

图3提供了对程序化模型行为(即检测器+追踪器和检测器+启发式)的有趣洞察。可以看出，当IoU阈值较低时，这些模型表现良好。这反映了这样一个事实，即他们对目标的位置有一个很好的粗略估计，但不能提供更精确的定位。另一方面，我们的OPNet模型在精确定位方面做得很好，大概是因为它学习了“它在哪”模块。

7.1 使用完美感知进行推理

OPNet模型包含一个初始的“感知”模块，它分析帧像素以获得边框。这个组件中的错误将自然地传播到模型的其余部分，并对结果产生不利影响。在此，我们分析了将感知模块替换为真实边界框和可见性标识的效果。请参阅附录D了解提取真实边界框标记的详细信息。在这种设置中，所有的错误都反映了模型的推理组件的失败。

表3：完美感知设置下的平均IoU表现。“±”表示均值的标准误差(SEM)。结果在本质上与那些不完善的、基于检测器的感知相似(表2)。所有模型在使用真实感知信息时都得到了改善。使用OPNet改进最多的子任务是搬运任务。

表3提供了IoU性能，图4提供了四个子任务上所有比较方法的映射。结果与之前的结果相似。与上一节(不完善的, 基于检测器的感知)相比，总体趋势是一样的，但是所有模型在使用真实感知信息时都有所改善。有趣的是，使用真实边界框改进最多的子任务是搬运任务。这是有意义的，因为它是最困难的子任务，并且最依赖于每个帧中正确的物体位置。

图4：平均的平均精度(MAP)作为IoU阈值的函数，用于使用完美感知进行的推理7.1节)。OPNet最显著的性能增益(粉色和棕色曲线)是搬运目标(子任务d)。

7.2 仅从可见帧学习

现在我们研究一种学习设定，在这种设定中，位置监督只能用于目标对象可见的帧。这种设定更自然地对应于人们学习客体永久性的过程。例如，想象一个孩子第一次学习追踪一个被搬运的(不可见的)物体，只有当这个物体再次出现在场景中时，他才会收到令人惊讶的反馈。

当目标是不可见的，没有任何监督，合并一个额外的辅助损失以说明这些帧是必要的。为此，我们合并了一个辅助一致性损失函数，用来最小化连续帧的预测之间的变化。Lconsistency=1n∑t=1n∣∣bt−bt−1∣∣2L_{consistency}=\frac{1}{n} ∑_{t=1}^n||b_t-b_{t-1} ||^2 Lconsistency=n1t=1∑n∣∣bt−bt−1∣∣2总损失定义为定位损失和一致性损失之间的插值，平衡它们的不同尺度：L=α⋅Llocalization+β⋅LconsistencyL=\alpha \cdot L_{localization}+\beta\cdot L_{consistency} L=α⋅Llocalization+β⋅Lconsistency在补充部分提供了关于选择α\alphaα和β\betaβ的数值的细节。

表4显示了该设定的平均IoU(与表2比较)。基准线在目标可见、完全遮挡或被包含而不移动时表现良好。这种现象与一致性损失的归纳偏差是密切相关的。通常，为了解决这些子任务，模型只需要预测最后已知的目标位置。这就解释了为什么OPNet (LSTM+MLP)模型在这种设置中表现如此糟糕。

我们注意到，非OPNet模型在所执行任务上的性能类似于在完全监督下获得的性能(见表2，第7节)。这表明，这些模型未能对“被搬运”任务进行监督学习，进一步强化了对被搬运物体的定位任务非常具有挑战性的观点。

表4：仅可见帧的监督设定下的IoU表现。“±”表示均值的标准误差。当目标是可见的，完全遮挡或包含不移动时，模型表现良好，但当目标被搬运时则不行。

7.3 与CATER数据集的比较

原始的CATER 论文[8]考虑了“金色飞贼定位”任务，目标是在视频的最后一帧定位金色飞贼，并将其形式化为一个分类问题。x-y平面被划分成一个6×6的网格，目标是预测网格中正确的单元格。

在这里，我们评估了OPNet和在[8]中精确设置下的相关基准线的性能，以便于比较我们的模型和这里报告的结果。表5显示了此评估的精度和L1距离指标。OPNet大大改进了[8]的所有基准线。分类误差由40%降低到24%，L1距离由1.2降低到0.54。

表5：在CATER数据集上使用[8]中的指标的分类精度。OPNet大大提高了金色飞贼定位任务的所有基准线。

7.4 定性的例子

为了深入了解我们的模型的成功和失败，我们现在分析一些具体的例子。我们提供了两组例子来说明:(1)同一组视频的基准线和变体之间的比较;(2)我们的方法的得失。

模型的比较。 我们展示了两个比较OPNet与基准线和其他变体的视频。在两个视频中，对同一视频场景采用了四种竞争方法。我们建议慢速播放视频。
图5：截图来自模型比较视频文件。蓝框表示真实位置，黄框表示预测的位置。OPNet(我们的方法)在右下角。(a)目标被拦截，然后由蓝锥携带，成功被OPNet捕获。(b)目标被红色锥体和紫色球所遮挡。这些遮挡混淆了所有基准线方法，而OPNet精确定位了目标。

第一个模型比较视频(https://youtu.be/TZgoxoKcGrE)展示了四种方法分析的一个视觉场景。OPNet(我们的方法)在整个视频中成功定位目标。当目标被“搬运”时，Transformer模型(左下角)不能切换，它会一直预测目标的最后位置，而不是追踪被搬运的目标。追踪器模型(左上角)切换到错误的对象。启发式模型(右上)成功跟踪包含目标的对象，并很好地调整到目标大小。如图5(a)所示。
第二个模型比较视频(https://youtu.be/KoxbhgalazU)展示了四种方法分析一个的视觉场景。在这个视频中，目标被多个物体遮挡，包括完全遮挡，这使得追踪变得困难。当目标完全被一个大物体遮挡时，追踪器、启发式和OPNet MLP模型偶尔会偏离目标。OPNet(我们的方法)在整个视频中成功定位目标。参见图5 (b)。

OPNet的得失。 我们提供了一些有趣的OPNet成功和失败的例子，增加了对OPNet模型行为和局限的理解。

图6：定位被搬运对象的成功案例(上)和失败案例(下)的示例。蓝框表示真实位置。黄框表示预测位置。上：(a)目标物体可见;(b-c)橙色锥体覆盖和搬运目标;(d-e)大的金色圆锥体覆盖并搬运橙色圆锥体，这里出现了递归遮挡。目标对象是不可见的，但是OPNet成功地跟踪了它。下： (c-d) OPNet意外切换到错误的锥对象(黄色的锥代替了棕色的锥); (e) OPNet正确地找到了黄色圆锥体，并切换到追踪下方的蓝色球。

视频 https://youtu.be/FnturB2Blw8 提供了一个“成功”的例子。它演示了OPNet的强大功能以及它的“追踪谁”推理组件。在视频中，模型处理递归包含的各个阶段，其中包括“搬运”。这表明，尽管OPNet没有经过明确的训练，但它学会了物体动作的内隐表征(拾取、滑动、包含等等)。见图6(上)
视频 https://youtu.be/qkdQSHLrGqI 说明了我们模型的一个失败之处。它展示了一个例子，当目标被“搬运”时，OPNet不能在被跟踪的对象之间切换。模型不小心切换到一个错误的锥对象(黄色的锥)，它已经包含了另一个对象，而不是目标。有趣的是，OPNet正确地识别了黄色锥体被捕捉到的时间，并切换到追踪黄色锥体中包含的蓝色球体。这表明，OPNet已经隐式地学会了对象执行动作的“含义”，而没有经过明确的训练。见图6(下)。

进一步的见解可以通过比较OPNet的“追踪谁”模块的注意力遮罩和包含或搬运对象的真实位置来提供。图7比较了这些遮罩的成功和失败案例。可以看到，OPNet很好地跟踪了大多数帧的正确对象。

图7：在不同对象之间切换注意力。在每一对图形中，每一行表示在整个视频的每一帧中真实位置(左)和预测注意力(右)分配给某一个对象的概率。(a)系统成功地将注意力从物体1(目标)上转移，当它被物体6包含，然后被物体3搬运。(b)从物体1成功切换到10后，系统错误地切换到物体3。

8 结论

我们考虑了在一个高度动态的场景中定位一个目标物体的问题，在这个场景中，对象可以被另一个对象遮挡、包含甚至搬运。我们根据一个认知概念将这一任务命名为“客体永久性”，即目标物体在场景中存在，但以各种方式被遮挡和搬运。我们提出了一个称为OPNet的架构，其组件对应于解决OP问题的自然感知和推理阶段。具体地说，它有一个模块，如果它推断出对象包含或搬运目标，它就学会将注意力转移到另一个对象上。我们的经验评价表明，这些成分是提高该任务的准确性所需要的。

我们的结果突出了完美感知和基于像素的检测器之间的差距。在开放世界的背景下，将OP应用于更复杂的自然视频时，预计这种差距可能会更大。为了缩小这一差距，进一步改进检测体系结构将是很有意义的。

【论文翻译】（ECCV2020）Learning Object Permanence from Video 从视频中学习客体永久性相关推荐

[论文翻译] Deep Learning
[论文翻译] Deep Learning 论文题目:Deep Learning 论文来源:Deep learning Nature 2015 翻译人:BDML@CQUT实验室 Deep learnin ...
CLIP论文翻译、Learning Transferable Visual Models From Natural Language Supervision翻译
CLIP论文翻译.Learning Transferable Visual Models From Natural Language Supervision翻译文章目录 CLIP论文翻译.Learn ...
[论文笔记 ECCV2020] Learning to Count in the Crowd from Limited Labeled Data
[论文笔记 ECCV2020] Learning to Count in the Crowd from Limited Labeled Data 摘要 Abstract 贡献 Contribution ...
[论文翻译]Deep Learning 翻译及阅读笔记
论文题目:Deep Learning 论文来源:Deep Learning_2015_Nature 翻译人:BDML@CQUT实验室 Deep Learning Yann LeCun∗ Yoshua ...
[论文翻译]Deep learning
[论文翻译]Deep learning 论文题目:Deep Learning 论文来源:Deep Learning_2015_Nature 翻译人:BDML@CQUT实验室 Deep learning ...
【论文翻译】Learning from Few Samples: A Survey 小样本学习综述
论文链接:https://arxiv.org/abs/2007.15484 摘要 Deep neural networks have been able to outperform humans in ...
论文翻译《Background modeling methods in video analysis: A review and comparative evaluation》
Abstract 前景检测方法可以有效地将前景对象(包括运动或静态对象)与背景区分开来,这在视频分析尤其是视频监控应用中具有重要意义.一个良好的背景模型可以获得良好的前景检测结果.虽然已经提出了很多背 ...
[论文翻译] Class-incremental learning: survey and performance evaluation on image classification
论文地址:https://arxiv.org/abs/2010.15277 代码:https://github.com/mmasana/FACIL 发表于:arXiv Oct 2020 省略了图.表的 ...
【论文翻译】Few-Shot Object Detection and Viewpoint Estimation for Objects in the Wild
Few-Shot Object Detection and Viewpoint Estimation for Objects in the Wild 野外目标的小样本目标检测与视点估计论文地址:ht ...

【论文翻译】（ECCV2020）Learning Object Permanence from Video 从视频中学习客体永久性

目录

摘要