ECCV 2020 Representation Learning on Visual-Symbolic Graphs for Video Understanding

动机

自然视频中的事件通常产生于演员和目标之间的时空交互，并且涉及多个共同发生的活动和目标类。因此，需要开发能够对时空视觉和语义上下文进行有效建模的算法。
捕捉这种上下文的一种方法是使用基于图的建模，它在计算机视觉中有着丰富的历史。
传统的基于图的方法，例如使用概率图模型，主要侧重于在符号而不是信号/视觉表示的层次上对上下文进行建模。然而，最近的进步使得图结构化数据的表示学习能够使用称为图神经网络（GNNs）的深层架构，这些架构学习如何通过聚合来自其邻居的消息来迭代更新节点表示。
视频可以表示为视觉空间-时间属性图（视觉st图），其节点对应于由目标检测器获得的区域，并且其边捕获这些区域之间的交互。GNNs最近被设计用于细化局部节点/边特征，该特征通常由卷积神经网络提取，基于由图捕获的时空上下文。
虽然GNNs对视觉ST图的表示学习已经导致了视频理解方面的重大进展，但是现有的方法有四个关键的限制，阻碍了它们充分利用这些图的丰富结构。

1）首先，大多数GNN假设相同类型的节点/边。在实践中，可视st图是异构图，其具有不同的节点类型（演员、目标）和边类型（例如目标到演员的空间和演员到演员的时间），每种类型与潜在不同维度和语义的特征相关联，如图1的示例所示。由于这一限制，最近在明确地为演员和目标建模方面的尝试都诉诸于为每个节点/边类型应用单独的GNN。

2）其次，大多数方法都是对一个固定结构的图进行操作，检测区域之间具有密集连通性。实际上，只有少数边捕获有意义的交互。

3）第三，现有的方法没有结合边特征来更新节点表示。

4）最后，尽管对局部视觉环境进行建模，但现有的方法没有在全局视频级别或利用常识性语义标签关系进行推理，这在图像识别领域已被证明是有益的。

方法

简介

为了解决这些限制，作者提出了一种新的图神经网络(GNN)模型，称为视觉符号-时空-消息传递神经网络（VS-ST-MPNN）来在视觉st图上执行表示学习以获得检测到的演员和目标的上下文感知表示（图1）。作者的模型采用了可学习的邻域聚合机制（learnable neighborhood aggregation mechanisms），针对每个节点和边类型进行了专门的聚合，以迭代地细化参与者和目标的表示。作者还通过一个专门针对每种类型的交互的注意力机制来调整图的连通性。例如，一个演员节点将分别处理上一帧的演员节点和当前帧的目标节点。此外，作者利用区域间的几何关系初始化边特征，并对其进行细化，用于自适应图的连通性。直观地看，彼此接近或正在交互的节点应该是强连接的。最后，作者的一个关键贡献是引入了一个属性符号图，其节点对应于语义标签，如动作，由词嵌入描述，其边捕获标签关系，如共现。作者将两个图的信息与它们节点之间的可学习关联权重进行融合，并对符号图进行全局语义推理。重要的是，作者不需要目标、轨迹或每个可视节点的语义标签的GT（ground truth）标注。

架构

作者提出的VS-ST-MPNN模型的总体架构如图2所示。作者的目标是细化检测到的行为体的特征，目标和它们的基于两个图中捕获的上下文信息的交互：一个可视的st图和一个符号图。通过一种新的GNN来实现精化，该GNN a）通过利用边特征和学习针对不同节点和边类型的专门的基于注意力的邻域聚合函数来利用视觉st图的丰富结构；b）通过结合一个语义推理模块（semantic reasoning module）和一个软分配模块（soft-assignment module）来实现与符号图的融合，该语义推理模块学习语义关系感知特征，该软分配模块连接视觉和符号图节点，而不需要在训练期间访问区域的GT语义标签。然后上下文感知特征可以用于下游的视频理解任务。

VS-ST-MPNN模型

该模型在混合视觉-符号图上执行表示学习。给定一个表示为视觉st图的输入视频，其中节点对应于检测到的演员和目标，边捕获潜在的交互，作者的框架有两个模块将上下文集成在其节点和边的局部表示中：(a)视觉上下文模块（Visual Context Module）在视觉图上执行L轮节点和边更新，其具有依赖于边的类型的专门的邻域聚合函数，以及(b)语义上下文模块（ Semantic Context Module）将视觉证据与编码在外部符号图中的语义知识集成在一起，并学习全局语义交互感知特征。

具体包括：

视觉上下文模块。

1）视觉化st图。作者的输入是一个T帧序列，带有检测到的演员和目标区域。设G^v=(V^v，E^v）是一个空间-时间属性有向图，称为视觉st图，其中V^v是一个有限顶点集，E^v⊆V^v×V^v是一组边。节点对应于演员和目标检测，而边则建模潜在的交互。每帧有M个演员和N个目标。图2举例了一个玩具实例，其中M=1，N=2，T=2。

该图具有节点类型和边类型，其中有N个节点类型，ε 个边类型。例如，节点类型（N

=2）是演员和目标，边类型（ε =5）可以是：目标到演员空间的（obj-act-s），演员到目标空间的（act-obj-s），演员到演员时间的（act-act-t）和目标到目标时间的（obj-obj-t）。每个节点和边与初始属性向量相关联，该初始属性向量的维数可根据节点/边类型而变化。演员/目标外观特征可以作为节点i(h_i⁽⁰⁾)的初始属性，而区域i、j的相对空间位置可以作为从j到i(h_ij⁽⁰⁾)的边的初始属性。视觉st图的节点之间允许的空间-时间连接由二进制邻接矩阵L^v∈{0, 1}^|V^v^|×^|V^v^|的一个先验指定。例如，作者可以约束时间边来连接第t帧处的节点与时间t-1处的相同类型的另一个节点。L^v定义了每个节点的邻域，从而对模型捕获的时空交互的家族进行编码。

2）视觉ST-MPNN。给定具有初始节点{h_i⁽⁰⁾}_i∈V^v和边属性/特征{h_ij⁽⁰⁾}_(i,j)∈E^v的输入视觉st图G^v，作者分别引入了新的GNN传播规则在视觉st图上执行表示学习，目标是利用时空上下文线索提炼局部节点和边属性。在每一次的节点和边提炼迭代中，作者的模型：（1）通过使用注意力系数提炼标量边权值来适应视觉st图的连通性；

（2）根据边的类型、基于注意力的标量边权重、连接节点的属性和边属性，沿每条边计算一条消息；

（3）通过聚集来自传入边的消息来更新每个节点的属性；

（4）通过使用在其旁边计算的消息更新每个边的属性。
语义上下文模块。

符号图。设G^s=（V^s，E^s）为输入符号图，其中V^s和E^s分别表示符号集和边集。这个图的节点对应于语义标签，如动作标签或目标标签。每个符号节点c与语义属性相关联，例如标签的语言嵌入（s_c∈R^K)。符号图中的边与标量权重相关联，标量权重编码标签关系，如共现。这些边权在固定邻接矩阵L^s∈R^|V^s^|×^|V^s^|中总结。

视觉证据与符号图的集成：作为第一步，作者使用视觉证据更新符号图的属性，即视觉st图节点的视觉上下文感知表示。为了实现这一点，作者不需要访问区域的GT语义标签，作者学习视觉图和符号图的节点之间的关联。关联权值表示将特征从视觉节点i分配给符号节点C的置信度。例如，当作者的符号节点对应于动作类时，作者可以禁用目标和符号节点之间的连接。在计算投票权重之后，每个符号节点与投影的视觉节点特征的加权和相关联。新的表示将每个符号图节点c计算为语言嵌入和视觉特征的拼接。

语义图推理：作者通过在符号图的节点上应用vanilla GCN来学习语义关系感知特征。GCN通过迭代应用传播规则:S^(r+1)=GCN(S^®, L^s)，得到演化的符号节点特征S^®，其中S^®表示在第r次迭代时符号节点嵌入的矩阵。

视觉化st-graph的更新：符号图上经过R次图卷积迭代后得到的演化符号节点表示可以映射为视觉st图，从而视觉节点的表示可以通过全局语义上下文得到丰富。为了实现这一点，作者计算符号节点到视觉节点的映射权重（注意力系数）。

实验

数据集

CAD-120。该数据集affordance120个RGB-D视频序列，每个视频显示由一系列sub-activity（例如，移动、饮用）和object affordances（例如，可到达、可饮用）组成的日常活动。给定时间片段，任务是将每个片段中的每个演员划分为10个sub-activity类中的一个，将每个目标划分为12个affordance类中的一个。评估采用4-fold、leave-one-subject-out、交叉验证的方法，使用所有类的F1分数的平均值作为评估指标。通过数据集（包括手工的演员和目标的特征以及几何关系）提供了视觉st图，它是比较不同GNN的一个特别好的测试平台。

Charades。Charades是一个包含9848个RGB视频和157个动作类的标注的大型数据集，其中许多涉及人与目标的交互。每个视频平均包含6.8个活动实例，其中许多是共同发生的。根据平均精度(mAP)来测量多标签动作的时间定位性能，评估1.8K验证视频中每个视频中25个等距帧的每帧预测。ActivityNet Entities。最近发布的ActivityNet Entities数据集包含15K个视频和超过158K个带标注的边界框，其任务是在一个GT视频片段中生成一个描述事件的句子，并在空间上定位属于432个目标类词汇表的所有生成的名词。生成的captions的质量使用包括Bleu(B@1，B@4)、METEOR(M)、CIDEr©和SPICE(S)的这些标准度量来衡量，而目标定位的质量则使用F1_all、F1_loc度量来评估生成的句子。使用评估服务器获得测试集上的目标定位结果。

实验细节

CAD-120。作者使用随数据集提供的视觉化st-graph，它在输入视频的每个时间片段的演员和目标上实例化，包含5种边类型:obj-obj-s、obj-act-s、act-obj-s、act-act-t和obj-obj-t。作者构造了一个符号图，该图具有对应于10个sub-activity和12个affordance类的节点，边权重捕获训练数据中每帧类的共现。每个符号节点的属性是通过使用大小K=300的现成word2vec类嵌入获得的。演员（目标）节点连接到sub-activity（affordance）符号节点）。VS-ST-MPNN模型中使用了以下超参数：L=4个图更新一轮，R=1个GCN层和大小为256的消息。根据节点属性和边属性(λ_v=1，λ_e=1，λ_ea=1)对节点和注意力进行更新。作者使用在st图的每个节点计算的100个epoch的交叉熵损失之和来训练作者的模型，批处理大小为5个序列。作者使用初始学习率为0.001的Adam学习率调度器。在所有完全连接的层上以0.5的速率施加Dropout。

Charades。在整个框架和一个局部模型上，对演员和目标进行操作。全球模型是一个I3D RGB模型在Charades上进行了微调，并结合了一个大小为256的两层biGRU，类似于该数据集上现有的基线。将提出的VS-ST-MPNN作为局部模型。为了建立视觉化的ST-图，作者使用在MS-COCO数据集上训练的快速RCNN来检测演员和目标。作者根据检测结果的得分对检测结果进行排序，并保留每帧前2名的人类检测结果和前10名的物体检测结果。零填充应用于处理具有较少演员和目标的帧。作者使用RoIAlign和max-pooling在空间中为每个检测到的区域从I3D的混合4F 3D特征图中汇集特征。这为以1.5fps采样的原始视频的帧的演员/目标区域产生大小为832的属性。作者使用了3种类型的边:obj-act-s、act-obj-s和act-act-t，并用连接区域的相对位置来描述每个边。作者的符号图有对应于157个动作类的节点和对应于训练数据中每帧标签共现的边权重。为字谜中的每个符号节点获取一个语言属性并不简单，因为动作名称通常包含多个单词。为了避免这种情况，每个action类被分成一个动词和一个目标，这两个词嵌入的平均值被用作初始节点属性。超参数为:L=3，d_L=512，R=1，D_s=256，λ_v=1，λ_e=1，λ_ea=1。为了执行每帧多标签动作分类，作者在每帧对学习到的动作表示进行平均，作者将它们输入到大小为256的两层bi-GRU，并且作者将得到的隐藏状态馈送到二进制动作分类器。作者训练40个epoch，每帧应用二进制交叉熵损失，使用16个序列的批量大小。作者还在所有完全连接的层上应用0.5%的Dropout，并使用Adam调度器，初始学习率为1e−4。

实验结果

为了验证该方法的有效性和通用性，作者对三个具有挑战性的视频理解任务进行了实验，这三个任务需要对语义实体之间的交互和类之间的关系进行推理：a）sub-activity和object affordance classification、b）multi-label temporal和c）grounded video description。

CAD-120。与现有技术的比较。表1比较了作者的方法与以前的工作的subactivity和affordance检测性能。作者的方法在sub-activity检测方面获得了最先进的结果，平均性能为90.4%，最佳性能为91.3%，在affordance度检测方面获得了第二好的结果（89.2%）–仅次于S-RNN（多任务）。对S-RNN进行了检测和预测联合任务训练，在sub-activity分类任务中，作者比S-RNN提高了8%。即使不使用符号图，作者的方法也改进了已有的GNNs算法，这些GNN算法应用于相同属性的视觉化st图上，验证了作者新的层传播规则。

Charades。与前人工作的比较。如表2所示，作者的框架在时间动作定位方面超越了所有其他方法，仅使用原始RGB帧，MAP为23.7%。它产生了24%的相对改进的替代的基于图的方法，该方法使用RGB和光流输入，以及额外的演员嵌入训练在原数据集。

每个图的影响。在表3中，作者报告了基于局部演员特征（ID：6）对活动进行分类所获得的基线结果（10.7%）。通过使用作者的视觉上下文模块来细化这些特性，性能提高了3%。作者的特殊的注意力机制和边特征的使用都提高了性能，优于vanilla GNN。在混合图上的表示学习表现出比基线显著的5%的绝对改进。此外，对长时上下文和全局上下文的建模导致了最终的最先进的表现，这表明作者的模型学习到的表示是对整体场景线索和时间动态的补充。

消融研究

CAD-120。在图3中研究了注意力、边特征和节点更新次数对识别性能的影响。首先，作者比较了用固定的二进制邻接矩阵训练的模型和用注意力训练的模型的性能。很明显，自适应的图连通性在这两个任务中都能提高性能。其次，作者得出结论：同时使用相邻节点和相邻边的属性比只使用相邻节点的属性更好，验证了边特征的有效性。作者还观察到，增加ST-MPNN层数可以提高性能，在4-5层后性能达到饱和。

Charades。为了更好地理解在视觉图上进行表示学习的意义，作者在图4中强调了添加obj-to-act-s消息时性能正负差最高的活动类。通过利用视觉上的人-物交互线索，作者的模型能够更好地识别诸如看电视之类的动作。

语义图推理的影响。将模型与表3中的IDS3和IDS4进行比较，作者观察到添加语义上下文模块使mAP提高了2%。值得注意的是，在作者的实验中，通过关注初始符号节点特征（语言）而不是进化的特征来更新视觉节点并不能提高性能，这表明语义图推理的重要性。

定性分析

语义模块似乎对稀有类特别有帮助，比如Holding a Vacure，它只有213个训练示例（3%的可用标注片段），以及具有强共现性的类（图5）。t-SNE的视觉化显示，尽管视觉上下文感知的演员嵌入已经捕获了有意义的标签关系（例如， open和hold book），但通过符号图整合语义关系导致了更紧密的聚类嵌入和定义良好的组，从而促进了动作识别。

模型复杂度。由于作者的视觉化st-graph被设计为只捕获局部时空交互，所以作者可以在给定从演员/目标区域池化的初始特征的基础上，并行计算消息，并在单个Titan XP GPU上2分钟内处理整个Charades验证集（约2K视频，每秒1.5fps)。

贡献

首先，作者通过结合符号图（捕获语义标签关系）和视觉st图（编码检测到的演员和目标之间的交互）来建模用于视频理解的上下文线索。
其次，作者提出了一种新的GNN，该GNN可以在混合视觉-符号图上进行联合表示学习，以获得演员、目标和目标的视觉和语义上下文感知表示以及它们在视频中的交互，它可以用来解决下游的识别任务。
最后，为了验证该方法的有效性和通用性，作者在三个具有挑战性的数据集上对multi-label temporal activity localization、object affordance detection和grounded video description等任务进行了评估，结果表明该方法达到了现有的性能。

小结

为了捕捉丰富的视觉和语义上下文，作者提出使用两个图：（1）一个属性化的时空视觉图，其节点对应于演员和目标，其边编码不同类型的交互；（2）一个建模语义关系的符号图。作者进一步提出了一种图神经网络，用于在得到的混合图上精化演员、目标及其相互作用的表示。作者的框架超越了现有的方法，即假设节点和边的类型相同，操作在固定的图结构上，并且不使用符号图。特别地，作者的框架：a）具有针对不同节点和边类型的专门的基于注意力的聚合功能；b）使用视觉边特征；c）将视觉证据与标签关系整合；d）在语义空间中执行全局推理。在具有挑战性的视频理解任务上的实验上，例如在Charades数据集上的时间动作定位上，所提出的方法取得了最先进的性能。