论文：Linguistic Structure Guided Context Modeling for Referring Image Segmentation

作者

Abstract

Referring image segmentation aims to predict the foreground mask of the object referred by a natural language sentence. Multimodal context of the sentence is crucial to distinguish the referent from the background. Existing methods either insufficiently or redundantly model the multimodal context. To tackle this problem, we propose a “gather-propagate-distribute” scheme to model multimodal context by cross-modal interaction and implement this scheme as a novel Linguistic Structure guided Context Modeling (LSCM) module. Our LSCM module builds a Dependency Parsing Tree suppressed Word Graph (DPT-WG) which guides all the words to include valid multimodal context of the sentence while excluding disturbing ones through three steps over the multimodal feature, i.e., gathering, constrained propagation and distributing. Extensive experiments on four benchmarks demonstrate that our method outperforms all the previous state-of-the-arts

Referring image segmentation的目的是预测自然语言句子中参考对象的前景掩码。多模态语境是区分指称和背景的关键。现有方法对多模态上下文建模不够充分或冗余。为了解决这一问题，我们提出了一种“采集-传播-分布”模式，通过跨通道交互来建模多模态语境，并将该模式实现为一种新的语言结构导向语境建模Linguistic Structure guided Context Modeling (LSCM)模块。我们的LSCM模块构建了一个依赖解析树抑制词图(Dependency Parsing Tree suppressed Word Graph, DPT-WG)，它指导所有单词包含句子的有效多模态上下文，同时通过收集、约束传播和分发三个步骤排除干扰词。在四个基准上的广泛实验表明，我们的方法优于所有以前的先进水平.

Introduction

图像分割的目的是预测目标的前景掩码，该掩码与自然语言表达式的描述相匹配。它具有广泛的应用，如人机交互、交互式图像编辑等。由于自然语言表达可能包含多种语言概念，如实体(如“车”、“人”)、属性(如“红”、“小”)和关系(如“前”、“左”)，因此与传统语义分词中预定义的类别相比，该任务面临更广泛的类别集合。它要求算法处理语言和视觉之间不同语义概念的对齐。

解决这个问题的一般方法是先分别提取视觉特征和语言特征，然后根据这两种特征生成的多模态特征进行分割。句子中引用的实体被定义为referent。由于大量噪声的存在，参照物的多模态特征很难与背景特征区分开来。为了解决这一问题，可以利用与句子相关的有效多模态上下文来突出指称物的特征，抑制背景的特征，从而实现准确的分割。一些作品通过直接连接视觉和语言特征的[16][32]或循环细化[25][21][4]来解决这个问题，但缺乏多模态上下文的显式建模。其他工作引入动态过滤器[29]或跨模态自我注意[39]来建模多模态上下文。然而，由于动态过滤器[29]的数量有限，并且由于密集的计算操作[39]中聚合多模态上下文的权重可能是多余的，因此这些多模态上下文要么是不足的，要么是冗余的。
为了获得有效的多模态语境，一个可行的解决方案是以语言结构为指导，选择性地构建与句子相关的有效多模态语境。如图1所示，每个词都可以通过跨模态注意收集与自身相关的多模态上下文。例如，单词“dog”对应图片中两只狗的红色面具。每个词的多模态语境是整个句子部分孤立的理解结果。因此，词语间的约束交际需要包含有效的多模态语境，排除干扰语境。然后，每个词的交际多模态语境都包含了与整个句子相关的适当信息，可以通过聚合形成有效的多模态语境，突出指称者的特征。
为了实现上述解决方案，本文提出了一种语言结构导向的多模态上下文建模(LSCM)模块。具体来说，首先将输入的句子和图像的特征融合在一起，形成多模态特征。然后，如图1所示，为了充分利用输入句子的语言结构，我们构造了依存句法分析树抑制词图(Dependency Parsing Tree suppressed Word Graph, DPT-WG)，每个节点对应一个单词。在DPTWG的基础上，通过三个步骤对句子的有效多模态上下文进行建模。(1)通过跨模态注意作为节点特征，收集特定词对应的相关多模态特征(即上下文)。在这一步，每个单词节点只包含与自身相关的多模态上下文。以图1为例，“dog”和“table”对应的段分别用红色和蓝色掩码表示。将每个掩模内的多模态特征聚拢在一起，形成图的节点特征。(2)在词节点之间传播信息，使每个词节点都能获得整句的多模态上下文。一开始，词图中的节点是完全连通的，对边权值没有任何约束。但是，句子中的两个词之间可能没有密切的联系，它们之间不受约束的交流可能会引入令人不安的多模态语境。例如，图1中的“golden”和“pink”分别修饰了不同的实体(“dog”和“table”)，它们之间的相关性相对较弱。在“金色”和“粉色”之间不受约束(即广泛)的信息传播是不必要的，可能会引入令人不安的多模态上下文。因此，我们使用依赖解析树(DPT)（3）描述词之间的句法结构，以选择性地抑制词图中某些边的权值。DPT-WG可以指导每个单词节点包含来自其他单词的有效上下文，排除干扰上下文。传播后，更新的节点特征获取整个句子的信息。如图1所示，这五个词在我们DPT-WG的结构化指导下进行了交流和更新。(3)将更新后的节点特征重新分布到多模态特征图上的每个空间位置。如图1所示，输入词对应的分段都聚在ground-truth reference segmentation周围。它表明更新后的多模态特征包含更有效的多模态上下文。此外，我们还提出了一种双路径多层次融合模块，该模块采用自底向上和自顶向下两种路径整合低层特征的空间细节和高层特征的语义信息，细化分割结果。本文的主要贡献如下:

我们引入了一种“收集-传播-分发”模式，通过视觉和语言模式之间的交互来建模紧凑的多模态上下文。
在依赖解析树抑制词图(DPT-WG)的指导下，提出了一种基于语言结构的上下文建模(LSCM)模块来实现上述方案，该模块可以聚合有效的多模态上下文，排除干扰上下文。这样就获得了指称物更有鉴别性的多模态特征。
在四个基准上的大量实验表明，我们的方法优于所有先前的技术，即UNC (+1.58%)， UNC+ (+3.09%)， G-Ref(+1.65%)和ReferIt(+2.44%)。

Related Work

Semantic Segmentation

近年来，基于全卷积网络[27]的语义分割方法取得了很大的进展。DeepLab[5]用心房卷积代替标准卷积，扩大了滤波器的接受域，导致比原始FCN更大的特征图具有更丰富的语义信息。DeepLab v2[6]和v3[7]采用平行的心房卷积，不同的心房速率称为ASPP来聚合多尺度上下文。PSPNet[43]采用金字塔池模块来获取多尺度信息。EncNet[42]对场景的语义类别先验信息进行编码，以提供全局上下文。许多作品利用包含详细信息的低层次特征来细化分割结果的局部部分。

2.2 Referring Image Localization & Segmentation

引用图像定位的目的是对自然语言表达式引用的对象进行局部定位。一些作品[15][36][22] 建模多模态特征之间的关系，以匹配对象与表达式。matnet[40]将引用表达式分解为主题、位置和关系，计算模块分数，用于定位引用。与参考图像定位相比，参考图像分割的目的是获得更准确的参考对象结果，即一个语义蒙版而不是一个包围框。参考分割字段的方法可以分为自底向上和自顶向下两种。
自底向上方法主要通过多模态特征融合来直接预测参考点的掩码。Hu等人从CNN和LSTM[13]提出了一个直观的视觉和语言特征连接。在[21]中采用多层特征融合。单词注意[32][4]、多模态LSTM[25][29]和对抗性学习[31]被进一步整合以细化多模态特征。在[39]中利用跨模态的自我注意来捕捉图像区域和单词之间的长期依赖关系，由于自我注意的密集计算而引入了大量的冗余上下文。
自顶向下方法主要依靠预先训练的像素级检测器，即Mask R-CNN[11]来生成RoI提案，并预测所选提案内的掩码。matnet[40]将模块分数整合到Mask R-CNN框架中进行引用分割任务。最近的CAC[8]在Mask R-CNN中引入了引用表达式与其重构标题之间的周期一致性，以提高分割性能。在本文中，我们提出了一种基于自底向上的方法，该方法以语言结构为指导，包含有效的多模态上下文并排除干扰上下文，从而实现准确的指称分词。

2.3 Structural Context Modeling

上下文信息建模对于视觉和语言问题至关重要。典型的方法如自我注意[33][34]在捕捉语言或视觉形态的长期依赖性方面显示出强大的力量。此外，还探讨了更复杂的数据结构来建模上下文信息。Chen et al[9]提出了一个包含少量节点的潜在图来从视觉特征中捕获上下文，用于识别和分割。在引用表达式任务中，以区域建议为节点的图[14]、[36]、[37]、[38]和神经模块树遍历[26]在一定程度上模拟了多模态上下文。与此不同的是，我们提出以引用词作为节点构建一个更紧凑的图，并利用依赖解析树[3]来选择性地建模有效的多模态上下文。

Method

我们模型的总体架构如图2所示。我们首先利用CNN和LSTM分别提取视觉特征和语言特征，然后融合它们得到多模态特征。然后，将多模态特征输入我们提出的语言结构指导的上下文建模(LSCM)模块，以突出所提及实体的多模态特征。我们的LSCM模块在DPT-WG的结构指导下对多模态特征进行上下文建模。最后，我们提出的双路径融合模块融合多层次特征，用于掩模预测。

3.1Multimodal Feature Extraction

我们的模型以一张图片和一个包含T个单词的参考句子作为输入。如图2所示，我们使用CNN骨干网提取多层次的视觉特征，然后将其转换为相同的大小。多层次的视觉特性{V2, V3, V4, V5}对应Resnet的特性{Res2、Res3 Res4, Res5}[12]，其中Vi∈RH×W×Cv,i∈{2、3、4、5}V_i∈\R^{H×W×C_v},i∈\{2、3、4、5\}Vi∈RH×W×Cv,i∈{2、3、4、5},H,W,CvH, W,C_vH,W,Cv和高度,宽度和通道数量分别为视觉特性的高度、宽度和通道数。由于我们对每个层次的视觉特征进行相同的操作，我们使用VVV表示它们的单一层次，以便于表示。对于T个单词的输入句子，我们用LSTM[13]生成Q∈RT×ClQ∈\R^{T ×C_l}Q∈RT×Cl的所有单词的特征。为了包含更多的空间信息，我们还使用了一个8D空间坐标特征[25]，记为P∈RH×W×8P∈\R^{H ×W ×8}P∈RH×W×8。然后，我们融合特征{V, Q, P}形成多模态特征M∈RH×W×ChM∈\R^{H ×W ×C_h}M∈RH×W×Ch，本文对此采用简化的Mutan融合[2]:M=Mutan(V,Q,P)M = Mutan (V, Q, P)M=Mutan(V,Q,P)。Mutan融合的细节包含在补充材料中。注意，我们的方法并不局限于Mutan融合，任何其他多模态融合方法都可以在这里使用。

3.2Linguistic Structure Guided Context Modeling

在这个模块中，我们构建了一个依赖解析树抑制词图Dependency Parsing Tree suppressed Word Graph(DPT-WG)来建模有效的多模态上下文。如图3所示，我们首先将多模态特征MMM上所有空间位置的特征向量收集到WG的TTT字节点中。在此基础上，利用DPT[3]软抑制词节点间的干扰边，实现了词节点间信息的选择性传播，既包含有效的多模态上下文，又排除干扰上下文。最后，将单词节点的特征分布回每个空间位置。
Gather:我们得到一个跨模态的注意映射B∈RT×HWB∈\R^{T ×HW}B∈RT×HW，并进行必要的重塑和转置操作，如下所示:
其中Wq2∈RCl×ChW_{q2}∈\R^{C_l ×C_h}Wq2∈RCl×Ch和Wm∈RCh×ChW_{m}∈\R^{C_h ×C_h}Wm∈RCh×Ch为学习参数。然后我们将规范化的注意图B应用于M，将特征集合到T字节点中:

其中X=[x1;x2;…;xT∈RT×ChX = [x_1;x_2;…;x_T∈\R^{T ×C_h}X=[x1;x2;…;xT∈RT×Ch表示词节点的特征。每个xt, t = 1, 2，…， T编码与第T个单词相关的多模态上下文。
**Propagate:**用于上下文建模的词图是完全连接的。因此，A∈RT ×T的邻接矩阵计算如下:

其中Wx1∈RCh ×Ch, Wx2∈RCh ×Ch为线性变换层的参数。目前，词节点间的边权值是用无约束的多模态特征相似性来表示的。然而，两个词在句子中可能没有密切的联系，它们之间不受约束的信息传播可能会引入大量的噪声，产生干扰多模态上下文。为了缓解这一问题，我们利用DPT有选择地抑制不属于DPT结构的干扰边缘。具体地，我们计算一个树掩码S∈RT ×T来约束邻接矩阵a，如下所示:

其中i, j∈[1,T]是解析树中的节点，C (j)表示节点j的子节点集，α是一个超参数，在本文中设为0.1。然后明智地将邻接矩阵A与树掩码S元素相乘，得到一个soft tree propagation route软树传播路由At，通过:
其中⨀\bigodot⨀是元素相乘。然后我们采用一个图卷积层[19]来传播和更新节点特征，如下所示:

其中I是一个单位矩阵，作为方便优化的快捷连接，Wz∈RCh×Chis是更新节点特征的参数，z∈RT×Chis是图卷积的输出。传播后，每个词节点可以包含有效的多模态上下文，并通过解析树的适当边缘排除干扰上下文，形成与整个句子对齐的鲁棒特征:
**Distribute:**最后，我们通过B的转置将字图节点Zback的更新特征分布到所有空间位置:
我们进一步对词特征q∈RT×Clto进行最大池化，得到句子特征L∈RCl，再得到tileLforH×Wtimes，形成网格状句子特征ˆL∈RH×W×Cl。如图2所示，分布特征~ Z∈RH×W×Chis与v，ˆLandPand连接，然后送入1×1卷积得到输出特征y∈RH×W×Co。

3.3 Dual-Path Multi-Level Feature Fusion

研究表明，整合不同层次的特征可以显著提高参考图像分割的性能。因此，我们还提取了4个级别的可视化特性{V2, V3, V4, V5}作为LSCM模块的输入。然后利用卷积LSTM[35]融合LSCM模块{Y2, Y3, Y4, Y5}的输出特征。融合过程如图2所示。我们提出了一个双路径多层次融合模块，该模块通过自底向上和自顶向下的路径，依次融合了4个层次的特征。ConvLSTM的输入序列为[Y5, Y4, Y3, Y2, Y3, Y4, Y5]。第一个自底向上的路径顺序集成低级特征，能够用空间细节补充高级特征，细化掩码的局部部分。然而，当集成越来越多的低级特征时，对模型识别和定位所引用实体的整体轮廓至关重要的高级特征逐渐被稀释。因此，采用自底向上路径后复用Y3、y4andy5的自顶向下融合路径来补充更多的语义多模态信息。我们的双路径多层次融合模块的作用是增强功能的高级语义和低级细节，以更好的分割性能。

Experiment

Conclusion

In this paper, we explore the referring image segmentation problem by introducing a “gather-propagate-distribute” scheme to model multimodal context. We implement this scheme as a Linguistic Structure guided Context Modeling (LSCM) module. Our LSCM builds a Dependency Parsing Tree suppressed Word Graph (DPT-WG) which guides all the words to include valid multimodal context of the sentence while excluding disturbing ones, which can effectively highlight multimodal features of the referent. Our proposed model achieves state-of-the-art performance on four benchmarks. In the future, we plan to adapt our LSCM module into other tasks (e.g., VQA, Captioning) to verify its effectiveness

在本文中，我们通过引入“收集-传播-分发”方案来探讨参考图像分割问题来建模多模态上下文。我们将该方案作为一个语言结构导向的上下文建模(LSCM)模块来实现。我们的LSCM构建了一个依赖解析树抑制词图(Dependency Parsing Tree suppressed Word Graph, DPT-WG)，它指导所有单词包含句子的有效多模态上下文，同时排除干扰词，从而有效地突出指代物的多模态特征。我们提出的模型在四个基准上实现了最先进的性能。未来，我们计划将我们的LSCM模块应用到其他任务中(如VQA、字幕)，以验证其有效性