《Semantic Object Parsing with Graph LSTM》--论文阅读笔记

Semantic Object Parsing with Graph LSTM原文

GraphSage代码阅读笔记（TensorFlow版）目录

摘要
1.介绍
2 Related Work
3 The Proposed Graph LSTM
- 3.1 Graph Construction
- 3.2 Graph LSTM
4 Experiments
- 4.1 Results and Comparisons
- 4.2 Discussions
- 4.3 More Visual Comparison and Failure cases
5 Conclusion and Future Work

2016年发表于计算机视觉三大会议之一的ECCV（European Conference on Computer Vision ）欧洲计算机视觉国际会议。【另两个为：ICCV和CVPR】

摘要

【原文】
以语义对象解析任务为应用场景，提出了图长短期记忆(Graph Long-Term-Term Memory，简称Graph LSTM)网络，它是LSTM从时序数据或多维数据到一般图结构数据的推广。特别地，我们不是在现有的多维LSTM结构(例如，行、网格和对角LSTM)中将图像均匀固定地划分为像素或块，而是将每个任意形状的超像素作为语义一致的节点，并自适应地为每个图像构建无向图，其中超像素的空间关系自然用作边。在这种自适应图形拓扑上构建的图形LSTM更自然地与图像中的视觉图案(例如，对象边界或外观相似性)对齐，并且提供了更经济的信息传播路线。此外，对于图LSTM上的每一步优化，我们提出了一种置信度驱动的方案来逐步更新节点的隐藏状态和存储状态，直到所有节点都被更新。此外，对于每个节点，遗忘门被自适应地学习以捕获与相邻节点的不同程度的语义相关性。在四个不同的语义对象解析数据集上的综合评估很好地证明了我们的Graph LSTM相对于其他最先进的解决方案的显着优势。

【笔记】

以语义对象解析任务为应用场景，提出了Graph
LSTM，将传统的LSTM模型从顺序和多维数据扩展到一般的图结构数据，并在四个数据集中展示了其优越性。
传统做法：
在多维LSTM结构(例如，行、网格和对角)中将图像均匀且固定地划分为像素或块。
** 作者做法***
-在自适应图形拓扑上构建的图形LSTM，将每个任意形状的超像素作为语义一致的节点，并自适应地为每个图像构建无向图，其中超像素的空间关系自然用作边。
对于图LSTM上的每一步优化，我们提出了一种置信度驱动的方案来逐步更新节点的隐藏状态和存储状态，直到所有节点都被更新。
优点：
能更自然地与图像中的视觉图案(例如，对象边界或外观相似性)对齐，提供了更经济的信息传播路线。

1.介绍

除了传统的图像语义分割，语义对象解析的目的是将图像中的对象分割成更细粒度的语义的多个部分，并提供对图像内容的全面理解，如图1所示。许多更高级的计算机视觉应用可以受益于强大的语义对象解析器，包括动作识别、服装识别和检索及人类行为分析。

最近，卷积神经网络（CNN）在各种像素级预测任务（例如语义分割，语义部分分割和深度预测）中都取得了令人兴奋的成功。
然而，纯粹的卷积滤波器只能捕捉有限的局部上下文，而对语义部分布局及其交互的精确推理需要图像的全局视角。例如，在宾语句法分析中区分“上臂”和“小臂”或“大腿”需要相对空间布局的感知和“躯干”等其他语义区域的预测的指导。为了考虑全局结构背景，以前的工作在纯像素级CNN分类器上使用稠密的成对连接(条件随机场(CRF))。然而，他们中的大多数人都试图基于预测置信度图对结构信息进行建模，在获取全局上下文信息时没有显式增强特征表示，导致复杂场景下的分割结果不是最优的。

另一种策略是通过直接扩展中间特征来利用远程依赖关系。多维（LSTM）网络在2D图像建模中产生了非常有希望的结果。其中，对于理解对象和场景至关重要的长范围依赖关系可以通过顺序作用于所有像素来很好地记忆。然而，就LSTM单元内的信息传播路径而言，现有的LSTM，大多只探索了预定义的固定拓扑。如图2的顶行所示，对于每个单独的图像，通过那些方法对每个像素的预测受到每个时间步中固定邻居(例如，2或8个相邻像素或对角邻居)的预测的影响。图像的自然属性(例如，局部边界和语义上一致的像素组)尚未被充分利用，以在这种固定的局部分解的LSTM中实现更有意义和更经济的推断。此外，固定拓扑的大量计算是冗余和低效的，因为它必须考虑所有的像素，即使对于简单的平面区域中的像素也是如此。

【注解】

语义对象解析的目的：将图像中的对象分割成更细粒度的语义的多个部分，并提供对图像内容的全面理解。如图一。

实现方法：

一、CNN构建的语义分割网络
缺点：由于卷积滤波器只能捕捉有限的局部上下文，而对语义部分布局及其交互的精确推理需要图像的全局视角。

为了考虑全局结构背景的做法：
1.以前的工作在纯像素级CNN分类器上使用稠密的成对连接(条件随机场(CRF))。
缺点：

大多数都试是图基于预测置信度图对结构信息进行建模，在获取全局上下文信息时没有显式增强特征表示，导致复杂场景下的分割结果不是最优的。

二、多维LSTM
优点：

效果不错
对于理解对象和场景至关重要的长范围依赖关系可以通过顺序作用于所有像素来很好地记忆。

缺点：

现有的LSTM，大多只探索了预定义的固定拓扑，
图像属性尚未被充分利用尚未被充分利用；
固定拓扑的大量计算是冗余和低效的

本文提出了一种新的Graph LSTM模型，将传统的LSTM模型从顺序和多维数据扩展到一般的图结构数据，并在语义对象解析任务中展示了其优越性。与以往的LSTM算法不同，Graph LSTM将每个任意形状的超像素作为图的语义一致的结点，而空间邻域关系自然用于构造无向图的边，而不是像以往的LSTM那样将图像均匀地、固定地划分为像素或块。因此，可以根据图像中的局部结构，在不同节点与不同数目的邻居连接的情况下构建自适应图拓扑。如图2的底行所示，图LSTM不是像在先前的LSTM中那样按照固定的更新序列将信息广播到固定的局部邻域，而是建议针对每个图像沿着自适应图拓扑有效地将信息从一个自适应起始超像素节点传播到所有超像素节点。它可以有效地减少冗余的计算开销，同时更好地保留对象/部分边界，便于在整个图像上进行全局推理。

受最近的视觉注意模型的启发，结合图像自适应构建的图拓扑结构，我们提出了一种置信度驱动的方案来随后更新所有节点的特征。以前的LSTM通常简单地从预定义的像素或补丁位置开始，然后向其他像素前进或遵循不同图像的固定更新路线的补丁。相反，我们假设从适当的超像素节点开始，并沿着特定的内容自适应路径更新节点可以导致全局上下文建模的更灵活和可靠的推理，其中可以更好地捕捉每幅图像的视觉特征。具体地，对于每幅图像，基于初始特征在所有前景语义标签中具有最高预测置信度的超像素节点被视为起始节点。同时，根据所有节点对前景类的初始置信度降序排序，确定节点更新的顺序。

在传统的LSTM中，通过共享遗忘门，每个节点平等地接受来自其所有相邻节点的影响，这在可视化应用中并不总是正确的。例如，给定语义区域中的一个超像素节点，与相邻背景超像素节点相比，属于相同语义区域的其他相邻超像素可以为当前节点的局部预测提供更强的线索。因此，在图LSTM中，我们在更新某个节点的隐藏状态时，针对不同的邻居节点自适应地学习遗忘门，以便对不同的邻居连接进行建模。这样的自适应方案对于图LSTM尤其有益，其中节点之间的连接比具有固定拓扑的基于像素/块的LSTM中的连接传递更多语义上有意义的交互。

如图3所示，图LSTM作为一个独立层，可以很容易地附加到全卷积神经网络中的中间卷积层，以通过结合远程上下文信息来加强视觉特征学习。隐藏状态表示增强的特征，而记忆状态递归地编码全局结构。我们的贡献可以概括为以下四个方面。1)提出了一种新的Graph LSTM结构，将传统的LSTM从顺序和多维数据扩展到一般的图结构数据，该结构通过遵循根据每幅图像内容导出的自适应图拓扑有效地利用了全局上下文。2)提出了一种置信度驱动的选择起始节点并依次更新所有节点的方案，在保持每幅图像视觉特征的同时，便于灵活的推理。3)在每个Graph LSTM单元中，学习相邻节点的不同遗忘门，以根据其语义关系动态合并本地上下文交互。4)将所提出的图LSTM应用于语义对象分析，并通过在四个具有挑战性的语义对象分析数据集(即Pascal-Person-Part数据集、Horse-Cow分析数据集、ATR数据集和Fashionista数据集)上的综合比较，证明了该方法的优越性。

2 Related Work

关于图像处理的LSTM：首先引入递归神经网络来处理序列预测任务，然后扩展到多维图像处理任务，诸如图像生成、人物检测、场景标记和对象解析。得益于LSTM网络的远程记忆，与本地卷积滤波器相比，它们可以通过在所有像素上顺序执行LSTM单元来获得相当大的相依场。然而，在每个LSTM单元中，每个像素的预测受到固定因子分解(例如，2或8个相邻像素或对角邻域)的影响，其中没有考虑不同的自然视觉相关性(例如，局部边界和均匀区域)。同时，由于对所有像素的顺序计算，计算代价很高，而且是冗余的。与使用局部固定因子分解的LSTM单元不同，我们提出了一种新的Graph LSTM结构，它以紧凑的表示在超像素节点上执行变化的图拓扑上的信息传播。Tree-LSTM引入了树形拓扑结构来预测句子的语义表示。与Tree-LSTM相比，Graph LSTM对于具有任意图拓扑的二维图像处理和自适应更新方案更自然、更通用。语义对象解析：语义对象解析问题已经引起越来越多的研究兴趣，包括一般对象解析[、人称部分分割和人工解析。为了获取基于先进CNN结构的丰富结构信息，一种常见的方法是将CNN和CRF相结合，将CNN的输出作为一元势来处理，而CRF则进一步加入成对或高阶因子。与仅从局部卷积核学习特征不同，如在前面的方法中，我们通过新颖的Graph LSTM结构结合全局上下文来捕获对超像素的长距离依赖关系。图LSTM的依赖域可以有效地覆盖整个图像上下文。

3 The Proposed Graph LSTM

在介绍Graph LSTM时，我们将语义对象解析作为其应用场景，旨在为每幅图像生成像素级的语义部分分割。图3说明了基于Graph LSTM设计的网络体系结构。输入图像首先通过卷积层的堆栈来生成卷积特征映射。然后，在生成的超像素映射的基础上，结合所提出的Graph LSTM层来利用卷积特征映射上的全局结构上下文来进行更好的细粒度预测。该算法以每幅图像的卷积特征和自适应指定的节点更新序列为输入，将聚集的上下文信息高效地传播到所有节点，增强了视觉特征，获得了更好的句法分析结果。为了提高收敛速度和更直接地通过网络传播信号，我们在一个Graph LSTM层之后部署剩余连接[38]，以生成下一个Graph LSTM层的输入特征。请注意，执行剩余连接是为了为每一层生成基于元素的输入特征，这不会破坏计算的图形拓扑。然后，使用多个1×1卷积滤波器来产生最终的解析结果。以下小节将描述Graph LSTM中的主要创新，包括图形构造和Graph LSTM结构。

3.1 Graph Construction

该图基于超像素，通过使用SLIC构建。进行图像分割获得。注意，在几个卷积层之后，已经对每个图像的特征地图进行了下采样。因此，为了在每个Graph LSTM层中使用超像素地图进行图形构建，需要将特征地图上采样为输入图像的原始大小。
然后，通过经由图边{EIj}连接一组图节点{vi}Ni=1来构建每个图像的超像素图G。每个图节点vii表示一个超像素，而每条图边Eij仅连接空间上相邻的两个超像素节点。每个图形节点的输入特征Vi被表示为Fi∈Rd，其中d是特征尺寸。特征FII通过对属于同一超像素节点vi的所有像素的特征进行平均来计算。如图3所示，第一图LSTM层的输入状态来自先前的卷积特征映射。对于后续的Graph LSTM层，在输入特征的剩余连接[38]之后生成输入状态，并且由先前的Graph LSTM层更新隐藏状态。为确保第一个Graph LSTM图层的输入状态数与后续图层的输入状态数兼容，并且可以应用剩余连接，将所有Graph LSTM图层中的隐藏状态和记忆状态的维度设置为与第一个Graph LSTM图层之前的最后一个卷积图层的特征维度相同

然后，通过经由图边{EIj}连接一组图节点{vi}Ni=1来构建每个图像的超像素图G。每个图节点vii表示一个超像素，而每条图边Eij仅连接空间上相邻的两个超像素节点。每个图形节点的输入特征Vi被表示为Fi∈Rd，其中d是特征尺寸。特征FII通过对属于同一超像素节点vi的所有像素的特征进行平均来计算。如图3所示，第一图LSTM层的输入状态来自先前的卷积特征映射。对于后续的Graph LSTM层，在输入特征的剩余连接[38]之后生成输入状态，并且由先前的Graph LSTM层更新隐藏状态。为确保第一个Graph LSTM图层的输入状态数与后续图层的输入状态数兼容，并且可以应用剩余连接，将所有Graph LSTM图层中的隐藏状态和记忆状态的维度设置为与第一个Graph LSTM图层之前的最后一个卷积图层的特征维度相同

3.2 Graph LSTM

自信驱动原理:由于图的自适应拓扑结构，图LSTM中的节点更新方案比传统的LSTM[2][1]中的节点更新方案更重要，也更具挑战性。为了实现更好的全局推理，Graph LSTM为每幅图像的信息传播指定了自适应的起始节点和节点更新顺序。对于构造的无向图G，我们在实验中广泛尝试了几种更新图中所有节点的方案，包括广度优先搜索(BFS)、深度优先搜索(DFS)和置信度驱动搜索(CDS)。我们发现CDS取得了更好的性能。具体地说，如图3所示.在给定顶部卷积特征图的情况下，1×1卷积滤波器可用于生成关于每个语义标签的初始置信度图。然后通过平均其包含像素的置信度来计算每个标签的每个超像素的置信度，并将置信度最高的标签分配给该超像素。在所有前景超像素(即，分配给任何语义部分标签)中，可以通过根据其分配的标签的置信度对所有超像素节点进行排序来确定节点更新顺序。信心较高的将首先更新。如果两个节点具有相同的置信度分数，则将首先更新空间上左边的节点。CDS方案可以为更好的语义推理提供相对更可靠的更新序列，因为更新序列中的较早节点可能具有更强的语义证据(例如，属于具有更高置信度的任何重要语义部分)，并且它们的视觉特征对于消息传递可能更可靠。

在更新期间，第(t+1)图LSTM层确定每个节点的当前状态Vi，它包括每个节点的隐藏状态hi，t+1∈Rd和存储状态mi，t+1∈Rd。为了将信息传播到整个图像，每个节点都会受到其先前状态和相邻图节点状态的影响。因此，图LSTM单元的输入包括节点vi的输入状态fi，t+1，其先前的隐藏状态hi，t和存储状态mi，t，以及其相邻节点vj，j∈NG(I)的隐藏和存储状态。

相邻节点的平均隐藏状态。请注意，使用自适应更新方案时，当在每个Graph LSTM层中的特定节点上操作时，它的一些相邻节点已经更新，而其他节点可能还没有更新。因此，我们使用访问标志Qj来指示图形节点Vj是否已被更新，其中如果更新则将Qj设置为1，否则设置为0。然后，我们将更新后的隐藏状态hj，t+1用于已访问节点，即，qj=1，并将先前状态hj，t用于未访问节点。1(·)是一个指示器函数。请注意，图中的节点可以具有任意数量的相邻节点。设|NG(I)|表示相邻图节点的数目。为了在网络训练期间获得Graph LSTM单元的输入的固定特征维度，通过平均相邻节点的隐藏状态来获得用于计算节点VIA的LSTM门的隐藏状态hi，计算如下：

自适应遗忘门。注意，与传统的LSTM不同，图形LSTM通过将当前节点的输入状态与其隐藏状态(定义为gf ij，j∈NG(I))一起工作，为不同的相邻节点指定不同的遗忘门。这导致相邻节点对更新的存储状态mi，t+1和隐藏状态hi，t+1的影响不同。还利用每个相邻节点的存储状态来更新当前节点的存储状态mi，t+1。学习所有节点的共享权重度量Ufn，以保证空间变换的不变性，并支持与不同邻居的学习。直觉是，与其他对相比，每对相邻超像素可以被赋予区别的语义相关性。例如，同一语义部分的两个超像素应该具有一致的预测，而不同部分的两个超像素可以提供上下文线索。因此，Graph LSTM结合了这些自适应遗忘门来覆盖不同的视觉模式。

图形LSTM单元。图形LSTM由四个门组成：输入门GU、遗忘门GF、自适应遗忘门GF、存储门GC和输出门GO。WU、WF、WC、WW是为输入特征指定的递归门权重矩阵，而Uu、UF、UC、Uo是为节点的隐藏状态指定的权重参数，Uun、Ufn、Ucn、UON是为相邻节点的状态指定的权重参数。隐藏的和Graph LSTM的内存状态可按如下方式更新：

这里δ是Logistic Sigmoid函数，并且？指示点式乘积。通过使用自适应遗忘门组合访问节点的存储状态和未访问节点的存储状态来更新节点Vi的存储状态m1，t+1。设W，U表示所有权重矩阵的级联，{zj，t}j∈NG(I)表示相邻节点的所有相关信息。因此，我们可以使用G-LSTM(·)来缩短方程n。(2)如下：

该机制作为一个存储系统，将信息写入存储状态，并由每个图节点顺序记录，然后使用存储状态与后续图节点和上一个图LSTM层的隐藏状态进行通信。使用反向传播来训练所有的权重度量

4 Experiments

数据集：
1.PASCAL-PERSON-PART数据集：
公开的Pascal-Person-Part数据集集中于Chen等人标注的人体部分分割。来自Pascal VOC 2010数据集。数据集包含每个人的详细部件注释。在之后，将注释合并为头部、躯干、上臂/小臂和上腿/小腿，从而产生六个人物部位类和一个背景类。1716个图像用于训练，1817个图像用于测试。数据集的人物部分特别具有挑战性，因为它在规模和姿势上有很大的变化。
2.马-牛解析数据集：
Horse-Cow解析数据集是在中引入的零件分割基准。对于每个类别，手动选择来自Pascal VOC 2010基准的大多数可观察实例，包括294个训练图像和227个测试图像。每个图像像素被精心标记为四个部分类别之一，包括头部、腿部、尾部和身体。
ATR数据集和Fashionista数据集。人类解析的目标是用18个标签预测每幅图像的每一个像素：脸、太阳镜、帽子、围巾、头发、上衣、左臂、右臂、腰带、裤子、左腿、右腿、裙子、左鞋、右鞋、包、连衣裙和空。最初，ATR数据集中包括7,700个图像，其中6,000个语义对象分析使用Graph LSTM 9进行训练，1,000个用于测试，700个用于验证。进一步收集了10,000张真实世界的人体照片，以覆盖更具挑战性的姿势、遮挡和衣服变化的图像。我们遵循中使用的培训和测试设置。Fashionista数据集包含685张图片，其中229张图片用于测试，其余用于训练。

评价指标：
在Pascal-Person-Part数据集和HorseCow解析数据集上采用标准交集联合(IOU)准则和像素精度进行评价。我们使用与中相同的评估指标在两个人工解析数据集上进行评估，包括准确率、平均精确度、平均召回率和平均F-1得分。

网络体系结构：为了与 12 8 9 进行公平的比较，我们的网络基于公开的模型“DeepLab-CRF-LargeFOV forthePASCAL-PersonPartandHorse-Cowparsingdataset，，该模型对VGG-16NET稍作修改为FCN。为了与在两个人工解析数据集上的17 36 进行公平的比较，使用了 36 中提出的基本“Co-CNN”结构，因为它具有领先的准确性。我们基于“Co-CNN”的网络是按照 36 中的相同设置从头开始训练的。

训练：我们分别使用与 12 和 36 中相同的数据增强技术进行对象部分分割和人工解析。对于基于“DeepLab-CRF-LargeFOV”的训练网络，输入图像的比例固定为321×321。基于“Co-CNN”，输入图像被重新缩放到150x100，如[36]所示。我们使用SLIC过分割方法[39]为每幅图像生成平均1000个超像素。采用两个训练步骤来训练网络。首先，我们用1×1的滤波器训练卷积层，以生成初始置信度图，该初始置信度图用于生成Graph LSTM中所有节点的起始节点和更新序列。然后，基于预先训练的模型对整个网络进行微调，以产生最终的解析结果。在每一步中，将新增加的层(包括Graph LSTM层和卷积层)的学习率初始化为0.001，将其他先前学习的层的学习率初始化为0.0001。在Graph LSTM单元中使用的所有权重矩阵都是从[-0.1，0.1]的均匀分布随机初始化的。图LSTM以与先前卷积层中相同的维度预测隐藏状态和记忆状态。对于所有模型，我们只使用两个Graph LSTM层，因为使用更多的Graph LSTM层只能观察到轻微的改进，这也消耗了更多的计算资源。所有卷积层的权重均采用标准差为0.001的高斯分布进行初始化。我们使用随机梯度下降来训练所有的模型，批次大小为2幅图像，动量为0.9，权重衰减为0.0005。我们对“DeepLab-CRF-LargeFOV”上的网络进行了大约60个时期的微调，大约需要1天。基于《联合CNN》从无到有的培训，大概需要4-5天。在测试阶段，除超像素提取步骤外，每幅图像平均耗时0.5秒。

重现性：建议的Graph LSTM是通过扩展Caffe框架实现的[43]。所有网络都在一个12 GB内存的NVIDIA GeForce GTX Titan X GPU上进行培训。一旦接受，我们计划发布我们的源代码和经过训练的模型，这样论文中的所有结果都可以重现。

4.1 Results and Comparisons

我们在四个公共数据集上将所提出的Graph LSTM结构与几种最先进的方法进行了比较。
PASCAL-PERSON-PART数据集：我们报告结果和个state-of-the-artmethods比较 8 9 11 17inTable1.Theresultsof“DeepLabLargeFOV”最初在[8]中报告。所提出的Graph LSTM结构在平均IOU度量方面大大优于这些基线。特别是，对于上臂和小臂等容易混淆的语义部分，Graph LSTM提供了比基线好得多的预测，例如，小臂和大腿分别比[8]高4.95%和6.67%。Graph LSTM取得的优异性能证明了利用全局上下文来提高局部预测的有效性。

马-牛解析数据集[21]：表2显示了五个state-of-the-artmethodsontheoverallmetrics.TheproposedGraphLSTMgivesahuge Boost在平均IOU方面的比较结果。例如，对于COW类，Graph LSTM达到了70.05%，比LG-LSTM[17]高出7.26%，比HAZN[8]高出3.11%。通过对马类的比较，也可以观察到较大的改进，即在IOU中使用Graph LSTM比性能最好的方法提高了2.59%。

ATR数据集[22]：表3和表5报告了与7个最新技术的单个语义标签的总体度量和F-1分数的比较性能，分别。所提出的Graph LSTM能够显著超过这些基线，特别是在平均F-1得分方面，Co-CNN[36]的83.76%对76.95%，LG-LSTM[17]的80.97%。在[36]之后，我们还将[36]中增加的10,000幅图像作为额外的训练图像，并将结果报告为“Graph LSTM(More)”。“Graph LSTM(More)”还可以比“LGLSTM(More)”提高4.08%的F-1平均分数。我们在表5中显示了每个标签的F-1得分。一般来说，我们的Graph LSTM表现出比其他基线高得多的性能。此外，我们的“Graph LSTM(More)”显著优于“CRFasRNN(More)”[6]，验证了Graph LSTM在获取全局上下文方面优于CRF中的成对项。“CRFasRNN(MORE)”[6]的结果是通过使用它们的公共代码训练网络而获得的。

Fashionista数据集[23]：表4给出了Fashionista数据集的比较结果。在[22]之后，我们仅通过在相同的大型ATR数据集[22]上进行训练，然后在Fashionista数据集的229个图像上进行测试来报告性能。我们的Graph LSTM架构可以大幅超越基线。

使用不同的LSTM结构和采用超像素平滑作为后处理步骤，在PASCAL-Person-Part数据集上进行评估时的性能比较。

在PASCAL-Person-Part数据集上进行评估时，不同节点更新方案的性能比较。

4.2 Discussions

图LSTM与局部固定因子分解的LSTM。与以往的局部固定因子分解LSTM结构[2][17][1]不同，所提出的图LSTM对每幅图像采用自适应的图拓扑结构，并将信息从不同数目的邻居传播到每个节点。为了更透明地显示Graph LSTM结构的优势，表6给出了不同LSTM结构之间的性能比较。这些变体使用相同的网络体系结构，并且仅用传统的固定因子分解的LSTM层(包括行LSTM[2]、对角BiLSTM[2]、LG-LSTM[17]和网格LSTM[1])替换Graph LSTM层。实验过的GridLSTM是Diagnoca lBiLSTM [2]的简化版本顶部和左侧像素被考虑。它们的基本结构如图2所示。可以观察到，使用更丰富的本地上下文(即，邻居的数量)来更新每个像素的状态可以导致更好的解析性能。在Graph LSTM中构建的图拓扑中，每个超像素节点平均有6个相邻节点。虽然LG-LSTM[17]使用了8个相邻像素来指导局部预测，但其性能仍然不如我们的Graph LSTM。这种改进可以归因于图LSTM捕获的自适应邻域拓扑和更多的全局上下文，而不是邻居的数量。

图形LSTM与超像素平滑。在表6中，我们进一步证明了Graph LSTM的性能收益不仅仅来自使用由超像素提供的更精确的边界信息。超像素平滑可以用作后处理步骤，以细化先前LSTM的置信度图。通过将“对角BiLSTM[2]+超像素平滑”和“LG-LSTM[17]+超像素平滑”与我们的“图LSTM”进行比较，我们发现图LSTM仍然可以带来更多的性能提升，这得益于它基于图结构表示的先进的信息传播。

表8.在PASCAL-PERSON-PART数据集上评估时，使用基于不同前景标签上的置信度的置信度驱动方案的性能比较。

表9.在Pascal-Person-Part数据集上评估不同相邻节点时，有或没有学习自适应遗忘门的版本的解析性能比较。

节点更新方案。表7进一步研究了更新所有节点状态的不同节点更新方案。广度优先搜索(BFS)和深度优先搜索(DFS)是搜索图数据结构的传统算法。对于一个父节点，选择不同的子节点进行第一次更新可能会导致所有节点的更新隐藏状态不同。因此，评估了选择用于更新的第一子节点的两种方式：“BFS(Location)”和“Dfs(Location)”在所有子节点中首先选择空间上最左边的要更新的节点，而“BFS(置信度)”和“DFS(置信度)”选择在所有前景类上具有最大置信度的子节点。我们发现，与其他替代方案相比，使用我们的信任驱动方案可以获得更好的性能。可能的原因是前景置信度较高的超像素节点的特征嵌入了更准确的语义，从而导致了更可靠的全局推理。注意，我们使用对所有前景类的置信度排名来生成节点更新方案。在表8中，我们广泛测试了使用不同前景标签的初始置信度图来生成节点更新序列的性能。平均而言，当使用不同前景标签的置信度时，仅观察到轻微的性能差异。特别地，使用“头”和“躯干”的置信度比使用所有前景类的置信度更能提高性能，即61.03%和61.45%对60.16%。这是可能的，因为在人解析的情况下，头部/躯干的分割更可靠，这进一步验证了更新顺序中节点的可靠性是重要的。很难为每个任务确定最好的语义标签，因此为了实现简单和高效，我们只使用所有前台标签中的一个。

自适应遗忘门。在局部固定因子分解的LSTM中，学习相同的遗忘状态以利用相邻像素对每个像素的更新状态的影响。而在图LSTM中，采用自适应遗忘门来区别对待来自不同邻居的本地上下文。使用自适应遗忘门的优越性可以在表9中得到验证。“完全相同的遗忘门”显示了学习所有邻居的完全相同的忘记门，同时忽略相邻节点的存储状态的结果。因此，在“相同的忘记门”中，gf i和mi，t+1in等式。(2)可以简单地计算为：

图4.。在PASCAL-Person-Part和ATR数据集上评估时，使用6个平均超像素数进行性能比较，包括250、500、750、1000、1250、1500。

可以观察到，学习自适应遗忘门在图LSTM中表现出比为对象解析任务中的所有邻居学习相同的遗忘门更好的性能，因为在节点更新过程中可以考虑和不同地处理与本地上下文的不同语义相关性。与Eqn相比。(4)由于Eqn中共享参数UFN的使用，没有引入额外的参数来指定自适应遗忘门。(2)。超像素数。超像素可以根据空间和外观相似度对像素进行预分组，减少了元素的数量，保持了语义的一致性。然而，缺点是每当一个超像素内的像素具有不同的地面实值标签时，超像素都可能引入量化误差。因此，我们评估了使用不同的平均超像素数来构建图结构的性能。如图4所示，当使用超过1,000个超像素时，会有轻微的改进。因此，通过平衡计算效率和准确性，我们在所有实验中平均为每幅图像使用1000个超像素。残余连接。残余连接在[38]中首次被提出，以更好地训练非常深的卷积层。消除残余连接的版本在PASCAL-Person-Part数据集上的平均IOU达到59.12%。结果表明，Graph LSTM层之间的剩余连接也有助于提高性能，即60.16%比59.12%。请注意，我们不使用剩余连接的Graph LSTM版本仍然比表1中的所有基线都要好得多。

4.3 More Visual Comparison and Failure cases

PASCAL-Person-PartandATR数据集解析结果的定性比较
如图5和图6，所示总体而言，我们的Graph-LSTM通过有效地利用全局上下文来辅助局部预测，从而为混淆标签输出更合理的结果。我们还在每个数据集上显示了一些故障案例，并发现我们的Graph LSTM在分割非常小的对象(如图5所示)和外观非常相似的部件(例如，图6中第二个故障图像中的鞋子和裤子)的语义部分时存在困难。

图5。比较了我们的Graph LSTM和基线“DeepLab-LargeFov”的解析结果，以及我们的Graph LSTM在Pascal-Person-Part上的一些失败案例。

图6.。比较了我们的Graph LSTM和LG-LSTM[17]的解析结果，以及我们的Graph LSTM在ATR数据集上的一些失败案例。

5 Conclusion and Future Work

在这项工作中，我们提出了一种新的图LSTM网络来解决基本的语义对象解析任务。我们的Graph LSTM将现有的LSTM概括为图结构的数据。每幅图像的自适应图拓扑是通过空间邻域连接任意形状的超像素节点来构建的。采用置信度驱动方案自适应地选择起始节点，确定节点更新顺序。因此，图LSTM可以顺序更新所有节点的状态。在四个公共语义对象分析数据集上的综合评估很好地证明了我们的图LSTM的显着优势。在未来，我们将探索如何根据连接的超像素节点动态调整图结构，直接生成语义掩码。