摘要

当测试数据和训练数据来自不同的领域时，卷积神经网络可能表现不佳。虽然可以通过使用目标域数据对齐源和目标域特征表示来缓解这个问题，但由于隐私问题，目标域数据可能不可用。因此，需要在训练期间不访问目标领域数据的情况下很好地一般化的方法。在这项工作中，我们提出了一种对抗的幻觉方法，它结合了一个类的幻觉模块和一个语义分割模块。由于不同类的分割性能不同，我们设计了一个语义条件下的风格幻觉层来自适应地对每个类进行风格化。从源域图像分割概率图中的语义知识生成类程式化参数。这两个模块相互竞争，幻觉模块生成越来越“困难”的图像来挑战分割模块。作为回应，分割模块改进了它的性能，因为它在一个适当的类难度级别上用生成的样本进行训练。在最先进的领域自适应工作状态下的实验证明了我们提出的方法在没有目标领域数据可用于训练时的有效性。

1、介绍

语义分割涉及到将图像像素分类到一个给定的类别。虽然深度学习极大地提高了语义分割性能，但它需要大量的像素级标注数据。像素化图像注释既耗时又容易出错，这使得它不适用于实际应用程序。为了训练自动驾驶车辆的视觉系统，合成数据很容易获得，也很容易贴上标签。然而，合成数据(源领域数据)在视觉上不同于真实世界的驾驶数据(目标领域数据)，导致仅用合成数据训练的模型在真实世界数据上表现不佳。

域自适应方法寻求最小化源域和目标域之间的域间隙。在进行域对齐时，如果有足够的未标记的目标域数据可用，就可以实现这一点。不幸的是，在某些情况下，如域泛化(DG)，未标记的目标数据在训练网络时是不可访问的。由于对目标数据的访问有限，它变得相当困难，如果不是不可能，成功地应用以前的无监督域自适应方法来训练一个通用模型。为了解决这一问题，基于幻觉的方法被提出以解决缺乏目标域数据的问题。这些方法通过改变源域图像中的纹理信息来生成新的图像。这提高了训练后的深度卷积神经网络对形状信息的敏感性，与纹理信息相比，形状信息更有可能跨域不变性。例如，对抗风格挖掘使用单一目标域图像产生额外的训练数据。单个目标域图像的全局统计数据用于初始化样式特征，然后用于自适应地程式化源域图像。通过对抗性训练，程式化图像的“难度”逐渐增加。

虽然以前的工作试图解决类不平衡问题的焦损失或类平衡损失，这些方法也有其局限性。类平衡方法，如焦损失，假设源和目标域分布是相似的，这可能不总是正确的。此外，这些方法的超参数选择不是简单的，而且超参数可能不能在数据集之间转移。

不同类别的特征可以用它们的语义信息来表示，如高级语义特征或预测logit。最近的研究表明，语义信息可以提高超分辨率[29]和合成图像生成[19]的性能。两种方法都利用语义信息自适应地生成仿射参数进行特征变换。然后对变换后的特征进行解码，生成高分辨率的图像。在这两种情况下[29,19]，生成的图像显示出改进的真实感。

我们提出了一种新的方法，对抗语义幻觉(ASH)，用于无监督域自适应语义分割，当目标数据在训练中不可用时。受ASM的启发，我们将对抗性幻觉融入到我们的工作中。然而，与ASM不同的是，我们的幻觉是以类的方式细粒度的。此外，ASM在训练时需要访问目标领域数据，而我们的方法不需要任何目标数据，很容易应用于现实生活中。具体来说，我们使用来自分割概率图的语义信息来为样式特征生成类级缩放和移动变换参数。有了这些转换参数和类概率图，ASH可以以类的方式进行风格化。ASH以一种敌对的方式与鉴别器协作，自适应地生成新的有挑战性的数据来训练分割网络以完成我们的目标任务。根据经验，我们还发现将噪声扰动与灰分解相结合可以提高性能。

我们的主要贡献总结如下:

1)我们提出了一种对抗性语义幻觉(ASH)方法来解决领域泛化问题的语义分割。ASH利用来自分割输出的语义信息，允许对源域图像进行类级风格化。与之前的工作相比，我们的方法具有适应性和有效性;

2)我们在和上评估ASH，与之前在相同设置下的作品进行对比。实验结果证明了该方法的有效性。

2、相关工作

在本节中，我们简要地调查了与我们的研究最相关的以前的工作，包括无监督域适应和生成对抗网络。

2.1. Unsupervised Domain Adaptation

Unsupervised domain adaptation (UDA)是迁移学习的一个子集。在给定已标记源数据和未标记目标数据的情况下，UDA算法的目的是训练网络在目标域上达到满意的性能。先前关于无监督域适应的研究[24,6]试图增加源域和目标域之间的对齐，减少两个域之间的差异。通过减小源域和目标域之间的差异，可以将源域学到的知识应用到目标域。无监督域对齐方法一般可以分为三大类，即像素级对齐、特征级对齐和输出级对齐。像素级域自适应[1]将源域数据转换为视觉上模仿目标域图像。训练过程中包含变换后的源域图像。特征级的域自适应，如[6,9,15]，侧重于跨域对齐特征表示，使源域提取的特征表示与目标域提取的特征表示难以区分。这已经被研究用于图像分类[6]和语义分割[15]。输出级域自适应[24,18]最大限度地提高了输出级域之间的相似性。Tsai等人[25]和Luo等人[17]证明，与特征级对齐相比，输出级对齐在语义分割方面具有更好的性能。

与我们的方法最相关的工作是ASM，它旨在解决无监督域自适应分割时，有限的无标记目标数据。ASM[16]和我们的方法都提出了利用样式转换策略来生成新数据。然而，ASM与我们的方法存在显著差异:(1)ASM需要目标数据(单个目标域图像)进行域对齐，当目标数据不可用时，这限制了实用性。相反，我们的方法不需要任何目标数据进行训练，这使得它更适用于现实生活场景。(2) ASM采用全局风格化方法。使用程式化数据上的目标任务预测损失对程式化图像进行全局更新。因此，来自不同类别的像素被统一地程式化。然而，我们认为应该考虑阶级差异。由于某些类比其他类更容易识别，所以跨所有类的统一样式化可能不是最佳的，因为这忽略了类之间的固有差异。因此，在风格化期间考虑这些类差异的细粒度策略将是有利的。

2.2. Generative Adversarial Networks (GANs)

自引入[7]以来，GAN就受到了广泛的关注，并得到了广泛的应用研究，最显著的是用于生成合成图像[12]。典型的普通GAN包括以最小-最大方式优化的生成器-鉴别器对。生成器的目标是合成真实图像;鉴别器的目标是区分合成图像和真实图像。虽然GAN已经被用于无监督的领域自适应[18,1]，但在领域泛化问题设置中缺乏目标领域数据意味着需要进行一些修改。

因为我们需要生成额外的训练数据来减轻源域数据和不可见的目标域数据之间的域差距，所以我们应用了条件gan[28]背后的原理。Conditional GANs为用户提供了对生成的输出的额外控制，并预先向生成器提供了信息。最近的研究[19,29]也进一步启发了我们，该研究表明先验信息可以改善合成图像的质量。Wang等人利用语义信息在超分辨率下提高输出图像质量。利用概率图作为先验，对图像特征进行空间变换，提高精细细节和图像纹理的恢复。类似地，Park等人[19]通过转换生成器中的中间特征，利用语义信息来约束合成的GAN输出。这使得他们的方法能够生成真实的图像，同时也允许用户确定生成图像的内容。

通过整合语义信息作为领域泛化的优先条件，我们扩展了现有的领域自适应工作。我们的ASH模块是轻量级的，仅由几个卷积层组成:1)将语义信息映射到潜在空间，2)计算样式特征的转换系数。这使我们提出的方法所需的计算成本最小化。

3、方法

在本节中，我们首先讨论了我们的问题设置和初步背景，然后我们提供了对抗性语义幻觉(ASH)的技术细节。

3.1. Problem Setting

域泛化问题设置定义如下:我们在训练中有标记为的源域数据，但我们无法访问目标域数据。源域和目标域具有不同的数据分布。我们的目标是开发一个模型G，在用源域数据训练后，正确预测目标域数据的标签。

3.2、基本的背景

我们的方法采用了双管齐下的方法。首先，我们的方法结合了风格转换方法[10]。我们通过使用绘画数据集Xstyle中的图像来扩展源域数据，即画家按数字绘制。来自不相关数据集的样式特征以源域数据分段输出获得的语义信息为条件。其次，我们训练了不同的成分:一个ASH模块，一个分割网络和一个鉴别器。与[10]类似，我们使用预先训练的VGG19网络从源域图像和风格图像中提取特征。然后我们使用自适应实例规范化[10]：

它重新规范化内容特性的通道级均值和方差，以匹配样式特性的均值和方差。

ASM[16]使用单个目标域图像的全局统计信息来生成初始样式特征。然后使用这些样式特征对源图像进行风格化。ASM通过应用与任务丢失方向相同的小扰动迭代更新样式特性。对于ASH，我们采用略微不同的方法来生成额外的样式。我们的目标是确保训练的分割模型是纹理不变的。在每次迭代中，我们从数据集中随机抽取样式图像，以风格化源图像。通过对带有不相关样式信息的源图像进行风格化，模型学会忽略纹理信息。

3.3、对抗语义幻化

如图2所示，我们的框架包括一个分割网络，一个鉴别器和一个对抗语义幻觉(ASH)模块。首先，我们介绍了我们的模块，对抗语义幻觉(ASH)，该模块用源数据分割输出的语义信息来约束样式特征。语义信息用于计算缩放和移动变换参数(图2)，其中i表示类索引。这些转换参数对潜伏空间中的样式特征构成条件。根据每个像素的预测类别，ASH通过分配不同的缩放和移动变换参数来最大限度地提高对抗损失。在训练的每一步，对不同语义类对应的像素进行不同程度的风格化，使数据增强和风格化与分割性能相适应。我们使用自适应实例规范化[10]来合并内容特性和条件样式特性。

对分割网络G[18]进行训练，使分割损失和对抗损失最小化。对鉴别网络D进行训练，使对抗性损失最大化。两个损失函数都基于[18]的公式。分割损失是通过计算分割输出的交叉熵损失得到的。我们从分割输出中生成分类缩放的和平移的系数，如下式所示:

其中，i指的是特征的通道索引。然后我们扰动样式特征来生成扰动样式特征：

我们用如下公式生成程式化的源域图像：

其中Dec为预训练解码器，AdaIN为式1中给出的自适应实例归一化方程，ASH为对抗语义幻觉模块，fstyle为提取的风格特征，为提取的源特征，G为分割网络，为源域数据。对抗性损失由下式给出：

我们通过最大化对抗性损失来优化ASH模块，因为我们希望ASH模块为分割网络创建更多的“困难”数据，同时在源特征中保留语义信息，并将受干扰的风格特征造成的风格损失最小化。我们用下面的公式计算ASH的损失：

我们选择与[10]中定义的相同的内容和样式丢失公式。我们最小化了从内容图像中保留的样式信息的数量，同时在程式化图像中保留语义信息。算法1总结了训练流程。程式化期间使用的预训练编码器和解码器的权重在训练期间不会更新。我们只需要分割网络进行评价，训练后不需要ASH模块和鉴别器。

4、实验

在这一节中，我们将介绍实验细节。我们首先在4.1节中说明在这项工作中使用的数据集。其次，我们将在第4.2节中提供实现细节。我们在第4.3 - 4.4节提供所有实验结果的细节。第4.3节介绍了我们的方法在基准数据集上的性能，并将其与目前最先进的无监督领域自适应和领域泛化方法进行了比较。我们将在第4.4节讨论消融研究。

4.1、数据集

我们使用合成数据集GTA5、Synthia作为源域，真实世界数据集Cityscapes作为目标域。GTA5数据集[21]有24,966张密集标注图像，分辨率为1914 × 1052像素，而Synthia数据集有9,400张密集标注图像，分辨率为1280 × 760像素。模型在标记的源域图像上进行训练，并在Cityscapes验证集上进行评估。与[10]类似，我们使用来自WikiArt的绘画数据集来提供45203个样式图像。

4.2、实现细节

我们在一个16Gb Quadro RTX 5000上使用Pytorch库[20]实现我们的方法。GTA5图像的大小调整为1280×720像素，Synthia图像的大小调整为1280× 760像素。我们使用Deeplab-v2分割网络，在ImageNet上预训练ResNet-101骨干。使用的鉴别器网络结构与[18]中使用的类似。我们使用随机梯度下降(SGD)对分割网络(Deeplab-v2)和ASH模块进行优化。利用Adam对鉴别器网络进行优化。所有优化器的动量都是0.9。Deeplab-v2分割网络和鉴别器网络的初始学习速率分别为和。我们训练该网络进行100,000次迭代。

4.3、实验研究

我们将本方法与5种具有代表性的方法进行了比较。[3, 18, 26]是训练过程中目标域数据可用的UDA方法;[16]旨在用有限的目标域数据对齐域，[31]是一种没有目标域数据可用的域对齐方法。Maximum Squares Loss[3]通过阻止更简单的类主导训练而在半监督学习上得到改进，CLAN[18]寻求减少来自源域和目标域的学习特征表示之间的差异，而ADVENT[26]旨在减少目标域数据的预测不确定性。ASM[16]，采用单镜头无监督域自适应方法从目标域图像中生成额外的训练数据。域随机化[31]用从ImageNet[23]获得的样式图像对源域图像的多个实例进行风格化，并对最终层的输出执行金字塔池，以保持不同风格化实例之间的特性一致性。

无监督域自适应方法使用源域数据进行训练，以程式化的源域数据作为目标域数据。对于GTA5和Synthia数据集，我们的方法证明了优于这些方法的性能(表1,2)。虽然我们的方法在GTA5数据集上显示了与Yue等人的[31]相当的性能，但Yue等人的[31]为每个源域图像生成15个额外的辅助域(程化图像)。相比之下，我们的方法每次迭代只格式化一个源域图像。此外，Yue等人对所有实例提取的特征进行空间金字塔池化，增加了计算需求。虽然计算成本更低，但我们的方法在GTA5(表1)和Synthia(表2)上仍然取得了比较好的结果。

我们进行了一个附加的实验来帮助评价语义信息对风格化的重要性。我们训练了一个ASH模型，它接收跨所有类的统一语义信息(ASH Uni.Sem.Info)，并在表1中报告性能。在所有类中，ASH都优于ASH Uni.Sem.Info(表1)。这表明语义信息对ASH的性能改进至关重要。

4.4、消融研究

在表3中，我们将我们的方法与以CLAN为基准的方法进行了比较。用程式化图像训练分割网络可以显著提高分割性能。这可能是因为训练方法鼓励源和程式化源输出之间的类似分割输出。由于风格化改变纹理信息，分割网络学习成为纹理不变，并忽略这些信息。在风格特征中加入正交噪声可以提高分割性能，这可能是添加噪声后风格特征的多样性增加的原因。最后，加入ASH可以提高分割性能。

5、讨论

5.1、尺度和漂移系数

我们进一步研究了每一类的缩放和移动系数(图4)。我们通过计算源图像的所有缩放和移动系数的L1范数来实现这一点。我们可以通过将该班级的贡献归零后L1范数的下降来确定每个班级的贡献。正如预期的那样，占图像像素较大比例的类对缩放和移位系数的贡献更大。特别是，“道路”和“天空”类与其他类(如“杆”和“光”)相比，在缩放和移动系数上有更大的影响(图4a,c)。因为更大的缩放和移动系数意味着样式功能的相应大小也会更大，这意味着“道路”和“天空”相比“杆子”和“光”类别经历了更大程度的风式化。这些观察结果让我们认为，ASH模块将在预测的分割输出中占据给定图像大量像素的类(例如“road”、“sky”)程式化。由于ASH模块被优化为生成最大化对抗性损失的程式化图像，因此网络似乎更大程度地程式化属于多数类别的像素，而不是少数类别的像素，从而使对抗性损失最大化。

此外，还有几个类的尺度系数和位移系数接近于零。尽管这些类别(例如“植被”、“极点”)在分割输出中存在，与这些类别对应的区域与大多数类别相比并没有显著的程式化。像“植被”和“极杆”这样的类别在颜色信息或纹理方面没有很大的差异。因此，程式化这些课程可能不会显著影响对抗性损失，这可能解释了在整个训练过程中规模和移位系数的小变化。有趣的是，我们注意到一些类，如“建筑”，在整个训练过程中始终具有负移位系数(图4a)。这表明与“建筑”相对应的区域的风式化将会减少。一种可能的解释可能是，建筑倾向于与其他类别“融合”，如“杆子”或“墙”，风格化使建筑像素的分类更容易。

5.2、归一化尺度和漂移系数

我们通过预测的每个类的像素的数量来标准化规模和移位系数的类的变化。因此，“道路”和“建筑”类的绝对归一化位移和尺度系数要小得多，而“地形”和“植被”的绝对归一化L1系数要大得多(图4 b,d)。此外，“地形”、“植被”、“光线”和“符号”等具有负尺度和位移系数的类别在归一化后变得更加明显。虽然从图4a和c中的图中可能不明显，但是在图像中占据较小区域的类也会经历程式化。如图4 b、d所示，与少数类相对应的像素——“sign”、“vegetation”和“car”经历了更大的归一化尺度，相对于与多数类相对应的像素发生了位移。此外，与大多数类相比，这些类中的像素在尺度和移位系数上也显示出更大的变化。

6、结论

在本文中，我们引入了对抗式幻觉网络，它解决了适应未知目标域的问题。通过在训练过程中使用类对抗的方法对源域图像进行程式化处理，该算法可以利用分割输出的语义信息自适应地对源域图像进行程式化处理。实验结果还表明，ASH有效地提高了分割性能，可以与目前最先进的领域泛化方法相媲美，同时需要更少的计算资源。

Adversarial Semantic Hallucination for Domain Generalized Semantic Segmentation相关推荐

CVPR2022自适应/语义分割：Class-Balanced Pixel-Level Self-Labeling for Domain Adaptive Semantic Segmentation
CVPR2022自适应/语义分割:Class-Balanced Pixel-Level Self-Labeling for Domain Adaptive Semantic Segmentation用 ...
Deliberated Domain Bridging for Domain Adaptive Semantic Segmentation
Deliberated Domain Bridging for Domain Adaptive Semantic Segmentation Abstract 许多UDA的工作就是尝试通过各种中间空 ...
SePiCo: Semantic-Guided Pixel Contrast for Domain Adaptive Semantic Segmentation
SePiCo: Semantic-Guided Pixel Contrast for Domain Adaptive Semantic Segmentation Abstract 之前的许多方法尝 ...
Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation阅读笔记
Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Appr ...
论文笔记-SSF-DAN: Separated Semantic Feature based Domain Adaptation Network for Semantic Segmentation
论文信息论文标题:SSF-DAN: Separated Semantic Feature based Domain Adaptation Network for Semantic Segmentat ...
ICCV2019-SSF-DAN: Separated Semantic Feature based Domain Adaptation Network for Semantic Segmentati
SSF-DAN: Separated Semantic Feature based Domain Adaptation Network for Semantic Segmentation 基于分离语义 ...
（论文阅读笔记）Semantic-Aware Domain Generalized Segmentation
论文地址:https://arxiv.org/abs/2204.00822 源码地址:GitHub - leolyj/SAN-SAW: This is the code related to &quo ...
【领域泛化论文阅读】Semantic-Aware Domain Generalized Segmentation
关于图像白化和色彩变换的基本内容可以参考: 图像标准化.图像白化.色彩变换_S L N的博客-CSDN博客论文是针对语义分割的领域泛化模型.论文提出了SAN和SAW两个模块来增强类别之间的分离,类内 ...
Importance Weighted Adversarial Nets for Partial Domain Adaptation学习笔记
Importance Weighted Adversarial Nets for Partial Domain Adaptation学习笔记文章目录 Importance Weighted Adve ...

Adversarial Semantic Hallucination for Domain Generalized Semantic Segmentation

摘要