论文笔记-SSF-DAN: Separated Semantic Feature based Domain Adaptation Network for Semantic Segmentation

论文信息

论文标题：SSF-DAN: Separated Semantic Feature based Domain Adaptation Network for Semantic Segmentation
论文作者： Liang Du, Jingang Tan, Hongye Yang, Jianfeng Feng, Xiangyang Xue, Qibao Zheng, Xiaoqing Ye, Xiaolin Zhang
研究机构：中科院上海为系统信息技术所；复旦大学；百度；上海科技大学
论文出处：ICCV 2019

引用信息：

@inproceedings{DBLP:conf/iccv/DuTYFXZYZ19,author    = {Liang Du andJingang Tan andHongye Yang andJianfeng Feng andXiangyang Xue andQibao Zheng andXiaoqing Ye andXiaolin Zhang},title     = {{SSF-DAN:} Separated Semantic Feature Based Domain Adaptation Networkfor Semantic Segmentation},booktitle = {2019 {IEEE/CVF} International Conference on Computer Vision, {ICCV}2019, Seoul, Korea (South), October 27 - November 2, 2019},pages     = {982--991},publisher = {{IEEE}},year      = {2019},url       = {https://doi.org/10.1109/ICCV.2019.00107},doi       = {10.1109/ICCV.2019.00107},timestamp = {Thu, 05 Mar 2020 13:43:22 +0100},biburl    = {https://dblp.org/rec/conf/iccv/DuTYFXZYZ19.bib},bibsource = {dblp computer science bibliography, https://dblp.org}
}

代码链接：

论文主要贡献和参考价值

主要贡献：
- （1）提出新的端到端的语义分割框架，主要通过独立的类别级的对抗学习策略，不使用全局的特征对齐
- （2）提出 SS-D 即语义级的可分离判别器用于独立将分割的语义特征从目标域适应到源域，利用渐进地置信策略解决关键的适应不一致的问题
- （3）提出类别级的对抗损失权重设置模块 CA-R 用于强制要求生成器更多关注适应较弱的区域
参考价值：

论文要点翻译
- 摘要
  - 监督学习驱动的全卷积模型已经在语义分割领域取得较大的成功，但是这个方式需要大量的标注数据，生成像素级的标注数据需要大量的劳动
  - 最近的工作尝试使用合成场景数据训练语义分割模型，但是合成域到真实域的域适应问题仍然是一个极具挑战的问题
  - 本文的工作中，提出基于域适应网络的分离语义特征，即 SSF-DAN，用于语义分割：（1）语义级的可分离判别器 SS-D 用于独立地讲目标域和源域之间的语义特征进行适应，解决不一致的适应问题；SS-D 中，使用渐进置信策略达到更好的分离结果；（2）使用高效的类级别的对抗损失权重排布策略平衡类级别的对抗学习过程，使得生成器可以更多的关注适应较差的区域
  - 提出的框架鲁棒性较强，且比基准数据集上 SOTA 方法的性能更好
- 引言
  - 语义分割的相关研究已经广泛在自动驾驶、医学图像处理等领域使用，其中许多方法利用 CNN，结合大量的像素级标注数据进行模型的学习，但是建立大规模像素级标注的数据集本身需要大量的实践和精力，标注数据需要专业人员进行，因此寻找经济有效的方法用于语义分割数据是一项有意义的研究，在合成场景数据中，数据的标签可以自动地生成，代价较低；但是合成场景的数据和真实世界的数据仍然讯在较大的差异，使得在合成场景训练的模型难以在真实场景保持较好的性能。为了解决这个问题，域适应技巧被提出用于沟通源域数据和目标域数据之间的域鸿沟问题，之前的域适应方法大多试图最小化源域和目标域数据特征之间的差异，或者试图使得两个数据的分布通过对抗学习的方式逼近彼此。
  - 对于图像级的分类任务来说，在图像特征级别的对齐主要是基于生成对抗网络实现的，使得提取的适应特征能够泛化在两个域内使用，然而，对于像素级预测任务来说，网络需要提取和编码不同的语义物体对应的不同的视觉特征，整张图像的判别器只能够判断所有区域的，使得原图像中的所有像素都会崩塌对应到特定的模式，这限制了下游的视觉感知任务的能力；此外，本文认为，在对抗学习过程中应当保持特征分布的语义一致性，【6】中的工作引入了联合的全局的类别级的对抗学习框架，结果收到不一致适应的影响；输出空间的域适应提出后也取得巨大的成功，但是这个方法没有充分利用高维的特征信息
  - 本文引入无监督域适应框架，通过类别级的对抗学习策略增强语义分割，使用 SS-D ，以独立的语义级的方式评估特征对齐的质量，以此沟通每个类别的域鸿沟问题，避免导致不一致的适应。分割模型和 SS-D 通过端到端的联合训练的方式，对目标域数据不需要额外的先验知识
  - 本文主要贡献如下：（1）提出新的端到端的语义分割框架，主要通过独立的类别级的对抗学习策略，不使用全局的特征对齐；（2）提出 SS-D 即语义级的可分离判别器用于独立地将分割的语义特征从目标域适应到源域，通过渐进地置信策略解决关键的适应不一致的问题；（3）提出类别级的对抗损失权重设置模块 CA-R 用于强制要求生成器更多关注适应较弱的区域
- 相关工作
  - 语义分割：全卷积网络 FCN；使用扩张卷积增强 NN 的感受野；金字塔池化模块；基于合成数据的方法；数据分布的差异；域适应技巧的引入
  - 域适应：解决源域数据与目标域数据之间存在的域鸿沟问题；特征级别的分布对齐；域对抗神经网络；像素级的分类；风格迁移技巧将标注的源数据转为目标数据
- 方法
  - 框架概览
    - SSF-DAN 框架主要由三个部分组成，（1）生成器/分割网络，包含 G 和 σ \sigma σ，主要任务在于将输入图像转换为高维特征空间的表示，并将高维的特征空间映射到输出的标签空间；（2）SS-D 判别器，用于独立的类别级的对齐；（3）CA-R 用于对类别级的对抗损失重新设置权重
    - 源域图像 I s I_s Is 及其标注数据 Y s Y_s Ys ，源域图像经过生成器后，生成结果与标注数据比较后对生成器网络进行优化；目标域图像 I t I_t It 经过分割网络后可以得到预测语义分割结果 P t P_t Pt，将结果中的不可信像素利用本文的渐进置信策略过滤；将最后一个级别的语义特征进行分离，将其下采样为独热输出，将这些特征块输入到对应的判别器网络的卷积层用于判断输入的类特征来自源域还是来自目标域。对抗损失主要在目标预测时使用，对抗损失使得网络将 D 中的梯度传播给 G，强制要求 G 生成与源域相似的特征分布；相关卷积层中的特征快是语义可分的，保证适应的独立性。最后 CA-R 模块计算类别级的权重 R t R_t Rt 和 R s R_s Rs，然后对类别级的对抗损失进行权重调整
  - 域适应的目标函数：为了沟通源域和目标域的域鸿沟，并使得模型用于语义分割任务，目标函数定义为 L ( I s , Y s , I t ) = L s e g ( I s , Y s ) + δ L a d v ( I s , I t ) \mathcal L(I_s,Y_s,I_t)=\mathcal L_{seg}(I_s,Y_s)+\delta \mathcal L_{adv}(I_s,I_t) L(Is,Ys,It)=Lseg(Is,Ys)+δLadv(Is,It)，其中的 L s e g \mathcal L_{seg} Lseg 是交叉熵损失， L a d v \mathcal L_{adv} Ladv 是对抗损失
  - 语义级可分离的判别器
    - 类别级的适应在【6】中已经提出，但是这样的在类别级的对齐是不一致的，因为其中的多个类别级的判别器无法仙湖独立，极大地限制了类别级对抗学习的潜在能力
    - 【6】引入了类别级的权重图 W s o f t c W_{soft}^c Wsoftc ，将其中每个网格作为一个实例， c c c 表示类别，网格的计算是基于类别在感受野内的所有像素中所占的比例计算的， W s o f t c W_{soft}^c Wsoftc乘上每个判别器的输出，则可以得到类别级的对抗损失，根据区域对应的 W s o f t c W_{soft}^c Wsoftc 中全部非零像素的感受野，每个判别器都是独立地关注一个语义区域，不同的判别器之间可能存在区域交叉的情况
    - 对于从一个类别对象中提取的特征，交叉的区域主要是不正确的非0预测值导致的，因此，这样的特征可能对应到多个判别器，因此适应的时候可能会不一致，具体而言，真实的物体类别 k 对应的权重的梯度定义为 ∇ W G γ ( k ) = ∂ L k ∂ W G γ ( k ) + ∑ i ∈ C , i ≠ k ∂ L i ∂ W G γ ( k ) \nabla_{\mathcal W_G^{\gamma(k)}}=\frac{\partial L_k}{\partial \mathcal W_G^{\gamma(k)}}+\sum\limits_{i\in C,i\ne k}\frac{\partial L_i}{\partial \mathcal W_G^{\gamma(k)}} ∇WGγ(k)=∂WGγ(k)∂Lk+i∈C,i=k∑∂WGγ(k)∂Li，其中的 W G γ ( k ) \mathcal W_G^{\gamma(k)} WGγ(k) 表示生成器中的 k 类别对应的权重集合， γ ( k ) \gamma(k) γ(k) 表示和类别 k 对应的集合， L i L_i Li 表示类别 i 对应的判别器的损失，C 表示所有的类别，对于独立的类别级的适应， ∇ W G γ ( k ) \nabla_{\mathcal W_G^{\gamma(k)}} ∇WGγ(k) 应当公式中的第一部分相同，第二部分则是引入的噪声选项，噪声是引入的导致域适应不一致的原因，但是对于生成器而言，很难将这样的特征同时适应到不同的多个特征空间，这可能导致不一致适应或者破坏现有的对齐
    - 在监督学习中，使用软标签可以获得更多的训练模型所需要的信息，但是，对于无监督域适应，信息的可依靠性无法得到保证，及时其中的一些信息足够可靠，生成器也无法同时解决多个判别器，因此，无监督类别级的对抗学习的关键点在于使得类别级的适应过程独立，并且不受歧义信息的影响
    - 和 SOTA 的类别级适应方法相比，本文方法主要特点在于：（1）将整个特征空间中不同的语义特征进行分离，主要是根据下采样的伪标签实现，使得类别级的适应过程是相互独立的，其中的大部分特征都会适应到主要对应的类别空间，不受不正确信息的影响；（2）渐进的置信策略使得不正确的适应情况出现的可能性降低。本文的方法假设目标样本如果有更高的预测概览则说明有更好的预测精度
    - 类别级的对抗学习：SS-D 的分割的交叉熵定义 L s e g ( I s , Y s ) = − ∑ H , W ∑ c ∈ C Y s ( H , W , C ) log ⁡ P s ( H , W , C ) \mathcal L_{seg}(I_s,Y_s)=-\sum\limits_{H,W}\sum\limits_{c\in C}Y_s^{(H,W,C)}\log P_s^{(H,W,C)} Lseg(Is,Ys)=−H,W∑c∈C∑Ys(H,W,C)logPs(H,W,C)，其中的 P s = σ ( F s ) = σ ( G ( I s ) ) P_s=\sigma(F_s)=\sigma(G(I_s)) Ps=σ(Fs)=σ(G(Is)) 表示的是语义分割的输出结果， F s F_s Fs 表示的是最后一层的特征图， σ \sigma σ 表示的是包含卷积、上采样、softmax 操作的解码器，将源域图像前向传播后，可以计算分割损失。目标域图像通过 G 前向传播，得到预测结果 P t = σ ( F t ) = σ ( G ( I t ) ) P_t=\sigma(F_t)=\sigma(G(I_t)) Pt=σ(Ft)=σ(G(It)) ，将 M 即为 P 的独热形式的输出，可以将 M 分离为不同类别对应通道的掩膜， P , Y , M ∈ R H × W × C P,Y,M\in \mathbb R^{H \times W \times C} P,Y,M∈RH×W×C 且 F ∈ R h × w × n F \in \mathbb R^{h\times w \times n} F∈Rh×w×n，将 F t F_t Ft 乘上下采样的 M t c M_t^c Mtc 获得语义特征块 F t c F_t^c Ftc ，换言之，保留了感兴趣区域的值，并将其他区域的值设置为0，然后，每个特征块输入对应的 SS-D 中的卷积层，最终，所有的类别输出加和后得到一个单通道的输出，输出域全0张量比较计算对抗损失 L a d v = − ∑ h , w ∑ c ∈ C log ⁡ ( 1 − D c ( F t c ) ( h , w , 1 ) ) \mathcal L_{adv}=-\sum\limits_{h,w}\sum\limits_{c\in C}\log(1-D^c(F_t^c)^{(h,w,1)}) Ladv=−h,w∑c∈C∑log(1−Dc(Ftc)(h,w,1))， D c D^c Dc 表示特定的类别 c 在 SS-D 中的卷积操作；生成过程之后，生成器参数不变，将 F t c , F s c F_t^c,F_s^c Ftc,Fsc 输入到 SS-D，利用交叉熵损失计算源和目标域： L d = − ∑ h , w ∑ c ∈ C [ ( 1 − α ) log ⁡ ( 1 − D c ( F t c ) ( h , w , 1 ) ) + α log ⁡ ( D c ( F t c ) ( h , w , 1 ) ) ) ] \mathcal L_d=-\sum\limits_{h,w}\sum\limits_{c\in C}[(1-\alpha)\log(1-D^c(F_t^c)^{(h,w,1)})+\alpha \log (D^c(F_t^c)^{(h,w,1)}))] Ld=−h,w∑c∈C∑[(1−α)log(1−Dc(Ftc)(h,w,1))+αlog(Dc(Ftc)(h,w,1)))]
    - 渐进置信策略：开始训练时，伪标签的置信度较低，置信度随着训练过程推进而提高，标签数据中可用的可靠数据也就更多，为了维护伪标签的可靠性，设置超参数控制保留的像素的比例，M 乘以 P （像素对应乘）之后结果可以在类别通道层次进行分离，得到每个类的置信图 A c A^c Ac，对于每个 A c A^c Ac，所有的置信值都是降序排列的，多以可以将不可靠的预测标签排除，用 μ ( ⋅ , ρ ) \mu(\cdot,\rho) μ(⋅,ρ) 表示将低于 ρ \rho ρ 比例置信度的像素排除
  - 类别级的对抗损失重新调整权重
    - 在判别器中，不同卷积层的参数是独立更新的，而生成器的参数更新则不同，虽然判别器的能力可以通过类别级的适应方法改进，但是对于生成器而言，改进的判别器更加难以愚弄，由于本文假设目标中高预测可能性的样本预测精确性更高，因此，更高预测概率的这些类也会更好地适应和预测，为了使得生成器关注不好的类别，平衡类别级对抗学习，本文提出 CA-R 模块适应地调整对抗学习损失的权重， τ t c = N c / ∑ i = 0 N c A t c ∗ \tau_t^c=\sqrt{N^c/\sum\limits_{i=0}^{N^c}A_t^{c*}} τtc=Nc/i=0∑NcAtc∗ ，其中的 N c N^c Nc 是非0像素的数量，i 是这些像素的索引，首先，使用 τ t c \tau_t^c τtc 替换相关的类别掩膜中的非0值，然后将结果融合为单通道，并将结果下采样后匹配判别器的输出大小，获取重新权重图 R t R_t Rt 和 R s R_s Rs，CA-R 通过上述的方式降低具有更高置信度的类别的权重，使得生成器更多地关注适应较差的区域
  - 网络结构
    - 分割网络使用基于 ResNet101 的 DeepLab v2，在 ImageNet 预训练；移除了最后的分类层，最后两层步长修改为 2，输出分辨率是输入的 1/8，使用扩张卷积，最后利用 ASPP 模块形成最终的分类器，再在 softmax 输出结果上使用上采样层还原至原图分辨率
    - 判别器使用 FCN，每个类别级的卷积模块由 5 个卷积层组成；每个卷积层后 LeakyReLU（最后一个除外）

论文笔记-SSF-DAN: Separated Semantic Feature based Domain Adaptation Network for Semantic Segmentation相关推荐

ICCV2019-SSF-DAN: Separated Semantic Feature based Domain Adaptation Network for Semantic Segmentati
SSF-DAN: Separated Semantic Feature based Domain Adaptation Network for Semantic Segmentation 基于分离语义 ...
论文笔记-Real-Time MDE using Synthetic Data with Domain Adaptation via Image Style Transfer
论文信息标题: Real-Time Monocular Depth Estimation using Synthetic Data with Domain Adaptation via Image ...
论文笔记—A Review of Visual-LiDAR Fusion based Simultaneous Localization and Mapping
论文笔记-A Review of Visual-LiDAR Fusion based Simultaneous Localization and Mapping 论文链接文章摘要 ~~~~ ~ ...
【论文笔记】3D LiDAR-Based Global Localization Using Siamese Neural Network
[论文笔记]3D LiDAR-Based Global Localization Using Siamese Neural Network ~~~ ~~~~ 在本文基于从神经网络中学习到的 ...
【论文笔记】AAAI2022：Do Feature Attribution Methods Correctly Attribute Features?
CV可解释性方向,第一次整理论文笔记,如有错误请批评指正. 原文链接:https://www.semanticscholar.org/paper/Do-Feature-Attribution-Meth ...
论文笔记（三）：PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes
PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes 文章概括摘要 1. ...
【论文笔记之 MDF】Multidelay Block Frequency Domain Adaptive Filter
本文对 JIA-SIEN SOO 和 KHEE K. PANG 于 1990 年在 IEEE Transactions on Acoustics, Speech, and Signal Process ...
【阅读笔记】ACL-2020《KinGDOM：Knowledge-Guided DOMain Adaptation for Sentiment Analysis》
Motivation: ConceptNet 构建跨域的知识图谱补充增强了文本表示的泛化性 [Target domain]被测领域 [Source domain]由ConceptNet构 ...
[论文笔记]CVPR2017_Joint Detection and Identification Feature Learning for Person Search
Title: Joint Detection and Identification Feature Learning for Person Search; aXiv上该论文的第一个版本题目是 End- ...

论文笔记-SSF-DAN: Separated Semantic Feature based Domain Adaptation Network for Semantic Segmentation

论文信息

论文主要贡献和参考价值

论文要点翻译

论文笔记-SSF-DAN: Separated Semantic Feature based Domain Adaptation Network for Semantic Segmentation相关推荐

最新文章

热门文章