【图像超分辨率】Learning Texture Transformer Network for Image Super-Resolution

论文地址：http://openaccess.thecvf.com/content_CVPR_2020/papers/Yang_Learning_Texture_Transformer_Network_for_Image_Super-Resolution_CVPR_2020_paper.pdf

Learning Texture Transformer Network for Image Super-Resolution

摘要
1 简介
2 相关工作
3 本文方法
- 3.1 Texture Transformer
- - 可学习的纹理提取器（Learnable Texture Extractor）
  - 相关性嵌入模块（Relevance Embedding）
  - Hard-Attention（硬注意力）
  - Soft-Attention（软注意力）
- 3.2 Cross-Scale Feature Integration（跨尺度特征整合）
- 3.3 损失函数
- - Reconstruction loss（重建损失）
  - Adversarial loss（对抗损失）
  - Perceptual loss（感知损失）
- 3.4 实现细节
4 实验与结果
- 4.1 数据库和评价指标
- 4.2 定量评估
- 4.3 消融实验

摘要

本文研究的是图像超分辨率（SR）领域，其目的是从低分辨率（LR）图像中恢复真实的纹理。目前，现有的图像超分辨率方法并没有从注意力机制的角度来考虑将参考图像中的纹理信息转移到高分辨率（HR）图像中。在本文中，提出了一种新颖的用于图像超分辨率的纹理Transformer网络（TTSR：TextureTransformer Network for ImageSuper-Resolution ），其中低分辨率LR和参考Ref图像分别表示为Transformer中的查询和关键字。TTSR由四个紧密相关的模块组成，这些模块针对图像生成任务进行了优化，包括：DNN的可学习纹理提取器（learnabletexture extractor by DNN），相关性嵌入模块（a relevance embedding module），用于纹理传递的硬注意力模块（hard-attention module for texture transfe）和用于纹理合成的软注意力模块（soft-attention module for texture synthesi）。这样的设计鼓励在低分辨率图像LR和参考Ref图像之间进行联合特征学习，其中可以通过注意发现深层特征对应关系，从而可以传递准确的纹理特征。所提出的纹理Transformer可以以跨尺度的方式进一步堆叠，这使得能够从不同级别（例如，从1x倍到4x倍放大率）恢复纹理。大量的实验表明，在定量和定性评估方面，TTSR都比最新技术有了显着改善。

1 简介

图像超分辨率的目的在于从退化的低分辨率图像中恢复高分辨率图像中的自然和逼真的纹理。因此，图像超分辨率SR的成功可以极大地提高媒体内容的质量，以获得更好的用户体验。图像超分辨率在智能手机数码变焦、超清电视机、医学图像、卫星图像中应用都十分广泛。

图像SR的研究通常以两种形式进行，包括单图像超分辨率（SISR）和基于参考的图像超分辨率（RefSR）。其中，基于深度学习的SISR方法将这个问题视为密集的图像回归任务，该任务学习了在LR和HR图像之间的图像映射功能。代表的方法有：SRCNN 、VDSR、DRCN等。

但是，传统的SISR通常会导致效果模糊，因为高分辨率（HR）纹理在退化过程中被过度破坏，无法恢复。尽管提出了基于生成对抗网络（GAN）的图像SR方法来缓解上述问题，但由GAN引起的幻觉和伪像进一步给图像SR任务带来了巨大挑战。最近，基于参考的图像超分辨率（RefSR）取得了不错的进展，该方法从给定的参考Ref图像传输高分辨率（HR）纹理以产生视觉上令人愉悦的结果。但是，SOTA方法通常采用一种直接的方法来传输纹理，这可能会导致不满意的SR图像（如图1所示）。

图1.提出的TTSR和最新的RefSR方法之间的4×倍放大SR结果比较。TTSR学习从Ref图像（以绿色表示）中搜索相关纹理以寻找目标LR区域（以黄色表示），从而避免错误的纹理转移（以红色表示）。

为了解决这些问题，本文提出了一种新颖的用于图像超分辨率的纹理转换器网络（TTSR），特别是针对图像生成任务优化了四个紧密相关的模块。

首先，提出了可学习的纹理提取器，其中的参数将在端到端训练过程中进行更新。这样的设计实现了低分辨率图像LR和参考Ref图像的联合特征嵌入，从而为在SR任务中应用注意机制奠定了坚实的基础。

其次，提出一个相关嵌入模块来计算低分辨率图像LR和参考Ref图像之间的相关性。更具体地说，将从LR和Ref图像中提取的特征公式化为转换器中的查询和关键字，以获得硬注意力图和软注意力图。

最后，提出了一个硬注意力模块和一个软注意力模块，以将高分辨率图HR特征从参考Ref图像转移并融合到通过注意力图从主干提取的LR特征中。因此，TTSR的设计了一种更精确的方法来搜索和从Ref图像转换为LR图像的相关纹理。

此外，提出了一个跨尺度特征集成模块来堆叠纹理transformers，其中跨不同尺度（例如从1x到4x）学习特征以实现更强大的特征表示。如上面图1所示，总体设计使TTSR能够从Ref图像（以绿色表示）中搜索并传输相关纹理，与SOTA方法相比，可以获得更好的视觉效果。

2 相关工作

3 本文方法

TextureTransformer Network for ImageSuper-Resolution (TTSR)

图2.提出的纹理变换器Transformer。Q，K、Vare分别是从上采样的LR图像，依次向下/上采样的Ref图像和原始Ref图像中提取的纹理特征。修正从DNN主干提取的LR特征，并进一步与传递的纹理特征T融合以生成SR输出。

3.1 Texture Transformer

纹理转换器的结构如图2所示。LR，LR↑和Ref分别代表输入图像，4倍bicubic-upsampled 的输入图像和参考图像。依次对Ref应用具有相同4倍因子的bicubic下采样和上采样，以获得与LR↑domain-consistent的Ref↓↑。纹理转换器将Ref，Ref↓↑，LR↑和主干产生的LR特征作为输入，并输出同样大小的特征图，该特征图将进一步用于生成HR预测。

纹理转换器包含四个部分：可学习的纹理提取器（LTE），相关性嵌入模块（RE），用于功能转移的硬注意模块（HA）和用于特征合成的软注意模块（SA）。

可学习的纹理提取器（Learnable Texture Extractor）

在RefSR任务中，参考图像的纹理提取至关重要，因为准确而正确的纹理信息将有助于生成SR图像。本文没有使用像VGG 这样的预训练分类模型所提取的语义特征，而是设计了一种可学习的纹理提取器，其参数将在端到端训练过程中进行更新。这种设计能够在LR和Ref图像上进行联合特征学习，从而可以捕获更准确的纹理特征。纹理提取的过程可以表示为：

其中，LTE（·）表示可学习的纹理提取器的输出。提取的纹理特征Q（query），K（key）和V（value）表示转换器transformer内部注意机制的三个基本元素，并将在相关性嵌入模块中进一步使用。

Hard-Attention（硬注意力）

硬注意力模块用来从Ref图像传递HR纹理特征V。传统注意力机制对每个查询qi转移V。但是，这样的操作可能会导致模糊效果，而这种效果缺乏传递HR纹理特征的能力。因此，在本文的硬注意力模块中仅从对每个查询qi中最相关的位置转移纹理特征V。

hi的值可以看作是一个硬指标，它将Ref图像中最相关的位置表示为LR图像中的第i个位置。为了从Ref图像中获取转移的HR纹理特征T，使用硬注意力map作为索引对未展开的patch块应用索引选择（indexselection operation）操作，最终获得了用于LR图像的HR特征表示T。

Soft-Attention（软注意力）

软注意力模块用于将从DNN主干网络backbone中传输的HR纹理特征和LR特征进行融合并生成融合特征。在合成过程中，应增强相关的纹理转移，而应恢复较不相关的纹理转移。为了实现这一点，从ri，j计算出的软注意力图Sis表示T中每个位置的已转移纹理特征的置信度。

其中Si表示软注意力图的第i个位置。首先将HR纹理特征T与LR功能F融合在一起，以利用LR图像中的更多信息，而不是直接应用注意力图S，将这些融合的特征进一步与软注意图逐元素相乘，然后再添加到F中。

综上所述，纹理转换器Transformer可以有效地将相关的HR纹理特征从Ref图像转换为LR特征，从而促进了更精确的纹理生成过程。

3.2 Cross-Scale Feature Integration（跨尺度特征整合）

前面介绍的纹理转换器可以使用跨尺度特征集成模块以跨尺度的方式进一步堆叠。该架构如图3所示。

图3.跨尺度特征集成模块（CSFI）以跨尺度方式堆叠多个纹理转换器的体系结构。RB表示一组残余块。

堆叠的纹理转换器输出三个分辨率级别（1×，2×和4×）的合成特征，以便可以将不同尺度的纹理特征融合到LR图像中。而跨尺度特征集成模块（CSFI），以在不同尺度的特征之间交换信息。每次将LR功能上采样到下一个比例时，都会应用CSFI模块。CSFI模块通过上/下采样来接收来自其他级别的交换特征，随后是通道尺寸中的级联操作。然后，卷积层会将要素映射到原始数量的通道中。

在这样的设计中，从堆叠的纹理转换器传递来的纹理特征可以跨每个比例进行交换，从而获得更强大的特征表示。

3.3 损失函数

Reconstruction loss（重建损失）

其中（C，H，W）是高分辨率图HR的大小。使用了L1loss，与L2loss相比，L1loss被证明在性能上更加清晰，并且更易于收敛。

Adversarial loss（对抗损失）

生成对抗网络被证明可以有效生成清晰且视觉上令人满意的图像。在这里采用WGAN-GP ，该算法提出了梯度范数的二次化处理来代替权重削减，从而得到更稳定的训练和更好的性能。这种损失可以解释为：

Perceptual loss（感知损失）

感知损失的关键思想是增强预测图像和目标图像之间特征空间的相似性。在这里，这里的感知损失包含两个部分：

其中第一部分是传统的感知损失，其中φvggi（·）表示第i层的VGG19特征图，而（Ci，Hi，Wi）表示该层的特征图的形状。ISR是预测的SR图像。我们的感知损失的第二部分是传递感知损失，其中φltej（·）表示从LTE的第j层提取的纹理特征图，而（Cj，Hj，Wj）表示该层的形状。这种传递感知损失将预测的SR图像约束为具有与传递的纹理特征T相似的纹理特征，这使更有效地传递Ref纹理。

3.4 实现细节

可学习的纹理提取器包含5个卷积层和2个合并层，它们以三种不同的比例输出纹理特征。为了减少时间和GPU内存的消耗，相关性嵌入仅应用于最小scale，并进一步传播到其他scale。对于判别器discriminator，采用SRNTT [中使用的相同网络，并删除所有BN层。

在训练过程中，通过水平和垂直随机翻转，然后随机旋转90°，180°和270°来增强训练图像。每个mini-batch包含9个大小为40×40的LR patch以及9个大小为160×160的HR和Ref patch。

4 实验与结果

4.1 数据库和评价指标

数据集：CUFED5

评价指标：在YCbCr空间的Y通道上的PSNR和SSIM上评估SR结果

4.2 定量评估

表1显示了定量评估结果。红色数字表示最高分，蓝色数字表示第二高分。如比较结果所示，TTSR在所有四个测试数据集上均明显优于最新的SISR方法和最新的RefSR方法。在Sun80和Manga109数据集上仍然具有最佳性能，在其他两个数据集CUFED5和Urban100上，TTSR模型可以达到与最新模型相当的性能。

提升效果还是很明显的。

4.3 消融实验

更多实验细节，可以参考原文。