论文名称:SwinIR: Image Restoration Using Swin Transformer
论文下载:https://arxiv.org/abs/2108.10257
论文年份:ICCV 2021
论文被引:117(2022/05/07)
论文代码:https://github.com/JingyunLiang/SwinIR

Abstract

Image restoration is a long-standing low-level vision problem that aims to restore high-quality images from lowquality images (e.g., downscaled, noisy and compressed images). While state-of-the-art image restoration methods are based on convolutional neural networks, few attempts have been made with Transformers which show impressive performance on high-level vision tasks. In this paper , we propose a strong baseline model SwinIR for image restoration based on the Swin Transformer . SwinIR consists of three parts: shallow feature extraction, deep feature extraction and high-quality image reconstruction. In particular , the deep feature extraction module is composed of several residual Swin Transformer blocks (RSTB), each of which has several Swin Transformer layers together with a residual connection. We conduct experiments on three representative tasks: image super-resolution (including classical, lightweight and real-world image super-resolution), image denoising (including grayscale and color image denoising) and JPEG compression artifact reduction. Experimental results demonstrate that SwinIR outperforms state-of-the-art methods on different tasks by up to 0.14∼0.45dB, while the total number of parameters can be reduced by up to 67%.

图像恢复是一个长期存在的低级视觉问题,旨在从低质量图像(例如,缩小、噪声和压缩图像)中恢复高质量图像。虽然最先进的图像恢复方法是基于卷积神经网络的,但很少有人尝试使用 Transformer 进行高级视觉任务的表现令人印象深刻。在本文中,我们提出了一种基于 Swin Transformer 的强大基线模型 SwinIR 用于图像恢复SwinIR 由浅层特征提取、深层特征提取和高质量图像重建三部分组成。特别是,深度特征提取模块由几个残差 Swin Transformer 块 (RSTB) 组成,每个残差块都有几个 Swin Transformer 层和一个残差连接。我们对三个具有代表性的任务进行了实验:图像超分辨率(包括经典、轻量级和真实世界的图像超分辨率),图像去噪(包括灰度和彩色图像去噪)和 JPEG 压缩伪影减少(JPEG compression artifact reduction)。实验结果表明,SwinIR 在不同任务上的性能优于最先进的方法高达 0.14∼0.45dB,而参数总数最多可减少 67%。

1. Introduction

图像恢复,例如图像超分辨率(SR),图像去噪和 JPEG 压缩伪影减少,旨在从其低质量退化的对应物重建高质量的干净图像。由于几项革命性的工作 [18, 40, 90, 91],卷积神经网络 (CNN) 已成为图像恢复的主要主力 [43, 51, 43, 81, 92, 95, 93, 46, 89, 88]。

大多数基于 CNN 的方法都侧重于精细的架构设计,例如残差学习 [43, 51] 和密集连接 [97, 81],尽管与传统的基于模型的方法 [73, 14, 28] 相比性能有显着提高,但它们通常会遇到两个基本问题,这些问题源于基本构建块,即卷积层。首先,图像和卷积核之间的交互是与内容无关的。使用相同的卷积核来恢复不同的图像区域可能不是一个好的选择。其次,根据局部处理的原理,卷积对于远程依赖建模无效

作为 CNN 的替代方案,Transformer [76] 设计了一种自我注意机制来捕获上下文之间的全局交互,并在多个视觉问题 [6, 74, 19, 56] 中显示出良好的性能。然而,用于图像恢复的视觉Transformer [9, 5] 通常将输入图像划分为具有固定大小(例如 48×48)的小块,并独立处理每个块。这种策略不可避免地会产生两个缺点

  • 首先,恢复的图像可能会在每个小块周围引入边界伪影

  • 其次,每个补丁的边界像素会丢失信息以便更好地恢复。虽然这可以通过补丁重叠来缓解,但它会引入额外的计算负担。

最近,Swin Transformer [56] 展示了巨大的前景,因为它融合了 CNN 和 Transformer 的优点。

  • 一方面,由于局部注意力机制,它具有 CNN 处理大尺寸图像的优势

  • 另一方面,它具有 Transformer 的优势,可以使用移位窗口方案对远程依赖进行建模

在本文中,我们提出了一种基于 Swin Transformer 的图像恢复模型,即 SwinIR。更具体地说,SwinIR 由三个模块组成:

  • 浅层特征提取:浅层特征提取模块使用卷积层提取浅层特征,直接传输到重构模块,以保留低频信息

  • 深层特征提取:深度特征提取模块主要由残差 Swin Transformer 块 (RSTB) 组成,每个模块利用几个 Swin Transformer 层进行局部注意力和跨窗口交互。此外,在块的末尾添加了一个卷积层用于特征增强,并使用残差连接为特征聚合提供快捷方式

  • 高质量图像重建模块:在重建模块中融合了浅层和深层特征,以实现高质量的图像重建

与流行的基于 CNN 的图像恢复模型相比,基于 Transformer 的 SwinIR 有几个优点:

  • 1)图像内容和注意力权重之间基于内容的交互,可以解释为空间变化的卷积 [13,21,75]。

  • 2)远程依赖建模是通过移位窗口机制实现的

  • 3)用更少的参数获得更好的性能。如图 1 所示,与现有的图像 SR 方法相比,SwinIR 以更少的参数实现了更好的 PSNR。

2. Related Work

2.1. Image Restoration

与通常基于模型的传统图像恢复方法 [28, 72, 73, 62, 32] 相比,基于学习的方法,尤其是基于 CNN 的方法,由于其令人印象深刻的性能而变得更加流行。他们经常从大规模配对数据集中学习低质量和高质量图像之间的映射。自从开创性工作 SRCNN [18](用于图像 SR)、DnCNN [90](用于图像去噪)和 ARCNN [17](用于 JPEG 压缩伪影减少)以来,已经提出了一系列基于 CNN 的模型来提高模型表示能力通过使用更大更深的神经网络架构设计,例如残差块 [40, 7, 88],密集块 [81, 97, 98] 和其他 [10, 42, 93, 78, 77, 79, 50, 48, 49, 92, 70, 36, 83, 30, 11, 16, 96, 64, 38, 26, 41, 25]。其中有些利用了 CNN 框架内的注意机制,例如通道注意力 [95, 15, 63],非局部注意力 [52, 61] 和 自适应补丁聚合 [100]。

2.2. Vision Transformer

最近,自然语言处理模型 Transformer [76] 在计算机视觉社区中广受欢迎。当用于图像分类 [66, 19, 84, 56, 45, 55, 75],目标检测 [6, 53, 74, 56],分割 [84, 99, 56, 4] 和人群计数 [47, 69] 等视觉问题时,它通过探索不同区域之间的全局交互来学习关注重要的图像区域。由于其令人印象深刻的性能,Transformer 也被引入用于图像恢复 [9, 5, 82][9] 提出了基于标准 Transformer 的各种恢复问题的骨干模型 IPT。然而,IPT 依赖于大量参数(超过 115.5M 参数),大规模数据集(超过 1.1M 图像)和多任务学习以获得良好的性能[5] 提出了 VSR-Transformer,它使用自注意力机制在视频 SR 中进行更好的特征融合,但仍然从 CNN 中提取图像特征。此外,IPT 和 VSR-Transformer 都是 patchwise attention,可能不适合图像恢复。一项并行工作 [82] 提出了一种基于 Swin Transformer [56] 的 U 形架构

3. Method

3.1. Network Architecture


如图 2 所示,SwinIR 由三个模块组成:浅层特征提取,深层特征提取和高质量(HQ)图像重建模块。我们对所有恢复任务使用相同的特征提取模块,但对不同的任务使用不同的重建模块

浅层和深层特征提取(Shallow and deep feature extraction)。给定一个低质量(LQ)输入 ILQ∈RH×W×CinI_{LQ} ∈ \R^{H×W ×C_{in}}ILQ​∈RH×W×Cin​(H,W 和 Cin 分别是图像的高度,宽度和输入通道数),使用 3×3 卷积层 HSF(⋅)H_{SF}(·)HSF​(⋅) 来提取浅层特征 F0∈RH×W×CF_0 ∈ \R^{H×W×C}F0​∈RH×W×C 为:

其中 CCC 是特征通道数。卷积层擅长早期视觉处理,导致更稳定的优化和更好的结果 [86]。它还提供了一种将输入图像空间映射到更高维特征空间的简单方法。然后,从 F0F_0F0​ 中提取深度特征 FDF∈RH×W×CF_{DF} ∈ \R^{H×W×C}FDF​∈RH×W×C 为

其中 HDF(⋅)H_{DF}(·)HDF​(⋅) 是深度特征提取模块,它包含 K 个残差 Swin Transformer 块 (RSTB) 和一个 3 × 3 卷积层。更具体地说,中间特征 F1,F2,...,FKF_1, F_2, ... , F_KF1​,F2​,...,FK​ 和输出深度特征 FDFF_{DF}FDF​ 被逐块提取为

其中 HRSTBi(⋅)H_{RSTB_i}(·)HRSTBi​​(⋅) 表示第 iii 个 RSTB,HCONV 是最后一个卷积层。在特征提取的最后使用卷积层,可以将卷积操作的归纳偏差带入基于 Transformer 的网络中,为后期浅层和深层特征的聚合打下更好的基础。

图像重建。以图像 SR 为例,通过聚合浅层和深层特征来重建高质量的图像 IRHQI_{RHQ}IRHQ​

其中 HREC(⋅)H_{REC}(·)HREC​(⋅) 是重建模块的函数。浅层特征主要包含低频,而深层特征侧重于恢复丢失的高频。 SwinIR 通过长跳跃连接,可以将低频信息直接传递给重建模块,帮助深度特征提取模块专注于高频信息,稳定训练。对于重建模块的实现,我们使用亚像素卷积层(sub-pixel convolution layer) [68] 对特征进行上采样

对于不需要上采样的任务,例如图像去噪和 JPEG 压缩伪影减少,使用单个卷积层进行重建。此外,使用残差学习来重建 LQ 和 HQ 图像之间的残差,而不是 HQ 图像。这被表述为

其中 HSwinIR(·) 表示 SwinIR 的函数。

损失函数。对于图像 SR,通过最小化 L1 像素损失来优化 SwinIR 的参数

其中 IRHQI_{RHQ}IRHQ​ 是通过将 ILQI_{LQ}ILQ​ 作为 SwinIR 的输入得到的,IHQ 是对应的 ground-truth HQ 图像。对于经典和轻量级的图像 SR,我们只使用与之前工作相同的一般 L1 像素损失来展示所提出网络的有效性对于真实世界的图像 SR,结合使用像素损失,GAN 损失和感知损失 [81, 89, 80, 27, 39, 81] 来提高视觉质量

对于图像去噪和 JPEG 压缩伪影减少,使用 Charbonnier 损失 [8]

其中 ϵ 是一个根据经验设置为 10−3 的常数。

3.2. Residual Swin Transformer Block

如图 2(a) 所示,残差 Swin Transformer 块 (RSTB) 是具有 Swin Transformer 层和卷积层的残差块。给定第 i 个 RSTB 的输入特征 Fi,0F_{i,0}Fi,0​,首先由 L 层 Swin Transformer 提取中间特征 Fi,1,Fi,2,...,Fi,LF_{i,1}, F_{i,2}, . . . , F_{i,L}Fi,1​,Fi,2​,...,Fi,L​:

其中 HSwini,j (·) 是第 i 个 RSTB 中的第 j 个 Swin Transformer 层。然后,在残差连接之前添加一个卷积层。 RSTB 的输出公式为

其中 HCONVi(·) 是第 i 个RSTB中的卷积层。这种设计有两个好处。首先,虽然 Transformer 可以被视为空间变化卷积的特定实例 [21, 75],但具有空间不变滤波器的协变层可以增强 SwinIR 的平移等效性。其次,残差连接提供了从不同块到重建模块的基于恒等映射的短连接,允许聚合不同级别的特征

Swin Transformer层Swin Transformer 层 (STL) [56] 基于原始 Transformer 层 [76] 的标准多头自注意力。主要区别在于局部注意力和移位窗口机制。如图 2(b) 所示,给定大小为 H×W×CH × W × CH×W×C 的输入,Swin Transformer 首先将输入重塑为 HW/M2×M2×CHW/M^2 × M^2 × CHW/M2×M2×C 特征,方法是将输入划分为不重叠的 M×MM × MM×M 局部窗口,其中 HW/M2HW/M^2HW/M2 是窗口的总数。然后,它为每个窗口分别计算标准自注意力(即局部注意力)。对于局部窗口特征 X∈RM2×CX ∈ \R^{M^2×C}X∈RM2×C,查询、键和值矩阵 Q、K 和 V 计算为

其中 PQ、PK 和 PV 是在不同窗口之间共享的投影矩阵。一般来说,有 Q,K,V∈RM2×dQ, K, V ∈ \R^{M^2×d}Q,K,V∈RM2×d。因此,注意力矩阵由局部窗口中的自注意力机制计算为

其中 BBB 是可学习的相对位置编码。在实践中,按照 [76],并行执行 hhh 次注意力函数,并将结果连接起来用于多头自注意 (MSA)

接下来,多层感知器 (MLP) 具有两个完全连接的层,它们之间具有 GELU 非线性,用于进一步的特征转换。在 MSA 和 MLP 之前添加了 LayerNorm (LN) 层,并且两个模块都使用了残差连接。整个过程被表述为

但是,当不同层的分区固定时,局部窗口之间没有连接。因此,交替使用常规和移位窗口分区来启用跨窗口连接[56],其中移位窗口分区意味着在分区之前将特征移动 (⌊M/2⌋, ⌊M/2⌋) 个像素

4. Experiments

4.1. Experimental Setup

对于经典图像SR,真实世界图像SR,图像去噪和 JPEG 压缩伪影减少,通常将RSTB数,STL数,窗口大小,通道数和注意力头数分别设置为6,6,8,180 和 6。一个例外是窗口大小设置为 7,以减少 JPEG 压缩伪影,因为我们观察到使用 8 时性能显着下降,可能是因为 JPEG 编码使用 8 × 8 图像分区。对于轻量级图像 SR,我们将 RSTB 数量和通道数量分别减少到 4 和 60。在 [95, 63] 之后,当自集成策略 [51] 用于测试时,我们用符号“+”标记模型,例如 SwinIR+。训练和评估详细信息在补充中提供。

4.2. Ablation Study and Discussion

对于消融研究,我们在 DIV2K [1] 上针对经典图像 SR (×2) 训练 SwinIR,并在 Manga109 [60] 上对其进行测试

通道数量,RSTB 数量和 STL 数量的影响我们展示了 RSTB 中通道数,RSTB 数和 STL 数对模型性能的影响。分别如图 3(a),3(b) 和 3© 所示。可以观察到,PSNR 与这三个超参数正相关尽管较大通道数的性能不断提高,但参数的总数呈二次增长。为了平衡性能和模型大小,我们在其余实验中选择 180 作为通道数。对于RSTB数和层数,性能增益逐渐趋于饱和。我们为它们都选择了 6 以获得相对较小的模型

补丁大小和训练图像数量的影响;模型收敛比较。我们将提出的 SwinIR 与基于 CNN 的代表性模型 RCAN 进行比较,以利用基于 Transformer 和基于 CNN 的模型的差异。从图 3(d) 可以看出,SwinIR 在不同的补丁尺寸上表现优于 RCAN,并且当补丁尺寸越大时,PSNR 增益越大。图 3(e) 显示了训练图像数量的影响。当百分比大于 100%(800 张图像)时,来自 Flickr2K 的额外图像用于训练。有两个观察结果。首先,正如预期的那样,SwinIR 的性能随着训练图像数量的增加而上升。其次,与 IPT 中观察到基于 Transformer 的模型依赖大量训练数据不同,SwinIR 比使用相同训练数据的基于 CNN 的模型取得更好的结果,即使数据集很小(即 25%,200 张图像)。我们还在图 3(f) 中绘制了 SwinIR 和 RCAN 在训练期间的 PSNR。很明显,SwinIR 的收敛速度比 RCAN 更快更好,这与之前的观察结果相矛盾,即基于 Transformer 的模型通常会出现模型收敛缓慢的问题

RSTB 中残差连接和卷积层的影响。表 1 展示了 RSTB 中的四种残差连接变体:无残差连接,使用 1×1 卷积层,使用 3×3 卷积层和使用三个 3×3 卷积层(中间层的通道数设置为网络通道数的四分之一)。从表中,可以得到以下观察结果。

  • 首先,RSTB 中的剩余连接很重要,因为它将 PSNR 提高了 0.16dB。
  • 其次,使用 1×1 卷积带来的改进不大,可能是因为它无法像 3×3 卷积那样提取局部相邻信息
  • 第三,虽然使用三个 3×3 的卷积层可以减少参数数量,但性能略有下降

4.3. Results on Image SR



经典图像 SR。表 2 显示了 SwinIR(中等大小)与最先进方法之间的定量比较:DBPN [31]、RCAN [95]、RRDB [81]、SAN [15]、IGNN [100]、HAN [63 ]、NLSA [61] 和 IPT [9]。可以看出,当在 DIV2K 上进行训练时,SwinIR 在几乎所有五个基准数据集上针对所有比例因子实现了最佳性能。对于比例因子 4,在 Manga109 上的最大 PSNR 增益达到 0.26dB。请注意,RCAN 和 HAN 引入了通道和空间注意,IGNN 提出了自适应补丁特征聚合,而 NLSA 基于非局部注意机制。然而,所有这些基于 CNN 的注意力机制都比提出的基于 Transformer 的 SwinIR 表现更差,这表明了所提出模型的有效性。当我们在更大的数据集上训练 SwinIR 时,性能进一步大幅提升(高达 0.47dB),即使 IPT 在训练中使用 ImageNet(超过 130 万张图像),其精度也比相同的基于 Transformer 的模型 IPT 更好并且有大量的参数(115.5M)。相比之下,即使与最先进的基于 CNN 的模型(15.4∼44.3M)相比,SwinIR 的参数数量也很少(11.8M)。至于运行时间,基于 CNN 的代表性模型 RCAN、IPT 和 SwinIR 分别在 1、024 × 1、024 图像上测试需要大约 0.2、4.5 秒和 1.1 秒。我们在图 4 中显示了比例因子 4 的视觉比较。SwinIR 可以恢复高频细节并减轻模糊伪影,从而产生清晰自然的边缘。相比之下,大多数基于 CNN 的方法无法恢复正确的纹理并产生模糊的图像甚至是不同的结构。与基于 CNN 的方法相比,IPT 生成更好的图像,但它存在图像失真和边界伪影。

轻量级图像 SR。我们还提供了 SwinIR(小尺寸)与最先进的轻量级图像 SR 方法的比较:CARN [2]、FALSR-A [12]、IMDN [35]、LAPAR-A [44] 和 LatticeNet [57 ]。除了 PSNR 和 SSIM,我们还报告了参数总数和乘法累加操作(在 1280×720 的 HQ 图像上评估),以比较不同模型的模型大小和计算复杂度。如表 3 所示,SwinIR 在不同的基准数据集上以高达 0.53dB 的 PSNR 幅度优于竞争方法,具有相似的参数总数和乘法累加操作。这表明 SwinIR 架构是高效的

真实世界的图像 SR。图像 SR 的最终目标是用于实际应用。最近,[89] 为真实世界的图像 SR 提出了一个实用的退化模型 BSRGAN,并在真实场景中取得了令人惊讶的结果。为了测试 SwinIR 在现实世界 SR 中的性能,我们使用与 BSRGAN 相同的退化模型来重新训练 SwinIR 以进行低质量图像合成,并在现实世界 SR 基准数据集 RealSRSet [89] 上对其进行测试。由于没有真实的高质量图像,我们仅提供与代表性双三次模型 ESRGAN [81] 和最先进的真实世界图像 SR 模型 FSSR [24]、RealSR [37] 和 BSRGAN [89] 的视觉比较。如图 5 所示,SwinIR 产生具有清晰锐利边缘的视觉上令人愉悦的图像,而其他比较方法可能会出现不令人满意的伪影。此外,为了充分利用 SwinIR 在实际应用中的潜力,我们进一步提出了一个大型模型并在更大的数据集上对其进行训练。实验表明,与当前模型相比,它可以处理更复杂的损坏,并在真实世界的图像上取得更好的性能。由于页数限制,详情在我们的项目页面 https://github.com/JingyunLiang/SwinIR 中给出。

4.4. Results on JPEG Compression Artifact Reduction


表 4 显示了 SwinIR 与最先进的 JPEG 压缩伪影减少方法的比较:ARCNN [17]、DnCNN-3 [90]、QGAC [20]、RNAN [96]、RDN [98] 和 DRUNet [88]。所有比较的方法都是基于 CNN 的模型。在 [98, 88] 之后,我们在两个基准数据集(Classic5 [22] 和 LIVE1 [67])上测试了 JPEG 质量因子 10、20、30 和 40 的不同方法。正如我们所见,所提出的 SwinIR 具有平均 PSNR 增益在不同品质因数的两个测试数据集上至少为 0.11dB 和 0.07dB。此外,与之前最好的模型 DRUNet 相比,SwinIR 只有 1150 万个参数,而 DRUNet 是一个大模型,有 3270 万个参数

4.5. Results on Image Denoising


我们分别在表 5 和表 6 中显示灰度和彩色图像去噪结果。比较的方法包括传统模型 BM3D [14] 和 WNNM [29]、基于 CNN 的模型 DnCNN [90]、IRCNN [91]、FFDNet [92]、N3Net [65]、NLRN [52]、FOCNet [38]、 RNAN [96]、MWCNN [54] 和 DRUNet [88]。在 [90, 88] 之后,比较的噪声水平包括 15、25 和 50。可以看出,我们的模型比所有比较的方法实现了更好的性能。特别是,它在拥有 100 张高分辨率测试图像的大型 Urban100 数据集上比最先进的模型 DRUNet 高出 0.3dB。值得指出的是,SwinIR 只有 12.0M 参数,而 DRUNet 有 32.7M 参数。这表明 SwinIR 架构在学习特征表示以进行恢复方面非常有效。不同方法的灰度和彩色图像去噪的视觉对比如图 6 和 7 所示。我们的方法可以消除严重的噪声损坏并保留高频图像细节,从而产生更清晰的边缘和更自然的纹理。相比之下,其他方法要么过于平滑,要么过于锐利,无法恢复丰富的纹理

5. Conclusion

在本文中,我们提出了一种基于 Swin Transformer 的图像恢复模型 SwinIR。该模型由浅层特征提取、深层特征提取和HR重建模块三部分组成。特别是,我们使用一堆残差 Swin Transformer 块(RSTB)进行深度特征提取,每个 RSTB 由 Swin Transformer 层、卷积层和残差连接组成。大量实验表明,SwinIR 在三个代表性图像恢复任务和六种不同设置上实现了最先进的性能:经典图像 SR、轻量级图像 SR、真实世界图像 SR、灰度图像去噪、彩色图像去噪和 JPEG 压缩伪影减少,这证明了所提出的 SwinIR 的有效性和普遍性。未来,我们会将模型扩展到其他恢复任务,例如图像去模糊和去雨。

【CV】SwinIR:使用 Swin Transformer 进行图像恢复相关推荐

  1. 图像恢复 SWinIR : 彻底理解论文和源代码 (注释详尽)

    文章目录 1. SwinIR 论文 2. SWinIR 网络结构 2.1 整体框架 2.2 浅层特征提取 2.3 深层特征提取 2.4 图像重建模块 3. 主要代码理解 3.1 SwinIR 3.2 ...

  2. ICCV 2021 Best Paper | Swin Transformer何以屠榜各大CV任务!

    作者:陀飞轮@知乎(已授权) 来源:https://zhuanlan.zhihu.com/p/360513527 编辑:智源社区 近日,Swin Transformer拿到2021 ICCV Best ...

  3. SwinIR: Image Restoration Using Swin Transformer论文笔记

    前言 该算法将Swin Transformer应用于图像复原的领域,主要网络结构分为三个部分:①浅层特征提取 ②深层特征提取 ③高质量图像重建.主要应用于图像复原的三个方向,图像超分辨.图像降噪.由于 ...

  4. 霸榜各大CV任务榜单,Swin Transformer横空出世!

    1. ImageNet-1K的图像分类 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 一元@炼丹笔记 ...

  5. 论文笔记33 -- (CV)【ICCV2021】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    CV + Transformer 论文:点这里 官方代码:点这里 第三方代码:点这里 Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,S ...

  6. 屠榜各大CV任务!最强骨干网络:Swin Transformer V2来了

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自丨极市平台   作者丨happy 导读 针对SwinV1在更大模型方面存在的几点问题,Swin tra ...

  7. 重磅开源!屠榜各大CV任务!最强骨干网络:Swin Transformer来了

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:Smarter Swin Transformer 代码于2021年4月13日凌晨刚刚开源! ht ...

  8. 【论文阅读】Swin Transformer Embedding UNet用于遥感图像语义分割

    [论文阅读]Swin Transformer Embedding UNet用于遥感图像语义分割 文章目录 [论文阅读]Swin Transformer Embedding UNet用于遥感图像语义分割 ...

  9. Swin Transformer、ViT作者等共话:好的基础模型是CV 研究者的朴素追求

    2021-2022 年,随着 Transformer 被引入计算机视觉领域,视觉基础模型研发迎来了又一个新的高潮.一时间,基于视觉 Transformer 的骨干模型设计.自监督学习.模型扩展.下游应 ...

最新文章

  1. 一个分析“文件夹”选择框实现方法的过程
  2. 07-Windows Server 2012 R2 会话远程桌面-标准部署-RD授权
  3. java取geosever数据,终于搞定了GeoServer的WFS查询
  4. CUDA系列学习(五)GPU基础算法: Reduce, Scan, Histogram
  5. 关于ARM的22个常用概念介绍
  6. Python3.7模块之hashlib
  7. sass导入sass_如何使用Sass Mixins和Loops
  8. php空间搭建tcshare,新秀网 - 宝塔面板搭建天翼云盘目录列表TCShare
  9. java.lang.ExceptionInInitializerError解决办法
  10. 俄罗斯黑客被指攻击本国的工业组织机构
  11. mybatis中获取当前时间_mybatis 在xml文件中获取当前时间的sql
  12. 【有限差分法】(一)有限差分法的基本流程与常用格式
  13. 华为魔术2手机拆机图解_华为手机荣耀Magic2手机维修拆机教程
  14. android多媒体stagefright框架,Android多媒体框架下Stagefright的功能扩展.PDF
  15. 【元器件学习笔记—电阻】(8)——电阻分压电路
  16. 什么是阿里云服务器ECS?
  17. 线程初步(四)--小练习
  18. 程序员技术面试与HR谈薪资技巧的一些经验心得
  19. shell清除cach
  20. 线性模型(一)--广义线性模型(GLM)简介

热门文章

  1. 【踩坑】spconf.sty Latex样式模板的name包含下划线
  2. 蓝桥杯单片机第十届省赛题程序实现
  3. DCT变换和DFT变换
  4. Callback cannot return a non-null value as it gets overwritten by the pipeline
  5. maven是干嘛的?
  6. Android Gradle Composing builds 管理三方依赖
  7. ARM双核锁步DCLS Lockstep技术研究(FPGA实现)
  8. 如何让CFree5.0支持C++11
  9. 【tensorflow学习】Ftrl学习
  10. 栅栏密码(The Rail-Fence Cipher)