内部-外部学习和对比性学习的艺术风格转移

摘要

尽管现有的艺术风格转移方法在深度神经网络的作用下取得了明显的改善，但它们仍然存在着诸如不和谐的颜色和重复的图案等伪影。受此启发，我们提出了一种具有两种对比性损失的内部-外部风格转移方法。具体来说，我们利用单个风格图像的内部统计数据来确定风格化图像的颜色和纹理模式，同时，我们利用大规模风格数据集的外部信息来学习人类感知的风格信息，这使得风格化图像中的颜色分布和纹理模式更加合理和谐。此外，我们认为现有的风格转换方法只考虑了内容到风格化和风格到风格化的关系，忽视了风格化到风格化的关系。为了解决这个问题，我们引入了两个对比性损失，当多个风格化嵌入具有相同的内容或风格时，它们会相互拉近，但在其他情况下则会推远。我们进行了广泛的实验，表明我们提出的方法不仅可以产生视觉上更加和谐和令人满意的艺术图像，而且还可以促进渲染视频片段的稳定性和一致性。

1 引言

图1：风格化的例子。第一列和第二列分别显示了风格和内容图像。其他七列显示了由我们的方法、Gatys等人[10]、AdaIN[15]、WCT[30]、Avatar-Net[41]、LST[28]和SANet[36]产生的风格化图像。

艺术风格转移是一个长期的研究课题，它试图用给定的艺术作品风格来呈现一张照片。自从Gatys等人[10]首次提出利用预训练的深度卷积神经网络（DCNN）来分离和重新组合任意图像的内容和风格的神经方法以来，风格转换出现了空前的繁荣[20, 26, 15, 30, 36, 51, 48]。

尽管最近取得了一些进展，但在真实的艺术作品和合成的风格化之间仍然存在着很大的差距。如图1所示，风格化的图像通常包含一些不和谐的颜色和重复的图案，这使得它们很容易与真实的艺术作品相区别。我们认为，这是因为现有的风格转换方法往往局限于单个艺术图像的内部风格统计。在其他一些任务中（例如，图像到图像的翻译[17, 60, 16, 25, 8, 18]），风格通常是从图像集合中学习的，这启发我们利用大规模风格数据集中保留的外部信息来提高风格转移的风格化结果。为什么外部信息对风格转换如此重要？我们的分析如下：

尽管风格数据集中的不同图像在细节上有很大的不同，但它们有一个关键的共同点：它们都是人类创造的艺术品，其笔触、色彩分布、纹理模式、色调等更符合人类的感知。也就是说，它们包含了一些人类意识到的风格信息，而这些信息在合成的风格化中是缺乏的。一个自然的想法是利用这种人类意识到的风格信息来改善风格化的结果。为此，我们在训练中采用了内部-外部学习方案，将内部学习和外部学习都考虑在内。

更具体地说，一方面，我们遵循以前的方法[10, 20, 46, 54, 58]，利用单个艺术品的内部统计数据来确定风格化图像的颜色和纹理模式。另一方面，我们采用生成对抗网（GANs）[11, 39, 2, 56, 3]，从大规模风格数据集中外部学习人类感知的风格信息，然后利用这些信息使风格化图像的颜色分布和纹理模式更加合理、和谐，大大弥补了人类创作的艺术品与人工智能创作的艺术品之间的差距。

此外，现有的风格转换方法还有一个问题：它们通常采用内容损失和风格损失来分别执行内容到风格的关系和风格到风格的关系，而忽略了风格化到风格化的关系，这对风格转换也很重要。什么是风格化与风格化的关系？直观地说，用同一风格图像渲染的风格化图像应该比用不同风格图像渲染的图像在风格上有更紧密的关系。同样地，基于相同内容图像的风格化图像应该比基于不同内容图像的风格化图像在内容上有更紧密的关系。受此启发，本文介绍了两种对比性损失：内容对比性损失和风格对比性损失，当多个风格化嵌入具有相同的内容或风格时，它们可以相互拉近，但在其他情况下则会推远。据我们所知，这是第一项在风格转换场景中成功利用对比学习[6, 12, 21, 38]力量的工作。

我们大量的实验表明，所提出的方法不仅可以产生视觉上更和谐、更合理的艺术形象，而且还可以促进渲染的视频片段的稳定性和一致性。

总而言之，这项工作的主要贡献有三点：

我们提出了一种新颖的内部-外部风格转换方法，该方法同时考虑了内部学习和外部学习，大大缩小了人类创造的艺术品和人工智能创造的艺术品之间的差距。
我们首次将对比性学习引入到风格转换中，通过学习风格化与风格化的关系，产生了更令人满意的风格化结果。
我们通过与几种最先进的艺术风格转移方法进行广泛的比较，证明了我们方法的有效性和优越性。

2 相关工作

艺术风格的转移。艺术风格转移是一项图像编辑任务，目的是将艺术风格转移到日常照片上，以创造新的艺术作品。早期的方法通常借助于传统的2种技术，如笔画渲染[13]、图像类比[14, 42, 9, 31]和图像过滤[52]来进行艺术风格转移。这些方法通常依赖于低级别的统计，往往不能捕捉到语义信息。最近，Gatys等人[10]发现，从预训练的DCNN中提取的深层特征后的Gram矩阵可以明显代表视觉风格的特征，这开启了神经风格转移的时代。此后，一系列的神经方法被提出，从不同的关注点推动了风格转移的发展。具体来说，[20, 27, 46]利用前馈网络来提高工作效率。[26, 54, 36, 58, 35]细化风格化图像中的各种元素（包括内容保存、纹理、笔触等），以提高视觉质量。[7, 15, 30, 41, 28]提出通用的风格转移方法，以实现通用化。[29、47、51]向生成网络注入随机噪声以鼓励多样性。尽管进展迅速，但这些风格转移方法仍然存在虚假的假象，如不和谐的颜色和重复的图案。

请注意，还有另一条工作路线[40, 24, 23, 45, 4, 5]，旨在从艺术家的所有作品中学习其风格。相比之下，我们的重点不是学习艺术家的风格，而是在外部风格数据集中保留的人类意识的风格信息的帮助下，更好地倾向于艺术品的风格（就像上一段提到的风格转移方法）。因此，我们的方法与这些工作是正交的。

图像到图像的转换。图像到图像转移(I2I)[17，60，16，25，8，18]旨在学习不同视觉领域之间的映射，这与风格迁移密切相关。[60，16]已经区分了这两个任务：(I)I2I只能在内容相似的视域(如马↔斑马和夏天↔冬天)之间进行翻译，而风格转移没有这样的限制，其内容图像和样式图像可以完全不同(例如，前者是一个人的照片，后者是梵高的《星空》)。(II)I2I旨在学习两个图像集合之间的映射，而风格迁移则旨在学习两个特定图像之间的映射。然而，我们认为可以借鉴I2I的一些见解，利用大规模风格图像集合的外部信息来提高风格传递的风格化质量。

内部-外部学习。内部-外部学习在各种图像生成任务中显示出有效性，如超分辨率、图像绘画等。详细来说，Soh等人[44]通过利用外部和内部样本，提出了一种快速、灵活和轻量级的自监督超分辨率方法。Park等人[37]开发了一种内部-外部超分辨率方法，促进了超分辨率网络的发展，进一步提高了修复图像的质量。Wang等人[49]提出了一个通用的外部-内部学习绘画方案，该方案通过在大型数据集上的训练从外部学习语义知识，同时充分利用单一测试图像的内部统计数据。然而，在风格转换领域，现有的方法只使用单一的艺术图像来学习风格，导致风格化的结果不令人满意。受此启发，在这项工作中，我们提出了一种内部-外部风格转移方法，该方法同时考虑了内部学习和外部学习，大大缩小了人类创造的艺术品和人工智能创造的艺术品之间的差距。

对比性学习。一般来说，对比学习过程中有三个关键因素：查询、正面例子和负面例子。对比学习的目标是将 "查询 "与 "正面 "例子联系起来，同时将 "查询 "与其他被称为 "负面 "的例子分开。最近，对比性学习在条件图像合成领域显示了其有效性。更具体地说，ContraGAN[21]引入了条件性对比损失（2C损失）来学习数据到类别和数据到数据的关系。Park等人[38]通过对比性学习使输入和输出之间的相互信息最大化，以鼓励在非配对图像翻译问题中保留内容。Liu等人[34]引入了潜伏的对比性损失，鼓励由相邻的潜在的代码生成的图像相似，由不同的潜在的代码生成的图像不相似，实现了多样化的图像合成。Yu等人[55]提出了对抗性训练中的双重对比损失，通过泛化表征来更有效地区分真假，并进一步激励图像生成质量。Wu等人[53]通过引入对比性学习改进了图像去模糊的结果，确保修复后的图像在表示空间中被拉近到清晰的图像，并被推远到模糊的图像。

需要注意的是，上述所有的对比性学习方法都不能被用于风格转换。在这项工作中，我们首次尝试将对比学习适用于艺术风格转移，并提出了两种新的对比损失：内容对比损失和风格对比损失，以学习现有风格转移方法所忽略的风格化与静态化关系。

3 提出的方法

图2：拟议方法的概述。(a)说明了我们的基本框架，它主要包含一个预训练的编码器，一个风格-注意力转换模块，一个解码器和一个鉴别器。风格损失Ls和内容损失Lc分别用于学习风格和内容信息。对抗性损失Ladv被用来学习人类意识到的风格信息。(b)和(c)描述了身份损失Lidentity和对比损失Ls-contra & Lc-contra，其中Lidentity用于保留风格化图像中更多的内容结构和风格特征，而Ls-contra & Lc-contra用于学习风格化与风格化的关系。

现有的风格转移方法通常会产生令人不满意的风格化结果，具有不和谐的颜色和重复的图案，这使得它们很容易与真实的艺术作品相区别。

为了弥补人类创作的艺术作品和人工智能创作的艺术作品之间的巨大差距，我们提出了一种新型的内部-外部风格转移方法，该方法有两个对比性损失。我们的方法概述如图2所示。值得注意的是，我们的框架建立在SANet[36]（最先进的风格转移方法之一）的主干上，它由一个编码器E、一个转换模块T和一个解码器D组成。具体来说，E是一个预训练的VGG-19网络[43]，用于提取图像特征；T是一个风格注意网络，可以灵活地将语义最近的风格特征匹配到内容特征上；D是一个生成网络，用于将编码的语义特征图转化为风格化图像。我们用我们提出的修改来扩展SANet[36]，我们的完整模型描述如下。

3.1 内部-外部学习

让C和S分别为照艺术作品的集合。我们的目标是既从单个艺术品Is∈S中学习内部风格特征，又从数据集S中学习外部人类意识的风格信息，然后将它们转移到任意的内容图像Ic∈C中，以创建新的艺术图像Isc。

内部风格学习。按照以前的风格转移方法[15, 36, 1]，我们使用预先训练好的VGG-19网络φ来捕捉单一艺术图像的内部风格特征，风格损失一般可以计算为：

其中φi表示VGG-19网络的第i层（Relu1_1, Relu2_1, Relu3_1, Relu4_1和Relu5_1层在我们的模型中被使用）。µ和σ分别代表由φi提取的特征图的平均值和标准偏差。

外部风格学习。在这里，我们采用GAN[11, 39, 2, 56, 3]来从风格数据集S中学习人类意识到的风格信息。GAN是一个流行的生成模型，由两个相互竞争的网络（即生成器G和判别器D）组成。具体来说，我们将生成器产生的风格化图像和从S中取样的艺术作品分别作为假数据和真实数据输入到鉴别器。在训练过程中，生成器将试图通过生成真实的艺术图像来欺骗鉴别器，而鉴别器将试图区分生成的假艺术作品和真实的艺术作品。这两个网络的联合训练导致生成器能够利用学到的人类意识风格信息生成显著的逼真假图像。对抗性训练过程可以被表述为（注意我们的生成器G包含一个编码器E，一个转换模块T，和一个解码器D，如图2（a）所示）。

内容结构保存。为了在风格化图像Isc中保留Ic的内容结构，我们采用广泛使用的感知损失：

身份损失。与[36, 32, 59]类似，当内容图像和风格图像相同时，我们利用身份损失来鼓励生成器G成为一个近似的身份映射。通过这种方式，在风格化结果中可以保留更多的内容结构和风格特征。身份损失在图2（b）中描述，定义为：

其中Icc是内容图像和风格图像都是Ic时产生的输出图像。λidentity1和λidentity2是与不同损失项相关的权重。对于φi，我们在实验中选择Relu1_1、Relu2_1、Relu3_1、Relu4_1和Relu5_1层。

3.2对比学习

直观地说，用相同风格的图像渲染的风格化图像应该比用不同风格的图像渲染的图像在风格上有更紧密的关系。同样地，基于相同内容图像的风格化图像应该比基于不同内容图像的风格化图像在内容上有更紧密的关系。我们把这种关系称为风格化与风格化的关系。一般来说，现有的风格转换方法只考虑了内容到风格和风格到风格的关系，采用了内容损失和风格损失（如上面介绍的Lc和Ls），而忽略了风格化到风格化的关系。为了解决这个问题，我们首次将对比性学习引入到风格转换中。对比学习的核心思想是将数据点与它们的 "正面 "例子联系起来，而将它们与其他被认为是 "负面 "的数据点分开。

具体来说，我们提出了两种对比性损失：风格对比性损失和内容对比性损失来学习风格化与风格化的关系。请注意，为了更清楚地表达，以下我们用si表示第i个风格图像，ci表示第i个内容图像，sici表示用si和ci生成的风格化图像。为了在每个训练批次中进行对比学习，我们以下列方式安排一批风格和内容图像：

假设批次大小=b，是一个偶数。那么我们得到一批风格化图像{s1, s2, ..., sb/2, s1, s2, ..., sb/2-1, sb/2}，和一批内容图像{c1, c2, ..., cb/2, c2, c3, ..., cb/2, c1}。因此，相应的风格化图像是{s1c1, s2c2, ..., sb/2cb/2, s1c2, s2c3, ..., sb/2-1cb/2, sb/2c1}。通过这种方式，我们确保对于每个风格化的图像sicj，我们可以找到一个与它有相同风格的风格化图像sicx(x ≠ j)，以及一个与它有相同内容的风格化图像sycj(y ≠ i)在同一批次。图2（c）以b=8为例，描述了这个过程。

风格对比性损失。为了关联具有相同风格的风格化图像，对于一个风格化图像sicj，我们选择sicx（x ≠ j）作为它的正面例子（sicx与sicj具有相同的风格），并选择smcn（m ≠ i和n ≠ j）作为它的负面例子。请注意，smcn代表了一系列风格化的图像，而不仅仅是一个图像。那么我们可以把我们的风格对比损失表述如下：

其中ls = hs(φrelu3_1(·))，其中hs是一个风格投影网络。ls用于从风格化图像中获得风格嵌入。τ是一个温度超参数，用于控制推力和拉力。

内容对比性损失。与风格对比损失类似，为了关联共享相同内容的风格化图像，对于风格化图像sicj，我们选择sycj（y ≠ i）作为其正面例子（sycj与sicj共享相同的内容），选择smcn（m ≠ i和n ≠ j）作为其负面例子。我们将内容对比损失表示为：

其中lc = hc(φrelu4_1(·))，其中hc是一个内容投影网络。lc被用来从风格化的图像中获得内容嵌入。

3.3最终目标

我们总结所有上述损失，得到我们模型的最终目标，

其中λ1、λ2、λ3、λ4、λ5和λ6是用于适当平衡损失的超参数。

4 实验结果

在本节中，我们首先介绍了实验设置。然后，我们介绍了所提出的方法和几个基线模型之间的定性和定量比较。最后，我们通过进行消融研究来讨论我们模型中每个组成部分的效果。

4.1实验设置

实施细节。我们在最近的SANet[36]骨干网的基础上，用我们提出的修改来扩展它，以进一步推动自动艺术品生成的界限。关于编码器E、转换模块T和解码器D的详细网络结构，我们参考原始论文[36]。至于判别器D，我们采用Wang等人[50]提出的多尺度判别器。风格投影网络hs是一个两层的MLP（多层感知器），第一层有256个单元，第二层有128个单元。同样地，内容投影网络hc是一个两层MLP，每层有128个单元。公式（5）和（6）中的超参数τ被设定为0.2。方程（4）和（7）中的损失权重设置为λidentity1=50，λidentity2=1，λ1=1，λ2=5，λ3=1，λ4=1，λ5=0.3，和λ6=0.3。我们使用Adam优化器训练我们的网络,学习率为0.0001，批次大小为16，迭代次数为160000。我们的代码可在以下网站获得：

GitHub - HalbertCH/IEContraAST: This is the official PyTorch implementation of our paper: "Artistic Style Transfer with Internal-external Learning and Contrastive Learning".

数据集。与[15, 58, 36, 19]一样，我们将MS-COCO[33]和WikiArt[22]分别作为内容数据集和风格数据集。在训练阶段，我们首先将训练图像的最小尺寸调整为512，同时保留长宽比，然后从这些图像中随机裁剪出256×256的补丁作为输入。请注意，在参考阶段，我们的方法适用于任何尺寸的内容图像和风格图像。

基线。我们选择了几种最先进的风格转换方法作为基线，包括Gatys等人[10]、AdaIN[15]、WCT[30]、Avatar-Net[41]、LST[28]和SANet[36]。所有这些方法都是通过使用公共代码和默认配置进行的。

图3：图像风格迁移的定性比较。第一行显示内容和样式图像。其余行显示使用不同样式传递方法生成的样式化结果。

4.2定性比较

在图3中，我们显示了我们的方法与上面介绍的六个基线之间的定性比较。我们观察到Gatys等人[10]容易陷入糟糕的局部最小值(例如，第1、2和3列)。Adain[15]有时会产生乱七八糟的风格化图像，边缘带有看不见的颜色和不想要的光晕(例如，第1、3和6列)。WCT[30]经常引入扭曲的图案，从而产生结构较少且缺乏风格化的图像(例如，第二、第四和第五列)。Avatar-Net[41]很难产生清晰的细节和细腻的笔触(例如，第一、第四和第五栏)。LST[28]通常产生样式较少的图像，纹理图案非常有限(例如，第2、4和6列)。SANET[36]倾向于在不同的风格(例如，第1、第3和第6列)之间应用相似的重复纹理图案。

尽管最近取得了一些进展，但合成的艺术图像和真实的艺术作品之间的差距仍然很大。为了进一步缩小这一差距，我们将内部-外部学习和对比学习引入到艺术风格的转换中，从而使视觉上更加和谐和，如图3的第二行所示。

我们还将我们的方法与6条基线进行了视频风格转换的比较，视频风格转换是在内容视频和风格图像之间以帧的方式进行的。样式化结果如图4所示。为了可视化合成视频剪辑的稳定性和一致性，我们还在图4的最后一列中显示了不同帧之间差异的热图。正如我们可以看到的那样，我们的方法在稳定性和一致性方面明显优于现有的样式转换方法。这可以归因于两点：(I)外部学习通过消除那些扭曲的纹理模式来平滑风格化结果；(II)拟议的对比损失考虑了风格化与风格化的关系，将相邻的风格化框架拉得更近，因为它们拥有相同的风格和相似的内容。

图4：视频风格转移的定性比较。第一行显示了几个视频帧和样式图像。其余行显示使用不同样式传递方法生成的样式化结果。最后一列显示了不同帧之间差异的热图。

4.3定量比较

由于上面提出的定性评估可能是主观的，在本节中，我们借助几个评估指标，以定量的方式更好地评估所提出的方法的性能。

用户研究[54, 36, 24, 23, 48]是风格转换中最广泛采用的评价指标，它调查了用户对不同风格化结果的偏好，以进行更客观的比较。

倾向性得分。我们使用10张内容图像和15张风格图像来合成150张风格化的图像。每种方法。然后为每个参与者随机选择20个内容-风格对，并按随机顺序向他们展示我们的方法和竞争者的方法所产生的风格化图像。接下来，我们要求每个参与者为每个内容风格对选择他/她最喜欢的风格化结果。最后，我们从50名参与者中收集了1000张投票，并在表1的第二行列出了每种方法的得票率在表1的第二行。结果表明，由我们的方法生成的风格化图像与其他竞争方法生成的图像相比，人类参与者更喜欢我们的风格化图像。

欺骗得分。为了衡量人工智能创造的艺术图像和人类创造的艺术作品之间的差距，我们进行了另一项用户研究：对于每个参与者，我们向他们展示80张艺术图像，其中包括从WikiArt[22]收集的10张人类创造的艺术作品，以及由我们和6种基线方法生成的70张风格化图像（注意，每种方法提供10张风格化的图像）。然后，对于每张图片，我们要求这些参与者猜测它是否是真正的艺术品。欺骗得分被计算为由该方法生成的风格化图像被识别为 "真实 "的次数的百分比。为了比较，我们也报告了人类创造的艺术品被识别为 "真实 "的次数。结果显示在表1的第三行，我们可以看到我们的方法的欺骗率最接近人类创造的艺术品，进一步证明了我们方法的有效性。

为了定量评估所提出的方法在视频风格转换上的稳定性和一致性，我们采用LPIPS（学习感知图像补丁相似度）[57]作为评估指标。

LPIPS。LPIPS是多模态图像-图像转换（MI2I）领域中广泛使用的指标[61, 16, 25, 8]，用于衡量多样性。在本文中，我们采用LPIPS，通过计算相邻帧之间的平均感知距离来衡量渲染片段的稳定性和一致性。

请注意，与MI2I方法相反的是，我们期望较高的LPIPS值能实现更好的多样性，我们期望较低的LPIPS值能实现更好的稳定性和一致性。我们为每种方法合成了18个风格化的视频片段，并在表2中报告了平均LPIPS距离，我们观察到我们的方法在所有方法中获得了最好的分数，与图4中的定性比较一致。

4.4消融研究

图5：外部学习（abbr . EL）和对比学习（abbr . CL）对（a）图像风格转移和（b）视频风格转移的消融研究。请放大以获得更好的视野和细节。

在本节中，我们进行了几项消融研究，以突出我们模型中不同成分的效果。

我们首先探讨外部学习（abbr . EL）和对比学习（abbr . CL）对图像风格转移的影响。至于内部学习，由于它的效果已经在现有的风格转移方法中得到了充分的验证，所以我们在本实验中没有消减它。图5（a）显示了我们的方法在有和没有EL/CL的情况下的图像风格化结果。可以看出，没有EL，风格化的图像变得更加混乱，颜色突变，明显失真。原因可能是没有EL的模型只注重提高风格化图像和风格化图像之间的风格相似度，而没有考虑风格化图像中的颜色分布和纹理模式是否自然和谐。相比之下，带有EL的模型可以从大规模的风格数据集中学习人类意识到的风格信息，从而得到更真实、更和谐的风格化图像，辨别器无法将其与真实的艺术作品区分开。此外，我们还发现，我们的方法可以通过提出的对比性损失更好地将目标风格与内容图像相匹配。这是因为我们的对比性损失可以帮助网络通过考虑风格化与风格化的关系来学习更好的风格和内容表征，进一步完善风格化的结果。图5（a）最后一栏报告的用户偏好结果也表明，我们的完整模型具有最好的性能。

在视频风格转移上也进行了类似的消融研究。如图5（b）所示，在我们将外部学习或对比学习从我们的方法中移除后，可以观察到稳定性的下降（注意头发和皮肤的颜色），这与报道的LPIPS距离是一致的。结果表明，外部学习和对比性学习都可以提高视频风格转移的稳定性。正如我们在第4.2节中所分析的，外部学习通过消除扭曲的纹理模式获得稳定性收益，而对比学习通过将相邻的风格化帧拉近来获得稳定性收益。

5 局限性

本工作的一个局限性是，所提出的内部-外部学习方案和两个对比性损失不能应用于无学习的风格转移方法，如WCT[30]，Avatar-Net[41]，LST[28]等。这是因为训练过程对我们的方法是必要的。因此，我们的方法只能被纳入到基于学习的方法中，如Johnson等人[20]、AdaIN[15]、SANet[36]（在这项工作中，我们主要以SANet为骨干来展示我们方法的有效性和优越性）等。另一个限制是，在推理阶段，与训练风格差异过大的风格图像可能无法从外部学习方案中受益，因为它们不在学习的风格分布范围内。

6 结论

在本文中，我们提出了一种具有两种新型对比损失的内部-外部风格转移方法。

内部-外部学习方案同时学习单个艺术图像的内部统计数据和大规模风格数据集的人类感知风格信息。至于对比损失，它们专门用于学习风格化与风格化之间的关系，当多个风格化嵌入具有相同的内容或风格时，它们会相互拉近，而在其他情况下则会相互推远。大量的实验表明，我们的方法不仅可以产生视觉上更和谐、更令人满意的艺术图像，而且还可以大大促进渲染的视频片段的稳定性和一致性。所提出的方法简单而有效，并可能从一个新的角度为未来对艺术风格转移的更多理解提供启示。在未来，我们希望将我们的方法扩展到其他视觉任务中，例如，纹理合成。

参看文献

[1] Jie An, Siyu Huang, Yibing Song, Dejing Dou, Wei Liu, and Jiebo Luo. Artflow: Unbiased image style

transfer via reversible neural flows. arXiv preprint arXiv:2103.16877, 2021.

[2] Martin Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein gan. arXiv preprint arXiv:1701.07875,

2017.

[3] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale gan training for high fidelity natural

image synthesis. arXiv preprint arXiv:1809.11096, 2018.

[4] Haibo Chen, Lei Zhao, Zhizhong Wang, Huiming Zhang, Zhiwen Zuo, Ailin Li, Wei Xing, and Dongming

Lu. Dualast: Dual style-learning networks for artistic style transfer. In Proceedings of the IEEE/CVF

Conference on Computer Vision and Pattern Recognition, pages 872–881, 2021.

[5] Haibo Chen, Lei Zhao, Huiming Zhang, Zhizhong Wang, Zhiwen Zuo, Ailin Li, Wei Xing, and Dongming

Lu. Diverse image style transfer via invertible cross-space mapping. In Proceedings of the IEEE/CVF

International Conference on Computer Vision (ICCV), pages 14880–14889, October 2021.

[6] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for

contrastive learning of visual representations. In International conference on machine learning, pages

1597–1607. PMLR, 2020.

[7] Tian Qi Chen and Mark Schmidt. Fast patch-based style transfer of arbitrary style. arXiv preprint

arXiv:1612.04337, 2016.

[8] Y unjey Choi, Y oungjung Uh, Jaejun Y oo, and Jung-Woo Ha. Stargan v2: Diverse image synthesis

for multiple domains. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern

Recognition, pages 8188–8197, 2020.

[9] Oriel Frigo, Neus Sabater, Julie Delon, and Pierre Hellier. Split and match: Example-based adaptive patch

sampling for unsupervised style transfer. In Proceedings of the IEEE Conference on Computer Vision and

Pattern Recognition, pages 553–561, 2016.

[10] Leon A Gatys, Alexander S Ecker, and Matthias Bethge. Image style transfer using convolutional neural

networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages

2414–2423, 2016.

[11] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron

Courville, and Y oshua Bengio. Generative adversarial nets. In Advances in neural information processing

systems, pages 2672–2680, 2014.

[12] Kaiming He, Haoqi Fan, Y uxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised

visual representation learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and

Pattern Recognition, pages 9729–9738, 2020.

[13] Aaron Hertzmann. Painterly rendering with curved brush strokes of multiple sizes. In Proceedings of the

25th annual conference on Computer graphics and interactive techniques, pages 453–460, 1998.

[14] Aaron Hertzmann, Charles E Jacobs, Nuria Oliver, Brian Curless, and David H Salesin. Image analogies.

In Proceedings of the 28th annual conference on Computer graphics and interactive techniques, pages

327–340, 2001.

[15] Xun Huang and Serge Belongie. Arbitrary style transfer in real-time with adaptive instance normalization.

In Proceedings of the IEEE International Conference on Computer Vision, pages 1501–1510, 2017.

[16] Xun Huang, Ming-Y u Liu, Serge Belongie, and Jan Kautz. Multimodal unsupervised image-to-image

translation. In Proceedings of the European Conference on Computer Vision (ECCV), pages 172–189,

2018.

[17] Phillip Isola, Jun-Y an Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional

adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition,

pages 1125–1134, 2017.

[18] Somi Jeong, Y oungjung Kim, Eungbean Lee, and Kwanghoon Sohn. Memory-guided unsupervised

image-to-image translation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern

Recognition, pages 6558–6567, 2021.

[19] Y ongcheng Jing, Xiao Liu, Y ukang Ding, Xinchao Wang, Errui Ding, Mingli Song, and Shilei Wen.

Dynamic instance normalization for arbitrary style transfer. In Proceedings of the AAAI Conference on

Artificial Intelligence, volume 34, pages 4369–4376, 2020.

[20] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and

super-resolution. In European conference on computer vision, pages 694–711. Springer, 2016.

[21] Minguk Kang and Jaesik Park. ContraGAN: Contrastive Learning for Conditional Image Generation.

2020.

[22] Sergey Karayev, Matthew Trentacoste, Helen Han, Aseem Agarwala, Trevor Darrell, Aaron Hertzmann,

and Holger Winnemoeller. Recognizing image style. arXiv preprint arXiv:1311.3715, 2013.

[23] Dmytro Kotovenko, Artsiom Sanakoyeu, Sabine Lang, and Bjorn Ommer. Content and style disentangle-

ment for artistic style transfer. In Proceedings of the IEEE/CVF International Conference on Computer

Vision, pages 4422–4431, 2019.

[24] Dmytro Kotovenko, Artsiom Sanakoyeu, Pingchuan Ma, Sabine Lang, and Bjorn Ommer. A content

transformation block for image style transfer. In Proceedings of the IEEE Conference on Computer Vision

and Pattern Recognition, pages 10032–10041, 2019.

[25] Hsin-Ying Lee, Hung-Y u Tseng, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. Diverse image-

to-image translation via disentangled representations. In Proceedings of the European conference on

computer vision (ECCV), pages 35–51, 2018.

[26] Chuan Li and Michael Wand. Combining markov random fields and convolutional neural networks for

image synthesis. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,

pages 2479–2486, 2016.

[27] Chuan Li and Michael Wand. Precomputed real-time texture synthesis with markovian generative adver-

sarial networks. In European Conference on Computer Vision, pages 702–716. Springer, 2016.

[28] Xueting Li, Sifei Liu, Jan Kautz, and Ming-Hsuan Yang. Learning linear transformations for fast image

and video style transfer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern

Recognition, pages 3809–3817, 2019.

[29] Yijun Li, Chen Fang, Jimei Yang, Zhaowen Wang, Xin Lu, and Ming-Hsuan Yang. Diversified texture

synthesis with feed-forward networks. In Proceedings of the IEEE Conference on Computer Vision and

Pattern Recognition, pages 3920–3928, 2017.

[30] Yijun Li, Chen Fang, Jimei Y ang, Zhaowen Wang, Xin Lu, and Ming-Hsuan Y ang. Universal style transfer

via feature transforms. In Advances in neural information processing systems, pages 386–396, 2017.

[31] Jing Liao, Y uan Yao, Lu Y uan, Gang Hua, and Sing Bing Kang. Visual attribute transfer through deep

image analogy. arXiv preprint arXiv:1705.01088, 2017.

[32] Jianxin Lin, Yingxue Pang, Yingce Xia, Zhibo Chen, and Jiebo Luo. Tuigan: Learning versatile image-to-

image translation with two unpaired images. In European Conference on Computer Vision, pages 18–35.

Springer, 2020.

[33] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár,

and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European conference on

computer vision, pages 740–755. Springer, 2014.

[34] Rui Liu, Yixiao Ge, Ching Lam Choi, Xiaogang Wang, and Hongsheng Li. Divco: Diverse conditional

image synthesis via contrastive generative adversarial network. arXiv preprint arXiv:2103.07893, 2021.

[35] Ming Lu, Hao Zhao, Anbang Yao, Y urong Chen, Feng Xu, and Li Zhang. A closed-form solution to

universal style transfer. In Proceedings of the IEEE/CVF International Conference on Computer Vision,

pages 5952–5961, 2019.

[36] Dae Y oung Park and Kwang Hee Lee. Arbitrary style transfer with style-attentional networks. In

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5880–5888,

2019.

[37] Seobin Park, Jinsu Y oo, Donghyeon Cho, Jiwon Kim, and Tae Hyun Kim. Fast adaptation to super-

resolution networks via meta-learning. arXiv preprint arXiv:2001.02905, 5, 2020.

[38] Taesung Park, Alexei A Efros, Richard Zhang, and Jun-Yan Zhu. Contrastive learning for unpaired

image-to-image translation. In European Conference on Computer Vision, pages 319–345. Springer, 2020.

[39] Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep

convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015.

[40] Artsiom Sanakoyeu, Dmytro Kotovenko, Sabine Lang, and Bjorn Ommer. A style-aware content loss for

real-time hd style transfer. In Proceedings of the European Conference on Computer Vision (ECCV), pages

698–714, 2018.

[41] Lu Sheng, Ziyi Lin, Jing Shao, and Xiaogang Wang. Avatar-net: Multi-scale zero-shot style transfer by

feature decoration. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,

pages 8242–8250, 2018.

[42] YiChang Shih, Sylvain Paris, Connelly Barnes, William T Freeman, and Frédo Durand. Style transfer for

headshot portraits. 2014.

[43] Karen Simonyan and Andrew Zisserman. V ery deep convolutional networks for large-scale image recogni-

tion. arXiv preprint arXiv:1409.1556, 2014.

[44] Jae Woong Soh, Sunwoo Cho, and Nam Ik Cho. Meta-transfer learning for zero-shot super-resolution. In

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3516–3525,

2020.

[45] Jan Svoboda, Asha Anoosheh, Christian Osendorfer, and Jonathan Masci. Two-stage peer-regularized

feature recombination for arbitrary image style transfer. In Proceedings of the IEEE/CVF Conference on

Computer Vision and Pattern Recognition, pages 13816–13825, 2020.

[46] Dmitry Ulyanov, V adim Lebedev, Andrea V edaldi, and Victor S Lempitsky. Texture networks: Feed-

forward synthesis of textures and stylized images. In ICML, volume 1, page 4, 2016.

[47] Dmitry Ulyanov, Andrea V edaldi, and Victor Lempitsky. Improved texture networks: Maximizing quality

and diversity in feed-forward stylization and texture synthesis. In Proceedings of the IEEE Conference on

Computer Vision and Pattern Recognition, pages 6924–6932, 2017.

[48] Huan Wang, Yijun Li, Y uehai Wang, Haoji Hu, and Ming-Hsuan Yang. Collaborative distillation for

ultra-resolution universal style transfer. In Proceedings of the IEEE/CVF Conference on Computer Vision

and Pattern Recognition, pages 1860–1869, 2020.

[49] Tengfei Wang, Hao Ouyang, and Qifeng Chen. Image inpainting with external-internal learning and

monochromic bottleneck. arXiv preprint arXiv:2104.09068, 2021.

[50] Ting-Chun Wang, Ming-Y u Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. High-

resolution image synthesis and semantic manipulation with conditional gans. In Proceedings of the IEEE

conference on computer vision and pattern recognition, pages 8798–8807, 2018.

[51] Zhizhong Wang, Lei Zhao, Haibo Chen, Lihong Qiu, Qihang Mo, Sihuan Lin, Wei Xing, and Dongming

Lu. Diversified arbitrary style transfer via deep feature perturbation. In Proceedings of the IEEE/CVF

Conference on Computer Vision and Pattern Recognition, pages 7789–7798, 2020.

[52] Holger Winnemöller, Sven C Olsen, and Bruce Gooch. Real-time video abstraction. ACM Transactions

On Graphics (TOG), 25(3):1221–1226, 2006.

[53] Haiyan Wu, Yanyun Qu, Shaohui Lin, Jian Zhou, Ruizhi Qiao, Zhizhong Zhang, Y uan Xie, and Lizhuang

Ma. Contrastive learning for compact single image dehazing. In Proceedings of the IEEE/CVF Conference

on Computer Vision and Pattern Recognition, pages 10551–10560, 2021.

[54] Y uan Yao, Jianqiang Ren, Xuansong Xie, Weidong Liu, Y ong-Jin Liu, and Jun Wang. Attention-aware

multi-stroke style transfer. In Proceedings of the IEEE Conference on Computer Vision and Pattern

Recognition, pages 1467–1475, 2019.

[55] Ning Y u, Guilin Liu, Aysegul Dundar, Andrew Tao, Bryan Catanzaro, Larry Davis, and Mario Fritz. Dual

contrastive loss and attention for gans. arXiv preprint arXiv:2103.16748, 2021.

[56] Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augustus Odena. Self-attention generative adversarial

networks. In International conference on machine learning, pages 7354–7363. PMLR, 2019.

[57] Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable

effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE Conference on Computer

Vision and Pattern Recognition, pages 586–595, 2018.

[58] Y ulun Zhang, Chen Fang, Yilin Wang, Zhaowen Wang, Zhe Lin, Y un Fu, and Jimei Yang. Multimodal

style transfer via graph cuts. In Proceedings of the IEEE International Conference on Computer Vision,

pages 5943–5951, 2019.

[59] Yihao Zhao, Ruihai Wu, and Hao Dong. Unpaired image-to-image translation using adversarial consistency

loss. In European Conference on Computer Vision, pages 800–815. Springer, 2020.

[60] Jun-Y an Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using

cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer

vision, pages 2223–2232, 2017.

[61] Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A Efros, Oliver Wang, and Eli

Shechtman. Toward multimodal image-to-image translation. In Advances in neural information processing

systems, pages 465–476, 2017.

译文(Artistic Style Transfer with Internal-external Learning and Contrastive Learning)相关推荐

CVPR-Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer
[CVPR-2021] Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Tr ...
DRB-GAN: A Dynamic ResBlock Generative Adversarial Network for Artistic Style Transfer
摘要提出一种用于艺术风格迁移的动态 ResBlock 生成对抗网络(DRB-GAN).风格码被建模为连接风格编码网络和迁移网络的动态 ResBlocks 的共享参数. 在编码网络中,融入了风格的类感 ...
Convolutional neural networks for artistic style transfer
https://harishnarayanan.org/writing/artistic-style-transfer/ 转载于:https://www.cnblogs.com/guochen/p/6 ...
15.深度学习练习：Deep Learning Art: Neural Style Transfer
本文节选自吴恩达老师<深度学习专项课程>编程作业,在此表示感谢. 课程链接:https://www.deeplearning.ai/deep-learning-specialization ...
吴恩达深度学习课程deeplearning.ai课程作业：Class 4 Week 4 Art Generation with Neural Style Transfer
吴恩达deeplearning.ai课程作业,自己写的答案. 补充说明: 1. 评论中总有人问为什么直接复制这些notebook运行不了?请不要直接复制粘贴,不可能运行通过的,这个只是notebook ...
吴恩达深度学习4.4练习_Convolutional Neural Networks_Art Generation with Neural Style Transfer
转载自吴恩达老师深度学习课程作业notebook Deep Learning & Art: Neural Style Transfer Welcome to the second assign ...
CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer
文章目录 Abstract 1 Introduction 2 Related Works 3 Methods 3.1 Contrastive Coherence Preserving Loss 3.2 ...
Video Style Transfer汇总
Video Style Transfer 非深度方法 Processing images and video for an impressionist effect. (ACM Press/Addis ...
谈谈图像的style transfer（二）
总说主要从几个方面来进行说明吧 - 加快transfer的速度 - 让transfer的效果看起来更加visual-pleasing - 其他的一些方面 - 用GAN来做加快style s ...
Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer--T Li
[1] Lin T , Ma Z , Li F , et al. Drafting and Revision: Laplacian Pyramid Network for Fast High-Qual ...

译文(Artistic Style Transfer with Internal-external Learning and Contrastive Learning)