CVF2019/图像翻译:TransGaGa: Geometry-Aware Unsupervised Image-to-Image Translation几何感知的无监督图像到图像的翻译

  • 0.摘要
  • 1.概述
  • 2.相关工作
    • 2.1.图像到图像的翻译
    • 2.2.结构特征的学习
    • 2.3.特征的解耦合
  • 3.方法
  • 3.1. 学习解耦合结构和风格编码器
    • 3.2. 几何估计的先验损失
    • 3.3. 外观转换器
    • 3.4. 几何转换器
    • 3.5. 其他约束
  • 4.实验
    • 4.1. 与先进方法的比较
    • 4.2.特征解耦合
    • 4.3. 消融实验
  • 5.结论
  • 细节材料
    • 训练细节
    • 架构细节
  • 参考文献

论文地址
开源代码

0.摘要

无监督图像到图像的翻译旨在学习两个视觉域之间的映射。然而,学习跨越大型几何变化的翻译总是以失败告终。在这项工作中,我们提出了一个新的解纠缠和翻译框架,以解决复杂的对象图像到图像的翻译任务。我们不直接学习图像空间上的映射,而是将图像空间分解为外观空间和几何潜在空间的笛卡尔积。具体地说,我们首先引入几何先验损失和条件VAE损失来鼓励网络学习独立但互补的表示。然后,翻译分别建立在外观和几何空间上。广泛的实验表明,我们的方法的优越性能,以其他最先进的方法,特别是在具有挑战性的近刚性和非刚性对象的翻译任务。此外,通过以不同的示例作为外观参考,我们的方法还支持多模态翻译。

1.概述

图1:我们提出了一个几何感知框架,用于无监督的图像到图像的转换,该框架对不同域之间的任意形状变化具有鲁棒性。我们给出了近刚体和非刚体的结果。(左)CAD模型渲染的奶牛和猎豹。(中)来自野外数据集的猫和人脸。(右)来自Flickr的马和长颈鹿。

无监督的图像到图像的翻译旨在学习在两个不同的图像域之间的翻译,没有任何两两监督。图像平移的概念在彩色化[47]、超分辨率[22,43]和样式转移[9]中得到了广泛的应用。早期的作品证明了深度神经网络在局部纹理转移方面的有效性,在季节场景转移[52,27]和画风转移[23]方面都有成功的案例。然而,研究人员很快意识到它在更复杂的情况下的局限性,即两个具有较大几何变化域之间的平移[52,10]。为了处理更复杂的情况,必须在更高的语义层次上建立翻译。例如,根据对马的脖子、身体和腿的组成部分的理解,我们可以想象一个拥有相同姿势的长颈鹿。然而,由于两个域之间的巨大几何变化,我们很难通过替换局部纹理来实现这种转换。
在更高的语义级别上执行翻译并非易事。几何信息在这里起着至关重要的作用,但通常,两个图像域之间有一个显著的几何差距,例如,猫对人脸和马对长颈鹿。两个域虽然包含相同的对应成分,语义意义相近,但其空间分布却存在较大差异。
在本文中,我们提出了一个新的几何感知框架,用于无监督的图像到图像的平移。我们不直接在图像空间上进行平移,而是首先将图像映射到几何空间和外观空间的笛卡尔积,然后在每个潜在空间进行平移。为了促进两个空间的解纠缠,我们提出了一种无监督条件变分自动编码器框架,其中引入了Kullback-Leibler (KL)发散损失和跳跃连接设计,以鼓励网络学习几何和外观的互补表示。然后我们根据瓶颈表示建立两个域之间的转换。大量实验表明,我们的框架在合成和真实数据集上建立对象之间的转换方面是有效的。我们的方法在定性和定量实验中都达到了先进方法的优越性能。
我们总结了这项工作的贡献如下:

  • 我们提出了一个新的无监督图像-图像翻译框架。我们没有直接在图像空间上进行转换,而是在两个域解纠缠的潜在外观几何空间上建立它们之间的映射。我们的框架将CycleGAN的能力扩展到更复杂的对象上,比如动物。
  • 精细解纠缠的潜在空间自然赋予了我们的模型多样化和范例引导生成的能力,这是无监督图像到图像转换中一个具有挑战性和病态的多模态问题。

2.相关工作

2.1.图像到图像的翻译

图像到图像转换的目的是了解从源图像域到目标图像域的映射。Pix2Pix[15]首次提出了一种基于条件gan的统一的图像-图像转换框架。一些作品[41,40]将其扩展到处理高分辨率或视频合成。虽然已经显示了吸引人的结果,但这些方法需要成对的数据进行训练。对于无监督的图像-图像转换,基于循环一致性的思想,提出了CycleGAN[52]、DiscoGAN[20]、DualGAN[46]和UNIT[27]。GANimorph[10]引入了一个扩大卷积的鉴别器,以获得一个更加上下文感知的生成器。然而,如果没有配对训练数据,由于两个域之间存在无限的映射,平移问题在本质上是不适定的。最近的研究试图解决多模态世代的这一问题。CIIT[24]、MUNIT[14]、DRIT[23]和EG-UNIT[29]将图像的潜在空间分解为域不变的内容空间和域特定的风格空间,得到不同的输出。但是,一旦跨域结构变化较大,就违背了内容空间域不变的假设。尽管在样式传递任务中,跨域共享内容的潜在空间是很直观的,但很难将不同域的复杂几何线索以一种共享分布嵌入。现有的所有方法的性能在平移过程中会因较大的跨域几何变化而显著下降。

2.2.结构特征的学习

为了对可视化内容建模,已经提出了几种无监督技术,包括V AE [21], GANs[11]和ARNs[32,39]。最近,许多文献关注结构表征学习的无监督地标发现[38,37,49,16,6]。由于landmark是对物体结构的显式表示,它比其他表示方式更能捕捉物体的内在形状。受无监督地标发现的启发,本研究学习了地标的热图堆栈,用于明确的结构表示。

2.3.特征的解耦合

解耦合对控制结构和外观具有重要意义。关于人脸和人的图像生成有大量的研究[1,8,30,42]。虽然这些方法具有良好的姿态引导合成的优势,但它们需要预定义的注释来进行监督学习。一些无监督解缠的工作已经被提出,例如InfoGAN[5]和β-V AE[13]。然而,这些方法的缺点是缺乏可解释性,每个学习到的因素的意义是不可控的。相反,我们的方法能够以完全无监督的方式获得结构和外观的可控解解耦合。

3.方法

图2:体系结构。我们的框架由四个主要组件组成:两个自动编码器(X/Y域)和两个变压器(几何形状/外观)。Auto-Encoder:以X域为例。对于输入x,我们使用编码器Egx来获得几何表示gx,这是一个与x相同分辨率的30通道点热图。我们将gx的所有通道投影在一起以进行可视化。然后,再次嵌入gx,得到几何代码cx。同时,还通过外观编码器Eax嵌入x,得到外观码ax。最后,将ax和cx连接在一起,用Dx生成xˆ。转换器:对于跨域转换,几何(gx↔gy)和外观(ax↔ay)转换分别执行。

给定两个图像域X和Y。我们的工作目标是学习一对映射ΦX→Y和ΦY→X,可以将输入x∈X转换到样本Y = ΦX→Y(X), y∈Y,反之亦然。该问题公式是一个典型的非配对跨域图像转换任务,其中最大的挑战在于需要几何变化的任务[52,10]。大多数现有框架试图通过两个神经网络参数化这些映射对,例如ResNet[12]或HourGlass[31]。,在复杂场景下优化难度较大。在本研究中,我们假设每个域都可以解结为结构空间G·和外观空间A·的笛卡儿。然后在每个空间上,我们构建两个域之间的过渡,即几何转换器ΦgX→Y和ΦgY→X用于几何空间,外观转换器ΦaX→Y和ΦaY→X用于外观空间。图2说明了我们提议的方法的框架。

3.1. 学习解耦合结构和风格编码器

不同于以往采用编码器-解码器结构,旨在使用一个卷积网络编码所有信息[52,50],我们的方法试图分别编码几何结构和外观风格。为了实现这一点,我们在每个域应用一个条件变分自动编码器(conditional variational autoencoder)。条件VAE由一个无监督几何估计器Eg·(;π),一个几何编码器Ec·(;θ),将热图结构嵌入到潜在空间C·,一个外观编码器Ea·(;φ),它将外观信息嵌入到潜在空间A·中,以及一个解码器D·(;ω): C·× A·→X/Y,将潜在空间映射回图像空间。为了以无监督的方式解开两个表示,我们将我们的损失表述为条件VAE损失和几何估计的先验损失的组合,即

受前人文献[21,36,8]的启发,我们将条件VAE损失实现为:

其中第一项是两个参数高斯分布之间的kl散度损失,第二项是重构损失。这里我们用感知缺失的vgg16[35]网络来代替。在监督的方式下,LCVAE可以促进学习[8]中描述的几何和外观的补充表示。然而,在我们的无监督场景中,不能保证编码器的任何分支在没有几何地图g·的监督下学习几何信息。接下来我们将引入先验损失来约束几何估计量。

3.2. 几何估计的先验损失

图3:解开的表示。最上面一行显示了最左边一列中各面对应的几何热图。我们用一个结构与外观交换结果的网格来说明显式解缠的潜在空间。在每一列中,生成图像的形状被显示为与几何热图一致。在每一行中,生成的图像的外观显示为与最左边的图像一致。

与现有文献使用内容编码器嵌入所有详细内容[27,23]相反,我们的几何估计器Eg·试图将纯几何结构信息提取为地标热图堆栈。为了实现这一点,我们依赖于目标地标应该如何分布的先验知识,来约束我们在[49,16]中描述的结构估计器Egx和Egy的学习。这些以前的工作已经表明,当给予适当的先前损失和学习架构时,这是可能的。
现在我们介绍使用的先验损失:

第一项是分离损失。与[49]中描述的困难相似,我们发现训练具有一般随机初始化的结构分支,往往会将所有的结构点定位在图像中心的平均位置周围。这可能导致局部最小值,优化器可能无法逃脱。因此,我们引入分离损失,以鼓励每个热图充分覆盖感兴趣的对象。这是通过公式3的第一部分实现的,我们鼓励每一对第i和第j个热图共享不同的激活。σ可以作为这里的归一化因子。第二项是浓度损失(Concentration Loss),我们引入它是为了鼓励激活的方差g很小,这样它就可以集中在一个位置。这对应于方程3中的第二项。
几何先验是对象形状的显式表示,它对外观和几何的精细解缠很重要。如图3所示,以几何图作为条件输入,我们的方法可以生成不同形状的人脸,与几何图一致,同时保持一个特定输入的外观。这表明,通过估计物体的纯几何线索,我们的方法可以在完全无监督的方式在一个领域内解开几何和外观。

3.3. 外观转换器

利用解纠缠的外观几何空间,我们可以将图像变换分解为两个独立的问题。在本节中,我们首先考虑对外观潜在空间AX和AY的转换Φa。人们可以将这种潜在到潜在的转化问题作为一个CycleGAN[52],具有周期一致性损失和对抗性损失。但是,这并不保证与两个图像关联的gx和映射外观转换器ΦX→Y(gx)具有可视关系。由于这两个约束只能导致两个分布之间的转换,这是任意的和多模态的。为此,我们引入跨域外观一致性损失来约束外观转换器:

其中ζ为用预训练的VGG-16[35]网络计算的Gram矩阵[9,17],Φgx→y·Egx(x)是x变换到y的几何码,Φax→y·Eax(x)是x变换到y的外观码,Dy(,)为y域解码器。这个损失确保与gx关联的图像和翻译后的外观ΦX→Y(gx)具有相似的外观。在我们的实验中,我们观察到,没有外观约束的CycleGAN也可以收敛,但在相同的设置下,每次训练的结果都不同。外观一致性约束使训练更稳定,并提供更容易解释的结果。
单一和多模式转换
在我们的框架中,变换函数是学习在外观和几何潜在空间。对于单模态翻译,外观变换Φa被约束以保证转换后的样本在图像域上具有相关联的外观。然而,正如前面提到的,一个复杂的转换问题总是多模态的。在我们的方法中,通过将变换后的外观表示替换为目标外观空间A中的任何可行向量,我们可以获得多模态生成的结果。例如,只使用几何变换Φg,通过以不同的人脸作为参考,只需输入一个猫脸,就可以得到不同的结果。域内精细解缠表示带来了多模态能力。定性结果见第4.2节。

3.4. 几何转换器

我们发现很难学习无监督学习几何热图之间的转移,因为cnn通常不适合捕捉几何信息。相反,我们直接使用可微的重新归一化算子[16]R从热图中提取每个地标的坐标信息,从而在地标坐标空间中执行事实上的几何变换。
具体来说,对于每个地标的热图,我们计算每个热图上所有激活的加权平均坐标。虽然二维坐标地标的维数低于图像表示,但我们仍然使用PCA对地标表示进行降维。这背后的原因是,我们观察到的结果对几何上的小误差比图像像素值更敏感,因为轻微的坐标误差可能会导致严重的伪影(如折叠和锯齿形轮廓)。这表明几何平移有时比图像平移更难
值得注意的是,我们对Geometry Transformer尝试了三种表示(即几何热图、地标坐标和坐标的PCA嵌入)。在我们的实验中,所有这三种表示都可以用于训练。PCA坐标嵌入在模型训练的稳定性和收敛性方面效果最好,而其他表示在某些特定任务中有时会失败。主成分分析限制了输出的几何结构。它为几何形状构建一个嵌入空间,其中每个主成分代表一个合理的维度。因此,嵌入空间中的任何样本都将保持基本的对象结构,从而降低了模式崩溃的风险。
为了将PCA地标表示与GAN结合,我们在生成器和鉴别器中用FC-ReLU块替换所有的convl - relu块。虽然我们在CariGANs[4]中合并了类似的变压器结构,但我们的工作不同于CariGANs直接使用地标的PCA嵌入作为CycleGAN中定义的源和目标域,我们在第3.4节中讨论的图像像素级上训练相应的循环,这对于姿态保持生成任务更直接和强大。

3.5. 其他约束

循环一致性损失
除了提出的几何先验损失和风格一致性损失外,我们还利用循环一致性和对抗性损失函数来促进模型训练。
对抗损失
我们设置了对抗损失Laadv、Lgadv和Lpixadv,分别对应几何形状、外观和像素空间。使用LSGAN可以使训练和收敛更加稳定。
整体损失
综上所述,我们方法的全损失函数为:

在补充材料中描述了这些损失实施的更多细节。

4.实验

数据集
我们对包括合成数据和真实数据的四个数据集进行了广泛的比较和消融研究。(1). Synthesis Animals:我们使用[54]提供的公开的CAD模型来渲染6种不同的非刚性动物,分别是猎豹、奶牛、狮子、犀牛、熊和狼。对于每个动物种群,我们通过随机抽样参数渲染了1万张不同形状的图像(9000张用于训练,1000张用于测试)。(2).真实世界的动物:我们从Flickr收集了5000张马和长颈鹿的图片(4500张用于测试,500张用于测试)。(3). Unconstrained Face:我们收集了三个典型域的图像,即人、狗和猫的脸。我们分别从YFCC100M[18]、Stanford Dog[19]和CelebA[28]数据集中随机抽取了5000张图像(4500张用于测试,500张用于测试)。注意,每个数据集中的面是完全不受约束的,而不是[14]中的四个给定模式。
基线
我们将我们的方法与四种最相关的最先进的方法进行比较:CycleGAN [52], UNIT [27], MUNIT[14]和DRIT[23],所有这些方法都可以使用不配对的训练数据进行图像到图像的转换。特别是MUNIT[14]和DRIT[23]可以产生多模态结果。因此,我们在多模态生成任务中也与它们进行比较。我们在新收集的数据集上训练这四个基线,它们的公共实现带有默认设置。
评估指标
为了进行定量比较,我们同时评估生成图像的真实性和多样性。接下来[41,45],我们对几何一致性/现实主义评估进行了人类主观研究。为了测量视觉质量,我们采用Fréchet Inception Distance (FID)[2],而不是一般的图像质量评价方法[44,25,26]或知觉损失[50]。为了度量多样性,类似于[53,14],我们使用LPIPS度量[48]来计算图像之间的距离。
应用细节
所有数据集的图像都被裁剪并调整为256 × 256。以X定义域为例。我们采用堆栈-沙漏网络[31]的结构编码器Egx的架构,该架构在地标定位任务中显示了令人印象深刻的结果[7,3]。对于从gx到xˆ的映射(Ecx和Dx带有跳接连接),我们使用[52]提供的UNet架构[33]。外观编码器Eax采用与Ecx相同的架构。我们使用一个简单的四层全连接网络,然后用ReLU对转换器ΨX↔Y和识别器进行处理。对于像素级对抗损失,我们使用[27]提供的鉴别器。
我们用两个主要步骤来训练我们的模型。首先,为获得几何热图,将gx(gy)、Eax(Eay)、Egx(Egy)和Dx(Dy)组合训练40个epoch。然后冻结结构编码器,对除Egx和Egy之外的所有网络进行端到端训练,共20个epoch。我们在8个NVIDIA V100 gpu上使用初始lr = 0.0001和(β1, β2) =(0.5, 0.999)的Adam[21]优化器训练所有模型。关于训练和网络架构的更多细节在补充材料中提供。

4.1. 与先进方法的比较

定性比较

图4:保几何的比较。(a)合成数据集(牛↔猎豹和狮子↔犀牛)(b)现实数据集(猫↔人脸和长颈鹿↔马)。从左到右:input, our, CycleGAN [52], UNIT [27], MUNIT [14], DRIT[23]。

图5:多模态生成中的比较。(a)人脸→猫脸(b)猫脸→狗脸。从上到下:MUNIT[14], DRIT[23]和我们的(放大查看详情)。

回想一下我们工作的动机:通过引入无监督潜在几何表示,我们希望我们的框架在更复杂的对象之间具有更高的转换能力。在这里,我们对图4中最先进的方法进行了视觉质量的比较。我们评估生成结果的质量在近刚性(例如,脸)和非刚性(动物)对象。我们的方法能够实现优于所有基线的结果。虽然基线结果在目标域内可识别,但由于忽略几何线索,几何图形往往会被破坏。对于接近刚性的物体,基线很可能产生失真的结果。对于非刚体,由于区域间和区域内的形状变化较大,对其具有较大的挑战,基线总是得到缺少部分的结果。相比之下,我们的方法的翻译在刚性和非刚性场景中对大的形状变化和不受约束的外观更加健壮。
对于多模态生成,我们将我们的方法与图5中的MUNIT[14]和DRIT[23]进行比较。这两个基线都可以获得不同的输出。然而,在一些不受约束的场景中,例如,带有太阳玻璃的剖面人脸和区域之间较大的人脸形状差异,基线的结果会退化并受到严重的伪影影响。可以观察到,我们的方法获得了比其他方法更好的视觉质量。在补充材料中演示了其他数据集的更多结果。
定量比较

表1:人类感知研究。马→长颈鹿和人→猫面部任务的配对A/B测试。

表2:定量结果。我们使用FID(越低越好)和diversity(越高越好)与LPIPS距离来评估生成的图像的质量和多样性。

我们采用主观和客观的指标来进行量化的绩效评估。为了生成图像的真实性,我们要求志愿者进行主观的成对A/B测试。根据MUNIT[14]的指标,我们的工作偏好评分表明一种方法(CycleGAN [52], UNIT [27], MUNIT [14], DRIT[23])优于我们的方法的百分比。每次测试,参与者都可以投票给a /B/不确定。两个指标的评价如表1所示,现实度评价与真实数据的相似度,几何一致性评价与输入图像的几何一致性。参与者有10秒钟的时间从两种不同的方法生成的图像中选择真实度更好的图像或几何一致性更好的图像。每个数据集的所有500张测试图像都由不同的参与者进行了100次比较。我们的方法优选率最高。
为了评价视觉质量和多样性,在[51]之后,我们在测试集中使用100幅输入图像,每个输入采样19对输出。我们在ImageNet预训练AlexNet特征空间中计算1900对图像之间的平均LPIPS距离。FID是在实际数据和生成结果之间进行计算的。如表2所示,我们的方法在视觉质量和多样性方面明显优于所有基线。特别是,尽管MUNIT和DRIT在多样性方面获得了合理的性能,但它们在主观度量方面的得分很低,这表明这些方法在处理跨越大几何差距的翻译方面存在缺陷。

4.2.特征解耦合

样例引导图像翻译

图6:范例指导的生成。以不同的图像为外观参考,对猫→人脸、人→狗脸、狗→猫脸任务进行条件生成。

在图6中,我们举例说明了几种典型脸型的翻译结果,如正面脸、侧面脸、闭眼脸和张嘴脸。从输入到输出,我们观察到几何特征保持忠实。由于采用了纯几何表示转换模式,该模型具有外观不可知的图像对图像的转换能力。此外,一旦几何图形转换成功,该模型可以以目标域中的图像为样本,指导多模态生成。图6的结果从两个方面显示了几何和外观的成功解缠。首先,无论范例是什么形状,几何形体都保持相同。作为一个具体的例子,如图6 (b)所示,即使样本有很大的变化,生成的面仍然保持剖面。其次,样本的外观可以成功地转移到生成的图像,即使是细节纹理,例如图6 (a)中的男人的胡子和图6 (d)中的猫的蓝色眼睛。
插值

图7:插值。猫和人脸数据集上的几何和外观潜码的线性插值结果。

为了评估解纠缠的潜在空间是否密集填充,我们分别对图7中的几何码和外观码进行线性插值。插值结果表明,图像的几何形状和外观都可以随源到目标的潜在空间平滑变化。值得注意的是,每个样本的数据集只有一个几何形状和外观,原始数据集中只有独立个体提供的离散特征。平滑插值结果表明,该模型成功地实现了流形的合理覆盖。

4.3. 消融实验

图8:定量消融研究。可视化结果对人类↔cat任务。

表3:消融研究。欺骗“真实与虚假”的比率。

为了隔离我们方法的关键组件的有效性,我们对生成图像的质量进行了烧蚀研究。我们评估了我们的方法的几种变体:1)我们的w/o T:我们的方法没有外观和几何变形。2)我们的w/o周期:我们没有周期一致性损失项的方法。3)我们的w/o KL:我们没有KL损失条款的方法。4)我们的w/o VGG:在我们的方法中用L1损耗代替VGG损耗。
图8显示了变量的定性结果。如果没有变压器,我们的方法无法生成可信的结果,以跨越两个域之间的大差距的几何表示。在不考虑周期一致性损失的情况下,我们的方法仍然可以得到似是而非的结果。然而,不能保证与输入图像的姿态一致性,这表明失去循环一致性是姿态保持的关键组成部分。如果不使用KL损失,就不能保持与参考图像的一致性。在没有VGG损失的情况下,我们得到的结果是模糊的,这与[34,8]的观察结果是一致的。
我们用表3中人类→猫脸和马→长颈鹿任务的知觉研究来量化这些观察结果。通过我们的方法在这两个任务上得到的分数证明了它产生真实结果的能力。注意,如果没有循环一致性损失,我们的方法也可以获得一个可比较的知觉得分,这表明这种损失对保位比生成质量更重要。

5.结论

我们提出了一种新颖的几何感知解纠缠-平移框架,其中我们引入了一种基于CycleGAN系统的无监督几何潜在分支。具体地说,我们首先在几何空间和表象空间上解缠各个域,然后在每个潜在空间上建立平移。大量的定性和定量实验表明,我们的方法对于复杂结构物体之间的平移是有效的。此外,我们的模型还可以支持多模态翻译,并优于以往最先进的方法。未来的工作包括将该框架扩展到更多不受约束的场景,例如ImageNet中的图像和YouTube视频。

细节材料

训练细节

我们将模型训练分为两个主要步骤,即分离训练和联合训练。Separated-training。如[16,5]所述,无监督地标检测具有挑战性,需要利用许多模式来规范训练。在我们的实验中,我们也发现很难在一开始就将几何估计器Eg·与其他组件一起训练。因此,我们在X/Y域分别训练条件VAE网络,如图1所示。分离训练损失的定义为:

条件V声发射网络由一个无监督几何估计器Eg·(;π),一个几何编码器Ec·(;θ),将地标热图嵌入到潜在空间C·,一个外观编码器Ea·(;φ),它将外观信息嵌入到潜在空间A·中,以及一个解码器D·(;θ): C·× A·→X/Y,将潜在空间映射回图像空间。受[7,13,2]的启发,我们建立了pθ(x|g, z)为参数拉普拉斯分布和qφ(z|x, g)为参数高斯分布的模型。参数可以用Ec·(;θ),Ea·(;φ)和D·(;θ)分别表示。因此,我们将有条件的VAE损失实现为:

第一项是Kullback-Leibler散度LKL。在[2]之后,第二项可以用重建损失来实现。则损失可表示为:

其中xˆ为D·(Ec·(g·),Ea·(x)), ψl为ImageNet预训练的VGG-19模型[12]的第l层得到的特征。使用重新参数化技巧[7],这些网络可以进行端到端训练。在监督场景中,LCVAE可以鼓励网络学习[2]中演示的几何和外观的补充表示。但是,在我们的无监督场景中,不能保证Eg·(;π)可以提取有效的几何信息。受最近发展的无监督地标检测的启发[15,14,16,5],我们引入了一个先验损失来约束几何估计器的学习:

其中gi是热图g的第i个通道,σ是归一化因子,在我们的实验中设为2。第一项是分离损失,它鼓励每个热图充分覆盖感兴趣的对象。第二项是浓度损失(Concentration Loss),它鼓励激活的方差g很小,这样它就可以集中在一个位置。结合先验损失Lprior、LCVAE中的重建损失和等方差约束[16,5],我们可以无监督地学习合理有效的地标,这是几何解缠和外观解缠学习的必要条件。如图1所示,在独立域(X/Y)的网络可以用Lsepar进行端到端训练。
联合训练
图1中的网络一旦在X/Y域内单独训练,模型仍然具有域内解纠缠的能力。然而,它目前还不具备变换和姿态保持的能力。因此,我们进一步跨域联合训练模型。如图2所示,将虚线边界的网络(即Egx、Ecx、Eax、Egy、Ecy和Eay)冻结,其他网络进行端到端训练。
我们训练了四个转换器(即Φax→y, Φay→x, Φgx→y, Φgy→x)分别用于外观和几何变换。对于外观变换,转换器定义在外观潜伏代码a·中。然而,对于几何变换,我们不在几何潜在代码c中定义转换器,而是在定义明确的地标热图g中对几何线索进行变换,以获取其纯粹的几何信息。正如在主文3.4节中所讨论的,由于我们发现很难在无监督学习的几何热图之间直接学习转移,所以我们在地标坐标空间中进行几何变换。为此,我们使用重新归一化算子R−1直接从热图中提取每个地标的坐标。R−1是一个可微算子,它可以将地标热图g·∈R256×256×30转移到[5]中定义的地标坐标d·∈R1×60,其中R可以进行逆运算。联合损失可表示为:

第一项是提出的跨域外观一致性损失。其他术语分别是对应于外观、几何形状和像素空间的周期一致性损失和对抗性损失。我们在下面列出所有这些术语的定义。
跨域外观一致性损失:

其中ζ为用预训练的vgg - 16[12]网络计算出的Gram矩阵[4,6],cx→y = Ecygx→y(gx)),为X到y变换后的几何码,ax→y = Φax→y(ax),为X到Y变换后的外观码,Dy(,)为y域解码器。
外观空间的循环一致性损失:

其中ax→y→x = Φay→xax→y(ax)) ay→x→y = Φax→yax→y(ay))。
几何空间中的循环一致性损失:

其中dx→y→x等于Φgy→xgx→y(dx)),dy→x→y等于Φgx→ygy→x(dy))。
像素空间中的周期一致性损失:

其中xˆx→y→x等于Dx(Ecx(gx→y→x) ,ax)和yˆy→x→y等于Dy(Ecy)gy→x→y) 。gx→y→x是用R(dx→y→x)计算的地标热图。同样地,gy→x→y 是用R(y→x→y )计算的
域Y外观空间对抗性损失:

其中,Say是一个鉴别器,它试图在Y域中区分翻译后的外观潜在代码和真实外观潜在代码。鉴别器Say和对抗性损失在域X中的定义类似。
域Y几何空间中的对抗性损失:

其中,Sgy是一个鉴别器,它试图区分Y域中的平移地标坐标和真实地标坐标。鉴别器Sgy和对抗性损耗在域X中的定义类似。
域Y的像素空间中的对抗性损耗:

其中cx→y等于Ecy(R(Φgx→y(dx))),Spixy是一种鉴别器,它试图在y域中区分翻译图像和真实图像。鉴别器Spixx和对抗性损失在域X中的定义类似。
全部损失
结合分离训练和联合训练中的损失,我们方法的全部损失函数可以定义为:

我们首先进行了40个时代的分训。然后,进行20个时代的联合训练。在所有实验中,我们使用8的批次大小,并将损失权重设置为λ0=10、λ1=1、λ2=1、λ3=0.1、λ4=0.1、λ5=1、λ6=0.1、λ7=0.1、λ8=1。我们使用(β1,β2)=(0.5,0.999)和初始学习率为0.0001的Adam优化器对所有模型进行训练。每10万次迭代,学习率就会降低一半。

架构细节

我们使用Stack-Hourglass网络[10]作为几何估值器Egx。对于从gx到xˆ的映射(Ecx和Dx带跳过连接),我们使用了[17]提供的UNet体系结构[11]。外观编码器Eax采用相同的Ecx架构。Eax(Ecx)的详细信息如图3所示。解码器Dx的细节如图4所示。对于转换器Φax↔y(Φgx↔y) 对于鉴别器Sax(Sgx),我们使用一个简单的4层完全连接网络,然后使用ReLU,如图5所示。注意,对于Φg·,输入(输出)维度是16,而不是使用PCA嵌入的60。对于像素级对抗性损失,我们使用[9]提供的鉴别器。体系结构在Y域中定义相同。


参考文献

[1] Guha Balakrishnan, Amy Zhao, Adrian V . Dalca, Frédo Durand, and John Guttag. Synthesizing images of humans in unseen poses. In CVPR, 2018.
[2] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale gan training for high fidelity natural image synthesis. In ICLR, 2019.
[3] Adrian Bulat and Georgios Tzimiropoulos. Super-fan: Integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with gans. In CVPR, 2018.
[4] Kaidi Cao, Jing Liao, and Lu Y uan. Carigans: Unpaired photo-to-caricature translation. In Siggraph Asia, 2018.
[5] Xi Chen, Y an Duan, Rein Houthooft, John Schulman, Ilya Sutskever, and Pieter Abbeel. Infogan: Interpretable representation learning by information maximizing generative adversarial nets. In NIPS, 2016.
[6] Xipeng Chen, Kwan-Yee Lin, Wentao Liu, Chen Qian, and Liang Lin. Weakly-supervised discovery of geometry-aware representation for 3d human pose estimation. In CVPR, 2019.
[7] Xiao Chu, Wei Y ang, Wanli Ouyang, Cheng Ma, Alan L. Y uille, and Xiaogang Wang. Multi-context attention for human pose estimation. In CVPR, 2017.
[8] Patrick Esser, Ekaterina Sutter, and Björn Ommer. A variational u-net for conditional appearance and shape generation. In CVPR, 2018.
[9] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. Texture synthesis using convolutional neural networks. In NIPS, 2015.
[10] Aaron Gokaslan, Vivek Ramanujan, Daniel Ritchie, Kwang In Kim, and James Tompkin. Improving shape deformation in unsupervised image-to-image translation. ECCV, 2018.
[11] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron C. Courville, and Y oshua Bengio. Generative adversarial nets. In NIPS, 2014.
[12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016.
[13] Irina Higgins, Loic Matthey, Arka Pal, Christopher Burgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed, and Alexander Lerchner. beta-vae: Learning basic visual concepts with a constrained variational framework. In ICLR, 2017.
[14] Xun Huang, Ming-Y u Liu, Serge J. Belongie, and Jan Kautz. Multimodal unsupervised image-to-image translation. In ECCV, 2018.
[15] Phillip Isola, Jun-Y an Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017.
[16] Tomas Jakab, Ankush Gupta, Hakan Bilen, and Andrea V edaldi. Conditional image generation for learning the structure of visual objects. In NeurIPS, 2018.
[17] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In ECCV, 2016.
[18] Sebastian Kalkowski, Christian Schulze, Andreas Dengel, and Damian Borth. Real-time analysis and visualization of the yfcc100m dataset. In MM Workshop, 2015.
[19] Aditya Khosla, Nityananda Jayadevaprakash, Bangpeng Y ao, and Li Fei-Fei. Novel dataset for fine-grained image categorization. In CVPR Workshop, 2011.
[20] Taeksoo Kim, Moonsu Cha, Hyunsoo Kim, Jung Kwon Lee, and Jiwon Kim. Learning to discover cross-domain relations with generative adversarial networks. In ICML, 2017.
[21] Diederik P . Kingma and Max Welling. Auto-encoding variational bayes. In ICLR, 2014.
[22] Christian Ledig, Lucas Theis, Ferenc Huszar, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew P . Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, and Wenzhe Shi. Photo-realistic single image super-resolution using a generative adversarial network. In CVPR, 2017.
[23] Hsin-Ying Lee, Hung-Y u Tseng, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Y ang. Diverse image-to-image translation via disentangled representations. In ECCV, 2018.
[24] Jianxin Lin, Yingce Xia, Tao Qin, Zhibo Chen, and TieY an Liu. Conditional image-to-image translation. In CVPR, 2018.
[25] Kwan-Yee Lin and Guangxiang Wang. Hallucinated-iqa: No-reference image quality assessment via adversarial learning. In CVPR, 2018.
[26] Kwan-Yee Lin and Guangxiang Wang. Self-supervised deep multiple choice learning network for blind image quality assessment. In BMVC, 2018.
[27] Ming-Y u Liu, Thomas Breuel, and Jan Kautz. Unsupervised image-to-image translation networks. In NIPS, 2017.
[28] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In ICCV, 2015.
[29] Liqian Ma, Xu Jia, Stamatios Georgoulis, Tinne Tuytelaars, and Luc V an Gool. Exemplar guided unsupervised imageto-image translation. In NeurIPS, 2018.
[30] Liqian Ma, Qianru Sun, Stamatios Georgoulis, Luc V an Gool, Bernt Schiele, and Mario Fritz. Disentangled person image generation. In CVPR, 2018.
[31] Alejandro Newell, Kaiyu Y ang, and Jia Deng. Stacked hourglass networks for human pose estimation. In ECCV, 2016.
[32] Aaron van den Oord, Nal Kalchbrenner, and Koray Kavukcuoglu. Pixel recurrent neural networks. 2016.
[33] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, 2015.
[34] Mehdi S. M. Sajjadi, Bernhard Schölkopf, and Michael Hirsch. Enhancenet: Single image super-resolution through automated texture synthesis. In ICCV, 2017.
[35] Karen Simonyan and Andrew Zisserman. V ery deep convolutional networks for large-scale image recognition. CoRR, abs/1409.1556, 2014.
[36] Kihyuk Sohn, Honglak Lee, and Xinchen Y an. Learning structured output representation using deep conditional generative models. In NIPS, 2015.
[37] James Thewlis, Hakan Bilen, and Andrea V edaldi. Unsupervised learning of object frames by dense equivariant image labelling. In NIPS, 2017.
[38] James Thewlis, Hakan Bilen, and Andrea V edaldi. Unsupervised learning of object landmarks by factorized spatial embeddings. In ICCV, 2017.
[39] Aaron van den Oord, Nal Kalchbrenner, Lasse Espeholt, koray kavukcuoglu, Oriol Vinyals, and Alex Graves. Conditional image generation with pixelcnn decoders. In NIPS, 2016.
[40] Ting-Chun Wang, Ming-Y u Liu, Jun-Y an Zhu, Guilin Liu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. Video-tovideo synthesis. In NeurIPS, 2018.
[41] Ting-Chun Wang, Ming-Y u Liu, Jun-Y an Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. High-resolution image synthesis and semantic manipulation with conditional gans. In CVPR, 2018.
[42] Wei Wang, Xavier Alameda-Pineda, Dan Xu, Pascal Fua, Elisa Ricci, and Nicu Sebe. Every smile is unique: Landmark-guided diverse smile generation. In CVPR, 2018.
[43] Xintao Wang, Ke Y u, Shixiang Wu, Jinjin Gu, Yihao Liu, Chao Dong, Y u Qiao, and Chen Change Loy. ESRGAN: enhanced super-resolution generative adversarial networks. In ECCV Workshop, 2018.
[44] Zhou Wang, Alan C. Bovik, Hamid R. Sheikh, and Eero P . Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing (TIP), 13(4):600–612, 2004.
[45] Wayne Wu, Y unxuan Zhang, Cheng Li, Chen Qian, and Chen Change Loy. Reenactgan: Learning to reenact faces via boundary transfer. In ECCV, 2018.
[46] Zili Yi, Hao (Richard) Zhang, Ping Tan, and Minglun Gong. Dualgan: Unsupervised dual learning for image-to-image translation. In ICCV, 2017.
[47] Richard Zhang, Phillip Isola, and Alexei A. Efros. Colorful image colorization. In ECCV, 2016.
[48] Richard Zhang, Phillip Isola, Alexei A. Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In CVPR, 2018.
[49] Y uting Zhang, Yijie Guo, Yixin Jin, Yijun Luo, Zhiyuan He, and Honglak Lee. Unsupervised discovery of object landmarks as structural representations. In CVPR, 2018.
[50] Jun-Y an Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A. Efros, Oliver Wang, and Eli Shechtman. Toward multimodal image-to-image translation. In NIPS, 2017.
[51] Jun-Y an Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A. Efros, Oliver Wang, and Eli Shechtman. Toward multimodal image-to-image translation. In NIPS, 2017.
[52] Jun-Y an Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using cycleconsistent adversarial networkss. In ICCV, 2017.
[53] Jun-Y an Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A Efros, Oliver Wang, and Eli Shechtman. Toward multimodal image-to-image translation. In NIPS, 2017.
[54] Silvia Zuffi, Angjoo Kanazawa, and Michael J. Black. Lions and tigers and bears: Capturing non-rigid, 3d, articulated shape from images. In CVPR, 2018.

CVPR2019/图像翻译:TransGaGa: Geometry-Aware Unsupervised Image-to-Image Translation几何感知的无监督图像到图像的翻译相关推荐

  1. Unsupervised Question Answering by Cloze Translation 通过完形填空翻译的无监督的问答

    Unsupervised Question Answering by Cloze Translation 通过完形填空翻译的无监督的问答 文章目录 Unsupervised Question Answ ...

  2. 图像太宽无法输出请裁剪图像或降低分辨率然后重试_真·无监督!延世大学提出图像到图像无监督模型,实验结果超SOTA...

    作者 | 蒋宝尚 编辑 | 丛 末 图像翻译目的是用模型将源域图像转换到目标域图像,通常涉及标签图到场景图的转换.图像风格.人脸的属性变换.标签图到场景图的转换. 图像翻译任务自生成对抗网络提出就得到 ...

  3. 翻译们又要失业?Facebook最新无监督机器翻译成果,BLEU提升10个点!

    作者 | 琥珀 出品 | AI科技大本营(公众号ID:rgznai100) 神经机器翻译(NMT)关注的是通过 AI 在不同人类语言之间进行翻译的过程.2015 年,蒙特利尔学习算法研究所的研究人员开 ...

  4. 【论文精读】Unsupervised Deep Image Stitching: Reconstructing Stitched Features to Images(无监督的深度图像拼接)

    论文下载链接 文章目录 前言 摘要 一.介绍 二.相关工作 2.1 基于特征的图像拼接 2.2 基于学习的图像拼接 2.3深度单应方法 ==>研究动机 三.无监督图像拼接 Ⅰ.无监督图像对齐 Ⅱ ...

  5. 四大指标超现有模型!少样本的无监督图像翻译效果逆天| 技术头条

    作者 | Ming-yu Liu, Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen 译者 | linstancy 编辑 ...

  6. 图像翻译/UDA-CoCosNet v2: Full-Resolution Correspondence Learning for Image Translation图像翻译的全分辨率对应学习

    CoCosNet v2: Full-Resolution Correspondence Learning for Image Translation图像翻译的全分辨率对应学习 0.摘要 1.概述 2. ...

  7. CVPR2019:Domain-Specific Batch Normalization for Unsupervised Domain Adaptation无监督域适配的特定域批处理规范化

    CVPR2019:Domain-Specific Batch Normalization for Unsupervised Domain Adaptation无监督域适配的特定域批处理规范化 0.摘要 ...

  8. 2022TGRS/云检测:用于遥感图像云检测的无监督域不变特征学习Unsupervised Domain-Invariant Feature Learning for Cloud Detection

    2022TGRS/云检测:Unsupervised Domain-Invariant Feature Learning for Cloud Detection of Remote Sensing Im ...

  9. UDT(【CVPR2019】Unsupervised Deep Tracking无监督目标跟踪)

    UDT是中科大.腾讯AI lab和上交的研究者提出的无监督目标跟踪算法.仔细阅读过这篇文章之后,写下一篇paper reading加深印象. 论文标题:Unsupervised Deep Tracki ...

  10. 记忆引导的无监督图像到图像转换【Memory-guided Unsupervised Image-to-image Translation】

    背景:现有方法通常无法处理具有多个不同对象的图像.它们将全局样式应用于整个图像,而没有考虑实例与背景之间或实例内部的较大样式差异. 方法:我们提出了一个类感知记忆网络,它明确地解释了本地风格的变化.引 ...

最新文章

  1. php图标按钮,CSS如何创建图像图标按钮(附代码)
  2. leetcoder reverse polish notation解题笔记
  3. bash 中的变量可以这么用
  4. Python Day18
  5. 绝了!Dataway让 SpringBoot 变得更强大!
  6. SpringBoot中在配置文件中限制文件上传的大小
  7. python limit_Python MySQL Limit
  8. 矩阵乘法如何去逆矩阵_矩阵乘法和求逆
  9. 告诉你,Spring Boot 真是个牛逼货
  10. Arduino笔记-调节呼吸灯频率实验
  11. 服务器iis如何开启tlsv1.2协议,Windows系统中IIS启用TLS 1.2
  12. 无限路由器故障排查细则
  13. 常用的织梦(dedecms)调用标签
  14. 卡巴斯基防病毒软件授权文件添加
  15. 一加7pro电脑模式_一加7pro值不值得买?
  16. 防止刷新或后退页面重复提交表单
  17. 团队作业-博客2(团队介绍)
  18. Java报错---Cannot refer to the non-final local variable user defined in an enclosing scope
  19. 桐乡的java培训,桐乡java编程培训,桐乡java培训费用,桐乡java培训完了好不好就业...
  20. PMP海量题库免费在线练习

热门文章

  1. numpy保存npy
  2. 中企海外周报 | 华为在德国发布mate30系列手机;一汽新车亮相法兰克福车展
  3. 意超级杯-国米狂追四球逆转罗马夺冠 新援下三城
  4. 神经网络和深度学习基本原理
  5. 体验云编程——IOS脚本学习门户
  6. lefse分析本地实现方法带全部安装文件和所有细节,保证成功。
  7. 云计算给IT产业结构带来的影响
  8. pg_bigm 处理中间模糊匹配 like ‘%xxoo%‘
  9. EMC VMAX存储的内存布局
  10. 网页游戏《Drakensang》评测——改进道具收费模式可行性分析