【论文解读】Cross-domain Correspondence Learning for Exemplar-based Image Translation

论文题目：Cross-domain Correspondence Learning for Exemplar-based Image Translation

论文主页：https://panzhang0212.github.io/CoCosNet/

论文链接：https://arxiv.org/abs/2004.05571

代码链接：https://github.com/microsoft/CoCosNet

用于基于示例的图像翻译的跨域语义对应学习

Task

本文所针对的任务是基于示例的图像翻译，不同于普通的图像翻译，不仅提供了input，还提供了包含风格的示例，相当于提供了语义图像和风格图像，对生成图像有了更多约束但也提供了更多信息。

这个任务的难点有两个：

如何解决跨域语义对应
如何生成高质量的对应图像

这两个问题不需要完全分离，它们可以是两个相辅相成的过程。正确的语义对应有助于指导网络参考范例的颜色及纹理，从而提高最终图像质量；反之，生成高质量图片的目标会反过来要求子模块找到合理的对应。

CoCosNet网络结构

网络包含两个部分：跨域对齐网络和图像生成网络

大致流程：

跨域对齐网络：把两个域的图像映射到一个中间域，在中间域上找到二者的匹配关系，然后利用匹配关系扭曲示例图像。
图像转换网络：利用多层卷积和扭曲的示例图像逐步生成高质量的目标域图像。

Cross-domain correspondence network 跨域对齐网络

这一部分网络包含两个步骤：

步骤一：

输入图像XA是A域的，示例YB是B域的，把他们映射到同一个中间域S的话就可以较为方便地找到他们之间的语义对应关系，作者这里使用的映射方式是用FPN提取两张图像的特征图，再都转换为S域中的表示XS和YS，这里的F就是整个的转换关系，theta是需要学习的参数。

这一步对应的loss叫域对齐损失，（XB是XA在B域中对应的图像，类似于ground truth，但严格来说不是），如果这个中间域找的好的话，这里好的定义就是语义对齐，那么XA和XB转换到S域应该是完全对齐的，因为他们本来就是相同场景的不同域图像，是包含相同语义的。

Domain alignment loss

步骤二：

都转换到S域之后就要找到他们之间的语义相关性，首先计算一个S域中他们俩的相关矩阵，其中这个hat指的是在通道维度均值归0后的值，然后通过softmax加权选择YB中最相关的像素，这样就得到了一张直接通过输入图像把示例图像扭曲过来的图像。

跟这一步相对应的loss叫对应关系正则损失，对于这个扭曲后的示例图像是没有强监督的，所以作者这里是通过一个循环一致性来约束的，就是通过同样的方法把扭曲后的图像按照原示例图YB扭曲回去，得到的应该是YB原图。

Correspondence regularization loss

这里提前放一下关于这两个loss的消融实验

如果没有第一个域对齐损失，会造成两个域没有实现对应，扭曲图片会出现过度平滑；如果没有第二个对应正则损失，将会产生不正确的对应，导致最后生成的图像质量不好。

Translation network

接下来是它的图像生成网络，从一个固定的常量z开始，通过逐步卷积逐步注入扭曲图像的风格信息，每一次注入风格都是通过Positional normalization和Spatially-adaptive denormalization, positional normalization是指在每一个像素点进行归一化操作，SPADE指的是去正则化时的Alpha和Beta不是学来的，而是从风格参考图像中得来的，而且也是每一个像素不同，这里得到Alpha和Beta的操作也是通过卷积。

经过七层这样的操作，最终得到输出图片。

除了之前说到的两个跨域对齐损失，还有一些跟图像生成有关的loss

第一个是伪参考图像对损失，这里再一次用到了XB，XB在这里是真正作为ground truth，XB’是对XB做了一些随机变形，裁剪或是翻转之类的，如果把它作为示例图像，XA作为输入图像，生成的应该是XB才对，这里的Phi l是VGG-19的第l层激活。

feature matching loss

第二个是参考图像转换损失，其中包含两项，perceptual loss和contextual loss，感知损失用的是高层语义信息，也就是VGG-19比较靠后的一层特征，为了使生成图像XB hat和XB拥有较高的语义一致性；感知损失约束的是全局高频特征的相似性，上下文损失约束的是局部的特征，所以这里用到的是包含更丰富风格信息（例如颜色、纹理）的几个低层特征，为了使XB hat和YB在风格上相似。contextual loss来自另一篇论文“The contextual loss for image transformation with non-aligned data”，想要详细了解可以搜索一下。

perceptual loss

contextual loss

最后一项是对抗损失，与一般GAN的损失函数类似，主要是为了让生成的图片属于B域，提升图片质量。

Adversarial loss

综上最后总的损失函数就是这6项的加权和。

1. 伪参考图像对损失，2. 语义约束损失，3. 风格约束损失，4. 生成对抗损失，5. 领域对齐损失，6. 相似度矩阵正则化损失

实验结果

还有一些定量结果，评价指标包含三部分：生成图像是否像真的，语义信息是否像input，风格是否像exemplar。FID和SWD都是图像生成的评价指标，FID表示生成图像分布和真实图像分布的距离；SWD表示将生成图像改变为真实图像需要移动的最短距离。都是越低越好。具体的结果大家可以看论文中，这里不再贴图。此外还包括用户判断实验和每一项loss的消融实验，作者的实验做的很全面。

Limitation

one-to-many and many-to-one mappings

示例图像中的红黑两辆汽车同时与input中的汽车相对应，导致生成图像中的汽车一半黑一半红，与现实不符；下面一行中枕头只是简单地复制，丢失了多样性。

2. 第二个不足在于相关矩阵等计算非常占用GPU内存，使得这个方法很难用在高分辨率的图像上。

参考文献：

Zhang, Pan, Bo Zhang, Dong Chen, Lu Yuan, and Fang Wen. “Cross-domain Correspondence Learning for Exemplar-based Image Translation.” arXiv preprint arXiv:2004.05571 (2020).