图像风格迁移_【论文解读】图像风格迁移中的Contextual Loss

【08/04更新】在前几天的Commit中，Contextual Loss已经支持多GPU训练

1.Background

对于图像风格迁移，最常用的做法就是通过GAN网络实现，然而，如果你没有很强大的算力，训练GAN网络就是比较困难的一件事儿了。基于传统的前向CNN网络，有相关学者提出了一些感知loss，使用该loss也可以完成图像风格迁移，比较常见的就是Contextual Loss。

首先给出论文作者开源出的源码，基于Tensorflow实现

roimehrez/contextualLosswww.github.com

代码中包含了风格迁移的几个样例，但我没去测试。我的重点在于将Contextual Loss应用于其他图像增强的领域，来尽可能多地保留图像细节，下面是我用PyTorch对Contextual Loss的实现，现已支持多GPU运行~

z-bingo/Contextual-Loss-PyTorchgithub.com

2.Introduction

在计算机视觉中，传统的一些Loss的前提都是已经对齐的数据，如L1 Loss和L2 Loss，对于没有对齐的图像而言是没有意义的。Contextual Loss则是一种可用于非对齐(non-aligned)数据的Loss，其特性在于可以较好地保留ground truth的特征。可以在即便不使用GAN网络的情况下，较好地完成图像风格转换等任务，而对于生成的图像，大多时候也是很难判断真假的。如下图所示，Contextual Loss可以有效地完成多种图像风格转换任务。

Contextual Loss对于多个图像风格转换任务都是有效的

非对齐数据可以通过下图来说明，简言之，对于对齐数据而言，source和target两幅图像在相对应的像素点上，有相同的含义，即，都是背景、都是图片中的一个人....非对齐数据则有更多种可能。

非对齐数据

3.Methods

为了能适应非对齐数据，那么该Loss需要通过特征之间的相似度来衡量。Contextual Loss通过特征之间的余弦相似度确定特征之间的差距。

两个特征之间的相似度图示

如上图所示，不同特征之间的相似度可通过其余弦距离来间接反映，当其余弦距离较小时，可认为两者是相似的，相反，认为其不相似。因此，两个特征是否相似的问题就逐步转化为了最小化特征图之间的余弦相似度问题。

从数学角度分析，两个特征有着自己独特的分布，当两者趋于相似时，两者的分布也趋于一致，此时，两个特征之间的相对熵（KL散度）将会趋近于一个极小值。不妨将两个特征的分布表示为

和

，其KL散度可表示为：

进一步，

对上式进行进一步化简就可作为最终的Loss使用了。重要就是对

进行求解，文中假设了特征的采样点是足够大的，可以将其认为是一个delta函数(冲激函数)，近似为

为了简单，将

表示为

，Loss函数就可以进一步简化为

其实，

就是最重要的需要求解出的相似度。

关于

的计算，文章中给出了详细的计算公式，在此不进行赘述。简单来说，就是计算每个特征(channel维度)与其他特征之间的预先相似度，特征源自VGG中的某一层或几层。实现方式详见源码。

Reference

[1] The Contextual Loss for Image Transformation with Non-Aligned Data

[2] Maintaining Natural Image Statistics with the Contextual Loss