[论文翻译] Unpaired Image-to-Image Translation using Adversarial Consistency Loss

[论文地址] [代码] [ECCV 20]

只翻译方法部分

Method

我们的目标是将图像从一个域翻译到另一个域，并支持多样化和多模态的输出。令XSX_SXS 和XTX_TXT 为源域和目标域，XXX为XSX_SXS 和XTX_TXT的并集(即X=XS∪XTX = X_S \cup X_TX=XS∪XT)，x∈Xx \in Xx∈X为单张图像，xS∈XSx_S \in X_SxS∈XS和xT∈XTx_T \in X_TxT∈XT为不同域的图像。我们定义pXp_XpX，pSp_SpS和pTp_TpT为XXX，SSS和TTT的分布情况。p(a,b)p(a, b)p(a,b)用于(a,b)(a, b)(a,b)的联合分布，其中aaa和bbb可以是图像或噪声向量。设ZZZ为噪声向量空间，z∈Zz \in Zz∈Z为噪声向量，z∼N(0,1)z \sim \mathcal{N}(0, 1)z∼N(0,1)。

我们的方法有两个生成器。GS:(x,z)→xSG_S:(x,z)→x_SGS:(x,z)→xS和GT:(x,z)→xTG_T:(x,z)→x_TGT:(x,z)→xT分别将图像转换为域XSX_SXS和XTX_TXT。与[10]类似，每个生成器包含一个噪声编码器、一个图像编码器和一个解码器，其中噪声编码器仅用于计算一致损失(identity loss)。生成器接收输入对(图像，噪声向量)，其中图像来自XXX。详细地说，图像编码器接收从XXX采样的图像。从噪声编码器得到的噪声向量zzz只用于一致损失，而对于其他损失，噪声向量zzz是从标准正态分布N(0,1)\mathcal{N}(0, 1)N(0,1)中随机采样的。噪声向量zzz和图像编码器的输出被转发给解码器，解码器的输出是翻译后的图像。

此外，有两种判别器DS/DTD_S/D_TDS/DT和D^\hat{D}D^。D^\hat{D}D^是一个一致性判别器。它的目标是确保源图像和翻译图像之间的一致性，这也是我们方法的核心。DSD_SDS和DTD_TDT的目标是在某一领域区分真实和虚假的图像。具体来说，DSD_SDS的任务是区分XSX_SXS和GS(X)G_S(X)GS(X)，而DTD_TDT的任务是区分XTX_TXT和GT(X)G_T(X)GT(X)。

ACL-GAN的目标有三个部分。第一，对抗性翻译损失，将生成的图像分布与目标域的数据分布相匹配。第二，对抗性一致性损失，在翻译后的图像中保留源图像的重要特征，也就是说，它导致域之间的合理映射。第三种，一致损失和bounded focus mask，可以进一步帮助提高图像质量并保持图像的背景。流程如图2所示，下面介绍我们方法的细节。

Adversarial-Translation Loss

对于域之间的图像翻译，我们利用经典的对抗性损失，在我们的方法中称为对抗性翻译损失，用于生成器GSG_SGS和GTG_TGT，以及判别器DSD_SDS和DTD_TDT。对于生成器GTG_TGT及其判别器DTD_TDT，对抗性翻译损失如下：LadvT(GT,DT,XS,XT)=ExT∼pT[log⁡DT(xT)]+ExˉT∼p{xˉT}[log⁡(1−DT(xˉT))]\begin{aligned} \mathscr{L}_{a d v}^{T}\left(G_{T}, D_{T}, X_{S}, X_{T}\right) &=\mathbb{E}_{x_{T} \sim p_{T}}\left[\log D_{T}\left(x_{T}\right)\right] \\ &+\mathbb{E}_{\bar{x}_{T} \sim p_{\left\{\bar{x}_{T}\right\}}}\left[\log \left(1-D_{T}\left(\bar{x}_{T}\right)\right)\right] \end{aligned} LadvT(GT,DT,XS,XT)=ExT∼pT[logDT(xT)]+ExˉT∼p{xˉT}[log(1−DT(xˉT))] 其中xˉT=GT(xS,z1)\bar{x}_{T}=G_{T}\left(x_{S}, z_{1}\right)xˉT=GT(xS,z1)，z1∼N(0,1)z_1 \sim \mathcal{N}(0,1)z1∼N(0,1)。目标为min⁡GTmax⁡DTLadvT(GT,DT,XS,XT)\min _{G_{T}} \max _{D_{T}} \mathscr{L}_{a d v}^{T}\left(G_{T}, D_{T}, X_{S}, X_{T}\right)minGTmaxDTLadvT(GT,DT,XS,XT)。

判别器DSD_SDS用于区分域XSX_SXS的真实图像和由GSG_SGS生成的翻译图像。生成器GSG_SGS试图生成的图像x^S\hat{x}_Sx^S和x~S\tilde{x}_Sx~S，这些图像看起来与来自域XSX_SXS的图像相似。因此，损失函数被定义为：LadvS(GS,DS,{xˉT},XS)=ExS∼pS[log⁡DS(xS)]+Ex~S∼p{x~S}[log⁡(1−DS(x~S))])/2\begin{aligned} &\mathscr{L}_{a d v}^{S}\left(G_{S}, D_{S},\left\{\bar{x}_{T}\right\}, X_{S}\right)=\mathbb{E}_{x_{S} \sim p_{S}}\left[\log D_{S}\left(x_{S}\right)\right]\\ &\left.+\mathbb{E}_{\tilde{x}_{S} \sim p_{\left\{\tilde{x}_{S}\right\}}}\left[\log \left(1-D_{S}\left(\tilde{x}_{S}\right)\right)\right]\right) / 2 \end{aligned} LadvS(GS,DS,{xˉT},XS)=ExS∼pS[logDS(xS)]+Ex~S∼p{x~S}[log(1−DS(x~S))])/2 其中x^S=GS(xˉT,z2)\hat{x}_{S}=G_{S}\left(\bar{x}_{T}, z_{2}\right)x^S=GS(xˉT,z2)，x~S=GS(xS,z3)\tilde{x}_{S}=G_{S}\left(x_{S}, z_{3}\right)x~S=GS(xS,z3)，z2,z3∼N(0,1)z_{2}, z_{3} \sim \mathcal{N}(0,1)z2,z3∼N(0,1)，目标为min⁡GSmax⁡DSLadvS(GS,DS,{xˉT},XS)\min _{G_{S}} \max _{D_{S}} \mathscr{L}_{a d v}^{S}\left(G_{S}, D_{S},\left\{\bar{x}_{T}\right\}, X_{S}\right)minGSmaxDSLadvS(GS,DS,{xˉT},XS)。最终，对抗翻译损失可以定义为：Ladv=LadvT(GT,DT,XS,XT)+LadvS(GS,DS,{xˉT},XS)\mathscr{L}_{a d v}=\mathscr{L}_{a d v}^{T}\left(G_{T}, D_{T}, X_{S}, X_{T}\right)+\mathscr{L}_{a d v}^{S}\left(G_{S}, D_{S},\left\{\bar{x}_{T}\right\}, X_{S}\right) Ladv=LadvT(GT,DT,XS,XT)+LadvS(GS,DS,{xˉT},XS)

Adversarial-Consistency Loss

上述的Ladv\mathscr{L}_{adv}Ladv损失可以促使翻译后的图像xˉT\bar{x}_{T}xˉT在正确的域XTX_TXT。然而，这种损失不能促使翻译的图像xˉT\bar{x}_{T}xˉT与源图像xSx_SxS相似。例如，当把男性翻译成女性时，女性的面部特征可能与男性的面部特征没有关系。为了在翻译后的图像中保留源图像的重要特征，我们提出了对抗性一致性损失，这是由一个一致性判别器D^\hat{D}D^实现的。如图3所示，一致性判别器促使生成器最小化图像x~S\tilde{x}_{S}x~S和x^S\hat{x}_{S}x^S之间的距离。D^\hat{D}D^的"真"和"假"图像可以互换而不影响性能。然而，让D^\hat{D}D^只区分x^S\hat{x}_{S}x^S和x~S\tilde{x}_{S}x~S并不能满足我们的需要，因为翻译的图像x^S\hat{x}_{S}x^S和x~S\tilde{x}_{S}x~S只需要属于域XSX_SXS；它们并不要求接近特定的源图像。因此，一致性判别器D^\hat{D}D^使用xSx_SxS作为参考，并采用成对的图像作为输入，让生成器最小化(xS,x^S)(x_S,\hat{x}_{S})(xS,x^S)和(xS,x~S)(x_S,\tilde{x}_{S})(xS,x~S)的联合分布之间的距离。这样，一致性判别器D^\hat{D}D^鼓励翻译回来的图像，x^S\hat{x}_{S}x^S，包含源图像xSx_SxS的特征。由于x^S\hat{x}_{S}x^S是由xˉT\bar{x}_{T}xˉT生成的，这可以鼓励翻译的图像xˉT\bar{x}_{T}xˉT保留源图像xSx_SxS的特征。

输入的噪声向量zzz可以实现多模态输出，这对我们的方法来说是至关重要的。如果没有多模态输出，给定一个特定的输入图像xSx_SxS，x~S\tilde{x}_{S}x~S只能有一种情况。因此，将(xS,x^S)(x_S, \hat{x}_{S})(xS,x^S)和(xS,x~S)(x_S, \tilde{x}_{S})(xS,x~S)映射在一起，几乎等同于要求x^S\hat{x}_{S}x^S和xSx_SxS完全相同。这种强烈的约束类似于循环一致的损失，其缺点之前已经讨论过了。对于多模态输出，给定一个特定的图像xSx_SxS，x~S\tilde{x}_{S}x~S可以有许多可能的情况。因此，一致性判别器D^\hat{D}D^可以专注于特征层面，而不是像素层面。也就是说，x^S\hat{x}_{S}x^S不一定要与特定的图像xSx_SxS相同。例如，当把戴眼镜的脸翻译成不戴眼镜的脸时，x~S\tilde{x}_{S}x~S和x^S\hat{x}_{S}x^S可以是戴不同眼镜的脸，例如图2中xSx_SxS、x~S\tilde{x}_{S}x~S和x^S\hat{x}_{S}x^S的眼镜颜色和框架不同。因此，xˉT\bar{x}_{T}xˉT不需要冒着增加LadvT\mathcal{L}^{T}_{adv}LadvT的风险来保留任何眼镜的痕迹，此时Lacl\mathcal{L}_{acl}Lacl仍然可以很小。

最终的对抗一致性损失如下所示：Lacl=E(xS,x^S)∼p(XS,{x^S})[log⁡D^(xS,x^S)]+E(xS,x~S)∼p(XS,{x~S})[log⁡(1−D^(xS,x~S))]\mathscr{L}_{a c l}=\mathbb{E}_{\left(x_{S}, \hat{x}_{S}\right) \sim p_{\left(X_{S},\left\{\hat{x}_{S}\right\}\right)}}\left[\log \hat{D}\left(x_{S}, \hat{x}_{S}\right)\right] +\mathbb{E}_{\left(x_{S}, \tilde{x}_{S}\right) \sim p_{\left(X_{S},\left\{\tilde{x}_{S}\right\}\right)}}\left[\log \left(1-\hat{D}\left(x_{S}, \tilde{x}_{S}\right)\right)\right] Lacl=E(xS,x^S)∼p(XS,{x^S})[logD^(xS,x^S)]+E(xS,x~S)∼p(XS,{x~S})[log(1−D^(xS,x~S))] 其中xS∈XSx_{S} \in X_{S}xS∈XS，xˉT=GT(xS,z1)1\bar{x}_{T}=G_{T}\left(x_{S}, z_{1}\right)_{1}xˉT=GT(xS,z1)1， x^S=GS(xˉT,z2)\hat{x}_{S}=G_{S}\left(\bar{x}_{T}, z_{2}\right)x^S=GS(xˉT,z2)，x~S=GS(xS,z3)\tilde{x}_{S}=G_{S}\left(x_{S}, z_{3}\right)x~S=GS(xS,z3)。

Other Losses

Identity Loss 当目标域的图像被输入生成器时，我们进一步应用一致损失来鼓励生成器成为近似的一致映射。一致损失可以进一步鼓励特征保留，提高翻译图像的质量，稳定训练过程，避免模式崩溃，因为生成器被要求能够合成数据集中的所有图像。此外，源图像xSx_SxS和重建图像xSidtx_S^{idt}xSidt之间的一致损失可以保证xSx_SxS在x~S\tilde{x}_{S}x~S的分布之内，如图3所示。

我们构建了两个噪声编码器网络，ESz:XS→ZE_{S}^{z}: X_{S} \rightarrow ZESz:XS→Z和ETz:XT→ZE_{T}^{z}: X_{T} \rightarrow ZETz:XT→Z，分别用于GSG_SGS和GTG_TGT，它们将图像与噪声向量进行映射。一致性损失可以被形式化为：Lidt=ExS∼pS[∥xS−xSidt∥1]+ExT∼pT[∥xT−xTidt∥∣1]\mathscr{L}_{i d t}=\mathbb{E}_{x_{S} \sim p_{S}}\left[\left\|x_{S}-x_{S}^{i d t}\right\|_{1}\right]+\mathbb{E}_{x_{T} \sim p_{T}}\left[\left.\left\|x_{T}-x_{T}^{i d t}\right\|\right|_{1}\right] Lidt=ExS∼pS[∥∥xS−xSidt∥∥1]+ExT∼pT[∥∥xT−xTidt∥∥∣∣1] 其中xSidt=GS(xS,ESz(xS))x_{S}^{i d t}=G_{S}\left(x_{S}, E_{S}^{z}\left(x_{S}\right)\right)xSidt=GS(xS,ESz(xS))，xTidt=GT(xT,ETz(xT))x_{T}^{i d t}=G_{T}\left(x_{T}, E_{T}^{z}\left(x_{T}\right)\right)xTidt=GT(xT,ETz(xT))。

Bounded Focus Mask 有些应用要求生成器只修改源图像的某些区域，其余部分保持不变。我们让生成器产生四个通道，其中前三个是RGB图像的通道，第四个被称为bounded focus mask，其值在0和1之间。翻译后的图像xTx_TxT可以通过公式得到：xT=x′T⊙xm+xS⊙(1−xm)x_{T}=x \prime_{T} \odot x_{m}+x_{S} \odot\left(1-x_{m}\right)xT=x′T⊙xm+xS⊙(1−xm)，其中，⊙\odot⊙是元素相乘，xSx_{S}xS是源图像，x′Tx \prime_{T}x′T是生成器的前三个输出通道，xmx_mxm是bounded focus mask。我们为生成器添加了以下约束，这是我们的贡献之一：Lmask =δ[(max⁡{∑kxm[k]−δmax⁡×W,0})2+(max⁡{δmin⁡×W−∑kxm[k],0})2]+∑k1∣xm[k]−0.5∣+ϵ\begin{aligned} \mathscr{L}_{\text {mask }} &=\delta\left[\left(\max \left\{\sum_{k} x_{m}[k]-\delta_{\max } \times W, 0\right\}\right)^{2}\right.\\ &\left.+\left(\max \left\{\delta_{\min } \times W-\sum_{k} x_{m}[k], 0\right\}\right)^{2}\right] \\ &+\sum_{k} \frac{1}{\left|x_{m}[k]-0.5\right|+\epsilon} \end{aligned} Lmask =δ⎣⎡(max{k∑xm[k]−δmax×W,0})2+(max{δmin×W−k∑xm[k],0})2⎦⎤+k∑∣xm[k]−0.5∣+ϵ1 其中δ\deltaδ、δmax\delta_{max}δmax和δmin\delta_{min}δmin是控制mask大小的超参数，xm[k]x_m[k]xm[k]是mask的第k个像素，W是图像的像素数。ϵ\epsilonϵ是一个边缘值，以避免除以零。这个损失的第一项将mask的大小限制在一个合适的范围内。它鼓励生成器做出足够的改变并保持背景，其中δmax\delta_{max}δmax和δmin\delta_{min}δmin是mask中前景的最大和最小比例。最小比例对我们的方法至关重要，因为它可以避免x~S\tilde{x}_{S}x~S在不同的噪声向量下与xSx_SxS相同。该损失的最后一项鼓励mask值为0或1，将图像分割成前景和背景。最后，这个损失被图像的大小标准化。

Implementation Details

Full Objective 我们的总损失如下：Ltotal=Ladv+λaclLacl+λidtLidt+λmask Lmask \mathscr{L}_{t o t a l}=\mathscr{L}_{a d v}+\lambda_{a c l} \mathscr{L}_{a c l}+\lambda_{i d t} \mathscr{L}_{i d t}+\lambda_{\text {mask }} \mathscr{L}_{\text {mask }} Ltotal=Ladv+λaclLacl+λidtLidt+λmask Lmask 其中λacl\lambda_{acl}λacl，λidt\lambda_{idt}λidt，λmask\lambda_{mask}λmask都是控制不同损失权重的尺度值。在第4.2节中，我们将提出的方法与完整目标函数的消融进行了比较，以表明提出的方法的重要性。

Network Architecture 对于生成器和判别器，我们遵循[10]中的设计。具体来说，一个生成器由两个编码器和一个解码器组成。除了图像编码器和解码器共同构成一个自动编码器架构外，我们的模型还采用了噪声编码器，其架构与[10]中的风格编码器相似。同时，我们的判别器采用了多尺度技术来提高合成图像的视觉质量。

Training Details 我们对Ladv\mathscr{L}_{adv}Ladv(公式3)和Lacl\mathscr{L}_{acl}Lacl(公式4)采用最小平方损失(least-square loss)。与[8]相比，这种损失带来更稳定的训练过程和更好的结果。在所有的实验中，我们使用Adam优化器，β1=0.5\beta_1=0.5β1=0.5，β2=0.999\beta_2=0.999β2=0.999。所有的模型都以0.0001的学习率进行训练，每100K次迭代后学习率下降0.5倍。我们对所有模型进行了350K次迭代训练。判别器更新两次，而生成器更新一次。在训练中，我们设定δ=0.001\delta=0.001δ=0.001，ϵ=0.01\epsilon=0.01ϵ=0.01，λidt=1\lambda_{idt}=1λidt=1；λacl\lambda_{acl}λacl，λmask\lambda_{mask}λmask，δmin\delta_{min}δmin和δmax\delta_{max}δmax的值根据不同的应用而设定：对于眼镜移除任务，λacl=0.2\lambda_{acl}=0.2λacl=0.2，λmask=0.025\lambda_{mask}=0.025λmask=0.025，δmin=0.05\delta_{min}=0.05δmin=0.05，δmax=0.1\delta_{max}=0.1δmax=0.1；在男女转换中λacl=0.2\lambda_{acl}=0.2λacl=0.2，λmask=0.025\lambda_{mask}=0.025λmask=0.025，δmin=0.3\delta_{min}=0.3δmin=0.3，δmax=0.5\delta_{max}=0.5δmax=0.5；在自拍到动漫的翻译中λacl=0.5\lambda_{acl}=0.5λacl=0.5，λmask=δmin=δmax=0\lambda_{mask}=\delta_{min}=\delta_{max}=0λmask=δmin=δmax=0。为了公平比较，我们遵循CouncilGAN中描述的相同数据增强方法。