[论文地址] [代码] [ECCV 20]

只翻译方法部分

Method

我们的目标是将图像从一个域翻译到另一个域,并支持多样化和多模态的输出。令XSX_SXS​ 和XTX_TXT​ 为源域和目标域,XXX为XSX_SXS​ 和XTX_TXT​的并集(即X=XS∪XTX = X_S \cup X_TX=XS​∪XT​),x∈Xx \in Xx∈X为单张图像,xS∈XSx_S \in X_SxS​∈XS​和xT∈XTx_T \in X_TxT​∈XT​为不同域的图像。我们定义pXp_XpX​,pSp_SpS​和pTp_TpT​为XXX,SSS和TTT的分布情况。p(a,b)p(a, b)p(a,b)用于(a,b)(a, b)(a,b)的联合分布,其中aaa和bbb可以是图像或噪声向量。设ZZZ为噪声向量空间,z∈Zz \in Zz∈Z为噪声向量,z∼N(0,1)z \sim \mathcal{N}(0, 1)z∼N(0,1)。

我们的方法有两个生成器。GS:(x,z)→xSG_S:(x,z)→x_SGS​:(x,z)→xS​和GT:(x,z)→xTG_T:(x,z)→x_TGT​:(x,z)→xT​分别将图像转换为域XSX_SXS​和XTX_TXT​。与[10]类似,每个生成器包含一个噪声编码器、一个图像编码器和一个解码器,其中噪声编码器仅用于计算一致损失(identity loss)。生成器接收输入对(图像,噪声向量),其中图像来自XXX。详细地说,图像编码器接收从XXX采样的图像。从噪声编码器得到的噪声向量zzz只用于一致损失,而对于其他损失,噪声向量zzz是从标准正态分布N(0,1)\mathcal{N}(0, 1)N(0,1)中随机采样的。噪声向量zzz和图像编码器的输出被转发给解码器,解码器的输出是翻译后的图像。

此外,有两种判别器DS/DTD_S/D_TDS​/DT​和D^\hat{D}D^。D^\hat{D}D^是一个一致性判别器。它的目标是确保源图像和翻译图像之间的一致性,这也是我们方法的核心。DSD_SDS​和DTD_TDT​的目标是在某一领域区分真实和虚假的图像。具体来说,DSD_SDS​的任务是区分XSX_SXS​和GS(X)G_S(X)GS​(X),而DTD_TDT​的任务是区分XTX_TXT​和GT(X)G_T(X)GT​(X)。

ACL-GAN的目标有三个部分。第一,对抗性翻译损失,将生成的图像分布与目标域的数据分布相匹配。第二,对抗性一致性损失,在翻译后的图像中保留源图像的重要特征,也就是说,它导致域之间的合理映射。第三种,一致损失和bounded focus mask,可以进一步帮助提高图像质量并保持图像的背景。流程如图2所示,下面介绍我们方法的细节。

Adversarial-Translation Loss

对于域之间的图像翻译,我们利用经典的对抗性损失,在我们的方法中称为对抗性翻译损失,用于生成器GSG_SGS​和GTG_TGT​,以及判别器DSD_SDS​和DTD_TDT​。对于生成器GTG_TGT​及其判别器DTD_TDT​,对抗性翻译损失如下:LadvT(GT,DT,XS,XT)=ExT∼pT[log⁡DT(xT)]+ExˉT∼p{xˉT}[log⁡(1−DT(xˉT))]\begin{aligned} \mathscr{L}_{a d v}^{T}\left(G_{T}, D_{T}, X_{S}, X_{T}\right) &=\mathbb{E}_{x_{T} \sim p_{T}}\left[\log D_{T}\left(x_{T}\right)\right] \\ &+\mathbb{E}_{\bar{x}_{T} \sim p_{\left\{\bar{x}_{T}\right\}}}\left[\log \left(1-D_{T}\left(\bar{x}_{T}\right)\right)\right] \end{aligned} LadvT​(GT​,DT​,XS​,XT​)​=ExT​∼pT​​[logDT​(xT​)]+ExˉT​∼p{xˉT​}​​[log(1−DT​(xˉT​))]​ 其中xˉT=GT(xS,z1)\bar{x}_{T}=G_{T}\left(x_{S}, z_{1}\right)xˉT​=GT​(xS​,z1​),z1∼N(0,1)z_1 \sim \mathcal{N}(0,1)z1​∼N(0,1)。目标为min⁡GTmax⁡DTLadvT(GT,DT,XS,XT)\min _{G_{T}} \max _{D_{T}} \mathscr{L}_{a d v}^{T}\left(G_{T}, D_{T}, X_{S}, X_{T}\right)minGT​​maxDT​​LadvT​(GT​,DT​,XS​,XT​)。

判别器DSD_SDS​用于区分域XSX_SXS​的真实图像和由GSG_SGS​生成的翻译图像。生成器GSG_SGS​试图生成的图像x^S\hat{x}_Sx^S​和x~S\tilde{x}_Sx~S​,这些图像看起来与来自域XSX_SXS​的图像相似。因此,损失函数被定义为:LadvS(GS,DS,{xˉT},XS)=ExS∼pS[log⁡DS(xS)]+Ex~S∼p{x~S}[log⁡(1−DS(x~S))])/2\begin{aligned} &\mathscr{L}_{a d v}^{S}\left(G_{S}, D_{S},\left\{\bar{x}_{T}\right\}, X_{S}\right)=\mathbb{E}_{x_{S} \sim p_{S}}\left[\log D_{S}\left(x_{S}\right)\right]\\ &\left.+\mathbb{E}_{\tilde{x}_{S} \sim p_{\left\{\tilde{x}_{S}\right\}}}\left[\log \left(1-D_{S}\left(\tilde{x}_{S}\right)\right)\right]\right) / 2 \end{aligned} ​LadvS​(GS​,DS​,{xˉT​},XS​)=ExS​∼pS​​[logDS​(xS​)]+Ex~S​∼p{x~S​}​​[log(1−DS​(x~S​))])/2​ 其中x^S=GS(xˉT,z2)\hat{x}_{S}=G_{S}\left(\bar{x}_{T}, z_{2}\right)x^S​=GS​(xˉT​,z2​),x~S=GS(xS,z3)\tilde{x}_{S}=G_{S}\left(x_{S}, z_{3}\right)x~S​=GS​(xS​,z3​),z2,z3∼N(0,1)z_{2}, z_{3} \sim \mathcal{N}(0,1)z2​,z3​∼N(0,1),目标为min⁡GSmax⁡DSLadvS(GS,DS,{xˉT},XS)\min _{G_{S}} \max _{D_{S}} \mathscr{L}_{a d v}^{S}\left(G_{S}, D_{S},\left\{\bar{x}_{T}\right\}, X_{S}\right)minGS​​maxDS​​LadvS​(GS​,DS​,{xˉT​},XS​)。最终,对抗翻译损失可以定义为:Ladv=LadvT(GT,DT,XS,XT)+LadvS(GS,DS,{xˉT},XS)\mathscr{L}_{a d v}=\mathscr{L}_{a d v}^{T}\left(G_{T}, D_{T}, X_{S}, X_{T}\right)+\mathscr{L}_{a d v}^{S}\left(G_{S}, D_{S},\left\{\bar{x}_{T}\right\}, X_{S}\right) Ladv​=LadvT​(GT​,DT​,XS​,XT​)+LadvS​(GS​,DS​,{xˉT​},XS​)


Adversarial-Consistency Loss

上述的Ladv\mathscr{L}_{adv}Ladv​损失可以促使翻译后的图像xˉT\bar{x}_{T}xˉT​在正确的域XTX_TXT​。然而,这种损失不能促使翻译的图像xˉT\bar{x}_{T}xˉT​与源图像xSx_SxS​相似。例如,当把男性翻译成女性时,女性的面部特征可能与男性的面部特征没有关系。为了在翻译后的图像中保留源图像的重要特征,我们提出了对抗性一致性损失,这是由一个一致性判别器D^\hat{D}D^实现的。如图3所示,一致性判别器促使生成器最小化图像x~S\tilde{x}_{S}x~S​和x^S\hat{x}_{S}x^S​之间的距离。D^\hat{D}D^的"真"和"假"图像可以互换而不影响性能。然而,让D^\hat{D}D^只区分x^S\hat{x}_{S}x^S​和x~S\tilde{x}_{S}x~S​并不能满足我们的需要,因为翻译的图像x^S\hat{x}_{S}x^S​和x~S\tilde{x}_{S}x~S​只需要属于域XSX_SXS​;它们并不要求接近特定的源图像。因此,一致性判别器D^\hat{D}D^使用xSx_SxS​作为参考,并采用成对的图像作为输入,让生成器最小化(xS,x^S)(x_S,\hat{x}_{S})(xS​,x^S​)和(xS,x~S)(x_S,\tilde{x}_{S})(xS​,x~S​)的联合分布之间的距离。这样,一致性判别器D^\hat{D}D^鼓励翻译回来的图像,x^S\hat{x}_{S}x^S​,包含源图像xSx_SxS​的特征。由于x^S\hat{x}_{S}x^S​是由xˉT\bar{x}_{T}xˉT​生成的,这可以鼓励翻译的图像xˉT\bar{x}_{T}xˉT​保留源图像xSx_SxS​的特征。

输入的噪声向量zzz可以实现多模态输出,这对我们的方法来说是至关重要的。如果没有多模态输出,给定一个特定的输入图像xSx_SxS​,x~S\tilde{x}_{S}x~S​只能有一种情况。因此,将(xS,x^S)(x_S, \hat{x}_{S})(xS​,x^S​)和(xS,x~S)(x_S, \tilde{x}_{S})(xS​,x~S​)映射在一起,几乎等同于要求x^S\hat{x}_{S}x^S​和xSx_SxS​完全相同。这种强烈的约束类似于循环一致的损失,其缺点之前已经讨论过了。对于多模态输出,给定一个特定的图像xSx_SxS​,x~S\tilde{x}_{S}x~S​可以有许多可能的情况。因此,一致性判别器D^\hat{D}D^可以专注于特征层面,而不是像素层面。也就是说,x^S\hat{x}_{S}x^S​不一定要与特定的图像xSx_SxS​相同。例如,当把戴眼镜的脸翻译成不戴眼镜的脸时,x~S\tilde{x}_{S}x~S​和x^S\hat{x}_{S}x^S​可以是戴不同眼镜的脸,例如图2中xSx_SxS​、x~S\tilde{x}_{S}x~S​和x^S\hat{x}_{S}x^S​的眼镜颜色和框架不同。因此,xˉT\bar{x}_{T}xˉT​不需要冒着增加LadvT\mathcal{L}^{T}_{adv}LadvT​的风险来保留任何眼镜的痕迹,此时Lacl\mathcal{L}_{acl}Lacl​仍然可以很小。

最终的对抗一致性损失如下所示:Lacl=E(xS,x^S)∼p(XS,{x^S})[log⁡D^(xS,x^S)]+E(xS,x~S)∼p(XS,{x~S})[log⁡(1−D^(xS,x~S))]\mathscr{L}_{a c l}=\mathbb{E}_{\left(x_{S}, \hat{x}_{S}\right) \sim p_{\left(X_{S},\left\{\hat{x}_{S}\right\}\right)}}\left[\log \hat{D}\left(x_{S}, \hat{x}_{S}\right)\right] +\mathbb{E}_{\left(x_{S}, \tilde{x}_{S}\right) \sim p_{\left(X_{S},\left\{\tilde{x}_{S}\right\}\right)}}\left[\log \left(1-\hat{D}\left(x_{S}, \tilde{x}_{S}\right)\right)\right] Lacl​=E(xS​,x^S​)∼p(XS​,{x^S​})​​[logD^(xS​,x^S​)]+E(xS​,x~S​)∼p(XS​,{x~S​})​​[log(1−D^(xS​,x~S​))] 其中xS∈XSx_{S} \in X_{S}xS​∈XS​,xˉT=GT(xS,z1)1\bar{x}_{T}=G_{T}\left(x_{S}, z_{1}\right)_{1}xˉT​=GT​(xS​,z1​)1​, x^S=GS(xˉT,z2)\hat{x}_{S}=G_{S}\left(\bar{x}_{T}, z_{2}\right)x^S​=GS​(xˉT​,z2​),x~S=GS(xS,z3)\tilde{x}_{S}=G_{S}\left(x_{S}, z_{3}\right)x~S​=GS​(xS​,z3​)。


Other Losses

Identity Loss 当目标域的图像被输入生成器时,我们进一步应用一致损失来鼓励生成器成为近似的一致映射。一致损失可以进一步鼓励特征保留,提高翻译图像的质量,稳定训练过程,避免模式崩溃,因为生成器被要求能够合成数据集中的所有图像。此外,源图像xSx_SxS​和重建图像xSidtx_S^{idt}xSidt​之间的一致损失可以保证xSx_SxS​在x~S\tilde{x}_{S}x~S​的分布之内,如图3所示。

我们构建了两个噪声编码器网络,ESz:XS→ZE_{S}^{z}: X_{S} \rightarrow ZESz​:XS​→Z和ETz:XT→ZE_{T}^{z}: X_{T} \rightarrow ZETz​:XT​→Z,分别用于GSG_SGS​和GTG_TGT​,它们将图像与噪声向量进行映射。一致性损失可以被形式化为:Lidt=ExS∼pS[∥xS−xSidt∥1]+ExT∼pT[∥xT−xTidt∥∣1]\mathscr{L}_{i d t}=\mathbb{E}_{x_{S} \sim p_{S}}\left[\left\|x_{S}-x_{S}^{i d t}\right\|_{1}\right]+\mathbb{E}_{x_{T} \sim p_{T}}\left[\left.\left\|x_{T}-x_{T}^{i d t}\right\|\right|_{1}\right] Lidt​=ExS​∼pS​​[∥∥​xS​−xSidt​∥∥​1​]+ExT​∼pT​​[∥∥​xT​−xTidt​∥∥​∣∣​1​] 其中xSidt=GS(xS,ESz(xS))x_{S}^{i d t}=G_{S}\left(x_{S}, E_{S}^{z}\left(x_{S}\right)\right)xSidt​=GS​(xS​,ESz​(xS​)),xTidt=GT(xT,ETz(xT))x_{T}^{i d t}=G_{T}\left(x_{T}, E_{T}^{z}\left(x_{T}\right)\right)xTidt​=GT​(xT​,ETz​(xT​))。

Bounded Focus Mask 有些应用要求生成器只修改源图像的某些区域,其余部分保持不变。我们让生成器产生四个通道,其中前三个是RGB图像的通道,第四个被称为bounded focus mask,其值在0和1之间。 翻译后的图像xTx_TxT​可以通过公式得到:xT=x′T⊙xm+xS⊙(1−xm)x_{T}=x \prime_{T} \odot x_{m}+x_{S} \odot\left(1-x_{m}\right)xT​=x′T​⊙xm​+xS​⊙(1−xm​),其中,⊙\odot⊙是元素相乘,xSx_{S}xS​是源图像,x′Tx \prime_{T}x′T​是生成器的前三个输出通道,xmx_mxm​是bounded focus mask。我们为生成器添加了以下约束,这是我们的贡献之一:Lmask =δ[(max⁡{∑kxm[k]−δmax⁡×W,0})2+(max⁡{δmin⁡×W−∑kxm[k],0})2]+∑k1∣xm[k]−0.5∣+ϵ\begin{aligned} \mathscr{L}_{\text {mask }} &=\delta\left[\left(\max \left\{\sum_{k} x_{m}[k]-\delta_{\max } \times W, 0\right\}\right)^{2}\right.\\ &\left.+\left(\max \left\{\delta_{\min } \times W-\sum_{k} x_{m}[k], 0\right\}\right)^{2}\right] \\ &+\sum_{k} \frac{1}{\left|x_{m}[k]-0.5\right|+\epsilon} \end{aligned} Lmask ​​=δ⎣⎡​(max{k∑​xm​[k]−δmax​×W,0})2+(max{δmin​×W−k∑​xm​[k],0})2⎦⎤​+k∑​∣xm​[k]−0.5∣+ϵ1​​ 其中δ\deltaδ、δmax\delta_{max}δmax​和δmin\delta_{min}δmin​是控制mask大小的超参数,xm[k]x_m[k]xm​[k]是mask的第k个像素,W是图像的像素数。ϵ\epsilonϵ是一个边缘值,以避免除以零。这个损失的第一项将mask的大小限制在一个合适的范围内。它鼓励生成器做出足够的改变并保持背景,其中δmax\delta_{max}δmax​和δmin\delta_{min}δmin​是mask中前景的最大和最小比例。最小比例对我们的方法至关重要,因为它可以避免x~S\tilde{x}_{S}x~S​在不同的噪声向量下与xSx_SxS​相同。该损失的最后一项鼓励mask值为0或1,将图像分割成前景和背景。最后,这个损失被图像的大小标准化。


Implementation Details

Full Objective 我们的总损失如下:Ltotal=Ladv+λaclLacl+λidtLidt+λmask Lmask \mathscr{L}_{t o t a l}=\mathscr{L}_{a d v}+\lambda_{a c l} \mathscr{L}_{a c l}+\lambda_{i d t} \mathscr{L}_{i d t}+\lambda_{\text {mask }} \mathscr{L}_{\text {mask }} Ltotal​=Ladv​+λacl​Lacl​+λidt​Lidt​+λmask ​Lmask ​ 其中λacl\lambda_{acl}λacl​,λidt\lambda_{idt}λidt​,λmask\lambda_{mask}λmask​都是控制不同损失权重的尺度值。在第4.2节中,我们将提出的方法与完整目标函数的消融进行了比较,以表明提出的方法的重要性。

Network Architecture 对于生成器和判别器,我们遵循[10]中的设计。具体来说,一个生成器由两个编码器和一个解码器组成。除了图像编码器和解码器共同构成一个自动编码器架构外,我们的模型还采用了噪声编码器,其架构与[10]中的风格编码器相似。同时,我们的判别器采用了多尺度技术来提高合成图像的视觉质量。

Training Details 我们对Ladv\mathscr{L}_{adv}Ladv​(公式3)和Lacl\mathscr{L}_{acl}Lacl​(公式4)采用最小平方损失(least-square loss)。与[8]相比,这种损失带来更稳定的训练过程和更好的结果。在所有的实验中,我们使用Adam优化器,β1=0.5\beta_1=0.5β1​=0.5,β2=0.999\beta_2=0.999β2​=0.999。所有的模型都以0.0001的学习率进行训练,每100K次迭代后学习率下降0.5倍。我们对所有模型进行了350K次迭代训练。判别器更新两次,而生成器更新一次。在训练中,我们设定δ=0.001\delta=0.001δ=0.001,ϵ=0.01\epsilon=0.01ϵ=0.01,λidt=1\lambda_{idt}=1λidt​=1;λacl\lambda_{acl}λacl​,λmask\lambda_{mask}λmask​,δmin\delta_{min}δmin​和δmax\delta_{max}δmax​的值根据不同的应用而设定:对于眼镜移除任务,λacl=0.2\lambda_{acl}=0.2λacl​=0.2,λmask=0.025\lambda_{mask}=0.025λmask​=0.025,δmin=0.05\delta_{min}=0.05δmin​=0.05,δmax=0.1\delta_{max}=0.1δmax​=0.1;在男女转换中λacl=0.2\lambda_{acl}=0.2λacl​=0.2,λmask=0.025\lambda_{mask}=0.025λmask​=0.025,δmin=0.3\delta_{min}=0.3δmin​=0.3,δmax=0.5\delta_{max}=0.5δmax​=0.5;在自拍到动漫的翻译中λacl=0.5\lambda_{acl}=0.5λacl​=0.5,λmask=δmin=δmax=0\lambda_{mask}=\delta_{min}=\delta_{max}=0λmask​=δmin​=δmax​=0。为了公平比较,我们遵循CouncilGAN中描述的相同数据增强方法。

[论文翻译] Unpaired Image-to-Image Translation using Adversarial Consistency Loss相关推荐

  1. 论文翻译-SAFL A Self-Attention Scene Text Recognizer with Focal Loss

    论文翻译-SAFL A Self-Attention Scene Text Recognizer with Focal Loss 原文地址:https://ieeexplore.ieee.org/do ...

  2. 论文翻译:2018_Speech Bandwidth Extension Using Generative Adversarial Networks

    论文地址:基于生成对抗网络的语音频带扩展 博客作者(引用请指明出处):https://www.cnblogs.com/LXP-Never/p/10121897.html 摘要 语音盲带宽扩展技术已经出 ...

  3. 非成对图像翻译(Unpaired Image-to-Image Translation)部分经典论文汇总

    只简单找了一小部分 Survey [link] Image-to-Image Translation: Methods and Applications [link] An Overview of I ...

  4. 如何自动生成推荐歌单:ACM论文翻译与解读 | Translation and Interpretation of ACM Survey

    如何自动生成推荐歌单:ACM论文翻译与解读 | How to Automatically Generate Music Playlists: Translation and Interpretatio ...

  5. GAN生成对抗网络论文翻译(一)

    给自己一个动力去看英语论文,每天翻译一节,纯属自己翻译,小白一只,如果您能提出建议或者翻译修改,将非常感谢,首先谢谢! How Generative Adversarial Networks and ...

  6. 2015-FCN论文翻译

    文章原址 文章目录 FCN论文翻译 摘要 1. 介绍 2. 相关工作 3. 全卷积网络 3.1 适用分类器用于dense prediction 3.2 Shift-and stitch是滤波稀疏 3. ...

  7. OSNet 论文翻译

    OSNet 论文翻译 摘要 作为一个实例级的识别问题,行人再识别(ReID)依赖于具有识别能力的特征,它不仅能捕获不同的空间尺度,还能封装多个尺度的任意组合.我们称这些同构和异构尺度的特征为全尺度特征 ...

  8. GPT-2 论文翻译

    GPT-2 论文翻译 基本是机器翻译,也进行了基本的人工矫正,凑活看吧 原论文:<Language Models are Unsupervised Multitask Learners> ...

  9. [论文翻译] Deep Learning

    [论文翻译] Deep Learning 论文题目:Deep Learning 论文来源:Deep learning Nature 2015 翻译人:BDML@CQUT实验室 Deep learnin ...

最新文章

  1. git放弃修改放弃增加文件
  2. 十分钟入门 RocketMQ
  3. 语义分割损失函数系列(1):交叉熵损失函数
  4. J2EE搭建Dynamic web SpringMVC工程404错误分析(三)
  5. 海华模组:WIFI、BT、SoC模组列表
  6. java编程基础素数实验报告,JAVA 基础编程练习题1 (输出素数)
  7. 微软Build 2016前瞻:让开发者编写能畅行所有设备的app
  8. pynq 环境搭建_蚂蚁S9矿板ZYNQ7010开发板移植PYNQ_2.5
  9. 实力采坑----记录一下windows下我的MySQL8.0.11安装过程
  10. 一个字等于多少字节?
  11. notimplementedexception
  12. 小节标题不跟着章节变化,教你彻底解决
  13. linux 文件md5,Linux下计算文件的MD5值
  14. 互联网电影院新战略5G+民族电影
  15. 标记网购ThinkPad过程
  16. 使用scp命令传文件
  17. 【PHP项目部署一】PHP环境配置
  18. 网络编程的5种IO模型
  19. 放弃数学专业跳槽高薪行业,如今他却后悔了
  20. 一次解决你的图像尺寸和定位问题。

热门文章

  1. 全志h2参数_全志H2怎么样 H2芯片参数介绍
  2. 湖北省星创天地备案和绩效评价申报,2022年条件流程及时间讲解
  3. es bulk java_Java Elasticsearch Bulk API 批量操作
  4. 瓜果皮其实是防治疾病的良药
  5. 一个快捷的计算e的值(第4章-5 求e的近似值 (15分))
  6. 帝国双璧--卫青与霍去病
  7. 【技术解析笔记】DDPM解析
  8. X Spring File Storage 0.6.0 发布,新增支持 FTP、SFTP、WebDAV
  9. 论文理解【RL - Exp Replay】—— 【ReMERN ReMERT】Regret Minimization Exp Replay in Off-Policy RL
  10. 网络营销实战课-好用的工具推荐