[论文翻译] Unpaired Image-to-Image Translation using Adversarial Consistency Loss
[论文地址] [代码] [ECCV 20]
只翻译方法部分
Method
我们的目标是将图像从一个域翻译到另一个域,并支持多样化和多模态的输出。令XSX_SXS 和XTX_TXT 为源域和目标域,XXX为XSX_SXS 和XTX_TXT的并集(即X=XS∪XTX = X_S \cup X_TX=XS∪XT),x∈Xx \in Xx∈X为单张图像,xS∈XSx_S \in X_SxS∈XS和xT∈XTx_T \in X_TxT∈XT为不同域的图像。我们定义pXp_XpX,pSp_SpS和pTp_TpT为XXX,SSS和TTT的分布情况。p(a,b)p(a, b)p(a,b)用于(a,b)(a, b)(a,b)的联合分布,其中aaa和bbb可以是图像或噪声向量。设ZZZ为噪声向量空间,z∈Zz \in Zz∈Z为噪声向量,z∼N(0,1)z \sim \mathcal{N}(0, 1)z∼N(0,1)。
我们的方法有两个生成器。GS:(x,z)→xSG_S:(x,z)→x_SGS:(x,z)→xS和GT:(x,z)→xTG_T:(x,z)→x_TGT:(x,z)→xT分别将图像转换为域XSX_SXS和XTX_TXT。与[10]类似,每个生成器包含一个噪声编码器、一个图像编码器和一个解码器,其中噪声编码器仅用于计算一致损失(identity loss)。生成器接收输入对(图像,噪声向量),其中图像来自XXX。详细地说,图像编码器接收从XXX采样的图像。从噪声编码器得到的噪声向量zzz只用于一致损失,而对于其他损失,噪声向量zzz是从标准正态分布N(0,1)\mathcal{N}(0, 1)N(0,1)中随机采样的。噪声向量zzz和图像编码器的输出被转发给解码器,解码器的输出是翻译后的图像。
此外,有两种判别器DS/DTD_S/D_TDS/DT和D^\hat{D}D^。D^\hat{D}D^是一个一致性判别器。它的目标是确保源图像和翻译图像之间的一致性,这也是我们方法的核心。DSD_SDS和DTD_TDT的目标是在某一领域区分真实和虚假的图像。具体来说,DSD_SDS的任务是区分XSX_SXS和GS(X)G_S(X)GS(X),而DTD_TDT的任务是区分XTX_TXT和GT(X)G_T(X)GT(X)。
ACL-GAN的目标有三个部分。第一,对抗性翻译损失,将生成的图像分布与目标域的数据分布相匹配。第二,对抗性一致性损失,在翻译后的图像中保留源图像的重要特征,也就是说,它导致域之间的合理映射。第三种,一致损失和bounded focus mask,可以进一步帮助提高图像质量并保持图像的背景。流程如图2所示,下面介绍我们方法的细节。
Adversarial-Translation Loss
对于域之间的图像翻译,我们利用经典的对抗性损失,在我们的方法中称为对抗性翻译损失,用于生成器GSG_SGS和GTG_TGT,以及判别器DSD_SDS和DTD_TDT。对于生成器GTG_TGT及其判别器DTD_TDT,对抗性翻译损失如下:LadvT(GT,DT,XS,XT)=ExT∼pT[logDT(xT)]+ExˉT∼p{xˉT}[log(1−DT(xˉT))]\begin{aligned} \mathscr{L}_{a d v}^{T}\left(G_{T}, D_{T}, X_{S}, X_{T}\right) &=\mathbb{E}_{x_{T} \sim p_{T}}\left[\log D_{T}\left(x_{T}\right)\right] \\ &+\mathbb{E}_{\bar{x}_{T} \sim p_{\left\{\bar{x}_{T}\right\}}}\left[\log \left(1-D_{T}\left(\bar{x}_{T}\right)\right)\right] \end{aligned} LadvT(GT,DT,XS,XT)=ExT∼pT[logDT(xT)]+ExˉT∼p{xˉT}[log(1−DT(xˉT))] 其中xˉT=GT(xS,z1)\bar{x}_{T}=G_{T}\left(x_{S}, z_{1}\right)xˉT=GT(xS,z1),z1∼N(0,1)z_1 \sim \mathcal{N}(0,1)z1∼N(0,1)。目标为minGTmaxDTLadvT(GT,DT,XS,XT)\min _{G_{T}} \max _{D_{T}} \mathscr{L}_{a d v}^{T}\left(G_{T}, D_{T}, X_{S}, X_{T}\right)minGTmaxDTLadvT(GT,DT,XS,XT)。
判别器DSD_SDS用于区分域XSX_SXS的真实图像和由GSG_SGS生成的翻译图像。生成器GSG_SGS试图生成的图像x^S\hat{x}_Sx^S和x~S\tilde{x}_Sx~S,这些图像看起来与来自域XSX_SXS的图像相似。因此,损失函数被定义为:LadvS(GS,DS,{xˉT},XS)=ExS∼pS[logDS(xS)]+Ex~S∼p{x~S}[log(1−DS(x~S))])/2\begin{aligned} &\mathscr{L}_{a d v}^{S}\left(G_{S}, D_{S},\left\{\bar{x}_{T}\right\}, X_{S}\right)=\mathbb{E}_{x_{S} \sim p_{S}}\left[\log D_{S}\left(x_{S}\right)\right]\\ &\left.+\mathbb{E}_{\tilde{x}_{S} \sim p_{\left\{\tilde{x}_{S}\right\}}}\left[\log \left(1-D_{S}\left(\tilde{x}_{S}\right)\right)\right]\right) / 2 \end{aligned} LadvS(GS,DS,{xˉT},XS)=ExS∼pS[logDS(xS)]+Ex~S∼p{x~S}[log(1−DS(x~S))])/2 其中x^S=GS(xˉT,z2)\hat{x}_{S}=G_{S}\left(\bar{x}_{T}, z_{2}\right)x^S=GS(xˉT,z2),x~S=GS(xS,z3)\tilde{x}_{S}=G_{S}\left(x_{S}, z_{3}\right)x~S=GS(xS,z3),z2,z3∼N(0,1)z_{2}, z_{3} \sim \mathcal{N}(0,1)z2,z3∼N(0,1),目标为minGSmaxDSLadvS(GS,DS,{xˉT},XS)\min _{G_{S}} \max _{D_{S}} \mathscr{L}_{a d v}^{S}\left(G_{S}, D_{S},\left\{\bar{x}_{T}\right\}, X_{S}\right)minGSmaxDSLadvS(GS,DS,{xˉT},XS)。最终,对抗翻译损失可以定义为:Ladv=LadvT(GT,DT,XS,XT)+LadvS(GS,DS,{xˉT},XS)\mathscr{L}_{a d v}=\mathscr{L}_{a d v}^{T}\left(G_{T}, D_{T}, X_{S}, X_{T}\right)+\mathscr{L}_{a d v}^{S}\left(G_{S}, D_{S},\left\{\bar{x}_{T}\right\}, X_{S}\right) Ladv=LadvT(GT,DT,XS,XT)+LadvS(GS,DS,{xˉT},XS)
Adversarial-Consistency Loss
上述的Ladv\mathscr{L}_{adv}Ladv损失可以促使翻译后的图像xˉT\bar{x}_{T}xˉT在正确的域XTX_TXT。然而,这种损失不能促使翻译的图像xˉT\bar{x}_{T}xˉT与源图像xSx_SxS相似。例如,当把男性翻译成女性时,女性的面部特征可能与男性的面部特征没有关系。为了在翻译后的图像中保留源图像的重要特征,我们提出了对抗性一致性损失,这是由一个一致性判别器D^\hat{D}D^实现的。如图3所示,一致性判别器促使生成器最小化图像x~S\tilde{x}_{S}x~S和x^S\hat{x}_{S}x^S之间的距离。D^\hat{D}D^的"真"和"假"图像可以互换而不影响性能。然而,让D^\hat{D}D^只区分x^S\hat{x}_{S}x^S和x~S\tilde{x}_{S}x~S并不能满足我们的需要,因为翻译的图像x^S\hat{x}_{S}x^S和x~S\tilde{x}_{S}x~S只需要属于域XSX_SXS;它们并不要求接近特定的源图像。因此,一致性判别器D^\hat{D}D^使用xSx_SxS作为参考,并采用成对的图像作为输入,让生成器最小化(xS,x^S)(x_S,\hat{x}_{S})(xS,x^S)和(xS,x~S)(x_S,\tilde{x}_{S})(xS,x~S)的联合分布之间的距离。这样,一致性判别器D^\hat{D}D^鼓励翻译回来的图像,x^S\hat{x}_{S}x^S,包含源图像xSx_SxS的特征。由于x^S\hat{x}_{S}x^S是由xˉT\bar{x}_{T}xˉT生成的,这可以鼓励翻译的图像xˉT\bar{x}_{T}xˉT保留源图像xSx_SxS的特征。
输入的噪声向量zzz可以实现多模态输出,这对我们的方法来说是至关重要的。如果没有多模态输出,给定一个特定的输入图像xSx_SxS,x~S\tilde{x}_{S}x~S只能有一种情况。因此,将(xS,x^S)(x_S, \hat{x}_{S})(xS,x^S)和(xS,x~S)(x_S, \tilde{x}_{S})(xS,x~S)映射在一起,几乎等同于要求x^S\hat{x}_{S}x^S和xSx_SxS完全相同。这种强烈的约束类似于循环一致的损失,其缺点之前已经讨论过了。对于多模态输出,给定一个特定的图像xSx_SxS,x~S\tilde{x}_{S}x~S可以有许多可能的情况。因此,一致性判别器D^\hat{D}D^可以专注于特征层面,而不是像素层面。也就是说,x^S\hat{x}_{S}x^S不一定要与特定的图像xSx_SxS相同。例如,当把戴眼镜的脸翻译成不戴眼镜的脸时,x~S\tilde{x}_{S}x~S和x^S\hat{x}_{S}x^S可以是戴不同眼镜的脸,例如图2中xSx_SxS、x~S\tilde{x}_{S}x~S和x^S\hat{x}_{S}x^S的眼镜颜色和框架不同。因此,xˉT\bar{x}_{T}xˉT不需要冒着增加LadvT\mathcal{L}^{T}_{adv}LadvT的风险来保留任何眼镜的痕迹,此时Lacl\mathcal{L}_{acl}Lacl仍然可以很小。
最终的对抗一致性损失如下所示:Lacl=E(xS,x^S)∼p(XS,{x^S})[logD^(xS,x^S)]+E(xS,x~S)∼p(XS,{x~S})[log(1−D^(xS,x~S))]\mathscr{L}_{a c l}=\mathbb{E}_{\left(x_{S}, \hat{x}_{S}\right) \sim p_{\left(X_{S},\left\{\hat{x}_{S}\right\}\right)}}\left[\log \hat{D}\left(x_{S}, \hat{x}_{S}\right)\right] +\mathbb{E}_{\left(x_{S}, \tilde{x}_{S}\right) \sim p_{\left(X_{S},\left\{\tilde{x}_{S}\right\}\right)}}\left[\log \left(1-\hat{D}\left(x_{S}, \tilde{x}_{S}\right)\right)\right] Lacl=E(xS,x^S)∼p(XS,{x^S})[logD^(xS,x^S)]+E(xS,x~S)∼p(XS,{x~S})[log(1−D^(xS,x~S))] 其中xS∈XSx_{S} \in X_{S}xS∈XS,xˉT=GT(xS,z1)1\bar{x}_{T}=G_{T}\left(x_{S}, z_{1}\right)_{1}xˉT=GT(xS,z1)1, x^S=GS(xˉT,z2)\hat{x}_{S}=G_{S}\left(\bar{x}_{T}, z_{2}\right)x^S=GS(xˉT,z2),x~S=GS(xS,z3)\tilde{x}_{S}=G_{S}\left(x_{S}, z_{3}\right)x~S=GS(xS,z3)。
Other Losses
Identity Loss 当目标域的图像被输入生成器时,我们进一步应用一致损失来鼓励生成器成为近似的一致映射。一致损失可以进一步鼓励特征保留,提高翻译图像的质量,稳定训练过程,避免模式崩溃,因为生成器被要求能够合成数据集中的所有图像。此外,源图像xSx_SxS和重建图像xSidtx_S^{idt}xSidt之间的一致损失可以保证xSx_SxS在x~S\tilde{x}_{S}x~S的分布之内,如图3所示。
我们构建了两个噪声编码器网络,ESz:XS→ZE_{S}^{z}: X_{S} \rightarrow ZESz:XS→Z和ETz:XT→ZE_{T}^{z}: X_{T} \rightarrow ZETz:XT→Z,分别用于GSG_SGS和GTG_TGT,它们将图像与噪声向量进行映射。一致性损失可以被形式化为:Lidt=ExS∼pS[∥xS−xSidt∥1]+ExT∼pT[∥xT−xTidt∥∣1]\mathscr{L}_{i d t}=\mathbb{E}_{x_{S} \sim p_{S}}\left[\left\|x_{S}-x_{S}^{i d t}\right\|_{1}\right]+\mathbb{E}_{x_{T} \sim p_{T}}\left[\left.\left\|x_{T}-x_{T}^{i d t}\right\|\right|_{1}\right] Lidt=ExS∼pS[∥∥xS−xSidt∥∥1]+ExT∼pT[∥∥xT−xTidt∥∥∣∣1] 其中xSidt=GS(xS,ESz(xS))x_{S}^{i d t}=G_{S}\left(x_{S}, E_{S}^{z}\left(x_{S}\right)\right)xSidt=GS(xS,ESz(xS)),xTidt=GT(xT,ETz(xT))x_{T}^{i d t}=G_{T}\left(x_{T}, E_{T}^{z}\left(x_{T}\right)\right)xTidt=GT(xT,ETz(xT))。
Bounded Focus Mask 有些应用要求生成器只修改源图像的某些区域,其余部分保持不变。我们让生成器产生四个通道,其中前三个是RGB图像的通道,第四个被称为bounded focus mask,其值在0和1之间。 翻译后的图像xTx_TxT可以通过公式得到:xT=x′T⊙xm+xS⊙(1−xm)x_{T}=x \prime_{T} \odot x_{m}+x_{S} \odot\left(1-x_{m}\right)xT=x′T⊙xm+xS⊙(1−xm),其中,⊙\odot⊙是元素相乘,xSx_{S}xS是源图像,x′Tx \prime_{T}x′T是生成器的前三个输出通道,xmx_mxm是bounded focus mask。我们为生成器添加了以下约束,这是我们的贡献之一:Lmask =δ[(max{∑kxm[k]−δmax×W,0})2+(max{δmin×W−∑kxm[k],0})2]+∑k1∣xm[k]−0.5∣+ϵ\begin{aligned} \mathscr{L}_{\text {mask }} &=\delta\left[\left(\max \left\{\sum_{k} x_{m}[k]-\delta_{\max } \times W, 0\right\}\right)^{2}\right.\\ &\left.+\left(\max \left\{\delta_{\min } \times W-\sum_{k} x_{m}[k], 0\right\}\right)^{2}\right] \\ &+\sum_{k} \frac{1}{\left|x_{m}[k]-0.5\right|+\epsilon} \end{aligned} Lmask =δ⎣⎡(max{k∑xm[k]−δmax×W,0})2+(max{δmin×W−k∑xm[k],0})2⎦⎤+k∑∣xm[k]−0.5∣+ϵ1 其中δ\deltaδ、δmax\delta_{max}δmax和δmin\delta_{min}δmin是控制mask大小的超参数,xm[k]x_m[k]xm[k]是mask的第k个像素,W是图像的像素数。ϵ\epsilonϵ是一个边缘值,以避免除以零。这个损失的第一项将mask的大小限制在一个合适的范围内。它鼓励生成器做出足够的改变并保持背景,其中δmax\delta_{max}δmax和δmin\delta_{min}δmin是mask中前景的最大和最小比例。最小比例对我们的方法至关重要,因为它可以避免x~S\tilde{x}_{S}x~S在不同的噪声向量下与xSx_SxS相同。该损失的最后一项鼓励mask值为0或1,将图像分割成前景和背景。最后,这个损失被图像的大小标准化。
Implementation Details
Full Objective 我们的总损失如下:Ltotal=Ladv+λaclLacl+λidtLidt+λmask Lmask \mathscr{L}_{t o t a l}=\mathscr{L}_{a d v}+\lambda_{a c l} \mathscr{L}_{a c l}+\lambda_{i d t} \mathscr{L}_{i d t}+\lambda_{\text {mask }} \mathscr{L}_{\text {mask }} Ltotal=Ladv+λaclLacl+λidtLidt+λmask Lmask 其中λacl\lambda_{acl}λacl,λidt\lambda_{idt}λidt,λmask\lambda_{mask}λmask都是控制不同损失权重的尺度值。在第4.2节中,我们将提出的方法与完整目标函数的消融进行了比较,以表明提出的方法的重要性。
Network Architecture 对于生成器和判别器,我们遵循[10]中的设计。具体来说,一个生成器由两个编码器和一个解码器组成。除了图像编码器和解码器共同构成一个自动编码器架构外,我们的模型还采用了噪声编码器,其架构与[10]中的风格编码器相似。同时,我们的判别器采用了多尺度技术来提高合成图像的视觉质量。
Training Details 我们对Ladv\mathscr{L}_{adv}Ladv(公式3)和Lacl\mathscr{L}_{acl}Lacl(公式4)采用最小平方损失(least-square loss)。与[8]相比,这种损失带来更稳定的训练过程和更好的结果。在所有的实验中,我们使用Adam优化器,β1=0.5\beta_1=0.5β1=0.5,β2=0.999\beta_2=0.999β2=0.999。所有的模型都以0.0001的学习率进行训练,每100K次迭代后学习率下降0.5倍。我们对所有模型进行了350K次迭代训练。判别器更新两次,而生成器更新一次。在训练中,我们设定δ=0.001\delta=0.001δ=0.001,ϵ=0.01\epsilon=0.01ϵ=0.01,λidt=1\lambda_{idt}=1λidt=1;λacl\lambda_{acl}λacl,λmask\lambda_{mask}λmask,δmin\delta_{min}δmin和δmax\delta_{max}δmax的值根据不同的应用而设定:对于眼镜移除任务,λacl=0.2\lambda_{acl}=0.2λacl=0.2,λmask=0.025\lambda_{mask}=0.025λmask=0.025,δmin=0.05\delta_{min}=0.05δmin=0.05,δmax=0.1\delta_{max}=0.1δmax=0.1;在男女转换中λacl=0.2\lambda_{acl}=0.2λacl=0.2,λmask=0.025\lambda_{mask}=0.025λmask=0.025,δmin=0.3\delta_{min}=0.3δmin=0.3,δmax=0.5\delta_{max}=0.5δmax=0.5;在自拍到动漫的翻译中λacl=0.5\lambda_{acl}=0.5λacl=0.5,λmask=δmin=δmax=0\lambda_{mask}=\delta_{min}=\delta_{max}=0λmask=δmin=δmax=0。为了公平比较,我们遵循CouncilGAN中描述的相同数据增强方法。
[论文翻译] Unpaired Image-to-Image Translation using Adversarial Consistency Loss相关推荐
- 论文翻译-SAFL A Self-Attention Scene Text Recognizer with Focal Loss
论文翻译-SAFL A Self-Attention Scene Text Recognizer with Focal Loss 原文地址:https://ieeexplore.ieee.org/do ...
- 论文翻译:2018_Speech Bandwidth Extension Using Generative Adversarial Networks
论文地址:基于生成对抗网络的语音频带扩展 博客作者(引用请指明出处):https://www.cnblogs.com/LXP-Never/p/10121897.html 摘要 语音盲带宽扩展技术已经出 ...
- 非成对图像翻译(Unpaired Image-to-Image Translation)部分经典论文汇总
只简单找了一小部分 Survey [link] Image-to-Image Translation: Methods and Applications [link] An Overview of I ...
- 如何自动生成推荐歌单:ACM论文翻译与解读 | Translation and Interpretation of ACM Survey
如何自动生成推荐歌单:ACM论文翻译与解读 | How to Automatically Generate Music Playlists: Translation and Interpretatio ...
- GAN生成对抗网络论文翻译(一)
给自己一个动力去看英语论文,每天翻译一节,纯属自己翻译,小白一只,如果您能提出建议或者翻译修改,将非常感谢,首先谢谢! How Generative Adversarial Networks and ...
- 2015-FCN论文翻译
文章原址 文章目录 FCN论文翻译 摘要 1. 介绍 2. 相关工作 3. 全卷积网络 3.1 适用分类器用于dense prediction 3.2 Shift-and stitch是滤波稀疏 3. ...
- OSNet 论文翻译
OSNet 论文翻译 摘要 作为一个实例级的识别问题,行人再识别(ReID)依赖于具有识别能力的特征,它不仅能捕获不同的空间尺度,还能封装多个尺度的任意组合.我们称这些同构和异构尺度的特征为全尺度特征 ...
- GPT-2 论文翻译
GPT-2 论文翻译 基本是机器翻译,也进行了基本的人工矫正,凑活看吧 原论文:<Language Models are Unsupervised Multitask Learners> ...
- [论文翻译] Deep Learning
[论文翻译] Deep Learning 论文题目:Deep Learning 论文来源:Deep learning Nature 2015 翻译人:BDML@CQUT实验室 Deep learnin ...
最新文章
- git放弃修改放弃增加文件
- 十分钟入门 RocketMQ
- 语义分割损失函数系列(1):交叉熵损失函数
- J2EE搭建Dynamic web SpringMVC工程404错误分析(三)
- 海华模组:WIFI、BT、SoC模组列表
- java编程基础素数实验报告,JAVA 基础编程练习题1 (输出素数)
- 微软Build 2016前瞻:让开发者编写能畅行所有设备的app
- pynq 环境搭建_蚂蚁S9矿板ZYNQ7010开发板移植PYNQ_2.5
- 实力采坑----记录一下windows下我的MySQL8.0.11安装过程
- 一个字等于多少字节?
- notimplementedexception
- 小节标题不跟着章节变化,教你彻底解决
- linux 文件md5,Linux下计算文件的MD5值
- 互联网电影院新战略5G+民族电影
- 标记网购ThinkPad过程
- 使用scp命令传文件
- 【PHP项目部署一】PHP环境配置
- 网络编程的5种IO模型
- 放弃数学专业跳槽高薪行业,如今他却后悔了
- 一次解决你的图像尺寸和定位问题。
热门文章
- 全志h2参数_全志H2怎么样 H2芯片参数介绍
- 湖北省星创天地备案和绩效评价申报,2022年条件流程及时间讲解
- es bulk java_Java Elasticsearch Bulk API 批量操作
- 瓜果皮其实是防治疾病的良药
- 一个快捷的计算e的值(第4章-5 求e的近似值 (15分))
- 帝国双璧--卫青与霍去病
- 【技术解析笔记】DDPM解析
- X Spring File Storage 0.6.0 发布,新增支持 FTP、SFTP、WebDAV
- 论文理解【RL - Exp Replay】—— 【ReMERN ReMERT】Regret Minimization Exp Replay in Off-Policy RL
- 网络营销实战课-好用的工具推荐