U-GAT-IT: UNSUPERVISED GENERATIVE ATTENTIONAL NETWORKS WITH ADAPTIVE LAYER- INSTANCE NORMALIZATION FOR IMAGE-TO-IMAGE TRANSLATION论文阅读
发表于 ICLR 2020
代码地址：https://github.com/taki0112/UGATIT 和 https://github.com/znxlwm/UGATIT-pytorch

本人的话：由于出了一些意外，现在要先看一些风格迁移的论文。

介绍

Image-to-Image旨在学习两个不同领域的图像之间的映射。它的应用包含图像修复，超像素，上色和风格迁移。
之前的方法往往通过形状和纹理的改变来判断性能优劣，对于映射局部纹理的风格迁移任务（比如PhotoVangogh和photo2portrait）很成功，但对于涉及到大的形状改变的任务（比如selfie2anime和cat2dog）就行不通了。因此像图像裁剪和对齐这些预处理操作被用来限制数据分布的复杂性。此外，现有方法也有急需要保持形状又要改变形状的，比如DRIT。
本篇论文中将提出一种非监督的I2I的新方法，它以端对端的方式结合了attention和一个可学习的正则化函数，我们的模型通过辅助分类器得到的attention map来区分源图片和目标图片，从而更多注意重要的区域，忽视次要的部分。这些attention map送到generator和Discriminator，来关注语义重要的部分，促进形状的改变。generator的attention map帮助将注意力集中在那些能区分两种领域的图像的部分，Discriminator的attention map专注于在目标领域中真实图片和生成图片的区别。
此外，我们发现不同正则化方法的选择可以影响在不同数据集（有不同程度的形状和纹理的改变）中生成结果的质量。受到Batch-Instance Normalization（BIN）的启发，我们使用了Adaptiva Layer-Instance Normalization（AdaLIN），它会在训练过程中通过一个自适应地选择Instance Normalization（IN）和Layer Normalization（LN）之间的比例来学习参数。AdaLIN帮助我们的模型更灵活地控制形状和纹理改变的程度。因此，我们的模型不用根据数据集改变超参数和模型结构，就能实现上述问题。实验中，我们还发现我们的模型不仅可以用于风格迁移的任务，还可以用于物体变形的任务。

使用自适应的Layer-Instance正则化的非监督的生成Attentional网络

我们的目标是训练一个函数G_s->t，它将源领域Xs映射到目标领域Xt。训练时使用分别从两个领域里采样的不匹配的样本。我们的框架包括generator G_s->t和G_t->s，和两个Discriminator Ds和Dt。在Discriminator里的attention模块帮助generator专注于对生成逼真图片最重要的区域，Generator的attention关注将源领域和其他领域区分开来的关键部分。

模型

Generator

Whitening and Coloring Transform（WCT）是一种将内容特征转变为style特征的最优方法，但是由于协方差矩阵和逆矩阵的计算，导致计算成本极高。AdaIN比WCT快得多，但是由于没有考虑到特征通道之间的相互联系，它是次优的。同时，LN虽然没有假设通道之间无关，但是它不能很好的保持源区域的内容结构，因为它只考虑了特征图的全局数据。
为了克服上述问题，我们提出了AdaLIN。
x∈{X_s, X_t}代表源领域和目标领域的样本，G_s->t由一个encoder——E_s和decoder——Gt、一个辅助分类器η_s构成。η_s(x)表示x来自X_s的概率。
令E_s^k(x)表示第k个encoder的激活map，E_s^k(i,j)(x)表示(i, j)的值。辅助分类器用来学习源领域的第k个特征图的权重，w_s^k。
通过全局平均池化和最大池化，例如η_s(x)=σ(Σ_kw_s^k * Σ_ijE_s^k(i,j)(x))。w_s^k帮助我们计算domain specific attention特征图α_s(x)=w_s*E_s(x)={w_s^k*E_s^k(x)|1≤k≤n},n是编码后的特征图数量。我们在归一化层使用affine transformation参数并且合并了归一化函数。接着计算Gt(α_s(x)).
我们在AdaLIN中使用了残差块

其中，μ_I，μ_L分别是channel-wise和layer-wise的平均值，σ_I，σ_L是标准差。γ和β是根据attention map从一个全连接层动态计算得到的。τ是学习率，Δρ表示有optimizer确定的参数更新向量（比如梯度）。ρ的值被限定在[0,1]内。当ρ接近1时，表示Instance Normalization重要，接近于0时，表示Layer Normalization重要。在decoder的残差块中，ρ初始化为1，在decoder的上采样块中，ρ被初始化为0.

Discriminator

令x∈{X_t, G_s->t(X_s)}代表来自目标领域或生成的样本。D_t是一个包含encoder——E_Dt，分类器C_Dt，辅助分类器η_Dt。η_Dt(x)和D_t(x)被用来识别x是否来自X_t或G_s->t(X_s)。使用attention特征图α_Dt(x)=w_Dt*E_Dt(x)。它们由辅助分类器进行训练。最后计算C_Dt(α_Dt(x))。

损失函数

我们总共设计了4个损失函数，为了训练的稳定性，我们使用了Least Squares GAN objective而不是vanilla GAN objective。
对抗损失：使得生成的图片符合目标领域的图片分布。

循环损失：为了减轻模式崩溃的问题，我们对generator使用了一个循环一致性的限制。即生成的图片要能翻译回原来的领域。

Indentity loss：为了确保颜色分布相似，我们对generator加了identity consistency constraint。

CAM loss：利用来自两个辅助分类器的信息，G_s->t和D_t需要知道它们在哪里需要改进并且当前状态两个领域之间最主要的区别是什么。

总的目标函数：

其中，λ1=1，λ2=10，λ3=10，λ4=1000。

其他的loss定义同上式。

实验

数据集

我们使用了五个含不匹配图片的数据集，其中包括4个代表性的Image Translation的数据集和1个新建的由现实图片和动画构成。全部图片被resize到256x256。

selfie2anime

国内下载地址：https://aistudio.baidu.com/aistudio/datasetdetail/48600
它包含46836张36个属性的自拍。我们只使用了女性的数据。训练集大小3400，测试集大小100。对于anime数据集，我们从Anime-Planet（http://www.anime-planet.com/）收集到了69926张动画人物图片，通过anime-face detector（
https://github.com/nagadomi/lbpcascade animeface）提取了27023张脸部图片。删除男性和单色的图片后，我们收集了训练集3400，测试集100张。最后通过一个基于CNN的图片超参数算法(https://github.com/nagadomi/waifu2x)，我们将它们resize到256x256。

horse2zebra 和 photo2vangogh

国内地址：https://people.eecs.berkeley.edu/~taesung_park/CycleGAN/datasets/
这两个数据集来自CycleGAN，训练集数据：1067张马、1334张斑马，6287张照片，400张vangogh。测试集数据：120马，140斑马，751照片，400vangogh。
其中，训练集和测试集的vangogh数据是一样的。

cat2dog 和 photo2portrait

来自DRIT。包含871猫，1364斑马、6452照片，1811 vangogh。我们随机挑选了120马，140斑马，751照片和400vangogh作为测试数据。

实现细节

leaky-ReLU斜率为0.2。
Adam optimizer，β1=0.5，β2=0.999。
数据增强：0.5几率的随机水平翻转，并且resize到286x286再随机裁剪到256x256。
batch size为1.
在500,000迭代前学习率为0.0001，之后直到1,000,000迭代前线性衰变。
weight decay为0.0001。权重初始化为一个以0为中心的标准差为0.02的分布。

实验结果

CAM分析

AdaLIN分析

与其他方法的比较

风格迁移 I2I 论文阅读笔记——U-GAT-IT，动漫风格生成相关推荐

风格迁移相关论文阅读笔记
<图像和视频油画风格化研究> 西安交通大学 2011年论文网址: http://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ& ...
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization论文阅读笔记
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization论文阅读笔记目录 Arbitrary Style ...
Visual Attribute Transfer through Deep Image Analogy论文阅读笔记
Visual Attribute Transfer through Deep Image Analogy论文阅读笔记介绍论文提出了一种新的两张图片直接进行视觉属性迁移的方法.该方法针对的是两张具有 ...
Transfiguring Portraits论文阅读笔记
Transfiguring Portraits论文阅读笔记图1:我们系统的目标是让人们想象和探索在不同的国家,时代,发型,头发的颜色,年龄以及可以在图片搜索引擎中查询的其他内容的样子.上面的示例显示 ...
DSSD : Deconvolutional Single Shot Detector论文阅读笔记
文章目录 DSSD : Deconvolutional Single Shot Detector论文阅读笔记2017 Abstract 1. Introduction 2. Related Work ...
论文阅读笔记：Improving Attacks on Speck32 / 64 using Deep Learning
论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning 本文通过神经网络利用了减少轮数的 Speck 的差分性质.为此,作者对神经网络 ...
【论文阅读笔记】Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer
摘要: 本文主要研究训练和测试类别不相交时(即没有目标类别的训练示例)的对象分类问题.在此之前并没有对于毫无关联的训练集和测试集进行对象检测的工作,只是对训练集所包含的样本进行分类.实验表明,通过使用 ...
论文阅读笔记（2）：Learning a Self-Expressive Network for Subspace Clustering，SENet，用于大规模子空间聚类的自表达网络
论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering. SENet--用于大规模子空间聚类的自表达网络前言摘要 ...
虚假新闻检测的论文阅读笔记——sigir2021：User Preference-aware Fake News Detection
文章目录 1.虚假新闻检测的相关简介 2.本篇论文引言 3.模型介绍 3.1.内生偏好编码器 3.2.外生内容编码器 3.3.二者信息融合 4.实验 4.1.各模型的实验结果 4.2.消融实验 5.结 ...

风格迁移 I2I 论文阅读笔记——U-GAT-IT，动漫风格生成

介绍

相关工作

Image-to-Image Translation

Class Activation Map(CAM)

正则化