风格迁移 I2I 论文阅读笔记——U-GAT-IT,动漫风格生成
U-GAT-IT: UNSUPERVISED GENERATIVE ATTENTIONAL NETWORKS WITH ADAPTIVE LAYER- INSTANCE NORMALIZATION FOR IMAGE-TO-IMAGE TRANSLATION论文阅读
发表于 ICLR 2020
代码地址:https://github.com/taki0112/UGATIT 和 https://github.com/znxlwm/UGATIT-pytorch
本人的话:由于出了一些意外,现在要先看一些风格迁移的论文。
介绍
Image-to-Image旨在学习两个不同领域的图像之间的映射。它的应用包含图像修复,超像素,上色和风格迁移。
之前的方法往往通过形状和纹理的改变来判断性能优劣,对于映射局部纹理的风格迁移任务(比如PhotoVangogh和photo2portrait)很成功,但对于涉及到大的形状改变的任务(比如selfie2anime和cat2dog)就行不通了。因此像图像裁剪和对齐这些预处理操作被用来限制数据分布的复杂性。此外,现有方法也有急需要保持形状又要改变形状的,比如DRIT。
本篇论文中将提出一种非监督的I2I的新方法,它以端对端的方式结合了attention和一个可学习的正则化函数,我们的模型通过辅助分类器得到的attention map来区分源图片和目标图片,从而更多注意重要的区域,忽视次要的部分。这些attention map送到generator和Discriminator,来关注语义重要的部分,促进形状的改变。generator的attention map帮助将注意力集中在那些能区分两种领域的图像的部分,Discriminator的attention map专注于在目标领域中真实图片和生成图片的区别。
此外,我们发现不同正则化方法的选择可以影响在不同数据集(有不同程度的形状和纹理的改变)中生成结果的质量。受到Batch-Instance Normalization(BIN)的启发,我们使用了Adaptiva Layer-Instance Normalization(AdaLIN),它会在训练过程中通过一个自适应地选择Instance Normalization(IN)和Layer Normalization(LN)之间的比例来学习参数。AdaLIN帮助我们的模型更灵活地控制形状和纹理改变的程度。因此,我们的模型不用根据数据集改变超参数和模型结构,就能实现上述问题。实验中,我们还发现我们的模型不仅可以用于风格迁移的任务,还可以用于物体变形的任务。
相关工作
Image-to-Image Translation
2018年提出了高分辨率的pix2pix。
CycleGAN使用不匹配样本进行训练。UNIT假定了一个共享的潜在空间来帮助处理非监督图片转换。但这种方法只有两个领域非常相似时才起作用。
MUNIT通过将图片分解为domain-invariant content code和捕捉领域属性的style code实现了多对多的映射,它使用自适应的instance normalization提升了图片质量。DRIT同样,但区别在于它使用weight sharing来共享两个领域之间的content space,并且Discriminator是一个辅助分类器。但是他们只限于那些能很好地将源领域和目标领域匹配的数据集。
AGGAN通过attention来区分前景和背景,提高了转换质量。但是attention不能帮助转换物体形状。
CartoonGAN在动画风格迁移上表现极佳,但它只能改变图像中线条的颜色、厚度和色调,不适合形状改变。
Class Activation Map(CAM)
即在CNN中使用一个全局平均池化,一个特定类的CAM表明CNN是否可以确认该图片区域属于某类。在我们的模型中,我们使用CAM,通过区分两个领域来修改图片区域。不过除了平均池化,我们还使用来了最大池化。
正则化
研究表明CNN特征的数据、均值和方差可以用来判断图片风格。Instance Normalization(IN)可以直接正则化图片的特征数据来取出风格变化,在风格迁移领域比Batch Normalizaton和Layer Normalization应用广泛。然而,在正则化图片的时候,现在大多用的是Adaptive Instance Normalization(AdaIN)、Conditional Instance Normalization(CIN)、Batch-Instance Normalization(BIN)而不是只使用IN。在我们的论文中,我们提出了Adaptive Layer-Instance Normalization(AdaLIN)。
使用自适应的Layer-Instance正则化的非监督的生成Attentional网络
我们的目标是训练一个函数Gs->t,它将源领域Xs映射到目标领域Xt。训练时使用分别从两个领域里采样的不匹配的样本。我们的框架包括generator Gs->t和Gt->s,和两个Discriminator Ds和Dt。在Discriminator里的attention模块帮助generator专注于对生成逼真图片最重要的区域,Generator的attention关注将源领域和其他领域区分开来的关键部分。
模型
Generator
Whitening and Coloring Transform(WCT)是一种将内容特征转变为style特征的最优方法,但是由于协方差矩阵和逆矩阵的计算,导致计算成本极高。AdaIN比WCT快得多,但是由于没有考虑到特征通道之间的相互联系,它是次优的。同时,LN虽然没有假设通道之间无关,但是它不能很好的保持源区域的内容结构,因为它只考虑了特征图的全局数据。
为了克服上述问题,我们提出了AdaLIN。
x∈{Xs, Xt}代表源领域和目标领域的样本,Gs->t由一个encoder——Es和decoder——Gt、一个辅助分类器ηs构成。ηs(x)表示x来自Xs的概率。
令Esk(x)表示第k个encoder的激活map,Esk(i,j)(x)表示(i, j)的值。辅助分类器用来学习源领域的第k个特征图的权重,wsk。
通过全局平均池化和最大池化,例如ηs(x)=σ(Σkwsk * ΣijEsk(i,j)(x))。wsk帮助我们计算domain specific attention特征图αs(x)=ws*Es(x)={wsk*Esk(x)|1≤k≤n},n是编码后的特征图数量。我们在归一化层使用affine transformation参数并且合并了归一化函数。接着计算Gt(αs(x)).
我们在AdaLIN中使用了残差块
其中 ,μI,μL分别是channel-wise和layer-wise的平均值,σI,σL是标准差。γ和β是根据attention map从一个全连接层动态计算得到的。τ是学习率,Δρ表示有optimizer确定的参数更新向量(比如梯度)。ρ的值被限定在[0,1]内。当ρ接近1时,表示Instance Normalization重要,接近于0时,表示Layer Normalization重要。在decoder的残差块中,ρ初始化为1,在decoder的上采样块中,ρ被初始化为0.
Discriminator
令x∈{Xt, Gs->t(Xs)}代表来自目标领域或生成的样本。Dt是一个包含encoder——EDt,分类器CDt,辅助分类器ηDt。ηDt(x)和Dt(x)被用来识别x是否来自Xt或Gs->t(Xs)。使用attention特征图αDt(x)=wDt*EDt(x)。它们由辅助分类器进行训练。最后计算CDt(αDt(x))。
损失函数
我们总共设计了4个损失函数,为了训练的稳定性,我们使用了Least Squares GAN objective而不是vanilla GAN objective。
对抗损失:使得生成的图片符合目标领域的图片分布。
循环损失:为了减轻模式崩溃的问题,我们对generator使用了一个循环一致性的限制。即生成的图片要能翻译回原来的领域。
Indentity loss:为了确保颜色分布相似,我们对generator加了identity consistency constraint。
CAM loss:利用来自两个辅助分类器的信息,Gs->t和Dt需要知道它们在哪里需要改进并且当前状态两个领域之间最主要的区别是什么。
总的目标函数:
其中,λ1=1,λ2=10,λ3=10,λ4=1000。
其他的loss定义同上式。
实验
数据集
我们使用了五个含不匹配图片的数据集,其中包括4个代表性的Image Translation的数据集和1个新建的由现实图片和动画构成。全部图片被resize到256x256。
selfie2anime
国内下载地址:https://aistudio.baidu.com/aistudio/datasetdetail/48600
它包含46836张36个属性的自拍。我们只使用了女性的数据。训练集大小3400,测试集大小100。对于anime数据集,我们从Anime-Planet(http://www.anime-planet.com/)收集到了69926张动画人物图片,通过anime-face detector(
https://github.com/nagadomi/lbpcascade animeface)提取了27023张脸部图片。删除男性和单色的图片后,我们收集了训练集3400,测试集100张。最后通过一个基于CNN的图片超参数算法(https://github.com/nagadomi/waifu2x),我们将它们resize到256x256。
horse2zebra 和 photo2vangogh
国内地址:https://people.eecs.berkeley.edu/~taesung_park/CycleGAN/datasets/
这两个数据集来自CycleGAN,训练集数据:1067张马、1334张斑马,6287张照片,400张vangogh。测试集数据:120马,140斑马,751照片,400vangogh。
其中,训练集和测试集的vangogh数据是一样的。
cat2dog 和 photo2portrait
来自DRIT。包含871猫,1364斑马、6452照片,1811 vangogh。我们随机挑选了120马,140斑马,751照片和400vangogh作为测试数据。
实现细节
leaky-ReLU斜率为0.2。
Adam optimizer,β1=0.5,β2=0.999。
数据增强:0.5几率的随机水平翻转,并且resize到286x286再随机裁剪到256x256。
batch size为1.
在500,000迭代前学习率为0.0001,之后直到1,000,000迭代前线性衰变。
weight decay为0.0001。权重初始化为一个以0为中心的标准差为0.02的分布。
实验结果
CAM分析
AdaLIN分析
与其他方法的比较
风格迁移 I2I 论文阅读笔记——U-GAT-IT,动漫风格生成相关推荐
- 风格迁移相关论文阅读笔记
<图像和视频油画风格化研究> 西安交通大学 2011年 论文网址: http://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ& ...
- Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization论文阅读笔记
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization论文阅读笔记 目录 Arbitrary Style ...
- Visual Attribute Transfer through Deep Image Analogy论文阅读笔记
Visual Attribute Transfer through Deep Image Analogy论文阅读笔记 介绍 论文提出了一种新的两张图片直接进行视觉属性迁移的方法.该方法针对的是两张具有 ...
- Transfiguring Portraits论文阅读笔记
Transfiguring Portraits论文阅读笔记 图1:我们系统的目标是让人们想象和探索在不同的国家,时代,发型,头发的颜色,年龄以及可以在图片搜索引擎中查询的其他内容的样子.上面的示例显示 ...
- DSSD : Deconvolutional Single Shot Detector论文阅读笔记
文章目录 DSSD : Deconvolutional Single Shot Detector论文阅读笔记2017 Abstract 1. Introduction 2. Related Work ...
- 论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning
论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning 本文通过神经网络利用了减少轮数的 Speck 的差分性质.为此,作者对神经网络 ...
- 【论文阅读笔记】Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer
摘要: 本文主要研究训练和测试类别不相交时(即没有目标类别的训练示例)的对象分类问题.在此之前并没有对于毫无关联的训练集和测试集进行对象检测的工作,只是对训练集所包含的样本进行分类.实验表明,通过使用 ...
- 论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering,SENet,用于大规模子空间聚类的自表达网络
论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering. SENet--用于大规模子空间聚类的自表达网络 前言 摘要 ...
- 虚假新闻检测的论文阅读笔记——sigir2021:User Preference-aware Fake News Detection
文章目录 1.虚假新闻检测的相关简介 2.本篇论文引言 3.模型介绍 3.1.内生偏好编码器 3.2.外生内容编码器 3.3.二者信息融合 4.实验 4.1.各模型的实验结果 4.2.消融实验 5.结 ...
最新文章
- 在Ubuntu中安装Visual Studio Code
- IE6-IE9不支持table.innerHTML的解决方法分享
- jzoj3850-Fibonacci进制【斐波那契倍增】
- C语言项目:绽放的玫瑰花
- 计算机毕设-文献摘要,毕设摘要翻译,要人工翻译,不要电脑网站翻译的。
- 流畅的Python 1. Python数据模型(特殊方法 __func__())
- 共享变量 tensorflow解读
- 重装系统后只有C盘,怎么处理?
- 提款机转账多久到账?
- PAT 乙级1016	部分A+B(C语言)
- php删除session中的值,php如何删除session中数据
- Android系统信息获取 之十四:获取WIFI热点相关信息
- python文件是乱码怎么办_python写入文件乱码怎么办
- Luogu 3206 [HNOI2010]城市建设
- iPhone5s的App Store不能下载应用的解决方案
- Web--用户注册界面
- 【MDCC 2015】平台与技术-Android专场(上):剖析Android应用架构与设备体验
- RPC failed; curl 56 GnuTLS recv error (-9): A TLS packet with unexpected length was received
- Flash几乎每天一个Bug,Adobe该放弃了
- Linux环境搭建spark3 yarn模式
热门文章
- 基于Selenium实现网易云音乐的登录
- 用Java编写约分最简公式_一个有趣的算法问题:如何定义一个分数类
- win平板计算机,2020年10款最佳Windows系统平板电脑推荐
- 可编程逻辑器件之按键消抖实验
- IT内部控制体系建设方案-从IT角度解读《企业内部控制规范》
- 管理故事216之025-山雀与知更鸟
- 国际IT巨头集体爆发“中年危机”
- 入行软件测试5年,跳槽3次,我摸透了软件测试这一行
- TB6612FNG与直流电机控制教程
- Redhat7 yum安装有问题+yum无法使用+There are no enabled repos. Run “yum repolist all“ to see the repos you ha