[TOG2022]DCT-Net: Domain-Calibrated Translation for Portrait Stylization
标题:DCT-Net: Domain-Calibrated Translation for Portrait Stylization
链接:https://arxiv.org/pdf/2207.02426
本文做的是基于人脸的风格迁移,效果非常惊艳。特点就是在迁移了局部纹理和整体颜色的基础上,进一步融入了对应风格的细节表达。模型最有意思的点就是域之间的对齐,这为少样本的图像迁移提供了一个思路。
模型构建
在文章中,作者想要完成的风格迁移,并不是像adain那些对细节纹理和整体颜色进行拟合,而是要真正的进行语义层面上的迁移。因此比起风格迁移,这其实更像图像翻译的任务,即将图像从一个域迁移到另一个域。在图像翻译的任务中通常我们都需要成对的图像来训练,虽然后来有人提出了cycle-consistency从而允许了从不成对的两个域间学到对应性,但是这通常需要足够大的样本量。而且cycle-consistency构建的对应性是比较弱的,很容易在结果中出现无法预料的错误细节。
而这里作者提出了一个新的两阶段方案,即先扩充数据库,再学习域迁移。其中扩充数据库所用到的方法就是上图中的内容对齐网络(content calibration network,CCN)。
内容对齐网络
从图中可以看出CCN中有两个生成器,和。其中 就是预训练过的stylegan2,不参与训练,就是负责不断地根据随机变量z输出真实的图像。而则是在的基础上使用目标域(风格)的图像进行进一步的finetune,目标是使其可以输出足够真实的漫画脸。
在finetune时作者使用了两个约束,一个是gan loss,就是将目标域图像与的输出丢到判别器里做真假损失。还有一个是身份损失,就是将和的输出丢到人脸检测器里,保证人脸的身份一致(因为这里和输入的随机量z是相同的)。这里之所以要用身份损失是因为目标域的图像太少了(作者文中只用了100个),因此借助身份损失可以在一定程度上增加约束,避免模式崩塌。
按照上述方法训练完后就可以输出足够真实的漫画脸了,进而我们可以使用 和 输出无限多的原域和目标域的图像,进行域迁移学习。
不过在此之前,由于stylegan2是在FFHQ上训练的,面部角度非常有限,因此作者添加了一个随机旋转和缩放的扰动,称之为geometry expansion,用以提升模型对于不同角度人脸的鲁棒性。
纹理迁移网络
在我们已经有了足够多的原域和目标域的图像的情况下,最后要做的事情就很简单了,即按照风格迁移的模式分别对风格和内容进行约束。往常的风格迁移模型中使用的style loss都是对VGG抽取的特征进行统计值层面的拟合,但这无法达到语义级的风格迁移效果。而这里作者使用了gan loss作为style loss。众所周知,gan的特色就是擅长域拟合,但问题就是通常都需要很多数据,而由于我们使用CCN构造了无限的数据,因此这一点再也不是问题。
另外作者使用了基于vgg的content loss来保证语义对齐。之后还加了一个facial perception loss,目的是通过眼睛和嘴巴的特征点来约束结果图中眼睛和嘴巴的效果,这个就完全属于提升效果的小trick了,没有什么实际意义。
[TOG2022]DCT-Net: Domain-Calibrated Translation for Portrait Stylization相关推荐
- DCT-Net 水记(用于 人脸风格化 的 小样本 图像翻译,无需反演,无需构造配对图片)
DCT-Net 水记(用于 人脸风格化 的 小样本 图像翻译,无需反演,无需构造配对图片) <DCT-Net: Domain-Calibrated Translation for Portrai ...
- 图像转换 image translation系列(17)| 最新ICCV2021生成对抗GAN汇总梳理
(1)GAN改进系列 | 最新ICCV2021生成对抗网络GAN论文梳理汇总 图像编辑系列之(2)基于StyleGAN(3)GAN逆映射(4)人脸 (5)语义生成 | ICCV2021生成对抗GAN梳 ...
- Automatic Portrait Segmentation for Image Stylization 翻译学习
图像分割 论文资料 论文主页 论文翻译 Automatic Portrait Segmentation for Image Stylization 自动肖像分割的图像风格化 摘要 Abstract F ...
- 快手Y-tech:GAN在短视频中的AI特效实践
导读 近年来,以GAN为代表的生成式技术在学术界取得蓬勃发展.在工业界,基于生成式技术的真实感效果也引领了一批爆款特效和应用.快手Y-tech在国内率先将GAN落地于短视频特效制作,并积累了丰富的实践 ...
- U-GAT-IT 论文阅读
摘要 提出了两点:We propose a novel method for unsupervised image-to-image translation, which incorporates a ...
- Linux中断(interrupt)子系统之二:arch相关的硬件封装层
Linux的通用中断子系统的一个设计原则就是把底层的硬件实现尽可能地隐藏起来,使得驱动程序的开发人员不用关注底层的实现,要实现这个目标,内核的开发者们必须把硬件相关的内容剥离出来,然后定义一些列标准的 ...
- 最新 ICCV | 35个GAN应用主题梳理,最全GAN生成对抗论文汇总
戳我,查看GAN的系列专辑~! 在最新的视觉顶会ICCV 2021会议中,涌现出了大量基于生成对抗网络GAN的论文,广泛应用于各类视觉任务:本文在此做尽可能的梳理汇总! 下述论文已分类打包好!后台回 ...
- python 谷歌翻译模块和js解密的一次学习记录
文章目录 一.说明: 二. googletrans模块的学习使用: 1.安装: 2.简单使用: 1.基本翻译的用法(也是常用的用法): 2.检测文本语言: 3.英文翻译成中文(其他语言类似): 4.多 ...
- Goslate: Free Google Translate API
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
最新文章
- 反射学习笔记之动态创建对象和调用方法
- springmvc九:spring mvc 简单介绍
- 11月深度学习班第5课图像物体检测:rcnn/fast-rcnn/faster-rcnn
- 梁俊斌:音频技术可以延展众多应用场景
- java 拼图_功能项目拼图将Java 9引入
- oracle 内存分析工具,IDE 中的分析工具
- 这些常见的分布式存储系统,你是否都了解?
- 看透设计模式-行为型模式
- Mybatis 逆向工程使用姿势不对文档全被清空,一怒之下写了个插件……
- 拓端tecdat|R语言中的广义线性模型(GLM)和广义相加模型(GAM):多元(平滑)回归分析保险资金投资组合信用风险敞口
- 网络营销之百度营销技巧(一) 百度知道推广日常手册
- 新版TP开发小额贷系统源码+可封装IOS安卓双端
- 网上购物系统问题陈述、词汇表与领域类图
- 软件测试的风险分析与解决办法
- 2015中南大学夏令营机试(DFS求最短路径、子序列、字符串、贪心、数学找规律)
- 正则表达式和re模块
- 投入OJ的怀抱~~~~~~~~~~
- 英语单词词根词缀和词性互相转换
- 清晰度、分辨率、像素、4K、HDR的区别
- 响铃:2018博鳌金融科技亮点 这些关键词你搞懂了几个
热门文章
- 【雕爷学编程】Arduino动手做(2)---光敏电阻模块
- SYN包含的常用TCP选项
- layui官方文档镜像站
- MySQL_12_ShardingJDBC实现读写分离与分布式事务
- Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习
- 电脑屏幕亮度随背景颜色变化而变化
- 解决ModuleNotFoundError: No module named ‘celery.five‘的问题
- 字节跳动 2022年春招
- java 字符串掐头去尾_java中常见的类
- 【技能树共建】Python 列表推导式