新智元报道 

来源:arxiv

猫变狗、狗变虎、虎变豹,男人变女人,无缝切换是个什么神奇体验?

最近,一家名为Clova Research的机构的研究团队就像让用户体验一把这种神奇,他们提出的StarGAN v2图像转换模型能够实现这一点。

StarGAN v2:青出于蓝

同时解决多样性和扩展性

优秀的图像-图像转换模型需要学习不同视觉域之间的映射,要同时满足以下属性:1)生成图像的多样性和 2)在多个域上的可扩展性。现有方法一般只能解决这两个问题的其中一个,即要么对于所有域,其呈现的多样性有限,要么需要使用多个模型。

StarGAN v2可以同时解决这两个问题,在CelebAHQ面部和新的动物面部数据集(AFHQ)上进行的实验表明,StarGAN v2在图像质量、多样性和可扩展性方面较基线标准和过去的模型均实现了提升。为了更好地评估模型,还发布了AFHQ数据集,该数据集具有较大域间和域内差异的高质量动物面部图像。

考虑到每个图像域中的不同样式,理想的图像-图像转换应该能够合成图像。但是,设计和学习此类模型是很复杂的,因为数据集中可能涵盖大量图像模式和领域。

Github资源地址:

https://github.com/clovaai/stargan-v2

为了解决图片样式的多样性问题,过去的新方法向生成器加入了低维潜代码,从标准的高斯分布中随机采样。但是,由于这些方法仅考虑了两个域之间的映射,因此无法扩展到越来越多的域。例如,具有N个域,这些方法需要训练N(N-1)个生成器来处理每个域之间的转换,从而限制了它们的实际使用。

为了解决可扩展性问题,有研究提出了统一的框架。StarGAN 是最早的模型之一,它使用一个生成器来学习所有可用域之间的映射。生成器将域标签作为附加输入,并学习将图像转换为相应的域。但是,StarGAN仍然需要学习每个域的确定性映射,这可能无法获取数据分布的多模式性质。在给定源图像的情况下,它不可避免地在每个域中产生相同的输出。

StarGAN v2可以同时解决这两方面的问题,可以跨多个域生成不同的图像。该方法以StarGAN为基础,用特定域的样式代码替换原来的域标签,这些代码可以表示特定域的各种形式。StarGAN v2引入两个模块,一个映射网络和一个样式编码器。前者学习将随机高斯噪声转换为样式代码,后者学习从给定的参考图像中提取样式代码。

最后,利用这些样式代码,生成器会成功地在多个域上学习合成各种图像(图1)。StarGAN v2确实受益于新的样式代码的使用。与目前的SOTA方法相比,我们的方法可扩展到多个域,并且在视觉质量和多样性方面生成了性能更好的结果。

研究人员还提出了质量更高、变化范围更宽的动物面孔(AFHQ)新数据集,更好地评估域间和域内差异较大的图像-图像翻译模型的性能,并公布了数据集。

CelebA-HQ数据集和新收集的动物脸部(AFHQ)数据集上的各种图像合成结果。第一列显示输入图像,其余列是StarGAN v2合成的图像。

StarGAN v2由四个模块组成。

(a)生成器将输入图像转换为反映域特定样式代码的输出图像。

(b)映射网络将潜在代码转换为多个域的样式代码,其中一个是在训练期间随机选择的。

(c)样式编码器提取图像的样式代码,允许生成器执行参考引导的图像合成。

(d)判别器从多个域中区分真实图像和虚假图像。

CelebA-HQ数据集上各种配置的性能。Frechet初始距离(FID)表示真实图像和生成图像的两个分布之间的距离(越低越好),而学习到的感知图像斑块相似度(LPIPS)代表生成图像的多样性(越高越好)。

使用表1中的每种配置生成的图像的视觉比较。请注意,给定源图像,配置(A)-(C)提供单个输出,而(D)-(F)生成多个输出图像

潜在指导合成图片的定量比较。真实图像的FID由训练集和测试集之间计算。注意,由于测试图像的数量不足,它们可能不是最佳值。

CelebA-HQ和AFHQ数据集上潜指导图像合成结果的定性比较。每种方法都使用随机采样的潜在代码将源图像(最左侧列)转换为目标域。(a)前三行对应于后三行中将男性转换为女性,反之亦然。(b)从顶部开始的每两行按以下顺序显示合成图像:猫-狗,狗-野生动物、野生动物-猫。

目前作者只是在上面发布了论文的链接,还没有给出StarGAN v2的实现代码,手痒的小伙伴可以先来回顾一下用TensorFlow实现StarGAN代码,只需要1天时间即可训练完。

TensorFlow模型的实现

要求:

  • Tensorflow 1.8

  • Python 3.6

> python download.py celebA

下载数据集

> python download.py celebA

训练

  • python main.py --phase train

测试

  • python main.py --phase test

  • celebA 测试图像和你想要的图像同时运行

预训练模型

  • 下载 celebA_checkpoint

结果 (128x128, wgan-gp)

女性

男性

预训练权重:

https://drive.google.com/open?id=1ezwtU1O_rxgNXgJaHcAynVX8KjMt0Ua-

训练时间:少于 1 天

硬件:GTX 1080Ti

Github资源:

https://github.com/clovaai/stargan-v2

论文地址:

https://arxiv.org/pdf/1912.01865.pdf


这只狗,其实是猫变的:“撸猫神器”StarGAN v2来了!相关推荐

  1. 猫奴的福利粮-伟嘉猫粮,撸猫不归路,根本停不下来啊

    对于重度猫奴来说,养猫只有零只和N只.一旦开始走上养猫的不归路,就根本停不下来的想要养第N只.猫粮一直是本人一个特别纠结的话题,换来换去一直到尝试使用了伟嘉猫粮,总算从"泥潭"中走 ...

  2. Contrast GAN--- 实现CycleGAN无法实现的“眼一瞎, 猫变狗”,“手一抖,单车变摩托”

    可以看到,猫变狗,单车变摩托了.效果看上去有点尴尬,但毕竟是初步效果是有了. 但这篇论文的主要贡献是提出了一个"Contrast distance". 主要思想 我要从小猫变小狗, ...

  3. python狗图像识别_使用pytorch完成kaggle猫狗图像识别方式

    kaggle是一个为开发商和数据科学家提供举办机器学习竞赛.托管数据库.编写和分享代码的平台,在这上面有非常多的好项目.好资源可供机器学习.深度学习爱好者学习之用. 碰巧最近入门了一门非常的深度学习框 ...

  4. 为什么只看重结果_猫很现实?猫只是看重结果

    猫的智谋是许多家养宠物难以比拟的,这和猫的思维模式有关.和一些看重过程的动物不同,猫非常重视结果.这意味着,猫会通过自己的观察,通过结果来倒推过程,从而记住最佳的行动方案. 铲屎官教给猫的一些方法,有 ...

  5. 左右声道测试_小说:少年参加测试,直接挑战十只狗恐兽,众人见了惊呼:SS级...

    穿过那个奇怪的走廊,韩意将那个队长给他的卡交给了走廊尽头转角边上的与刚才那几个人穿着一样,十六七岁左右,一脸浓妆,身材那是该挺的挺,该翘的翘,在加上那一抹媚笑,让整个看起来有些不伦不类的女子. 原本对 ...

  6. 1.6万元能买到怎样一只狗?

    网友:咋长得都像波士顿动力家的那只狗呢? 机器狗,自2021开年以来,这种四足机器人就频频刷屏,春晚.短视频平台.科技巨头发布会都能看到它的灵活身姿. 最火的机器狗当属波士顿Spot,售价高达7450 ...

  7. 世界上最爱吃狗肉的国家,每年吃掉400万只狗,玉林人也甘拜下风

    狗是最常见的宠物之一,早在几千年前就被人类驯化,过去狗既是人们打猎的助手,也可以帮我们看家护院,甚至还能帮忙看小孩,可以说狗在人类社会中的地位绝不仅仅是宠物那么简单.但是也有一些人喜欢吃狗肉,玉林狗肉 ...

  8. 《一只狗的生活意见》--[英]梅尔

    <一只狗的生活意见>,作者:梅尔 下面是我的书摘: * 一个不知羞耻的骗子真能偷天换日. * 符合以上条件,首先浮现脑海的,除了狗儿还有谁呢?每天一餐饭,他就可以是忠义之士,可以是朋友,可 ...

  9. 200+猫在线待撸!来pick你最爱的那只!

    号外!!号外!! CAT & CODER 程序员大赛的 投票通道正式开启啦! 通过这几天 来自全国各地铲屎官的积极参与, 我们总共收集到了200+ 猫猫们的各种个性写真以及生活照! 看的小编真 ...

最新文章

  1. 马斯克的脑机接口,距离我们还有多远?
  2. MFC 基础知识:主对话框与子对话框(二)
  3. 转一篇好文,虽然争议颇多,还是觉得有必要转一下看看 来自博客园
  4. sqlserver 操作技巧
  5. myeclipse修改控制台Console面板
  6. Python 使用OpenCV计算机视觉(一篇文章从零毕业)【附带OCR文字识别项目、停车场车位智能识别项目】
  7. python调用金山词霸的api
  8. actions vuex 请求_vue中vuex的actions里面请求接口,提交给mutations报错
  9. html ui组件,UI组件
  10. BIBTeX制作参考文献 [转]
  11. linux传不上去文件,linux下上传文件,文件上传不上去
  12. 【高效办公】Everything高效应用案例——软件基本信息篇
  13. VL102+IT6563替代方案|TYPEC转HDMI带PD方案|AG9311MAQ设计方案
  14. 很多人认为创业公司很难成功,这是一个事实
  15. Constraint generation(CG) approach
  16. 前诺基亚MeeGo开发者揭示收款Jolla Sailfish智能手机
  17. 2345软件管家下载|2345软件管家电脑版下载
  18. 供配电:相电压与线电压的定义
  19. 离线地图下载和webGIS简单应用
  20. Layui table无数据时显示Error而不是显示无数据

热门文章

  1. Java面向对象三大特征 之 多态性
  2. php 魔术方法 多继承,day23:单继承多继承菱形继承__init__魔术方法
  3. feign调用走不走网关全局拦截_feign服务端出异常客户端处理的方法
  4. 针对《评人工智能如何走向新阶段》一文,继续发布国内外的跟贴留言457-465条如下:
  5. 用Flutter + Dart快速构建一款绝美移动App
  6. 从YARN迁移到k8s,滴滴机器学习平台二次开发是这样做的
  7. 从多媒体技术演进看AI技术
  8. 百度自动驾驶新突破:获首批T4牌照,升级Apollo 5.0,将进行复杂城市场景路测...
  9. 普通人也能用AI拍出3D大片?这位清华博士后这么做
  10. 李沐团队新作Gluon,复现CV经典模型到BERT,简单好用 | 强烈推荐