这个GAN没见过猪,却能把狗变成猪
点击上方“视学算法”,选择加"星标"或“置顶”
重磅干货,第一时间送达
丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI
不用成千上万张目标图片训练,就能让GAN生成你想要的图片,有可能吗?
还真有可能!
来自特拉维夫大学和英伟达的研究人员成功地盲训出领域自适应的图像生成模型——StyleGAN-NADA。
也就是只需用简单地一个或几个字描述,一张目标领域的图像也不需要,StyleGAN-NADA就能在几分钟内训练出你想要的图片:
比如现在在几张狗狗的基础图片上输入“Sketch”,不到1分钟,一张张草图风格狗的图片就出来了。(视频没有声音可放心“食用”)
再比如在人像上给出文字“Pixar”,就能生成皮克斯风格的图片:
各种人像风格都可以:
甚至把狗变成猪也行:
问题来了,AI不可能生成它完全没有见过的照片,但是又不给它参考照片,那怎么满足要求呢?
基于CLIP
答案就是借助CLIP的语义能力。
CLIP是OpenAI提出的根据文字生成图片的DALL模型的图像分类模块,可以根据文字描述给图片的匹配程度打分。
今年年初,就有人用CLIP做出了一个用“大白话”检索图片的功能,效果还挺惊艳的。
△输入“The word love written on the wall”的搜索结果
总的来说,StyleGAN-NADA的训练机制包含两个紧密相连的生成器Gfrozen和Gtrain,它俩都使用了StyleGAN2的体系结构,并共享同一个映射网络,因此也具有同一个隐空间(latent space)和隐码(latent code),所以它们在最开始生成的图像是一样的。
首先使用在单个源域(例如人脸、狗、教堂或汽车数据集)上预训练的模型权重初始化这两个生成器。
由于最终目标是生成一个风格不一样的图像,那就要更改其中一个成对生成器的域,同时保持另一个作为参考域。
具体的话就是Gfrozen的权重保持不变,而Gtrain的权重通过优化和迭代层冻结(iterative layer-freezing)方案进行修改。
而Gtrain的域在通过用户提供的文本方向进行更改(shift)的同时,会保持共享隐空间(latent space)。
具体怎么“更改”呢?
这就用到了一组基于CLIP的损失(loss)和“分层冻结”(layer-freezing)方案。
该方案可以自适应地确定在每次迭代训练中最相关的子层、并“冻结”其余层来提高训练稳定性保证效果。下面就详细介绍一下这两个方法。
基于CLIP的损失(loss)
StyleGAN-NADA依靠预先训练的CLIP作目标域的唯一监督来源。为了有效地从CLIP中提取“知识”,一共用了三种损失算法:
(1)负责确定在每次迭代中训练哪个子集层的全局目标损失 (Global CLIP loss);
(2)旨在保持多样性的局部定向损失 (Directional CLIP loss);
(3)以及防止图像生成不必要的语义伪影的嵌入范数损失 (Embedding-norm Loss)。
△ 局部定向损失要求源/目标图像/文字的CLIP-space方向一致
“分层冻结”(layer-freezing)
此机制分为两阶段:
(1)选层阶段,保持所有网络权重不变并对一组隐码进行优化,然后选择变化最显著的一层(优化使用目标域文本描述驱动的全局CLIP损失进行);
(2)优化阶段,“解冻”选定层的权重,然后使用定向CLIP损失进行优化和更改。
大多数训练只需几分钟就可完成
首先,该模型可以实现范围广泛的域外自适应,从纹理变化到大的形状修改,从现实到魔幻风格……甚至包括一些收集高质量数据成本很高的目标域。
其次,所有的这些图片的生成都只需给一个简单的文字描述,除了极端情况,大多数训练只需几分钟就能完成。
对于基于纹理的修改目标,该模型通常需要300次迭代,batch size为2,在一个NVIDIA V100 GPU上训练大约3分钟。在某些情况下(比如从“照片”到“草图”),训练只需不到一分钟的时间。
然后,所有的实验用的就是这个完整当然模型,没有添加任何latent mapper。研究人员发现,对于纯粹是基于样式的图像生成,模型需要跨所有层进行训练,比如下面这种:
而对于较小的形状修改,则只需训练大约2/3数量的层数就能折中保持训练时间和效果:
最后,将该模型与StyleCLIP(结合了StyleGAN和CLIP的域内图像编辑模型)、以及只用了Gfrozen生成器的模型对比发现,只有StyleGAN-NADA可以实现目标。
再将零样本的StyleGAN-NADA与一些少样本的图像生成模型对比发现,别的都要么过拟合要么崩溃(MineGAN更是只记住了训练集图像),只有StyleGAN-NADA在保持多样性的情况下成功生成(但它也有伪影出现)。
下面是消融实验:
△ 通过训练latent mapper可以进一步提高生成质量
ps.在论文的最后,研究人员表示:
由于这项技术,也许在不久的将来,这类图像生成的工作将不再受到训练数据的约束,而只取决于我们的创造力。
论文地址:
https://arxiv.org/abs/2108.00946
GitHub地址:
https://github.com/rinongal/StyleGAN-nada
参考链接:
https://stylegan-nada.github.io/
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
点个在看 paper不断!
这个GAN没见过猪,却能把狗变成猪相关推荐
- ICLR 2022:AI如何识别“没见过的东西”?
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 行早 发自 凹非寺 量子位 | 公众号 QbitAI 这回域外物体检 ...
- 绝大多数人没玩过也没见过的现象:20个MYSQL进程共用1个3306端口
各位客官听我讲,事情的过程是这样的: 10年前,公司有一个中型网站,服务器托管在IDC机房.网站是一拨老技术搞的,后来网站不商业运营了,老技术都离职,现已渺然于网络中.但网站还是要继续技术性维护(就是 ...
- 机器人鸣人是哪一集_火影里的五个机器人,第一个比鸣人还厉害,机器丁次你都没见过...
火影虽然是一部讲述众多忍者们的热血故事,但是火影里的时代并不是和古代一样,里面的生活是和现在的我们一样,在动漫里的忍者也是住的高楼,随时打电话,生病了也要去医院,也会肚子饿,也要一天三顿饭.只是火影里 ...
- 【视觉盛宴三】不好意思,这些线材接口的横截面真的没见过
点击上方"大鱼机器人",选择"置顶/星标公众号" 福利干货,第一时间送达! 本文作者 | 晓宇哥哥 转自公众号 | 芯片之家 作者:TubeTimeUS 排版 ...
- 超赞!12套你没见过的社交媒体 社交网站图标
如今,社交网络成为我们信息获取和传播的重要途径,很多网站都有把内容分享到社交媒体的功能.社交媒体图标作为向用户传递信息的重要媒介,不管是在网页还是 Web 应用程序中都非常需要.今天这篇文章和大家分享 ...
- 18张难以置信的照片,封面这张你就没见过
全世界只有3.14 % 的人关注了 爆炸吧知识 感谢网络,只要点几下鼠标,就能看到我们以前从未见过的东西--有些甚至是难以置信的! 鲸鱼的心脏 水中的鲨鱼卵 幼年的箭鱼萌萌哒 世界上最高的棕榈树,简直 ...
- (八大方法、逐层深入,有你一定没见过的)使用INSERT语句向表中插入数据
(八大方法.逐层深入,有你一定没见过的)使用INSERT语句向表中插入数据 (八大方法.逐层深入,有你一定没见过的) 使用INSERT语句向表中插入数据(MSSQLSERVER版) 做开发的同仁对于向 ...
- 见过一个一个拉新地推没见过这么多一起推
见过一个一个拉新地推没见过这么多一起推 我手上现在虽然没有这么多但也有十几个了听朋友讲这个团队一年100W,以前我不信但是现在我信了,之前这个不在我的认知范围内自从做了这行我信,认知是个很奇怪的东西, ...
- 冬日舞会服务器维护中,绝版皮肤被天美终结,冬日舞会太优雅?宫本很可惜,这款没见过!...
原标题:绝版皮肤被天美终结,冬日舞会太优雅?宫本很可惜,这款没见过! 小伙伴们大家好,随着病情的日渐严重,如今全国各地查封的也相当严重,大家都在各自的家中歇着,什么事情也干不了,那么在这些时间,都干些 ...
最新文章
- linux下安装nagios
- 图像处理与计算机视觉开源软件库及学习站点
- 个人电脑详细的安全设置方法之一
- STM32F1如何切换到不同的型号
- 环境在c盘_如何给女朋友解释为什么 Windows 上面的软件都把自己安装在 C 盘
- 程序员深度学习!我想谈谈关于Android面试那些事,附赠课程+题库
- mysql 查询优化 ~ 多表查询基础知识
- NotifyIcon实现托盘程序
- cad插件_CAD插件自动标注安装教程
- 采用泰克示波器TBS2000和TCP0030A电流探头准确评估高速DCDC转换器电感的选择
- 我的ThinkPad T410i 安装 Mac10.9 Mavericks 过程记录
- 人一生中要学会说的十种话
- VMware虚拟机如何联网详解
- oracle 查询带引号,oracle查询带有单引号的 -电脑资料
- Android内存优化汇总
- 当我亲身面对大数据杀熟的商家.....
- 学生成绩管理系统(完整版)
- 系统服务(daemons)
- 安全危机 破解U盘加密工具的加密原理
- arduino点阵声音频谱_创客实战 | 制作一个随音乐跳动的32分频音频频谱显示器