关注上方深度学习技术前沿”,选择“星标公众号”

资源干货,第一时间送达!

转载自量子位

GAN自从诞生以来,一路升级,功能越来越强。

这种强大的方法走过了怎样的进化之路?

GAN的诞生和构架

GAN诞生在2014年,Ian Goodfellow和他的同事发表了名为生成性对抗网络Generative Adversarial Nets的论文。

GAN的构架从此奠定。

它由生成器generators 和 判别器discriminators两部分组成,以无人监督的方式运行。

生成器抓取数据并产生新的合成样本,混入原始数据中,一起送给判别器,判别器区分哪些是原始数据,哪些是后来合成的。这一过程反复进行,直到判别器无法以超过50%准确度从合成样本中分辨出真实样本。

在实践中,GAN的构架也带来一些缺陷。

首先,同时训练生成器和判别器与生俱来的不稳定性。每次参数更新后,需要优化的问题性质都会发生变化,因此模型内部的参数值会振荡或不稳定。更严重的情况是,生成器崩溃,吐出一大堆看起来同类的样本。

其次,生成器和判别器还有互相压倒的风险。如果生成器太精确,就会去利用判别器的弱点钻空子,而不是靠生成更逼真的图片来欺骗判别器;如果判别器太精确,就会阻碍生成器的收敛过程。

最后,缺乏训练数据,也会影响到GAN在语义方面的发展,

不过,英特尔AI实验室的高级主管Hanlin Tang 表示,正在出现的新兴技术可以应对这些局限。他提出了两种方法,一是将多个判别器放入一个模型中,并根据特定数据进行微调。二是喂给判别器密集的嵌入表示,或者数据的数字表示。这样它们可以有更多的信息,来从中提取。

GAN的应用:从图片到语音

1、图像

GAN最有常见和有名的应用是合成以假乱真的图像。

比如英伟达的Style GAN,可以把人物B的脸部特征迁移到人物A上。

详细介绍可以戳:

这些假脸实在太逼真了!英伟达造出新一代GAN,生成壁纸级高清大图毫无破绽

除了人脸,还可以进行其它对象之间的迁移。卡内基·梅隆大学的科学家开发了出了Recycle-GAN ,它能把一个视频或照片的内容传到另一个上。

比如人脸和动画脸:

或者让一朵花模仿另一朵开的姿势:

2、视频

从图片前进一步,就是视频。Deepmind开发了DVD-GAN

原始数据集是从Youtube上收集的50万张10秒长的高分辨率视频,最终可以生成256 x 256像素视频,最长能有48帧。

3、音乐

除了可以来制作照片,GAN还可以用来作曲。

亚马逊的deepcomposer键盘的原理和GAN一致。

输入一个简单的旋律,生成器根据随机数据创建样本,判别器进行区分。两者反复改进,最终就会生成一段乐曲。

Demo试听可戳:1行代码就能跑个量子计算!AWS年度巨献:还有3种超牛硬件随你挑 | 狄拉克孙子点赞

4、语音

GAN在语音上的应用并不多,谷歌和帝国理工学院的研究者一起研发了GAN-TTS ,这个系统运用GAN,将文本转为自然真实的语音。

这个系统里有10个辨别器,一部分负责判别输出的语音和文本是否一致,另外一部分只关注语音是否真实自然。

5、检测垃圾评论

想解决网上有人用机器刷虚假评论的问题。有研究者开发 spamGAN来检测网上的垃圾评论。

spamFAN采用半监督学习的技术,其中将未标记的数据与少量标记的数据结合使用。

在使用10%的标记数据进行训练时,准确性达到了71%至86%。

GAN的未来:如何精细控制

尽管GAN已经取得了很多的进步,英特尔实验室的Hanlin Tang 表示,现在依旧处于早期。

GAN 仍然缺少非常精细的控制,这是一个很大的挑战。

在计算方面,也有研究人员尝试轻型模型。

IBM多模式算法和引擎小组的研究人员Youssef Mroueh正在和同事一起开发小型GAN,用来减少训练时间和内存使用。

它们想努力实现的是,如果生成器太精确,就会去利用判别器的弱点钻空子,而不是靠生成更逼真的图片来欺骗生成器;如果判别器太精确,就会阻碍生成器的收敛过程

如果不用那么多的计算量,不做那么多麻烦的事情,应该怎么改变模型。这就是他们现在努力的方向。

参考资料:
https://venturebeat.com/2019/12/26/gan-generative-adversarial-network-explainer-ai-machine-learning/
https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf

AI创作神器GAN的演变全过程相关推荐

  1. GitHub 遭抵制!AI 代码生成神器竟成“抄袭工具”?

    整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 上周,微软.GitHub.OpenAI 三方联手推出的 AI 代码生成神器 GitHub Copilot 一经官宣便引起巨大关注:试问哪 ...

  2. Ai绘画工具有哪些?推荐这7款效果惊艳的AI绘画神器

    2022虽然不是ai绘图这项技术诞生的时间,但却是到目前为止最爆火出圈的绘图元年. AI绘图(AI painting)就是以文生图(text2image),属于跨模态生成(Cross-modal ge ...

  3. 大学生在线“打假”,火速开发了一款拆穿 AI 的神器

    整理 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT 的爆火,几家欢喜几家愁. 喜的是,它的确为各行各业带来了极大的便利:愁的是,它的滥用,在学术界影响尤为恶劣,以至于当代大学 ...

  4. 【总结】有三AI所有原创GAN相关的技术文章汇总(2022年8月)

    GAN的研究和应用在这几年发展可以说是非常迅猛,无疑是这几年深度学习计算机视觉领域里落地性最酷的技术,包括图像与视频生成,数据仿真与增强,各种各样的图像风格化任务,人脸与人体图像编辑,图像质量提升等. ...

  5. 【总结】有三AI所有原创GAN相关的学习资料汇总(2022年12月)

    GAN的研究和应用在这几年发展可以说是非常迅猛,无疑是这几年深度学习计算机视觉领域里落地性最酷的技术之一,包括图像与视频生成,数据仿真与增强,各种各样的图像风格化任务,人脸与人体图像编辑,图像质量提升 ...

  6. AI 绘画神器 Midjourney入门教程,超详细

    AI 绘画神器 Midjourney入门教程,超详细 一.介绍 最近大火的AI绘画工具"Midjourney"大家想必已经听过他的大名了. 那些惊掉下巴的图片,看似不可能,又特别真 ...

  7. 发明 AI 吵架神器?程序员对象这么厉害的吗?

    作者 | 李亚男 来源 | 猎聘(ID:liepinwang) 江湖流传着一个段子,说程序员(普通的,不是P7.P8年薪几十万.百万那种级别的)兄弟们的择偶标准非常接地气:对象只要是女的.活的就成:如 ...

  8. 很好很强大,这款AI开发神器的图像标注吊打labelme

    AI的发展有三大内核:数据.算法.算力.现如今,算法和算力在市面上的差距显然已经没有那么大,能够给AI提供充足弹药支持的当属数据了.深度学习算法精度的提升严重依赖于数据,谁的数据既多又准,谁的算法精度 ...

  9. 媒体AI配图的时代来临!巴比特今日起全面拥抱AIGC——头条图片,AI创作!

    图片来源:由无界版图AI工具生成 2022年,AI绘画的创造力正在改变与"视觉内容"有关的整个产业链,10年后往回看,今天可能是历史的节点. 今天(10月25日),巴比特正式对外宣 ...

最新文章

  1. phpstudy多站点配置好后index of/ 列表无法出现的解决
  2. JavaScript 权威指南笔记 - 可选的分号
  3. linux软件包安装方式汇总
  4. Linux系统利用Crontab命令实现定时重启
  5. spring注解注入IOC
  6. Crontab 自动删除指定日期前文件或者文件夹
  7. 60-40-040-序列化-Twitter 的Avro序列化
  8. J-Link V9固件修复
  9. 这7位年轻人正在通过科技让世界颤抖,预见中囯未来!
  10. CDR案例:广告条幅banner设计
  11. dedecms pm.php,dedecms /member/pm.php SQL Injection Vul
  12. IPD数字诀(一二三四五六七八九十)
  13. centos linux引导修复_centos 系统引导修复办法
  14. 码蹄集第23周赛(买礼物,召唤神龙,大促销,轨道探测)
  15. (转贴)汉字转拼音缩写
  16. 新手不得不知的Amazon三大运营技巧
  17. 必备的网络常用测试命令(ping命令)
  18. djfpvpdjfpvp耐高温计算机电缆,电缆DJFPVP DJFPVP耐高温计算机电缆
  19. C语言学习笔记(四)
  20. Ubuntu系统yolov5训练报错集合

热门文章

  1. 面试02.01移除重复结点
  2. 键盘历史记录实用程序已停止工作 解决办法
  3. .pth is a zip archive (did you mean to use torch.jit.load()?)
  4. logistic loss公式的由来 xgboost 雪伦的推导中使用了该公式
  5. 什么是neo4j cql查询语言 cypher 密码 暗号
  6. GBDT原理及在公司中地位 转载
  7. python中的pass占位语句
  8. plt.scatter参数详解 s=25代表点的面积
  9. 智源创新中心——与你同行,用AI改变世界
  10. 8月书讯:喜悦翩然而至