Google用更少标签生成图像，还提出一个用于训练评估GAN的库

参加 2019 Python开发者日，请扫码咨询 ↑↑↑

译者 | 刘畅

责编 | 琥珀

出品 | AI科技大本营（ID:rgznai100）

生成对抗网络（GAN）是属于一种强有力的深度生成模型。GAN 的主要思想是训练两个神经网络：一个是学习如何合成数据（如图像）的生成器（ generator），另一个是学习如何区分真实数据与生成器合成数据的判别器（discriminator）。这类方法已经成功应用于高保真自然图像合成、提升模型图像压缩、数据增强等方面。

图注：在ImageNet上训练时，生成样本的演变过程。生成网络是根据类别来生成的（如“灰猫头鹰”或“金毛猎犬”）。

对于自然图像合成，条件GAN（Conditional Generative Adversarial Nets）能实现最好的结果。与无条件 GAN 不同，条件 GAN 在训练期间会使用标签（如汽车、狗等）。虽然这使得该任务更容易并且有明显的效果提升，但是这种方法需要大量的标记数据，因此在实践中很少可用。

在《使用更少标签生成高保真图像》（High-Fidelity Image Generation With Fewer Labels）这篇论文中，研究人员提出了一种新方法来减少条件GAN训练时所需的标记数据量。 结合 GAN 的最新进展，他们将高保真自然图像合成技术与最先进的技术相结合，使所需的标签数量减少了 10 倍。

论文传送门：https://arxiv.org/abs/1903.02271

基于这项研究，研究人员还在 Compare GAN 库中发布了一个重大更新，其中 Compare GAN 库是一个包含训练和评估 GAN 所有组件的工具库。

使用半监督和自监督进行提升

在条件 GAN 中，生成器和判别器通常都是以类标签为条件。在这项工作中，我们提出用推断的标签去替代手工注释的标签。为了使大型数据集中大多数未标记数据被推断出来的标签质量更高，我们采取两步法：

首先，我们仅使用数据集未标记的部分来学习特征表示。为了学习特征表示，我们将最近的方法都用在了自监督上，也就是当深度卷积神经网络的任务是预测旋转角度时，我们会对未标记图像的进行随机旋转。背后的想法是模型需要能够识别主要的目标及形状才能在此任务中取得成功。

图注：这张未标记图像被随机旋转，而网络的任务则是预测旋转角度。成功的模型需要捕获具有语义的图像特征，而这样的特征也可以将其用于其他视觉任务。

然后，我们将训练好的网络一个中间层的激活模式视为输入的新特征表示，并使用原始数据集的标记部分去训练一个分类器来识别该输入的标签。由于网络经过预训练可以从数据（在旋转预测任务上）中提取出具有语义信息的特征，因此训练分类器比从头开始训练整个网络会更快。最后，我们使用此分类来器标记没有标签的数据。

为了进一步提高模型质量和训练的稳定性，我们会采用之前介绍的辅助损失以加强判别器网络学习有意义的特征表示，这些特征表示在训练期间不会被遗忘。这两项改进与大规模训练相结合，为以 FID 为度量方式的 ImageNet 综合性任务带来了最先进的条件 GAN。

论文传送门：https://arxiv.org/abs/1811.11212

图注：给定一个潜在向量，生成器网络就能产生一张图像。在每行中，最左侧和最右侧图像编码之间的线性插值导致了图像空间中的语义插值。

Compare GAN：一个用于训练和评估GAN的库

对 GAN 的前沿研究在很大程度上依赖于经过精心设计和良好测试的代码库，因为即使复现其他人的结果和技术也需要花费巨大努力。为了促进开放科学并让研究者能从最近的新方法中获益，我们正在发布 Compare GAN 库的重大更新。该库包括现有 GAN 中常用的损失函数，正则化和规范化模式，神经架构和量化指标等等，现在支持：

在 GPU 和 TPU 上训练。

通过 Gin 进行轻量级配置。

通过 TensorFlow 数据集库提供大量数据集。

结论

鉴于标记和未标记数据源之间的差距越来越大，能够仅从部分标记的数据中学习变得越来越重要。我们已经证明，自监督和半监督之间简单而有力的结合可以帮助缩小 GAN 在数据源上的差距。我们认为，自监督是一个强有力的想法，而且应该可以用于其他生成模型的任务。

Google用更少标签生成图像，还提出一个用于训练评估GAN的库相关推荐

php gd库函数建立gif,PHP_PHP GD库生成图像的几个函数总结，使用GD库中提供的函数动态绘 - phpStudy...
PHP GD库生成图像的几个函数总结使用GD库中提供的函数动态绘制完成图像以后,就需要输出到浏览器或者将图像保存起来.在PHP中,可以将动态绘制完成的画布,直接生成GIF.JPEG.PNG和WBMP ...
pix4d无人机影像处理_让无人机创造更大价值？你还差一个Pix4D培训会！
你是否意识到无人机真正的价值在于无人机所能获取的数据? 你是否知道通过一个软件,能将无人机影像变成2D地图和3D模型,并且在这些成果上进行测量和分析? 有越来越多的人,正在通过这个软件提高工作效率,挑 ...
ECCV2022 | 生成对抗网络GAN论文汇总（图像转换-图像编辑-图像修复-少样本生成-3D等）...
图像转换/图像可控编辑视频生成少样本生成图像外修复/结合transformer GAN改进新数据集图像增强 3D 图像来源归属分析一.图像转换/图像可控编辑 1.VecGAN: Image ...
90行代码轻松实现！结合 Whisper + Stable-diffusion 的语音生成图像任务！
本项目将 Whisper 与 Stable Diffusion 模型结合,可以直接完成语音生成图像的任务.用户可以语音输入一个短句,Whisper 会自动将语音转化为文本,接着,Stable Diff ...
结合 Whisper + Stable-diffusion 的语音生成图像任务
我们都习惯了用 Siri.天猫精灵等智能语音助手来设置闹钟,播报天气,甚至它也会给我们讲一些冷笑话.但是怎样才能更进一步呢?我们怎样才能用自己的声音作为桥梁,和世界以及机器进行更加深入.有趣的交互呢? ...
大象在飞吗？如何解决AI作画中的歧义问题文本生成图像的消歧方法 Resolving Ambiguities in Text-to-Image Generative Models
自然语言天生包含固有的歧义.不同类型的歧义可归因于语法.词义.结构等等,这对文本生成图像的过程也会带来较大的歧义. 最近看到一篇文章研究如何解决文本到图像生成模型中的歧义问题,名为<Is the ...
STANet: 基于时空自注意力的遥感图像变化检测模型，提出一个新的大型变化检测数据集LEVIR-CD
论文链接 Github链接-pytorch LEVIR-CD数据集下载(百度云) STANet代码实现目录 A Spatial-Temporal Attention-Based Method and ...
BEIT: BERT Pre-Training of Image Transformers(图像Transformer的BERT预训练)
文章目录摘要 1. Introduction 2. 方法 2.1 图像表示 2.1.1 Image Patch(图像块) 2.1.2 Visual Token 2.2 Backbone Networ ...
文本生成图像的新SOTA：Google的XMC-GAN
点击上方"机器学习与生成对抗网络",关注星标获取有趣.好玩的前沿干货! 来源:新智元 [导读]从图像到生成文本.从文本生成图像,多模态模型的探索一直未停止.最近Google又出从 ...

Google用更少标签生成图像，还提出一个用于训练评估GAN的库

Google用更少标签生成图像，还提出一个用于训练评估GAN的库相关推荐

最新文章

热门文章