【新智元导读】今天,DeepMind 爆出一篇重磅论文,引发学术圈热烈反响:基于最强图像生成器 BigGAN,打造了 BigBiGAN,在无监督表示学习和图像生成方面均实现了最先进的性能!Ian Goodfellow 也称赞 “太酷了!”

GAN 在图像合成方面一次次让人们惊叹不已!

例如,被称为史上最强图像生成器的 BigGAN—— 许多人看到 BigGAN 生成的图像都要感叹 “太逼真了!DeepMind 太秀了吧!”

BigGAN 生成的逼真图像

这不是最秀的。今天,DeepMind 的一篇新论文再次引发学术圈热烈反响,论文题为《大规模对抗性表示学习》。

论文链接:

https://arxiv.org/pdf/1907.02544.pdf​arxiv.org

在这篇论文中,DeepMind 基于最先进的 BigGAN 模型构建了 BigBiGAN 模型,通过添加编码器和修改鉴别器将其扩展到表示学习。

BigBiGAN 表明,“图像生成质量的进步转化为了表示学习性能的显著提高”。

研究人员广泛评估了 BigBiGAN 模型的表示学习和生成性能,证明这些基于生成的模型在 ImageNet 上的无监督表示学习和无条件图像生成方面都达到了 state of the art 的水平

这篇论文在 Twitter 上引发很大反响。GAN 发明人 Ian Goodfellow 说:“很有趣,又回到了表示学习。我读 PhD 期间,我和大多数合作者都对作为样本生成的副产品的表示学习很感兴趣,而不是样本生成本身。”

Goodfellow 说:“当年我们在写最初的 GAN 论文时,我的合著者 @dwf (David Warde-Farley) 试图得到一些类似于 BiGAN 的东西,用于表示学习。5 年后看到这一成果,我觉得太酷了。”

Andrej Karpathy 也说:“无监督 / 自监督学习是一个非常丰富的领域,它将消除目前对大规模数据集的必要性.”

总结而言,这篇论文展示了 GAN 可以用于无监督表示学习,并在 ImageNet 上获得了最先进的结果

下面是 BigBiGAN 生成的一些重建样本,可以看到,重建是倾向于强调高级语义,而不是像素级的细节。

下面,新智元带来对这篇论文的详细解读。

基于 BigGAN 打造 BigBiGAN:学习高级语义,而非细节

近年来,我们已经看到视觉数据生成模型的快速发展。虽然这些模型以前局限于模式单一或少模式、结构简单、分辨率低的领域,但随着建模和硬件的进步,它们已经获得了令人信服地生成复杂、多模态、高分辨率图像分布的能力。

直观地说,在特定域中生成数据的能力需要高度理解所述域的语义。这一想法长期以来颇具吸引力,因为原始数据既便宜 —— 可以从互联网等来源获得几乎无限的供应 —— 又丰富,图像包含的信息远远超过典型的机器学习模型训练用来预测的类别标签。

然而,尽管生成模型取得的进展不可否认,但仍然存在一些令人困扰的问题:这些模型学到了什么语义,以及如何利用它们进行表示学习?

仅凭原始数据就能真正理解生成这个梦想几乎不可能实现。相反,最成功的无监督学习方法利用了监督学习领域的技术,这是一种被称为自监督学习 (self-supervised learnin) 的方法。

这些方法通常涉及以某种方式更改或保留数据的某些方面,并训练模型来预测或生成缺失信息的某些方面。

例如,Richard Zhang 等人的研究 (CVPR 2016) 提出了一种非监督学习的图像着色方法,在这种方法中,模型被给予输入图像中颜色通道的子集,并经过训练来预测缺失的通道。

作为无监督学习手段的生成模型为 self-supervised 的任务提供了一个很有吸引力的替代方案,因为它们经过训练,可以对整个数据分布建模,而不需要修改原始数据。

GAN 是一类应用于表示学习的生成模型。GAN 框架中的生成器是一个从随机采样的潜在变量 (也称为 “噪声”) 到生成数据的前馈映射,其中学习信号由经过训练的鉴别器提供,用来区分真实数据和生成的数据样本,引导生成器的输出跟随数据分布。

作为 GAN 框架的扩展,Vincent Dumoulin 等人 (ICLR 2017) 提出 adversarially learned inference(ALI)[7],或 Jeff Donahue 等人 (ICLR 2017) 提出 bidirectional GAN (BiGAN)[4] 方法,这些方法通过编码器模块将实际数据映射到潜在数据 (与生成器学习的映射相反) 来增强标准 GAN。

在最优判别器的极限下,[4] 论文表明确定性 BiGAN 的行为类似于自编码器,最大限度地降低了重建成本 l₀;然而,重建误差曲面的形状是由参数鉴别器决定的,而不是像误差 l₂这样的简单像素级度量。

由于鉴别器通常是一个功能强大的神经网络,我们希望它能产生一个误差曲面,在重建时强调 “语义” 误差,而不是强调低层次的细节

BigBiGAN 重建的更多图像

论文证明了通过 BiGAN 或 ALI 框架学习的编码器是在 ImageNet 上学习下游任务的一种有效的视觉表示方法。然而,它使用了 DCGAN 风格的生成器,无法在这个数据集上生成高质量的图像,因此编码器能够建模的语义也相当有限。

在这项工作中,我们再次使用 BigGAN 作为生成器,这是一个能够捕获 ImageNet 图像中的许多模式和结构的先进模型。我们的贡献如下:

  • 我们证明了 BigBiGAN (BiGAN with BigGAN generator) 与 ImageNet 上无监督表示学习的最先进技术相匹敌。
  • 我们为 BigBiGAN 提出了一个更稳定的联合鉴别器
  • 我们对模型设计选择进行了全面的实证分析和消融研究。
  • 我们证明,表示学习目标还有助于无条件生成图像,并展示了无条件生成 ImageNet 的最先进结果。

BigBiGAN 框架的结构

BigBiGAN 框架的结构

BigBiGAN 框架的结构如上图所示。

联合判别器 D 用于计算损失 l。其输入是 data-latent pairs, 可以是从数据分布

和编码器
输出采样的

或从生成器 G 输入和潜在分布

采样的

损失 l 包括一元数据项

和一元潜在项
,以及将数据和潜在分布联系起来的共同项

评估和结果:表示学习、图像生成实现最优性能

表示学习

我们现在从上述简化学习结果中获取基于 train-val 分类精度的最优模型,在官方 ImageNet 验证集上得出结果,并与最近的无监督学习研究文献中的现有技术水平进行比较。

为了进行这些比较,我们还提供了基于规模较小的 ResNet-50 的最佳性能 GAN 变种的分类结果。详细比较结果在表 2 中给出。

与当前许多自监督学习方法相比,本文中采用的纯基于生成模型的 BigBiGAN 方法在表示学习方面表现良好,在最近的无监督学习任务上的表现达到了 SOTA 水平,最近公布的结果显示,本文中的方法在使用表 2 的 AvePool 相同的表示学习架构和特征的旋转预测预训练任务中,将 top-1 精度由 55.4%提高到 60.8%。

表 1:多个 BigBiGAN 变体的性能结果,在生成图像的初始分数(IS)和 Fréchet 初始距离(FID),监督式逻辑回归分类器 ImageNet top-1 精度百分比(Cls。)由编码器特征训练,并基于从训练集中随机抽样的 10K 图像进行分割计算,我们将其称为 “train-val” 分割。

表 2:在官方 ImageNet 验证集上对 BigBiGAN 模型与最近的基于监督式逻辑回归分类器的其他方法的对比。

表 3:我们的 BigBiGAN 与无监督(无条件)生成方法、以及之前报告的无监督 BigGAN 的性能结果对比。

无监督式图像生成

表 3 所示为 BigBiGAN 进行无监督生成的结果,与基于 BigGAN 的无监督生成结果做比较。请注意,这些结果与表 1 中的结果不同,因为使用的是数据增强方法(而非表 1 中的用于所有结果的 ResNet 样式预处理方法)。

这些结果表明,BigBiGAN 显著提升了以 IS 和 FID 为量度的基线无条件 BigGAN 生成结果的性能。

图 2:从无监督的 BigBiGAN 模型中选择的图像重建结果。上面一行的图像是真实图像(x~Px),下面一行图像是由 G(E(x))计算出的这些图像的重建结果。与大多数显式重建成本(例如像素数量)不同,由(Big)BiGAN 实现隐式最小化的重建成本更多倾向于强调图像的语义及其他更高级的细节。

图像重建:更偏重高级语义,而非像素细节

图 2 中所示的图像重建在像素上远达不到完美,可能部分原因是目标没有明确强制执行重建成本,在训练时甚至对重建模型进行计算。然而,它们可以为编码器 ε 学习建模的特征提供一些帮助。

比如,当输入图像中包含狗、人或食物时,重建结果通常是姿势、位置和纹理等相同特征 “类别” 的不同实例。例如,脸朝同一方向的另一只类似的狗。重建结果倾向于保留输入的高级语义,而不是低级细节,这表明 BigBiGAN 的训练在鼓励编码器对前者进行建模,而不是后者。

论文链接:

https://arxiv.org/pdf/1907.02544.pdf​arxiv.org


新智元・AI_era

每日推送 AI 领域前沿学术解读、AI 产业最新资讯

戳右上角【+ 关注】↗↗

喜欢请分享、点赞吧

欢迎加编辑微信交流、投稿~微信号:akubineko_

基于模型的设计及其嵌入式实现(无水印).pdf_DeepMind打造最强表示学习模型BigBiGAN,Goodfellow点赞!...相关推荐

  1. 基于模型的设计(MBD)在汽车ECU软件开发中的实践

    基于模型的设计(Model-based Design,以下简称MBD)是一种围绕模型展开的项目开发方法,指对开发对象或者项目产品进行精确建模,项目的需求分析.功能设计.系统框架.代码生成.测试验证等开 ...

  2. MATLAB/SimulinkSTM32CubeMXKeil工具链完成基于模型的设计开发(一)

    前言 入职一段时间了,需要不断充实自己的技能树,现在汽车行业控制器的开发大都基于"V"流程,采用基于模型开发的方式,此系列文章作为自己的学习记录 一.MBD概述 基于模型的设计(M ...

  3. 计算机模型机设计实验报告,计算机组成原理课程设计实验报告-基本模型机设计与实现...

    计算机组成原理课程设计实验报告-基本模型机设计与实现 (12页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 14.90 积分 计 算 机 组 成 原 理实 ...

  4. 计算机组成原理模型机设计实验总结,计算机组成原理课程设计实验报告-基本模型机设计与实现.docx...

    计算机组成原理课程设计实验报告-基本模型机设计与实现 计 算 机 组 成 原 理 实 验 报 告 评 语: 成绩 教 师: 年 月 日 班 级: 1403011 学 号: 140301124 姓 名: ...

  5. 训练好的深度学习模型原来这样部署的!(干货满满,收藏慢慢看)

    点击上方蓝字关注我们 计算机视觉研究院专栏 作者:Edison_G 当我们辛苦收集数据.数据清洗.搭建环境.训练模型.模型评估测试后,终于可以应用到具体场景,但是,突然发现不知道怎么调用自己的模型,更 ...

  6. 深度学习模型压缩与加速技术(二):参数量化

    目录 总结 参数量化 参数量化定义 参数量化特点 1.二值化 二值化权重 二值化权重与激活函数 2.三值化 3.聚类量化 4.混合位宽 手工固定 自主确定 训练技巧 参考文献 深度学习模型的压缩和加速 ...

  7. 深度学习模型压缩与加速技术(三):低秩分解

    目录 总结 低秩分解 定义 特点 1.二元分解 2.多元分解 参考文献 深度学习模型的压缩和加速是指利用神经网络参数的冗余性和网络结构的冗余性精简模型,在不影响任务完成度的情况下,得到参数量更少.结构 ...

  8. 5大关键步骤!如何构建深度学习模型?

    深度学习的关注度正持续上升,它是机器学习的一个子领域,基于人工神经网络的概念来执行特定任务.然而在理论上,人工神经网络与人类大脑的运作方式并不相同,甚至都不相似! 它们之所以被命名为人工神经网络,是因 ...

  9. 深度学习模型压缩与加速技术(七):混合方式

    目录 总结 混合方式 定义 特点 1.组合参数剪枝和参数量化 2.组合参数剪枝和参数共享 3.组合参数量化和知识蒸馏 参考文献 深度学习模型的压缩和加速是指利用神经网络参数的冗余性和网络结构的冗余性精 ...

最新文章

  1. linux path环境变量检索目录,Linux下动态链接库加载路径及搜索路径问题
  2. 关于Python中if、for、with、list、dict的练习题
  3. 解决strings: '/lib/libc.so.6': No such file
  4. 这所高校的快递被机器人承包了,别人家的学校!
  5. 【ArcGIS Pro微课1000例】0012:ArcGIS Pro属性表中文乱码完美解决办法汇总
  6. Spring_使用(JDBC)
  7. Django工作笔记001---Django简介
  8. Oracle 初始化参数文件pfile和spfile
  9. centos7安装mysql允许远程连接_Centos7安装mysql8.0,开启远程访问
  10. ________________定时器
  11. angular 单击和双击事件分开
  12. 炼丹笔记三:数据增强
  13. NAT技术及NAT ALG
  14. 解决没有配置本地nacos但是一直发生localhost8848连接异常的问题
  15. 服务器2008系统驱动安装,Windows Server 2008系统安装设备驱动的方法
  16. phalcon 自动加载_Phalcon自动加载(PHP自动加载),phalcon加载php_PHP教程
  17. RFID 负载调制和反向散射调制
  18. MySql数据类型-读书笔记
  19. matlab 将子文件下同名称文件移植到同一文件夹下并按序排列重命名n.bmp,n=1,2,3...
  20. 51Nod 1737 配对

热门文章

  1. 奇虎360 2015校园招聘笔试编程题
  2. oracle 表空间文件达到32G后解决办法
  3. MATLAB:图片缩放
  4. py-kms激活VOL
  5. anemometer mysql_十分钟部署Anemometer作为Mysql慢查询可视化系统
  6. Image Processing and Computer Vision_Review:Local Invariant Feature Detectors: A Survey——2007.11...
  7. solidworks画螺纹
  8. iApp4Me一周年记
  9. python爬电影_Python爬虫项目--爬取猫眼电影Top100榜
  10. php花朵飘落特效,WordPress 主题添加花瓣飘落特效