(选自Deepmind;编译Joey)

通过眼睛的世界不仅仅是我们角膜所反映的映像。例如,当我们看建筑物并欣赏其设计的复杂性时,我们可以欣赏它所需的工艺。这种通过创造它们的工具来解释物体的能力使我们对世界有了更加丰富的理解,并且是我们获取信息的一个重要方面。

我们希望我们的系统能够创造出同样丰富的世界表现形式。例如,观察绘画的图像时,我们希望它会了解用于绘画时的动作,而不仅仅是在屏幕上表示它的像素。

在这项工作中(https://deepmind.com/documents/183/SPIRAL.pdf),我们为人造智能管家配备了与用来生成图像相同的工具,并证明它们可以推断数字、人物和肖像的构造方式。至关重要的是,他们是自己学习如何做到这一点,而不需要人为标签的数据集。这与之形成鲜明对比最近的研究(https://arxiv.org/pdf/1704.03477.pdf)依赖于从人为标记(human demonstrations)中学习,那样可能会是更加耗费时间。

credit:Shutterstock

我们设计了一个与计算机绘画程序交互的深度强化学习系统(http://mypaint.org/),将笔触放在数字画布上并更改画笔大小、压力大小和颜色。未经训练的系统首先会绘制随意的笔画,但没有明显的构图。为了克服这一点,我们必须创建一种奖励机制,鼓励系统生成有意义的图画。

为此,我们训练了第二个神经网络,称为鉴别器,其唯一目的是预测特定图形是由机器制作的,还是从真实照片的数据集中采样得来。绘画系统的奖励是通过“欺骗”鉴别者认为它的绘画是真实的。换句话说,系统的奖励信号本身就是学习的。虽然这与生成敌对网络(GAN)中使用的方法类似,但它不同,因为GAN设置中的生成器通常是直接输出像素的神经网络。相反,我们的系统通过编写图形程序来与绘图环境交互来生成图像。

在第一组实验中,系统接受了训练以生成类似于MNIST(http://yann.lecun.com/exdb/mnist/)数字的图像:它显示了数字的样子,但没有显示它们是如何绘制的。通过尝试生成用以欺骗鉴别器的图像,智能系统学会了控制画笔并操纵它以适应不同数字的风格--可视化程序合成技术(https://en.wikipedia.org/wiki/Program_synthesis)

我们也训练它重现特定的图像。这里,鉴别器的目的是确定再现的图像是否是目标图像的副本,或者是否已经由系统产生。鉴别者的这种区别越困难,系统得到的奖励(rewarded)就越多。

至关重要的是,这个框架是可以解释的,因为它产生了一系列控制模拟画笔的动作。这意味着该模型可以将其在模拟绘画程序中学到的知识应用于其他类似环境中的人物重建,例如在模拟(或者真实)的机器人手臂上。这个视频可以在这里看到(https://youtu.be/XXM3PdIdLJQ)

还有可能将这个框架扩展到实际的数据集上(real dataset)。经过训练可以绘制名人脸部表情,系统能够捕捉到脸部的主要特征,例如形状、色调和发型,就像街头艺术家在使用有限数量的画笔描绘肖像时一样:

从原始感受中恢复结构化表示是人类容易拥有并经常使用的能力。在这项工作中,我们表明可以通过让人工系统获得我们用来重现我们周围世界的相似工具来指导人造系统产生类似的表示。在这样做时,他们学会制作可视化程序,简洁地表达引起观察的因果关系。

尽管我们的工作仅代表了向灵活的程序综合化(synthesis)迈出的一小步,但我们预计可能需要类似的技术才能使具有类似人类认知、概括和沟通能力的人工智能成为可能。


在这里观看视频(https://www.youtube.com/watch?v=iSyvwAwa7vk&feature=youtu.be),在这里(https://deepmind.com/documents/183/SPIRAL.pdf)了解更多关于该论文的方法。

这项工作由Yaroslav Ganin,Tejas Kulkarni,Igor Babuschkin,SM Ali Eslami和Oriol Vinyals完成,感谢Oleg Sushkov,David Barker,Matej Vecerik和Jon Scholz对机器人的帮助。

【重磅】Deepmind出品-自动学习并生成图像相关推荐

  1. 重磅!2022年剑桥AI全景报告出炉,文本生成图像掀起新风暴!

    作者 | Nathan Benaich.Ian Hogarth 编译 | 杨阳 出品 | AI科技大本营(ID:rgznai100) 日前,2022年<State of AI Report> ...

  2. AI 自动研发机器学习系统,DeepMind 让算法学习强化学习

    人工智能研发的一个大方向是用AI系统来自动化开发AI系统.虽然这一目标尚未实现,但目前的进展让已足够令人人震惊.本文介绍了最新的一些进展,包括伯克利让算法自我优化.MIT自动生成神经网络架构,以及在这 ...

  3. 一个模型通杀8大视觉任务,一句话生成图像、视频、P图、视频处理...都能行 | MSRA北大出品...

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 有这样一个模型. 它可以做到一句话生成视频: 不仅零样本就能搞定,性能还直达SOTA. 它的名字,叫"NüWA"(女娲) ...

  4. Diffusion扩散模型学习2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例

    Diffusion扩散模型学习2--Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例 学习前言 源码下载地址 网络构建 一.什么是Stable Diffusion ...

  5. 无需成对示例、无监督训练,CycleGAN生成图像简直不要太简单

    作者 |  Jason Brownlee 译者 |  Freesia,Rachel 编辑 |  夕颜 出品 | AI科技大本营(ID: rgznai100) [导读]图像到图像的转换技术一般需要大量的 ...

  6. 学术 | 一种新的CNN网络可以更高效地区分自然图像生成图像

    作者 | Weize Quan , Kai Wang, Dong-Ming Yan , Xiaopeng Zhang 译者 | linstancy 编辑 | Jane 出品 | AI 科技大本营 [导 ...

  7. 别说了,有画面了!Google文本生成图像取得新SOTA,CVPR2021已接收

    来源:新智元 [导读]从图像到生成文本.从文本生成图像,多模态模型的探索一直未停止.最近Google又出从文本到图像的新模型,75%的人类都说超过了传统的SOTA模型,直呼脑子里有画面了! 文本到图像 ...

  8. CNN已老,GNN来了:重磅论文讲述深度学习的因果推理

    https://www.toutiao.com/a6692922162493260302/ 本文讲述了DeepMind联合谷歌大脑.MIT等机构27位作者发表重磅论文,提出"图网络" ...

  9. 哪本python入门书内容最详细-重磅 | 由浅入深的 AI 学习路线,最详细的资源整理!...

    原标题:重磅 | 由浅入深的 AI 学习路线,最详细的资源整理! [导读] 本文由知名开源平台,AI技术平台以及领域专家: Datawhale, ApacheCN, AI有道和 黄海广博士联合整理贡献 ...

最新文章

  1. android模拟器的数据存放,Android模拟器在哪里存储SQLite数据库?
  2. Java web 强制301跳转
  3. 鸡蛋该放在哪些篮子里?多少合适?
  4. 系统应用iPad设备应用需定制开发的3大理由
  5. 深入理解Presto
  6. gradle问题 cordova
  7. Ubuntu安装JDK,搭建java环境
  8. MySql表里数据的限制
  9. DJANGO输出HIGHCHARTS数据的样例
  10. 输入汉字,自动转成汉语拼音。。。
  11. 支持向量积【SVM】
  12. Android客户端上开发人人客户端系列教程
  13. ECU软件开发介绍篇
  14. 巴菲特致股东的一封信:2001年
  15. js实现操作成功之后自动跳转页面
  16. 瑞萨单片机-硬件I2C从设备
  17. 一个男孩子写的超级情书!!!
  18. 站长SEO超级外链工具_V1.1
  19. 小程序主体为个人的教育类小程序备案——教育APP备案问题
  20. android文档怎么打开,安卓手机如何打开.tn6文件?

热门文章

  1. UG拆电极的认识以及注意事项
  2. Inconsistent use of tabs and spaces in indentation等问题的解决
  3. 记录一次提高接口qps的过程(初次体验Spring WebFlux)
  4. 北京航空航天大学王田苗教授:人工智能与机器人前沿科技发展与投资布局
  5. 西安电子科技大学电磁场实验四仿真结果展示
  6. 马斯克脑机接口_马斯克说的“脑机接口”是啥?
  7. iOS:关于APP架构设计的简单理解
  8. python 数据量化
  9. 执法记录仪提示内存不足时怎么办?快速解决方法
  10. layui树形美化_Layui树形组件