夏乙 发自 凹非寺
量子位 出品 | 公众号 QbitAI

听说过“睡梦罗汉拳”么?

电影《武状元苏乞儿》中,周星驰在梦中得到老乞丐心法传授,学会了睡梦罗汉拳。

只是睡了一觉,醒来就武功天下第一。

边睡边学习,可能不少同学都YY过……真正做到能有几人?

没想到,现在AI已经学会了。

刚刚,两位人工智能界的大牛:Google Brain团队的David Ha(从高盛董事总经理任上转投AI研究),瑞士AI实验室的Jürgen Schmidhuber(被誉为LSTM之父),共同发布了最新的研究成果:

World Models(世界模型)。

简而言之,他们教会了AI在梦里“修炼”。

AI智能体不仅仅能在它自己幻想出来的梦境中学习,还能把学到的技能用到实际应用中。

一众人工智能界同仁纷纷发来贺电。

还有人说他们俩搞的是现实版《盗梦空间》,并且P了一张电影海报图:把Ha和Schmidhuber头像换了上去……

这种神奇能力是怎么回事?

量子位结合两位大牛的论文,尝试解释一下。

在梦里开车

在梦境中学,在现实中用,可以说是高阶技能了,我们先看一个比较基础的:

在现实里学,到梦境中用。

David Ha和Schmidhuber让一个AI在真正的模拟环境中学会了开车,然后,把它放到了“梦境”里,我们来看看这个学习过程:

先在真实的模拟环境中学开车:

当然,上图是人类视角。在这个学习过程中,AI所看到的世界是这样的:

把训练好的AI智能体放到AI的梦境中,它还是一样在开车:

这个梦境是怎么来的?要讲清楚这个问题,量子位还得先简单介绍一下这项研究的方法。他们所构建的智能体分为三部分,观察周围世界的视觉模型、预测未来状态的记忆模型和负责行动的控制器。

负责做梦的主要力量,就是其中的记忆模型。他们所用的记忆模型是MDN-RNN,正这个神经网络,让Google Brain的SketchRNN,能预测出你还没画完的简笔画究竟是一只猫还是一朵花。

在开车过程中,记忆模型负责“幻想”出自己在开车的场景,根据当前状态生成出下一时间的概率分布,也就是环境的下一个状态,视觉模型负责将这个状态解码成图像。他们结合在一起生成的,就是我们开头所说的“世界模型”。

然后,模型中的控制器就可以在记忆模型生成出来的虚假环境中开车了。

在梦里学打Doom

做梦开车很简单,但两位大牛的研究显然不止于此。既然AI幻想出来的环境很接近真实,那理论上讲,他们这项研究的终极目的也是可以实现的:让AI做着梦学技能,再用到现实中。

这一次,他们用了VizDoom,一个专门供AI练习打Doom的平台。

“做梦”的主力,又是我们前面提到过的记忆模型。和赛车稍有不同的是,它现在不仅需要预测环境的下一状态,为了让这个虚拟环境尽量真实,同时还要预测AI智能体的下一状态是死是活。

这样,强化学习训练所需的信息就齐全了,梦境中的训练,GO!

梦境重现了真实环境中的必要元素,和真正的VizDoom有着一样的游戏逻辑、物理规则和(比较模糊的)3D图形,也和真实环境一样有会扔火球的怪物,AI智能体要学着躲避这些火球。

更cool的是,这个梦境可以增加一些不确定因素,比如说让火球飞得更没有规律。这样,梦中游戏就比真实环境更难。

在梦境中训练之后,AI就可以去真正的VizDoom中一试身手了:

AI在VizDoom中的表现相当不错,在连续100次测试中跑过了1100帧,比150帧的基准得分高出不少。

真是666啊……

怎么做到的?

他们所用的方法,简单来说就是RNN和控制器的结合。

这项研究把智能体分为两类模型:大型的世界模型和小型的控制器模型,用这种方式来训练一个大型神经网络来解决强化学习问题。

具体来说,他们先训练一个大型的神经网络用无监督方式来学习智能体所在世界的模型,然后训练一个小型控制器使用这个世界模型来学习如何解决任务。

这样,控制器的训练算法只需要在很小的搜索空间中专注于信任度分配问题,而大型的世界模型又保障了整个智能体的能力和表达性。

这里的世界模型包括两部分,一个视觉模型(V),用来将观察到的高维信息编码成低维隐藏向量;一个是记忆RNN(M),用来借历史编码预测未来状态。控制器(C)借助V和M的表征来选择好的行动。

在我们上面讲到的开车、打Doom实验中,视觉模型V用了一个VAE,变分自编码器;记忆模型M用的是MDN-RNN,和谷歌大脑让你画简笔画的SketchRNN一样;控制器C是一个简单的单层线性模型。

把这三个模型组装在一起,就形成了这项研究中智能体从感知到决策的整个流程:

视觉模型V负责处理每个时间步上对环境的原始观察信息,然后将这些信息编码成隐藏向量zt,和记忆模型M在同一时间步上的隐藏状态ht串联起来,输入到控制器C,然后C输出行为向量at

然后,M根据当前的zt和at,来更新自己的隐藏状态,生成下一步的ht+1

这有什么用?

让AI会“做梦”,还能在“梦境”中学习,其实有很多实际用途。

比如说在教AI打游戏的时候,如果直接在实际环境里训练,就要浪费很多计算资源来处理每一帧图像中的游戏状态,或者计算那些和游戏并没有太大关系的物理规则。用这个“做梦”的方式,就可以在AI自己抽象并预测出来的环境中,不消耗那么多计算资源,一遍又一遍地训练它。

在这项研究中,他们还借助了神经科学的成果,主要感知神经元最初出于抑制状态,在接收到奖励之后才会释放,也就是说神经网络主要学习的是任务相关的特征。

将来,他们还打算给VAE加上非监督分割层,来提取更有用、可解释性更好的特征表示。

相关链接

论文:https://worldmodels.github.io/

说明:World Models是一个持续的研究项目,两位大牛说打算写一系列论文,这只是第一篇。他们还专门为这项目开了个GitHub账号,可以持续关注:https://github.com/worldmodels

另外,上面的Demo演示,基于p5.js和deeplearn.js构建。作者还感谢了来自Google Brain团队其他成员、distill.pub以及其他研究者的支持。

活动推荐


△ 点击图片阅读原文

即可获取更多详情

联想高校AI精英挑战赛,覆盖全国28个省份、8大赛区和260所高校,经过在中科大、华中科技大学、清华大学、上海交通大学等8所AI领域具有顶尖优势的理工科高校的半决赛路演,产生最终入围总决赛的十支参赛队伍,并将于3月29日在北京中国科学院计算技术研究所迎来全国总决赛。

加入社群

量子位AI社群15群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot6入群;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot6,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。


量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


周星驰的睡梦罗汉拳心法,现在AI也学会了:梦中“修炼”,醒来“实战”相关推荐

  1. 那个爆火的“梦中修炼”AI,你也能用Keras搭一个了

    原作:David Foster 林鳞 栗子 编译自 Medium 量子位 出品 | 公众号 QbitAI 上月,量子位报道了Google Brain的David Ha和"LSTM之父&quo ...

  2. AI 助力金融后,中美金融科技领域最大的差距是什么?

    [ AI 科技大本营按]2018年,AI 进入落地应用阶段,智能硬件相继上市,无人驾驶上路规范出台.在金融领域,AI 是如何助攻的呢?在 O'Reilly 和 Intel 人工智能 2018 北京大会 ...

  3. 重磅!联合国权威AI趋势报告,美中日韩四分天下

    https://www.toutiao.com/a6654843071613633038/ 2019-02-06 19:09:55 近年来,随着AI从理论知识落地到全球市场,AI正以其潜在的革命性影响 ...

  4. 结构化数据抽取成三元组_干货丨AI在数据防泄漏中的应用——知识图谱之知识抽取...

    随着技术的不断发展,AI(Artificial Intelligence,人工智能)逐渐在社会经济发展的方方面面深入,成为信息化时代最重要的支柱技术之一. 在数据安全领域领域,AI技术所能起到的作用越 ...

  5. AI机器视觉技术在生活中的应用

    机器视觉是人工智能应用领域中的关键之一,并且得到了广泛的使用.为了能够更加深入了解人工智能,需要了解清楚AI机器视觉技术在生活中的应用. AI机器视觉技术在生活中的应用 AI机器视觉技术在生活中的应用 ...

  6. ai人工智能_药物发现中的人工智能

    ai人工智能 'What Drug should I make next?' and 'How can I make it? "我接下来应该制造什么药物?" 和"我该怎么 ...

  7. 《百面机器学习》试读 | AI热门应用之游戏中的人工智能

    小编温馨提示 首先掌声恭喜上周第五个留言获得福利的幸运小伙伴 @羊????????????,请通过后台联系我们,我们会将奖品尽快寄出噢- 铛铛铛,本周将会连载<百面机器学习>人工智能领域热 ...

  8. 一周AI新闻 | 追踪眼球找BUG,AI可从眼球运动中学习

     追踪眼球找 BUG   AI 智能体可从眼球运动中学习  「 程序员的眼里有什么? 」 人类在从事认知要求高的任务时所做的眼球运动其实暗藏很多沟通.而一个有经验的程序员会将注意力放在程序的信息部分以 ...

  9. AI(Adobe Illustrator)中的选择工具和直接选择工具有什么区别?

    AI(Adobe Illustrator)中的选择工具和直接选择工具有什么区别? v 选中对象之后,可以对 对象进行操作 可进行缩放↑ a 直接选择工具 选择一个对象后,只能进行移动,无法进行缩放

最新文章

  1. Python核心模块——urllib模块
  2. openapi开放平台架构_适用于所有人的MicroProfile OpenAPI
  3. 【开发环境】Mac 中 IntelliJ IDEA 运行 Python 程序 ( 安装 Python Community Edition 插件 )
  4. 解析rtcm32报文工具_RTCM32编解码中的一些概念及相关文献阅读
  5. 【Python】编程笔记10
  6. 运行pip报错:Fatal error in launcher: Unable to create process using '’路径’'
  7. apache Storm学习之二-基本概念介绍
  8. ASP.NET 2.0 之 Master Page 学习笔记
  9. 创建数组_如何创建数组
  10. es聚合查询与多维度数据统计
  11. Python算法实现 -- K最短路径算法
  12. 互联网大脑进化简史,类脑智能巨系统产生与兴起
  13. 学习炒股必读的10本书
  14. Tilera多线程网络编程总结
  15. Linux常用命令:系统信息、关机重启、文件和目录操作、文件搜索、文件权限、挂载、磁盘空间、用户及群组、解压缩、备份等操作。
  16. Linux如何打开U盘
  17. VMware 中搭建 SylixOS 环境
  18. 电子签核系统的设计(一) - Requirements / Design
  19. 国际手机号码格式化 和 手机邮箱中间部分用****替换
  20. 进店率、提袋率、客单价

热门文章

  1. php将长url转成短链接,php将URL长链接转换短链接的两种方法
  2. selenium使用篇_键盘鼠标事件
  3. java 正在等待可用的套接字。。。
  4. Python(4) 用Python破解有道翻译反爬虫机制
  5. 2022.06.26 华为od机试真题
  6. 我第一台电子管计算机哪一年,第一台电子管计算机出现在哪一年?
  7. MBTI性格测试中的 INTP 型人格
  8. 自主可控!万应低代码通过华为鲲鹏、麒麟等多项国产化认证及国家信息安全等级保护三级备案证明
  9. Linux服务器集群系统(三)——LVS集群中的IP负载均衡技术
  10. lazarus 初探