栗子 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

能下围棋、能打刀塔、能玩星际……深度强化学习 (DRL) 就快称霸世界了。

但业界一直有种常见的担忧:

强化学习 (RL) 太慢。人类一两盘就能学会的游戏,AI可能要和游戏环境互动上亿次才能解锁。样本效率低,模拟不出人类学习的过程。

现在,DeepMind团队用新近的研究成果总结,来告诉大家这种担忧不值得

深度强化学习已经有了非常快速且灵活的技术。

并且,从AI领域诞生的方法,也能为人类的心理学神经科学带来新的理解。

这篇深度强化学习综述,已经获得了推特观众的799赞。

为什么会慢

最近五年,是DRL爆发的时期。一开始,就像人们批判的那样,算法的确学得很慢。

但要让它快起来,首先要知道为什么慢。

DeepMind举出了两个主要原因:

一是增量式的参数更新 (Incremental Parameter Adjustment) 。最初的算法,从输入的周围环境,到输出的AI动作之间,是靠梯度下降来完成映射的。

在这个过程中,每个增量都需要非常小,才不至于让新学到的信息,把之前学到的经验覆盖了 (这叫做“灾难性干扰”) 。如此一来,学习过程便十分缓慢。

二是弱归纳偏置 (Weak Inductive Bias) 。任何学习过程,都要面临“偏见-方差权衡”。

所谓偏见,就是一开始限定好一些可能的结果,AI从里面找出自己想要的那一种。限定越窄,AI就可以只考虑为数不多的可能性,更快地得出结果。

弱归纳偏置,就需要考虑更多的可能性,学习也就慢一些。重要的是,通用神经网络都是偏见极低的系统,他们有非常大量的参数,可以用来拟合大范围的数据。

DRL,就是把深度网络用到RL里面。所以,最初样本效率必然是极低,需要大量数据来学习。

快从慢中来

不过,从最近的研究上看, 这两个问题都是有办法解决的。

DeepMind举出了两种方法,对症下药。

首先,解决参数增量的问题:

方法是情节性深度强化学习 (Episodic DRL) 。就是给过去发生的事件,保留一个明确的记录 (Explicit Record) 。这个记录会作为依据,指导AI做出新的决策。

它与机器学习里“非参数”的方法异曲同工,也很像“基于示例 (Exemplar-Based) ”的心理学原理

当遇到一个新事件,该做新决策的时候,就把当前事件的内部表征 (Internal Representation) ,跟储存的各种过去事件对比一下。匹配分数最高的中选。

和增量方法的区别在于:在这里,从过去的事件里学到的信息,都可以立刻派上用场,由此加速了学习过程。

但注意,快速的情节学习,是以缓慢的增量学习为基础的

因为,在把当前事件和过去事件的表征作对比之前,AI先要学会这些表征:连接权重 (Connection Weights) 的学习,依然要靠增量来进行,就像传统的DRL算法那样。

慢慢学好表征之后,才能开始迅猛地奔跑。

DeepMind说,“快从慢中生”并不是什么巧合,在心理学和神经科学上的体现,不亚于AI领域 (这个部分,大家可以自行探索原文) 。

然后,再解决归纳偏置的问题:

首先限定好一个狭窄的范围,再让AI去探索。道理都懂,可怎么知道应该限定在哪里?

答案是,借鉴过去的经验。

打个比方,第一次用智能手机的人类,可能从前还用过其他的设备。那里的经验,就可以帮他很快学会智能手机的用法。如果没有那些经验,就只能广泛尝试,影响学习速度了。

这个思路,也是从心理学上来的,叫做“学着学习 (Learning to Learn)”。

心理学家Harry Harlow就曾经用猴子来做实验:给猴子两个不熟悉的物体,一个下面放食物,一个不放。换两个物体,再换两个……久之猴子就知道,一边有食物一边没有,不管物体是什么,不管左边有还是右边有。

回到AI上来,用过去的经验来加速学习,在机器学习里叫做元学习 (Meta-Learning) 

Wang与Duan带领的两项研究,几乎是同时发表。都把这样的原理用在了深度强化学习上,就是元强化学习 (Meta RL) 

一个RNN是用许多互相关联的RL任务来训练的。

RNN的权重慢慢调整,然后可以吸取各种RL任务里面的共同点,改变网络的设定。原本,它没办法做到快速改变,来支持任何一个单一任务。

重点来了,从RNN的活动动态 (Activity Dynamics) 中,可以生出一个独立的RL算法,根据过往的任务,快速解决新任务。

一个RL算法,能生出另一个RL算法,这就是元强化学习。

像情节性RL一样,元RL也涉及了快速和慢速之间的联系:

RNN中的连接,是在不同RL任务的学习中缓慢更新的,建立起不同任务之间共同的部分,把它内置到网络里去。

让这个RNN,来实现新的RL算法,就可以快速搞定各种情况了。毕竟,已经有了慢速学习的归纳偏置做基础 (就像人类使用智能手机之前,已经用过其他设备那样)。

依然,慢是快的前提。

当然,情节性DRL可以和元RL合在一起用,相辅相成。

在情节性的元强化学习里,元学习是在RNN里实现的,不过上面叠加了一个情节记忆系统,作用是恢复RNN里的活动模式 (Patterns of Activity) 。

就像情节性RL一样,情节记忆会对各种过去的事件进行编目,可以查询。

但决策过程不一样,不是按照匹配分数来选择下一步的动作。而是和RNN存储好的活动模式,联系起来。

这些模式非常重要,通过RNN,它们可以总结出智能体学到的东西。

当智能体遇到了类似过去的情况,就会在从前的经验中,恢复一些隐藏的activations,让之前学过的信息立即派上用场,影响当前的策略。

这就叫“情节性元强化学习”,可以进一步加快强化学习的速度。

慢慢地,人们开始减轻对强化学习算法的担忧;并重新开始相信,这样的AI可以模拟人类的学习过程。

传送门

不知未来,不断加速的强化学习,还能在哪些领域超越人类呢?

综述原文传送门:
https://www.cell.com/action/showPdf?pii=S1364-6613%2819%2930061-0

小程序|get更多AI资讯与资源

加入社群

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;

欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

推特800赞,DeepMind强化学习综述:她可以很快,但快从慢中来相关推荐

  1. 推特超2K赞,DeepMind强化学习综述:她可以很快,但快从慢中来

    点击我爱计算机视觉标星,更快获取CVML新技术 栗子 发自 凹非寺  量子位 报道 | 公众号 QbitAI 能下围棋.能打刀塔.能玩星际--深度强化学习 (DRL) 就快称霸世界了. 但业界一直有种 ...

  2. (转) 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)

    本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA 专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 201 ...

  3. 深度强化学习综述(上)

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 人工智能 ...

  4. 多Agent 深度强化学习综述

    多Agent 深度强化学习综述 人工智能技术与咨询 来源:<自动化学报>,作者梁星星等 摘 要 近年来,深度强化学习(Deep reinforcement learning,DRL) 在诸 ...

  5. 强化学习综述(机器学习角度)

    Reinforcement Learning:A Survey 作者:Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore (整理转自h ...

  6. 杭州内推 | 之江实验室招聘机器学习/强化学习/联邦学习算法实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 之江实验室 之江实验室成立于2017年9月,坐落于杭州城西科创大走廊核心地 ...

  7. 【Rust 日报】2021-11-11 保持冷静,学习Rust,我们很快就会在Linux中更多的看到这种语言...

    为Rust有很多字符串类型而烦恼吗?好吧,它没有必要 众所周知Rust有几种不同的字符串类型.两个主要的竞争者是: &str是一个 "字符串引用".它是不可调整大小的,它的 ...

  8. 多智能体深度强化学习综述与批判——Matthew E. Taylor

    这篇综述是华盛顿大学的Matthew E. Taylor总结的,"A Survey and Critique of Multiagent Deep Reinforcement Learnin ...

  9. 让人造太阳更近!DeepMind强化学习算法控制核聚变登上Nature

    来源:机器之心 本文约2400字,建议阅读5分钟 用强化学习控制核聚变反应堆内过热的等离子体. 过去三年,DeepMind 和瑞士洛桑联邦理工学院 EPFL 一直在进行一个神秘的项目:用强化学习控制核 ...

最新文章

  1. 简化工作流程,10款必备的HTML5开发工具
  2. 《Java 2D游戏编程入门》—— 1.5 创建一个主动渲染的窗口
  3. JavaScript进阶1-学习笔记
  4. 【腾讯优测干货分享】从压测工具谈并发、压力、吞吐量
  5. 2019 年入门AI算法工程师,你需要掌握什么技能?
  6. R12 - OM改进了对成本与收入确认的流程
  7. java jdbc 工具_JDBC 工具类
  8. 【easy!】LeetCode 14. Longest Common Prefix
  9. 《完整部署 OCS-NG》
  10. Linux下使用nohup部署java 后台程序
  11. Groovy从入门到精通
  12. 超越白皮书8:穿云而过的闪电网络
  13. mysql数据库select语句用法_mysql数据库select查询语句简单用法
  14. 数据库运行sql文件
  15. 替代变量与SQL*Plus环境设置 (转自一沙弥的世界)
  16. OpenCV 4.5.1 - 新版本 中 BEBLID 描述符尝鲜 (基于 ubuntu / c++)
  17. 字蛛(font-spider)压缩字体
  18. 如何隐藏控制台窗口?
  19. Mac系统下Maven的下载与配置
  20. ASEMI代理ADI亚德诺ADM202EARNZ-REEL车规级芯片

热门文章

  1. 雷军立 Flag:小米 5 年 100 亿 All in AIoT
  2. 对比了 18000 个 Python 项目,这 TOP45 值得学习!
  3. 史上最大漏洞危机:影响所有 iPhone、Android、PC 设备,修复困难重重
  4. 有机晶体数据库_面向Journal of Organic Chemistry作者的晶体学信息文件(CIF)工作流程将于10月6日作出调整...
  5. JAVA day24,25,26 异常(try、catch、finally、throw、throws),线程(Thread、Runnable、Callable)
  6. 计算机作为信息处理工具 应用于科学研究,计算机2013春分章节试题及答案.doc
  7. python语法与java语法的区别_Python语言与java语法的异同之处
  8. csr 蓝牙驱动_【BTS001】开源蓝牙协议栈BTStack初体验
  9. 步骤mysql_mysql 安装 等步骤(一)
  10. 将 React 作为 UI 运行时