来源:机器之心本文约3300字,建议阅读7分钟本文回顾了 30 年前其团队发表的关于利用人工进行规划和强化学习的研究工作。

现今流行的生成对抗网络(GAN)只是对抗好奇心的一种特例?在近日 Jürgen Schmidhuber 发表的博客文章中,他重申了这样一种说法。Jürgen 表示,他在 1990 年的一篇文章中详细描述了基于控制器和世界模型这两种循环神经网络(RNN)的强化学习和规划系统,其中还包含了现在 ML 领域广为人知的多个概念。

2020 年最后一天,LSTM 发明人、深度学习元老 Jürgen Schmidhuber 发表博客文章,回顾了 30 年前其团队发表的关于利用人工进行规划和强化学习的研究工作。

他表示,其在 1990 年发表的文章《Making the World Differentiable: On Using Self-supervised Fully Recurrent Neural Networks for Dynamic Reinforcement Learning and Planning in Non-stationary Environment》中(以下简称 FKI-126-90 报告)介绍了一些现在广泛使用的概念,包括以循环神经网络(RNN)作为世界模型进行规划、高维奖励信号(也作为神经控制器的输入)、用于 RNN 的确定性策略梯度,以及神经网络(NN)中兼具生成式和对抗性的人工好奇心和内在激励。

FKI-126-90 报告地址:

http://people.idsia.ch/~juergen/FKI-126-90ocr.pdf

在 2010 年代,随着算力成本的降低,这些概念流行开来。2015 年以来,Jürgen 等人进行了更多扩展,以解决抽象概念空间中的规划问题和如何学习思考(learning to think)。

此外,具有自适应循环世界模型的智能体甚至可以对意识(consciousness)和自我认识(self-awareness)进行简单的解释。

以下是 Jürgen Schmidhuber 的博客内容:

1990 年 2 月,我发表了 FKI-126-90 报告(11 月进行了修订),介绍了后来在机器学习领域广为人知的几个概念。

这份报告描述了一个用于强化学习和规划的系统,该系统基于两种循环神经网络(RNN)——控制器和世界模型。控制器尝试在最初未知的环境中最大化累积预期奖励,世界模型则学习预测控制器动作所带来的结果。控制器可以利用世界模型通过 rollout 提前进行规划,选择能够最大化预测累积奖励的动作。在 Rich Sutton 提出 DYNA 之前,这个用于学习、规划和反馈的集成架构就已经发表了。FKI-126-90 报告还引用了利用前馈神经网络进行系统识别的工作。这一方法启发了很多后续研究,不仅是在 1990-91 年间,近几年也是如此。

1990 年的另一个创新是高维奖励信号。传统的 RL 聚焦于一维奖励信号,但人类拥有数以百万计的信息传感器来感知不同类型的痛苦与快乐。据我所知,FKI-126-90 报告是第一篇聚焦多维、有向量值的痛苦和奖励信号的 RL 论文,这些信号来自多个不同传感器,累积值基于针对所有传感器的预测得到,而不仅仅是单一的标量整体奖励。比较一下后来被称为 general value function 的函数。不同于以往的 adaptive critics,FKI-126-90 提出的信号是多维的、循环的。

此外,与传统 RL 不同的是,这些奖励信号还被用作控制器神经网络学习的信息输入,以执行能够最大化累积奖励的动作。这也与元学习有关。

这些技术能应用于现实世界吗?答案是肯定的。我之前的博士后同事 Alexander Gloye-Förster 带领柏林自由大学的 FU-Fighters 团队,拿到了 2004 年 RoboCup 机器人世界杯速度方面的冠军。帮助他们拿到冠军的机器人就是利用神经网络进行提前规划,这与 FKI-126-90 报告提出的理念一致。

2005 年, Alexander 及其团队还展示了如何利用这些概念打造自我修复机器人(self-healing robots)。他们使用连续自建模构建了第一个弹性机器人,该机器人可以在经历某种意外损伤后自动复原。

FKI-126-90 报告还陈述了 RNN 确定性策略梯度的基础。“Augmenting the Algorithm by Temporal Difference Methods”一节将基于动态规划的时间差分法与基于梯度的世界预测模型相结合,用来计算独立控制网络的权重变化。二十多年后,DeepMind 使用了类似的变体。

最后,FKI-126-90 报告还通过对抗生成神经网络引入了人工好奇心。在与世界交互的过程中,人类会学习预测自己行为的后果。同时,人类还有好奇心,会设计实验来获取新的数据,从而学到更多。为了构建有好奇心的人工智能体,FKI-126-90 报告和我的另一项研究《A Possibility for Implementing Curiosity and Boredom in Model-Building Neural Controllers》提出了一种新型具有内在动机的主动无监督或自监督学习方法。该方法基于 minimax 博弈,即其中一个神经网络最小化目标函数,而另一个神经网络最大化目标函数。现在,我把两个无监督对抗神经网络之间的对抗称为“对抗人工好奇心”(Adversarial Artificial Curiosity),以将其与 1991 年以来出现的人工好奇心和内在动机变体区分开来。

对抗人工好奇心如何工作的呢?控制器 NN(概率性地)生成可能影响环境的输出。世界模型 NN 预测环境对控制器输出的反应。世界模型利用梯度下降最小化其误差,因而成为更好的预测器。但在零和博弈中,控制器试图找到最大化世界模型误差的输出,而这些输出的损失是控制器的增益。所以,控制器被激发创造新的输出或实验,以生成世界模型觉得惊讶的数据,直到熟悉并最终厌烦这些数据。

也就是说,在 1990 年,我们已经提出了兼具生成式和对抗性的自监督神经网络(这里使用的是 2014 年后的术语),并针对静态模式和模式序列以及 RL 的通用示例生成实验输出和新的数据。事实上,流行的生成对抗网络(GNN)(2010-2014)是对抗好奇心的一种应用,其中环境根据控制器的当前输出是否在给定集合中返回 1 或者 0。此外还需注意,对抗好奇心、GAN 和对抗 PM(Predictability Minimization,1991)与其他早期的对抗机器学习设置大不相同,它们既不包含无监督 NN 也没有建模数据或使用梯度下降。

正如我自 1990 年以来频繁提到的那样,神经网络的权重应被视为其自身的程式(program)。有人认为,深度 NN 的目的是学习观测数据的有用内部表征,甚至出现了关于学习表征的国际学术会议 ICLR。但实际上,NN 学习的是根据输入数据计算此类表征的程式(映射的权重或参数)。典型 NN 的输出对自身的程式是可微的。也就是说,简单程式生成器可以计算程式空间中的方向,人们也可以在该空间中找到更好的程式。1989 年以来我的很多研究工作已经利用了这一事实。

FKI-126-90 报告中提出的控制器 / 模型(C/M)规划器专注于简单的逐毫秒规划,试图预测和规划未来的每一个小细节。甚至于今天,这仍然是很多 RL 应用中的标准方法,如围棋、国际象棋应用。然而,我 2015 年的论文《On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models》聚焦于抽象(例如层级)规划和推理[PLAN4-5]。基于算法信息理论的指导,我描述了基于 RNN 的 AI (RNNAI) ,RNNAI 可以在无休止的任务序列上进行训练,这些任务有些是使用者提供的,另一些是由 RNNAI 自身以一种好奇、好玩的方式发明的,以改进其基于 RNN 的世界模型。

与 FKI-126-90 报告中提出的系统不同,RNNAI [PLAN4]学习主动查询其模型,以便进行抽象推理、规划和决策,这些本质上是让 RNNAI 学会思考 [PLAN4]。[PLAN4-5] 的思想可以应用到很多场景中。在这些场景中,一个类似 RNN 的系统利用另一个系统的算法信息。这些思想还解释了像镜像神经元 [PLAN4] 这样的概念。

在最近与 David Ha(2018)[PLAN6]合著的论文中,我们提出了一个世界模型。该模型可以用一种无监督的方式进行快速训练,以学习压缩的时空表征。将从世界模型中提取的特征作为智能体的输入,我们可以训练一个非常紧凑、简单的策略,用于解决待解决的问题。我们的模型在多个环境中实现了 SOTA 结果。

最后,所有这些与“意识”和“自我意识”这两个看似难以捉摸的概念有什么关系?我在 1991 年提出的第一台深度学习机器 [UN0-UN3]模拟了意识的多个方面。它采用无监督学习和预测代码来压缩观测序列。用“conscious chunker RNN”处理低级“subconscious automatiser RNN”出乎意料的事。chunker RNN 通过预测意外事件来学习“理解”它们。automatiserRNN 则采用 1991 年提出的神经知识蒸馏来压缩和吸收 chunker RNN 之前“有意识”的见解和行为,从而使它们成为“潜意识”。

现在让我们回顾一下上面讨论的控制器与环境交互的预测性世界模型。该模型通过预测性编码 [UN0-UN3][SNT] 对不断增长的动作和观察历史进行有效的编码,并且还会自动创建特征层次,较低层次的神经元对应简单的特征检测器(可能类似于哺乳动物大脑中发现的检测器),较高层次的神经元通常对应更抽象的特征,但必要的地方要细化。

与其他优秀的压缩器一样,世界模型将学习识别现有的内部数据结构所共有的规律,并为频繁出现的观测子序列生成原型编码或紧凑的表示或符号(不一定是离散的),以缩小整体所需的存储空间。具体来说,紧凑的自表示或自符号是数据压缩过程中自然产生的副产品,因为在智能体的所有动作和感觉输入中都有一个东西,那就是智能体本身。

为了通过预测性编码有效地编码整个数据历史,智能体将通过创建某种内部子网络来计算代表自身的神经激活模式[CATCH][FKI-126-90]。当这种表示被控制器的规划机制(FKI-126-90 报告中提到的)或更加灵活的控制器查询(2015 年的论文中提到的)所激活,智能体就会思考自身,意识到自身以及未来的可能,并试图通过与环境的互动,创造一个痛苦最少、快乐最多的未来。这就是为什么我一直声称我们三十年前就已经拥有了简单、有意识、有自我觉知和情绪的人工智能体。

原文链接:

http://people.idsia.ch/~juergen/world-models-planning-curiosity-fki-1990.html#PLAN4

编辑:于腾凯

校对:林亦霖

Jürgen Schmidhuber回顾30年前旧作,称其启发了现今流行的很多概念相关推荐

  1. Jürgen Schmidhuber发文纪念10年前的研究,网友:转折点非AlexNet?

    视学算法报道 编辑:魔王 转载自公众号:机器之心 LSTM 之父.深度学习元老 Jürgen Schmidhuber 发文纪念 10 年前发表的研究. Jürgen Schmidhuber 每次发博客 ...

  2. Jürgen Schmidhuber眼中的深度学习十年,以及下一个十年展望

    大数据文摘出品 来源:Medium 作者:Jürgen Schmidhuber 编译:张秋玥.马莉 2020年是充满科幻的一年,曾经我们畅想飞行汽车.智能洗碗机器人以及能自动写代码的程序,然而这一切都 ...

  3. 30年前,北京第一家麦当劳餐厅开业,汉堡薯条就这么“火”了? | 美通社头条...

    据美通社消息,2022年是北京麦当劳的而立之年.1992年4月23日,北京麦当劳第一家餐厅王府井餐厅正式开业,成为了当时世界上营业面积最大的麦当劳餐厅. 北京麦当劳王府井餐厅正式开业 王府井餐厅开业当 ...

  4. 30年前,钱学森就给VR取了个中国味特浓的名字

    元宇宙可谓是近期最火的一个概念了.不过你知道吗,早在30年前,世界著名科学家.中国两弹一星功勋奖章获得者钱学森可能就预言过元宇宙了! 要说当下最火的概念,元宇宙当占一席.截至11月17日,天眼查APP ...

  5. 30年前的热门研究,今获经典论文奖,贝叶斯网络之父旧论文「考古」

    机器之心报道 编辑:魔王.蛋酱.张倩 一篇 30 年前的论文,因为一次获奖,又重新出现在世人眼前. 近日,图灵奖得主.贝叶斯网络之父 Judea Pearl 在推特上提到,自己在三十年前与当时的博士生 ...

  6. 30年前未曾发行的任天堂红白机游戏,被这个团队从21张软盘中重新恢复了,还是3D的...

    晓查 白交 发自 凹非寺  量子位 报道 | 公众号 QbitAI 秘密尘封30年,连游戏的开发者也已经去世8年. 恐怕没有人会想到一款任天堂红白机(NES)在一群游戏爱好者的努力恢复下,竟然又能重见 ...

  7. LSTM之父重提30年前的「快速权重存储系统」:线性Transformer只是它的一种变体...

    作者|陈萍.维度 来源|机器之心 来自瑞士人工智能实验室.亚琛工业大学的研究者建立了线性(核)注意力与快速权重存储系统之间的内在联系,并提出更新规则,在合成检索问题.机器翻译.语言模型等实验上性能优越 ...

  8. NB-IoT/LoRa是新技术?其实30年前就已经出现了

    NB-IoT/LoRa是新技术?其实30年前就已经出现了 导  读 NB-IoT/LoRa这些低功耗广域网络技术并非新的事物,30多年前在蜂窝网络还未商用之时,一些行业就采用M2M方式来给低速率终端联 ...

  9. 30年前的中专相当于现在什么学历?比现在一本厉害吗?

    30年前的就是1990年以前,当时的中专其实分为两种,一种是由初中毕业考入中专,一种是高中毕业考入的中专.作为当时的过来人,我1986年初中毕业就考过中师,虽说文化成绩够分,但复试没有通过.之后上的高 ...

最新文章

  1. 用树莓派打造世界上最小的“iMac”
  2. 清华大学计算机图形学课程
  3. python编写格斗游戏_Python文字小游戏:搏击比赛
  4. 《黑客秘笈——渗透测试实用指南》—第2章2.4节Web应用程序的扫描
  5. idea中git分支的使用
  6. 光功率 博科交换机_如何将交换机40G QSFP+与10G SFP+端口互连?
  7. 为什么手机网速太慢_为什么不同的5G手机网速差别高达47%!
  8. 使用对象-关系映射持久化数据
  9. python3种基本数字类型_Python3基本数据类型
  10. 如何跨越线程调用窗体控件?(3)
  11. dm7达梦7Linux安装包,【达梦】DM7安装部署 2 安装达梦7数据库软件
  12. java long型时间戳_深入理解java long 存储时间戳
  13. #164. 【清华集训2015】V
  14. 决策树分类算法三种方式
  15. 【最佳实践】瀚高数据库 Windows企业版v6.0.4 的安装
  16. 数控弯管机xyz转换ybc的算法_数控弯管机技术的更新和应用.pdf
  17. 工作后的5种放松方法
  18. 中盈Zonewin NX-1900 打印机驱动
  19. word写论文时参考文献、目录以及页码设置
  20. 基于BP-Adaboost神经网络的高斯函数模型预测研究-含Matlab代码

热门文章

  1. biopython有什么用_BioPython学习笔记
  2. 厌倦了“正在输入…”的客服对话,是时候pick视频客服了
  3. 基于bs4+requests的豆瓣电影爬虫
  4. react 打包后,项目部署完毕,刷新页面报错(404)
  5. node.js——麻将算法(一)基本判胡
  6. 前端每周清单第 33 期:React 16 发布与特性介绍,Expo AR 教程,ExtJS 从崛起到沉寂...
  7. LeetCode Scramble String
  8. 局域网指定 IP 地址后无法上网的问题
  9. 360起诉山东卫视或有利于杜绝有偿新闻
  10. #1045 无法登录 MySQL 服务器 phpmyadmin