DeepMind又出大招！新算法MuZero登顶Nature，AI离人类规划又近了一步

作者 | 陈彩娴、青暮

转载自：AI科技评论

近日，DeepMind一篇关于MuZero的论文“Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”在Nature发表。与AlphaZero相比，MuZero多了玩Atari的功能，这一突破进展引起科研人员的广泛关注。

MuZero通过DQN算法，仅使用像素和游戏分数作为输入就可以在Atari视频游戏中达到人类的水平。相对于围棋、国际象棋、日本将棋，Atari游戏的规则与动态变化未知且复杂。

AlphaGo在2016年的围棋比赛中以4-1击败了围棋世界冠军李世石；AlphaGo Zero，可以从零通过自我对弈训练，仅在知道基本游戏规则的情况下，第二年在性能上超过了AlphaGo；AlphaZero于2017年通过对AlphaGo Zero进行一般化，可以将其应用于其他游戏，包括国际象棋和日本将棋。

而据Nature报道，尽管每步进行的树搜索计算量较少，但MuZero在玩围棋方面被证明比AlphaZero稍好。

图注：DeepMind游戏AI的进化。

以研究AI打扑克出名的FAIR研究科学家Noam Brown对MuZero评价道：

当前人们对游戏AI的主要批评是：模型不能对现实世界中相互作用进行准确建模。MuZero优雅而令人信服地克服了这个问题（适用于完美信息游戏）。我认为，这是可以与AlphaGo和AlphaZero相提并论的重大突破！

David Silver在接受BBC的采访中提到，MuZero已经投入实际使用，用于寻找一种新的视频编码方式，从而实现视频压缩。“互联网上的数据大部分是视频，那么如果可以更有效地压缩视频，则可以节省大量资金。”由于谷歌拥有世界上最大的视频共享平台YouTube，因此他们很可能将MuZero其应用到该平台上。

现实世界混乱而复杂，没有人给我们提供有关其运作方式的规则手册。但是人类有能力制定下一步的计划和策略。我们第一次真正拥有了这样的系统，能够建立自己对世界运作方式的理解，并利用这种理解来进行这种复杂的预见性规划，我们以前也在AlphaZero上实现过类似的能力。MuZero可以从零开始，仅通过反复试验就可以发现世界规则，并使用这些规则来实现超人的表现。

关于MuZero

一直以来，构建具有规划能力的智能体是人工智能领域的主要挑战之一。此前，基于树的规划方法在国际象棋与围棋等领域取得了巨大的成功。然而，在现实世界中，控制环境的动态变化（dynamics）通常是复杂且不可知的。

因此，DeepMind团队提出了MuZero算法，通过将基于树的搜索与经过学习的模型相结合，可以在一系列具有挑战性和视觉复杂的领域中，无需了解基本的动态变化即可实现超越人类的出色性能。

MuZero算法学习可迭代模型，该模型能够产生与规划相关的预测，包括动作选择策略、价值函数和奖励。在57种不同的Atari游戏上进行评估时，MuZero算法获得了最先进的性能。

Atari游戏是用于测试人工智能技术的规范视频游戏环境，其中，此前基于模型的规划方法均无效。而在围棋、国际象棋和日本将棋（用于评估高性能计划的典型环境）上进行评估时，MuZero算法在无需任何游戏动态的相关知识，就能与游戏规则完全匹配。

论文地址：https://arxiv.org/pdf/1911.08265.pdf

在正式推出MuZero之前，DeepMind已在探索智能算法上取得了多项显著成就：2016年，DeepMind推出了第一个能在围棋游戏中击败人类的AI程序——AlphaGo。2018年，AlphaGo的继承者AlphaZero从零开始学习并掌握了围棋、国际象棋和日本将棋。而MuZero的推出，是DeepMind探索多功能算法的又一突破。

MuZero由DeepMind团队于2019年初步提出，能够在未知环境中规划获胜策略，因此，它也无需提前了解规则，即可掌握围棋、国际象棋、日本将棋与Atari的相关知识。

多年来，研究人员一直在寻找既可以学习能够解释环境的模型，又可以使用该模型来规划最佳行动方案的方法。然而，到目前为止，大多数方法都难以在Atari等规则与动态变化均未知且复杂的领域进行有效规划。

与其他方法不同的是，MuZero通过学习仅关注规划环境中最关键因素的模型来解决该问题。

通过将模型与AlphaZero的树搜索功能相结合，MuZero在Atari基准上取得了最新的技术优势，同时在围棋、国际象棋和日本将棋的经典规划挑战中与AlphaZero的性能不相上下，展示了强化学习算法的快速飞跃。

先前，研究人员通过前向搜索与基于模型的规划等两种方法来提高AI的规划能力。

使用前向搜索的系统（例如AlphaZero）在跳棋、国际象棋和扑克等经典游戏中取得了显著成功，但这类系统之所以取胜，是因为有事先了解游戏环境的动态变化知识，比如游戏规则或配备了精确的模拟器。显然，这一类系统很难应用于解决混乱的现实问题，因为现实世界的问题通常很复杂，很难用简单的三两句规则去概括。

基于模型的系统则旨在通过学习环境动态的精确模型，然后使用模型进行规划。但是，对环境的各个方面进行建模非常复杂，导致算法无法在视觉丰富的领域（例如Atari）中竞争。截至目前为止，在Atari上取得最好结果的是无模型系统，例如DQN，R2D2和Agent57。无模型算法不使用经过学习的模型，而是通过预测来采取最佳的下一步措施。

鉴于其他方法的局限性，MuZero没有尝试对整个环境建模，而只是对智能体进行决策过程中至关重要的方面进行建模。毕竟，如果在下雨的环境，知道打伞避雨比对空气中的雨滴行为进行建模更有用。

具体来说，MuZero对三个环境要素进行建模（这三个要素对于规划非常重要）：

价值：当前处境的好坏程度
策略：所能采取的最佳行动
奖励：最后一个动作的好坏程度

这三个要素都是使用深度神经网络来学习，也是MuZero在采取特定行动时考虑后果与做出相应规划所需要知道的全部内容。

图注：如何使用Monte Carlo树搜索与Muzero神经网络进行规划。Muzero从游戏的当前位置开始（动画顶部的示意图），使用表示功能（H）将观察内容映射到神经网络使用的嵌入（S0）。此外，Muzero使用动态函数（G）和预测函数（F）来考虑下一步要采取的动作序列（A），并选择最佳动作。

图注：MuZero使用其在与环境互动时所收集的经验训练神经网络。这类经验包括对环境的观察和奖励，以及在决定最佳行动时进行的搜索结果。

图注：在训练过程中，模型与所收集的经验一同被取消，在每个步骤中预测先前保存的信息：价值函数V预测所观察到的奖励之和（U），策略估计（P）预测之前所进行的搜索，奖励估计R则预测最后观察到的奖励（U）。

这个方法的另一个优点是：MuZero可以反复使用其学习的模型来改进自己的规划，而不是从环境中收集新数据。比方说，在Atari suite的测试中，被称为MuZero Reanalyze的变体在90％的时间里使用学习的模型来重新规划先前episode中应该做但没有做的事情。

Muzero的性能

研究者选择了四个不同的任务来测试MuZeros的能力，分别是围棋、国际象棋、日本将棋和Atari套件（Atari suite），其中前三者被用来评估MuZero在挑战性规划问题上的表现，Atari套件则作为视觉上更复杂问题的基准。

在所有任务中，MuZero以强化学习算法达到了新的SOTA，其性能优于Atari套件上的所有先前的算法，并且也达到了与AlphaZero相当的在围棋、国际象棋和日本将棋上的超人性能。

图注：在训练中分别使用2亿帧或200亿帧的MuZero在Atari套件上的性能。MuZero在两个方面都实现了新的SOTA。所有得分均根据人类测试的性能（100％）进行了归一化，每个实验设置的最佳结果以粗体显示。

研究者还详细测试了MuZero利用其学习的模型进行规划的能力。他们从围棋中经典的精密规划挑战开始，在此挑战中，单步行动可能决定着获胜或失败。

为了验证更多的规划会带来更好的结果这一直觉，研究者对这个问题进行了测试：如果有更多的时间来规划每次行动，那么经过全面训练的MuZero是否可以变得更强大（如下左图所示）？

结果表明，随着将每次行动的时间从十分之一秒增加到50秒，MuZero的能力会增加1000 Elo（衡量玩家的相对技能），这基本相当于熟练的业余玩家和最强的职业玩家之间的区别。

图注：（左）随着规划每次动作的时间的增加，MuZero的围棋能力显着增加。注意MuZero的缩放比例几乎完美地匹配了可以访问完美模拟器的AlphaZero。（右）在训练期间，Atari Games Pac-Man的得分也随着每次行动的规划量而增加。图中每条曲线都显示了一个不同设置的训练运行，MuZero允许考虑每次行动的规划数量不同。

为了测试这种规划设置是否还会在整个训练过程中带来好处，研究者使用单独训练的MuZero实例在Atari游戏Ms Pac-Man上进行了一组实验（如上右图所示）。MuZero允许在每个动作中考虑不同数量的规划，范围从5到50。结果证实，增加每个动作的规划数量可使MuZero更快地学习并获得更好的最终性能。

有趣的是，当MuZero仅允许每步进行6或7次规划时（这个数字太小而无法覆盖Ms Pac-Man的所有可用动作），它仍然取得了良好的性能。这表明MuZero能够在行动和环境状态之间的匹配上进行泛化，而无需详尽搜索所有可能的状态以有效学习。

DeepMind表示，MuZero展示了学习环境模型并成功进行规划的能力，证明了强化学习的重大进步。MuZero的前身AlphaZero已被应用于化学、量子物理学等领域的一系列复杂问题。MuZero强大的学习和规划算法背后的思想可能为应对机器人、工业系统和其他复杂多样的“游戏规则”未知的现实世界中的新挑战铺平道路。

参考链接：

1、https://www.deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

2、https://www.nature.com/articles/s41586-020-03051-4

3、http://www.furidamu.org/blog/2020/12/22/muzero-intuition/

4、https://arxiv.org/abs/1911.08265

5、https://www.bbc.com/news/technology-55403473

6、MuZero的伪代码和解释：https://medium.com/applied-data-science/how-to-build-your-own-deepmind-muzero-in-python-part-3-3-ccea6b03538b

重磅！DLer-计算机视觉交流群已成立！

大家好，这是DLer-计算机视觉微信交流群！欢迎各位Cver加入DLer-计算机视觉微信交流大家庭 。

本群旨在学习交流图像分类、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。希望能给大家提供一个更精准的研讨交流平台！！！

进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明）

???? 长按识别添加，即可进群！

DeepMind又出大招！新算法MuZero登顶Nature，AI离人类规划又近了一步相关推荐

超越AlphaZero，DeepMind新算法MuZero登顶Nature | AI日报
超越AlphaZero,DeepMind新算法MuZero登顶Nature 2016年,DeepMind 推出了第一个人工智能程序 AlphaGo,在围棋游戏中击败人类.两年后,它的继任者AlphaZ ...
【DeepMind】新算法MuZero在Atari基准上取得了新SOTA效果，成果问鼎Nature
深度强化学习实验室来源:AI科技评论作者: 陈彩娴.青暮编辑:DeepRL 近日,DeepMind一篇关于MuZero的论文"Mastering Atari, Go, Chess an ...
DeepMind提出强化学习新算法，教智能体从零学控制
来源:人工智能和大数据摘要:3月2日,DeepMind发表博客文章,提出一种称为SAC-X(计划辅助控制)的新学习范式,旨在解决让AI以最少的先验知识,从头开始学习复杂控制问题的挑战. 这在真实环境 ...
Google DeepMind 团队发布新算法，下一个被 AI 虐哭的是谁？
[CSDN 编者按]2015 年 AlphaGo 出道一年,就战胜法国二段职业棋手樊麾,2016 年 3 月以 4:1 战胜韩国国手李世石九段,3 月 14 日,韩国棋院表示 AlphaGo 实力不逊 ...
如果让AI根据文字画「抽象画」，那得成什么样？｜DeepMind新算法
丰色发自凹非寺量子位报道 | 公众号 QbitAI 根据文字生成图片,AI早就会了. 而如今,和以往的"写实派"不同,AI要开始进军"抽象派"艺术了! ...
意大利 AI 医疗新算法，提前诊断出85%的老年痴呆症；商汤与高通合作，推动终端 AI 发展...
商汤科技与高通合作,推动终端人工智能发展雷锋网消息,10月20日,商汤科技与Qualcomm Incorporated子公司Qualcomm Technologies, Inc.今日宣布,计划围绕移 ...
京东T9走出最新的里程碑，《新算法宝典，java自学入门书籍推荐
1.3 空间复杂度 (什么是空间复杂度+空间复杂度的计算+时间与空间的取舍) 02 数据结构基础 ========= 2.1 什么是数组 (初识数组+数组的基本操作+数组的优势和劣势) 2.2 什么是 ...
谷歌旗下DeepMind开发出编程机器人，已达人类程序员平均水平！
近期,世界著名的编程竞赛网站Codeforces发布了一篇名为<AlphaCode ( DeepMind) Solves Programming Problems on CodeForce> ...
DeepMind 研发出类脑 AI 神经元，具备超强空间导航能力
作者 | DavidZh 出品 | AI 科技大本营(公众号ID:rgznai100) Google 旗下人工智能公司 DeepMind 的研究人员最近在<自然>杂志上发表论文,宣布同伦敦 ...

DeepMind又出大招！新算法MuZero登顶Nature，AI离人类规划又近了一步

DeepMind又出大招！新算法MuZero登顶Nature，AI离人类规划又近了一步相关推荐

最新文章

热门文章