Google DeepMind 团队发布新算法，下一个被 AI 虐哭的是谁？

【CSDN 编者按】2015 年 AlphaGo 出道一年，就战胜法国二段职业棋手樊麾，2016 年 3 月以 4:1 战胜韩国国手李世石九段，3 月 14 日，韩国棋院表示 AlphaGo 实力不逊于李世石九段，授予 Alphago 韩国棋院名誉九段证书。AlphaGo 一战成名，要知道，多少棋手宵衣旰食也到不了九段。同年 12 月，强化版 AlphaGo 化名“Master”，在非正式网络快棋对战测试当中取得 60 战全胜。2017 年 5 月，与中国棋手柯洁九段对战，全取三分，虐哭柯洁。而且由于此次使用 Google 的 TPU，使得计算资源只有对战李世石时候的十分之一。要知道，柯洁可不是旁人，是当时世界第一，年纪轻轻，已经手握多项含金量高比赛的冠军，代表人类最高水平的棋手都无能为力，可见 AlphaGo 真的不是寻常之辈。赛后，中国围棋协会也授予了 AlphaGo 职业围棋九段的称号，棋圣聂卫平更是盛赞 AlphaGo 的水平相当于职业围棋二十段。赛后，DeepMInd 团队宣布 AlphaGo 退役，但相关研究不会停止。

作者 | 八宝粥

出品 | CSDN（ID：CSDNnews）

中国围棋协会授予 AlphaGo 中国职业围棋九段称号

DeepMind 团队为 AlphaGo 各个版本起了不同名字，历数几代分别称为 AlphaGo 樊、AlphaGo李、AlphaGo Master，后来还推出了 AlphaGo Zero 和 Alpha Zero 等版本， AlphaGo Zero 及此后版本没有用到人类数据，通过和自己对战，训练三天即可实现极高胜率。在那之后，AlphaGo 团队独孤求败，淡出江湖。此后， DeepMind 在蛋白质折叠等方面也做出 AlphaFold 等令人瞩目的成就。

谁能想到，仅仅淡出了两年，DeepMInd 团队带着 AlphaGo 的后辈——— MuZero 新重出江湖。MuZero 通过自我比赛以及和 AlphaZero 进行比赛，利用多项常规和残局训练，实现了算法的升级突破。相关研究成果论文今年 12 月在国际顶级期刊 Nature 上发出（2019年，该文章在预印本平台发布）。如果此前 AlphaGo 版本是靠着机器学习和算力的一力降十会的话，此次的新算法就是双手互搏，无师自通，不光如此，MuZero 的 “魔爪”从围棋伸向了各个领域，包括国际象棋、日本的将棋和 Atari 电子游戏。你冬练三九夏练三伏，别人一出世就自带超强自学能力，而且人家全家输的次数屈指可数，还都是输给自己人，你说这比赛让人怎么打？

平心而论，再早之前 “深蓝”就已经深深伤过棋手们的心，各类智力比赛和游戏当中，围棋可以说是难度非常高的了，本以为围棋 324 格棋盘生出千万般变化能够守住人类的阵地，结果 AlphaGo 虐哭柯洁， Alpha Zero 还说 “我能自己学”，MuZero 说 “我能自己学，还不需要规则”，就像 AI 世界里的叶问，一个马步摊手，豪气发问：“我要打十个，还有谁？”

如果这次真的有人能上来对阵三招五式的话，可能也只有 AI 本身能对抗 AI了。或者像网友戏谑的那样，“不让他联网”、“拔他电源”。。。。那么 MuZero 到底是哪路神仙呢？我们一起来看一下：

来自 DeepMind 官网

从上图可以看出，随着技术的进化，需要的知识库（规则）逐渐减少，到 MuZero 直接没有了，而应用的领域却逐渐增加，从围棋、将棋扩展到 Atari 游戏。

文章表示，MuZero 和此前的 Alpha Zero 代码相似，但是 MuZero 无法访问规则集合，而是将该规则替换成了搜索树状态神经网络，研究人员主要通过以下方法应对 AI 的挑战，超前搜索和基于模型的计划。超前搜索已经在国际象棋、扑克等景点游戏当中取得成功，但是依赖于游戏规则，这样的话，对于复杂世界和混乱的现实问题就没有办法，因为它们无法提炼成简化的规则；基于模型的系统旨在学习环境动力学的精确模型，然后以此进行规划和学习。不过对于视觉丰富的环境当中依然没有竞争力。比如游戏 Atari 当中，最好的结果其实来自于无模型系统。

MuZero 使用另外的方法来克服此前方法的局限性，它不是对整个环境建模，而是对代理的决策环境或者关键方面进行建模。DeepMInd 表示：毕竟，了解雨伞会使您保持干燥比对空气中雨滴进行建模更有用。

具体而言， MuZero 对三个元素进行建模，分别是值、策略、奖励。分别衡量了：当前位置好坏程度、最优策略以及上一步好坏的衡量。通过蒙特卡罗搜索树，配合动力学函数和预测函数，考虑下一步的动作序列，同时利用了和环境互动时候收集的经验来训练神经网络，在每一步当中保存之前的信息。这个似乎是一种无监督学习内的强化学习。其实它也不能说完全 “无规则”，它唯一的规则其实是我们在下棋当中常说的“走一步、看三步”，不管是什么游戏，它都给自己一个这样的规则。MuZero 就可以反复发使用学习的模型来改进计划，而不需要从环境当中重新收集数据。

从项目主要开发者 Julian Schrittwieser 的博客当中，我们还发现了一些有意思的内容。

来自 Julian Schrittwieser 博客

对于作者而言，这些也仅仅都是 “统计”而已，它是从 AlphaGo 和 Alpha Zero 当中集成的策略网络和价值网络，每一个网络都已经非常强大了，考虑策略网络，就能对于下一步有良好的预判，考虑价值网络，就能选择价值最高的行动，结合两者，当然就更完美了。

ps. 讲点你不知道的东西～

为什么给它取名叫 MuZero 呢？
很大程度上来自于日语发音，开发者 Julian 觉得这个和日语夢、以及無的发音相似（为什么不去学中文啊大哥！）；另外他认为这个发音和希腊字母 μ 也很像。Zero 和此前一样，表示没有用到人类的数据。所以这个算法可以读作“木Zero”、"谬Zero"～不过开发者自己的发音是“谬Zero”。

这位小哥也很有意思，来自奥地利，对各种语言都很感兴趣，当然也包括一些开发语言。而且努力学日语中～

如果你对 MuZero 感兴趣，不妨可以看看小哥博客里面推荐的文章，教你怎么利用 Python 搭建自己的 MuZero AI ，说不定也能用 AI 打败谁（比如街边下棋的大爷）。

从 AlphaGo 震惊围棋江湖以来，越来越多的 “唯人能赢”的游戏开始被 AI 染指，如果此前《星际争霸II》当中战胜人类选手还是算力的取胜，MuZero 双掌互搏就能增长内力、左脚踩右脚就能腾云这次真的是一次巨大的冲击。欢迎下方留言，下一个被 AI 虐哭的会是谁呢？

【参考资料】：

1.DeepMind 官方网站：https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

2.论文链接：https://www.nature.com/articles/s41586-020-03051-4.epdf?sharing_token=EA_wFIVEyQh3dl98_9a6-dRgN0jAjWel9jnR3ZoTv0PMSWGj38iNIyNOw_ooNp2BWfDsqz5UnHQ44Ll88UHNBZcs7xTLPmM1RyXHjRA5n5otA0i6Ki3VMiPA4ux0oRPKRbJvg95aN_SHg0rJ4vyRbnX6EO3ELPTQnQmMgeuSmmU%3D

3.2019年预印版论文下载地址：https://arxiv.org/abs/1911.08265

4.开发者 Julian 的个人博客：http://www.furidamu.org/

程序员如何避免陷入“内卷”、选择什么技术最有前景，中国开发者现状与技术趋势究竟是什么样？快来参与「2020 中国开发者大调查」，更有丰富奖品送不停！

戳：https://bss.csdn.net/m/topic/dev_survey2020

Google DeepMind 团队发布新算法，下一个被 AI 虐哭的是谁？相关推荐

下一个主要AI平台是什么？苹果说：手机
千平发自凹非寺量子位出品 | 公众号 QbitAI 下一个主要AI平台在哪里? 苹果公司的答案是:手机. "我们已经构建的架构.我们放在手机手表里的神经引擎,对未来至关重要,这些将帮 ...
超越AlphaZero，DeepMind新算法MuZero登顶Nature | AI日报
超越AlphaZero,DeepMind新算法MuZero登顶Nature 2016年,DeepMind 推出了第一个人工智能程序 AlphaGo,在围棋游戏中击败人类.两年后,它的继任者AlphaZ ...
LSGO软件技术团队招新线下组队学习
团队招新 LSGO软件技术团队(Dreamtech算法组)成立于2010年09月,团队主要从事地理信息系统.管理信息系统.计算机视觉等领域的应用开发,团队同时具有培养学生的重要职能,毕业学生分布在IB ...
算法----- 下一个更大元素 I
题目给你两个没有重复元素的数组 nums1 和 nums2 ,其中nums1 是 nums2 的子集. 请你找出 nums1 中每个元素在 nums2 中的下一个比其大的值. nums1 中数字 ...
c语言出局者算法,下一个出局者是谁
本报记者李翔全明星周末结束之后,CBA常规赛第27轮1月14日全面开战.与广东队几乎锁定常规赛冠军不同,季后赛门票的争夺充满悬念.尤其是最后一张季后赛门票花落谁家,将是余下20轮常规赛最大的看点 ...
新算力下的2019 AI
https://www.toutiao.com/a6642122950688375309/ ▌AI步入下半场 IT每十年一阶段形成六大阶段每一轮科技革命都会带来新的赢家基础设施-通用平台-应用层的 ...
下一个手机AI浪潮——再见，苹果和他的时代！
长江后浪推前浪,前浪死在沙滩上!手机领域江湖也是如此.回望手机发展史,从1973年第一部民用手机到1983年的摩托罗拉大哥大,再到1992年全球第一条手机短信诞生与1995年的第一款诺基亚翻盖手机问世 ...
DeepMind成立DMES新部门，旨在研究AI带来的社会伦理问题
来源:36kr 概要:随着人工智能的发展越来越成熟,随之带来的伦理和道德问题也成为了社会讨论的焦点问题之一.DeepMind成立了一个新部门,旨在专门研究人工智能带来的社会伦理问题. DMES将于20 ...
Facebook发布Detectron2，下一个万星目标检测新框架
作者 | CV君来源 | 我爱计算机视觉(ID:aicvml) Detectron是Facebook于2018年发布的专注于目标检测的深度学习框架,基于Caffe2深度学习框架,实现了众多state ...

Google DeepMind 团队发布新算法，下一个被 AI 虐哭的是谁？

ps. 讲点你不知道的东西～

Google DeepMind 团队发布新算法，下一个被 AI 虐哭的是谁？相关推荐

最新文章

热门文章