【CSDN 编者按】2015 年 AlphaGo 出道一年,就战胜法国二段职业棋手樊麾,2016 年 3 月以 4:1 战胜韩国国手李世石九段,3 月 14 日,韩国棋院表示 AlphaGo 实力不逊于李世石九段,授予 Alphago 韩国棋院名誉九段证书。AlphaGo 一战成名,要知道,多少棋手宵衣旰食也到不了九段。同年 12 月,强化版 AlphaGo 化名“Master”,在非正式网络快棋对战测试当中取得 60 战全胜。2017 年 5 月,与中国棋手柯洁九段对战,全取三分,虐哭柯洁。而且由于此次使用 Google 的 TPU,使得计算资源只有对战李世石时候的十分之一。要知道,柯洁可不是旁人,是当时世界第一,年纪轻轻,已经手握多项含金量高比赛的冠军,代表人类最高水平的棋手都无能为力,可见 AlphaGo 真的不是寻常之辈。赛后,中国围棋协会也授予了 AlphaGo 职业围棋九段的称号,棋圣聂卫平更是盛赞 AlphaGo 的水平相当于职业围棋二十段。赛后,DeepMInd 团队宣布 AlphaGo 退役,但相关研究不会停止。

作者 | 八宝粥

出品 | CSDN(ID:CSDNnews)

中国围棋协会授予 AlphaGo 中国职业围棋九段称号

DeepMind 团队为 AlphaGo 各个版本起了不同名字, 历数几代分别称为 AlphaGo 樊、AlphaGo李、AlphaGo Master,后来还推出了 AlphaGo Zero 和 Alpha Zero 等版本, AlphaGo Zero 及此后版本没有用到人类数据,通过和自己对战,训练三天即可实现极高胜率。在那之后,AlphaGo 团队独孤求败,淡出江湖。此后, DeepMind 在蛋白质折叠等方面也做出 AlphaFold 等令人瞩目的成就。

谁能想到,仅仅淡出了两年,DeepMInd 团队带着 AlphaGo 的后辈——— MuZero 新重出江湖。MuZero 通过自我比赛以及和 AlphaZero 进行比赛,利用多项常规和残局训练,实现了算法的升级突破。相关研究成果论文今年 12 月在国际顶级期刊 Nature 上发出(2019年,该文章在预印本平台发布)。如果此前 AlphaGo 版本是靠着机器学习和算力的一力降十会的话,此次的新算法就是双手互搏,无师自通,不光如此,MuZero 的 “魔爪”从围棋伸向了各个领域,包括国际象棋、日本的将棋和 Atari 电子游戏。你冬练三九夏练三伏,别人一出世就自带超强自学能力,而且人家全家输的次数屈指可数,还都是输给自己人,你说这比赛让人怎么打?

平心而论,再早之前 “深蓝”就已经深深伤过棋手们的心,各类智力比赛和游戏当中,围棋可以说是难度非常高的了,本以为围棋 324 格棋盘生出千万般变化能够守住人类的阵地,结果 AlphaGo 虐哭柯洁, Alpha Zero 还说 “我能自己学”,MuZero 说 “我能自己学,还不需要规则”,就像 AI 世界里的叶问,一个马步摊手,豪气发问:“我要打十个,还有谁?”

如果这次真的有人能上来对阵三招五式的话,可能也只有 AI 本身能对抗 AI了。或者像网友戏谑的那样,“不让他联网”、“拔他电源”。。。。那么 MuZero 到底是哪路神仙呢?我们一起来看一下:

来自 DeepMind 官网

从上图可以看出,随着技术的进化,需要的知识库(规则)逐渐减少,到 MuZero 直接没有了,而应用的领域却逐渐增加, 从围棋、将棋扩展到 Atari 游戏。

文章表示,MuZero 和此前的 Alpha Zero 代码相似,但是 MuZero 无法访问规则集合,而是将该规则替换成了搜索树状态神经网络,研究人员主要通过以下方法应对 AI 的挑战,超前搜索和基于模型的计划。超前搜索已经在国际象棋、扑克等景点游戏当中取得成功,但是依赖于游戏规则,这样的话,对于复杂世界和混乱的现实问题就没有办法,因为它们无法提炼成简化的规则;基于模型的系统旨在学习环境动力学的精确模型, 然后以此进行规划和学习。不过对于视觉丰富的环境当中依然没有竞争力。比如游戏 Atari 当中,最好的结果其实来自于无模型系统。

MuZero 使用另外的方法来克服此前方法的局限性, 它不是对整个环境建模,而是对代理的决策环境或者关键方面进行建模。DeepMInd 表示:毕竟,了解雨伞会使您保持干燥比对空气中雨滴进行建模更有用。

具体而言, MuZero 对三个元素进行建模,分别是值、策略、奖励。分别衡量了:当前位置好坏程度、最优策略以及上一步好坏的衡量。通过蒙特卡罗搜索树,配合动力学函数和预测函数,考虑下一步的动作序列,同时利用了和环境互动时候收集的经验来训练神经网络,在每一步当中保存之前的信息。这个似乎是一种无监督学习内的强化学习。其实它也不能说完全 “无规则”,它唯一的规则其实是我们在下棋当中常说的“走一步、看三步”,不管是什么游戏,它都给自己一个这样的规则。MuZero 就可以反复发使用学习的模型来改进计划,而不需要从环境当中重新收集数据。

从项目主要开发者 Julian Schrittwieser 的博客当中,我们还发现了一些有意思的内容。

来自 Julian Schrittwieser 博客

对于作者而言,这些也仅仅都是 “统计”而已,它是从 AlphaGo 和 Alpha Zero 当中集成的策略网络和价值网络,每一个网络都已经非常强大了,考虑策略网络,就能对于下一步有良好的预判,考虑价值网络,就能选择价值最高的行动,结合两者,当然就更完美了。

ps. 讲点你不知道的东西~

为什么给它取名叫 MuZero 呢?
很大程度上来自于日语发音,开发者 Julian 觉得这个和日语夢、以及無的发音相似(为什么不去学中文啊大哥!);另外他认为这个发音和希腊字母 μ 也很像。Zero 和此前一样,表示没有用到人类的数据。所以这个算法可以读作“木Zero”、"谬Zero"~不过开发者自己的发音是“谬Zero”。

这位小哥也很有意思,来自奥地利,对各种语言都很感兴趣,当然也包括一些开发语言。而且努力学日语中~

如果你对 MuZero 感兴趣, 不妨可以看看小哥博客里面推荐的文章 ,教你怎么利用 Python 搭建自己的 MuZero AI ,说不定也能用 AI 打败谁(比如街边下棋的大爷)。

从 AlphaGo 震惊围棋江湖以来,越来越多的 “唯人能赢”的游戏开始被 AI 染指,如果此前《星际争霸II》当中战胜人类选手还是算力的取胜,MuZero 双掌互搏就能增长内力、左脚踩右脚就能腾云这次真的是一次巨大的冲击。欢迎下方留言,下一个被 AI 虐哭的会是谁呢?

【参考资料】:

1.DeepMind 官方网站:https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

2.论文链接:https://www.nature.com/articles/s41586-020-03051-4.epdf?sharing_token=EA_wFIVEyQh3dl98_9a6-dRgN0jAjWel9jnR3ZoTv0PMSWGj38iNIyNOw_ooNp2BWfDsqz5UnHQ44Ll88UHNBZcs7xTLPmM1RyXHjRA5n5otA0i6Ki3VMiPA4ux0oRPKRbJvg95aN_SHg0rJ4vyRbnX6EO3ELPTQnQmMgeuSmmU%3D

3.2019年预印版论文下载地址:https://arxiv.org/abs/1911.08265

4.开发者 Julian 的个人博客:http://www.furidamu.org/

程序员如何避免陷入“内卷”、选择什么技术最有前景,中国开发者现状与技术趋势究竟是什么样?快来参与「2020 中国开发者大调查」,更有丰富奖品送不停!

戳:https://bss.csdn.net/m/topic/dev_survey2020

Google DeepMind 团队发布新算法,下一个被 AI 虐哭的是谁?相关推荐

  1. 下一个主要AI平台是什么?苹果说:手机

    千平 发自 凹非寺 量子位 出品 | 公众号 QbitAI 下一个主要AI平台在哪里? 苹果公司的答案是:手机. "我们已经构建的架构.我们放在手机手表里的神经引擎,对未来至关重要,这些将帮 ...

  2. 超越AlphaZero,DeepMind新算法MuZero登顶Nature | AI日报

    超越AlphaZero,DeepMind新算法MuZero登顶Nature 2016年,DeepMind 推出了第一个人工智能程序 AlphaGo,在围棋游戏中击败人类.两年后,它的继任者AlphaZ ...

  3. LSGO软件技术团队招新 线下组队学习

    团队招新 LSGO软件技术团队(Dreamtech算法组)成立于2010年09月,团队主要从事地理信息系统.管理信息系统.计算机视觉等领域的应用开发,团队同时具有培养学生的重要职能,毕业学生分布在IB ...

  4. 算法----- 下一个更大元素 I

    题目 给你两个 没有重复元素 的数组 nums1 和 nums2 ,其中nums1 是 nums2 的子集. 请你找出 nums1 中每个元素在 nums2 中的下一个比其大的值. nums1 中数字 ...

  5. c语言 出局者 算法,下一个出局者是谁

    本报记者 李 翔 全明星周末结束之后,CBA常规赛第27轮1月14日全面开战.与广东队几乎锁定常规赛冠军不同,季后赛门票的争夺充满悬念.尤其是最后一张季后赛门票花落谁家,将是余下20轮常规赛最大的看点 ...

  6. 新算力下的2019 AI

    https://www.toutiao.com/a6642122950688375309/ ▌AI步入下半场 IT每十年一阶段形成六大阶段 每一轮科技革命都会带来新的赢家 基础设施-通用平台-应用层的 ...

  7. 下一个手机AI浪潮——再见,苹果和他的时代!

    长江后浪推前浪,前浪死在沙滩上!手机领域江湖也是如此.回望手机发展史,从1973年第一部民用手机到1983年的摩托罗拉大哥大,再到1992年全球第一条手机短信诞生与1995年的第一款诺基亚翻盖手机问世 ...

  8. DeepMind成立DMES新部门,旨在研究AI带来的社会伦理问题

    来源:36kr 概要:随着人工智能的发展越来越成熟,随之带来的伦理和道德问题也成为了社会讨论的焦点问题之一.DeepMind成立了一个新部门,旨在专门研究人工智能带来的社会伦理问题. DMES将于20 ...

  9. Facebook发布Detectron2,下一个万星目标检测新框架

    作者 | CV君 来源 | 我爱计算机视觉(ID:aicvml) Detectron是Facebook于2018年发布的专注于目标检测的深度学习框架,基于Caffe2深度学习框架,实现了众多state ...

最新文章

  1. [转载]Python方法绑定——Unbound/Bound method object的一些梳理
  2. golang mysql 事务_golang的嵌套事务管理-Go语言中文社区
  3. 洛谷 1608 路径统计
  4. 【译】An Opinionated Introduction to AutoML and Neural Architecture Search
  5. MyEclipse 2014中 Window--customize perspective 功能 打不开的解决办法
  6. iis php重定向循环,在windows机器IIS上如何设置301永久重定向
  7. CORS解决WebApi跨域问题(转)
  8. 垃圾收集 java_Java的内置垃圾收集如何使您的生活更美好(大部分时间)
  9. Diffie-Hellman:安全网络通信背后的天才算法
  10. 如何在linux中使用u盘,如何在Linux系统下使用U盘
  11. 用Nikto探测一个网站所用到的技术
  12. java面试题jvm_经典面试题|讲一讲JVM的组成
  13. jquery ajax get 数组参数
  14. 传智燕青学成在线项目视频分享
  15. xmind8完整版下载(超详解 图文预警)
  16. 安徽科技学院 信网学院网络文化节 陈鑫鑫
  17. CornerStone的使用
  18. steam安装维护服务器,安装steam无法连接服务器 | 手游网游页游攻略大全
  19. 通过ICommand和ITool操作地图
  20. Android项目“error: Apostrophe not preceded by \ (”报错解决方法

热门文章

  1. 算法不会,尚能饭否之折半查找(Binary search)
  2. flex 常用正则验证举例
  3. 第二章 ELKstack部署及配置
  4. RelativeLayout相对布局
  5. ubuntu 操作记录
  6. SQLServer使用表值参数,高性能批量插入数据
  7. 解决 /lib64/libc.so.6: version `GLIBC_2.18' not found (required by /lib64/libstdc++.so.6)
  8. 由alpha matte生成trimap
  9. 矩池云上安装AlphaFold教程
  10. notepad++ python指定anaconda环境以及代码补全设置