文章来源:ATYUN AI平台

在2017年,DeepMind推出了AlphaZero,自己学会掌握国际象棋,日本将棋和Go,击败了世界冠军。DeepMind很高兴看到国际象棋界成员的回应,他们在和AlphaZero对战中看到了一种突破性的,高度动态和非传统的游戏风格,与之前的任何国际象棋游戏程序都不同。

现在,DeepMind推出了AlphaZero的完整评估,该评估发表在Science上,它描述了AlphaZero如何快速学习每个游戏,成为历史上最强大的玩家,尽管它是从随机游戏开始训练,没有内置该领域知识,只知道游戏的基本规则。

前世界国际象棋冠军Garry Kasparov:我无法掩饰自己的满足感,它的风格变化非常灵活,和我很像!

正是这种重新学习每个游戏,不受人类游戏规范的约束的能力,产生了独特的,非传统的,具有创造性和动态的游戏风格。国际象棋大师Matthew Sadler和女性国际大师Natasha Regan在即将出版的书籍《Game Changer》(将于2019年1月出版)中,分析了数以千计的AlphaZero对战,指出它的风格不同于任何传统的国际象棋引擎。Matthew表示,“这就好像发现了过去一些高手的秘籍。”

传统的国际象棋引擎,包括世界计算机国际象棋冠军Stockfish和IBM突破性的Deep Blue,依赖于数千个由强大的人类玩家制定的规则和启发式方法,试图解释游戏中的每一个可能性。日本将棋程序也是特定的,使用与国际象棋程序类似的搜索引擎和算法。

AlphaZero则采用了一种完全不同的方法,用深度神经网络和通用算法取代了这些人类制定的规则,这些算法除了基本规则之外一无所知。

在国际象棋中,AlphaZero仅用了4个小时便首次超越了Stockfish,在日本将棋中,AlphaZero在2小时后首次超越Elmo;在Go中,AlphaZero首次超越了击败李世石的AlphaGo的版本,注意:每个训练步骤代表4096个棋盘位置。

为了学习这些游戏,一个未经训练的神经网络通过强化学习的试错过程,与自己进行数百万次对抗。起初,它完全随机,但随着时间的推移,系统从胜,败,平局中学习,以调整神经网络的参数,使其在未来选择更有利的策略。网络需要的训练量取决于游戏的风格和复杂程度,国际象棋大约需要9个小时,日本将棋大约需要12个小时,Go需要13天。

史上唯一一位获得了日本将棋全部七个头衔的羽生善治:它的一些举动,例如将国王转移到棋盘的中心,这违反了将棋理论,并且从人的角度来看,这似乎会使AlphaZero处于危险的位置。但令人难以置信的是,它仍然掌控着棋局。其独特的风格向我们展示了新的可能性。

训练有素的网络用于指导搜索算法,即蒙特卡罗树搜索(MCTS),以选择游戏中最有希望的走法。对于每次移动,AlphaZero仅搜索传统国际象棋引擎所考虑的一小部分走法。例如,在国际象棋中,它每秒仅搜索6万个走法,相比之下,Stockfish每秒大约搜索6千万个走法。

经过全面训练的系统将与人工引擎进行测试,针对国际象棋(Stockfish)和日本象棋(Elmo),以及我们之前自学成才的系统、目前最强的Go玩家AlphaGo Zero。

每个程序都在其设计的硬件上运行。Stockfish和Elmo使用44个CPU核心(与TCEC世界锦标赛相同),而AlphaZero和AlphaGo Zero使用配备4个第一代TPU和44个CPU核心的机器。第一代TPU的推理速度与NVIDIA Titan V GPU等商用硬件大致相似,尽管架构不具有直接可比性。

所有比赛控制了时长,每场比赛限时3小时,每一步限时15秒。

在每次评估中,AlphaZero都击败了对手:

  • 在国际象棋中,AlphaZero击败了2016 TCEC(第9季)世界冠军Stockfish,在1000场比赛中赢得了155场,仅输掉了6场比赛。为了验证AlphaZero的鲁棒性,团队还开展了一系列人类常见的开局开始的测试。在每个开局中,AlphaZero都击败了Stockfish。团队也用到了从2016年TCEC世界冠军使用的开局,和一系列对Stockfish的最新开发版本,并使用很强的Stockfish变体开始比赛。在所有比赛中,AlphaZero都获胜了。
  • 在将棋中,AlphaZero击败了2017年CSA世界冠军版Elmo,在91.2%的比赛中获胜。
  • 在Go中,AlphaZero击败了AlphaGo Zero,在61%的比赛中获胜。

然而,正是AlphaZero的风格让玩家着迷。例如,在国际象棋中,AlphaZero在其自我训练中独立发现并展开了人类常见的策略,如openings,king safety和pawn structure。但是,由于自学并不受传统观念的影响,它还发展了自己的直觉和策略,增加了一系列令人兴奋的新颖想法,扩展了几个世纪以来对国际象棋战略的思考。

前世界国际象棋冠军Garry Kasparov:一个多世纪以来,国际象棋一直被用作人类和机器认知的罗塞塔石碑。AlphaZero通过这些非凡的事情,更新了古老的棋盘游戏和尖端科学之间的显著联系。

Matthew Sadler表示,玩家将注意到的第一件事就是AlphaZero的风格,它带着目的和力量围绕着对手的王者的方式。这种风格支撑着AlphaZero的动态灵活,最大限度地提高了自身的活动性和移动性,同时最大限度地减少了对手的活动和移动性。与直觉相反,AlphaZero似乎对“材料”的重视程度较低,这一想法是现代游戏的基础,每一件作品都具有价值,如果一个玩家在棋盘上的棋子价值高于另一个,那么他们就具有物质优势。相反,AlphaZero愿意在游戏早期牺牲材料,以获得长期收益。

令人印象深刻的是,它设法将其戏剧风格附加到各种各样的位置和开场中,从一开始它就以非常人性化目的,以非常谨慎的方式发挥作用。传统程序很强,几乎不会出现明显错误,但在面对没有具体和可计算解决方案的位置时会出现问题,而正是在这样的位置,AlphaZero能实现感觉,洞察或直觉。

这种独特的能力,在其他传统的国际象棋引擎中是没有的,已经被用来为国际象棋迷们提供有关Magnus Carlsen和Fabiano Caruana最近世界国际象棋锦标赛比赛的新见解和评论,并将在《Game Changer》中进一步探讨。“看看AlphaZero的分析与顶级国际象棋引擎甚至顶级大师级游戏的分析有何不同,这真是令人着迷,AlphaZero可以成为整个社区的强大教学工具。”

AlphaZero的教学能力与我们在2016年AlphaGo对战冠军李世石时所看到的相呼应。在比赛期间,AlphaGo发挥了许多极具创造性的策略,包括在第二场比赛中第37手,推翻了数百年的定势。这些招数已经被包括Lee Sedol本人在内的所有级别的玩家研究过,他们评论道:“我认为AlphaGo是基于概率计算的,它只是一台机器。但当我看到这一手时,我改变了主意。AlphaGo的确很有创意。”

Garry Kasparov:其影响远远超出了我心爱的棋盘,这些自学的专家机器不仅表现得非常优秀,我们实际上也可以从他们所产生的新知识中学习。

和Go一样,我们对AlphaZero对国际象棋的创造性反应感到兴奋,自从计算机时代开始以来,AI面临着巨大的挑战,包括Babbage,Turing,Shannon和von Neumann在内的早期开拓者都试图设计国际象棋程序。但AlphaZero不仅仅影响了国际象棋,棋牌或围棋。为了创建能够解决各种现实问题的智能系统,它们需要灵活并适应新情况。虽然在实现这一目标方面取得了一些进展,但它仍然是AI研究中的一项重大挑战,其系统能够以非常高的标准掌握特定技能,但在略微修改的任务中往往会失败。

AlphaZero能够掌握三种不同的复杂游戏,并可能完成所有完美信息游戏,这是克服这一问题的重要一步。它表明单个算法可以学习如何在一系列设置中发现新知识。尽管它还处于早期阶段,AlphaZero的创意见解加上在AlphaFold等其他项目中看到的令人鼓舞的结果,团队对创建通用学习系统的使命充满信心,这有助于找到一些新的方案,以解决最重要和最复杂的科学问题。

论文:science.sciencemag.org/content/362/6419/1140

下载论文的Open Access版本:deepmind.com/documents/260/alphazero_preprint.pdf

阅读 Garry Kasparov 随附的科学社论:science.sciencemag.org/content/362/6419/1087

阅读 Deep Blue联合创始人Murray Campbell 撰写的文章:science.sciencemag.org/content/362/6419/1118

下载前20名AlphaZero游戏:deepmind.com/documents/259/alphazero_stockfish_top20.zip

下载210个AlphaZero国际象棋游戏和100个将棋游戏:deepmind.com/research/alphago/alphazero-resources/

下载随附的图稿:deepmind.com/documents/245/alphazero_images.zip

了解有关AlphaZero书籍《Game Changer》的更多信息:www.newinchess.com/game-changer

本文转自ATYUN人工智能媒体平台,原文链接:AlphaZero称王!DeepMind AI制霸三大棋类游戏

更多推荐

加速Python数据分析的10个简单技巧(下)

微软AI参考图片颜色为视频着色,生成结果逼真

研究人员为智能扬声器开发AI算法,用于检测心脏骤停

AI算法帮助无人机在未知的杂乱环境中自主导航

欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:bd@atyun.com

AlphaZero称王!DeepMind AI制霸三大棋类游戏相关推荐

  1. AlphaZero进化论:从零开始,制霸所有棋类游戏

    2017年末,DeepMind推出了AlphaZero--一套能够从零开始自主学习国际象棋.将棋(类似于日本版的国际象棋)以及围棋的技艺,从而全面超越各项目世界冠军的系统. 对于这一系统带来的初步成果 ...

  2. AlphaZero登上Science封面:从小白开始制霸多个游戏

    DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature.近日,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级 ...

  3. 最新成果!超越AlphaZero!DeepMind让AI制霸「元宇宙」

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 Al ...

  4. 人类一败涂地!DeepMind再次制霸Atari游戏,比两年前快了200倍

      视学算法报道   编辑:David [导读]DeepMind又对Atari游戏下手了,这回秒的是自己,把两年前的大杀四方的Atari 57模型提速了200倍! 构建在各种任务中表现良好的「通用智能 ...

  5. AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏

    [新智元导读]或许"智能爆炸"不会发生,但永远不要低估人工智能的发展.推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己,也刷新了世人对人工 ...

  6. 【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏...

    2019独角兽企业重金招聘Python工程师标准>>> 世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是Dee ...

  7. 【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏

    世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是DeepMind再次迅速超越了他们自己,超越了我们剩下所有人的想象. 12月5日 ...

  8. 超越AlphaZero,DeepMind新算法MuZero登顶Nature | AI日报

    超越AlphaZero,DeepMind新算法MuZero登顶Nature 2016年,DeepMind 推出了第一个人工智能程序 AlphaGo,在围棋游戏中击败人类.两年后,它的继任者AlphaZ ...

  9. AlphaZero:通用棋类AI,棋类游戏的“终结者”

    机器是否能够产生智能,我们已经为此思考了很久很久.那么,该如何验证机器具有智能呢?一个常用方法就是玩棋盘游戏,比如国际象棋,看看其是否具有超人的能力,甚至击败世界冠军. 在国际象棋方面,IBM的深蓝在 ...

最新文章

  1. GLM+广义线性模型
  2. 单片机机器周期怎么计算公式_单片机很好玩6,单片机是一切智能机器的基础,就是这么嚣张...
  3. HTTP权威指南阅读笔记一:HTTP概述
  4. 18-Gm-TransH:Group-Constrained Embedding of Multi-fold Relations in Knowledge Bases,嵌入,transH,n-ary
  5. linux的常用操作——静态库
  6. 动画函数,为任意一个元素移动到指定的目标位置
  7. php mysql复杂查询_PHP MySQL如何做更复杂的查询
  8. 京东批量下单_京东快递发件指南!
  9. python成绩管理系统设计 gui csdn_用golang简单编写学生信息管理系统
  10. 网站安全之为Web项目添加验证码功能(二)
  11. 《C Primer Plus》读书笔记
  12. AspNetPager的使用
  13. c语言谷歌坐标转百度坐标,百度经纬度和google经纬度转换测试
  14. VMware虚拟机win7安装教程
  15. P2184 贪婪大陆(线段树)
  16. 突然间电脑的复制粘贴不能用了???
  17. Python全栈工程师之从网页搭建入门到Flask全栈项目实战(3) - 入门Flask微框架
  18. MATLAB绘制“问题儿童表情包”动图2
  19. 用Johnson-Trotter算法生成排列!
  20. idea maven项目的依赖有红色波浪线解决

热门文章

  1. 【Labplus 3】掌控板-无线广播口令匹配
  2. 凸面镜反射场景无监督域适应语义分割的一些问题
  3. logstash 同步mongo 数据到 mysql
  4. 用Python画一个生日蛋糕并写上生日祝福对象及生日祝福语
  5. Mac 客户端登陆 阿里云服务器
  6. java5个数从大到小进行排序_输入5个数用冒泡排序进行从小到大排列
  7. 手机tim在线怎么设置
  8. 推荐一个开源的项目工时系统:无鱼工时系统
  9. 百度APIKey申请
  10. 物理系统仿真有哪些作用和功能?速看