AlphaZero称王！DeepMind AI制霸三大棋类游戏

文章来源：ATYUN AI平台

在2017年，DeepMind推出了AlphaZero，自己学会掌握国际象棋，日本将棋和Go，击败了世界冠军。DeepMind很高兴看到国际象棋界成员的回应，他们在和AlphaZero对战中看到了一种突破性的，高度动态和非传统的游戏风格，与之前的任何国际象棋游戏程序都不同。

现在，DeepMind推出了AlphaZero的完整评估，该评估发表在Science上，它描述了AlphaZero如何快速学习每个游戏，成为历史上最强大的玩家，尽管它是从随机游戏开始训练，没有内置该领域知识，只知道游戏的基本规则。

前世界国际象棋冠军Garry Kasparov：我无法掩饰自己的满足感，它的风格变化非常灵活，和我很像！

正是这种重新学习每个游戏，不受人类游戏规范的约束的能力，产生了独特的，非传统的，具有创造性和动态的游戏风格。国际象棋大师Matthew Sadler和女性国际大师Natasha Regan在即将出版的书籍《Game Changer》（将于2019年1月出版）中，分析了数以千计的AlphaZero对战，指出它的风格不同于任何传统的国际象棋引擎。Matthew表示，“这就好像发现了过去一些高手的秘籍。”

传统的国际象棋引擎，包括世界计算机国际象棋冠军Stockfish和IBM突破性的Deep Blue，依赖于数千个由强大的人类玩家制定的规则和启发式方法，试图解释游戏中的每一个可能性。日本将棋程序也是特定的，使用与国际象棋程序类似的搜索引擎和算法。

AlphaZero则采用了一种完全不同的方法，用深度神经网络和通用算法取代了这些人类制定的规则，这些算法除了基本规则之外一无所知。

在国际象棋中，AlphaZero仅用了4个小时便首次超越了Stockfish，在日本将棋中，AlphaZero在2小时后首次超越Elmo；在Go中，AlphaZero首次超越了击败李世石的AlphaGo的版本，注意：每个训练步骤代表4096个棋盘位置。

为了学习这些游戏，一个未经训练的神经网络通过强化学习的试错过程，与自己进行数百万次对抗。起初，它完全随机，但随着时间的推移，系统从胜，败，平局中学习，以调整神经网络的参数，使其在未来选择更有利的策略。网络需要的训练量取决于游戏的风格和复杂程度，国际象棋大约需要9个小时，日本将棋大约需要12个小时，Go需要13天。

史上唯一一位获得了日本将棋全部七个头衔的羽生善治：它的一些举动，例如将国王转移到棋盘的中心，这违反了将棋理论，并且从人的角度来看，这似乎会使AlphaZero处于危险的位置。但令人难以置信的是，它仍然掌控着棋局。其独特的风格向我们展示了新的可能性。

训练有素的网络用于指导搜索算法，即蒙特卡罗树搜索（MCTS），以选择游戏中最有希望的走法。对于每次移动，AlphaZero仅搜索传统国际象棋引擎所考虑的一小部分走法。例如，在国际象棋中，它每秒仅搜索6万个走法，相比之下，Stockfish每秒大约搜索6千万个走法。

经过全面训练的系统将与人工引擎进行测试，针对国际象棋（Stockfish）和日本象棋（Elmo），以及我们之前自学成才的系统、目前最强的Go玩家AlphaGo Zero。

每个程序都在其设计的硬件上运行。Stockfish和Elmo使用44个CPU核心（与TCEC世界锦标赛相同），而AlphaZero和AlphaGo Zero使用配备4个第一代TPU和44个CPU核心的机器。第一代TPU的推理速度与NVIDIA Titan V GPU等商用硬件大致相似，尽管架构不具有直接可比性。

所有比赛控制了时长，每场比赛限时3小时，每一步限时15秒。

在每次评估中，AlphaZero都击败了对手：

在国际象棋中，AlphaZero击败了2016 TCEC（第9季）世界冠军Stockfish，在1000场比赛中赢得了155场，仅输掉了6场比赛。为了验证AlphaZero的鲁棒性，团队还开展了一系列人类常见的开局开始的测试。在每个开局中，AlphaZero都击败了Stockfish。团队也用到了从2016年TCEC世界冠军使用的开局，和一系列对Stockfish的最新开发版本，并使用很强的Stockfish变体开始比赛。在所有比赛中，AlphaZero都获胜了。
在将棋中，AlphaZero击败了2017年CSA世界冠军版Elmo，在91.2％的比赛中获胜。
在Go中，AlphaZero击败了AlphaGo Zero，在61％的比赛中获胜。

然而，正是AlphaZero的风格让玩家着迷。例如，在国际象棋中，AlphaZero在其自我训练中独立发现并展开了人类常见的策略，如openings，king safety和pawn structure。但是，由于自学并不受传统观念的影响，它还发展了自己的直觉和策略，增加了一系列令人兴奋的新颖想法，扩展了几个世纪以来对国际象棋战略的思考。

前世界国际象棋冠军Garry Kasparov：一个多世纪以来，国际象棋一直被用作人类和机器认知的罗塞塔石碑。AlphaZero通过这些非凡的事情，更新了古老的棋盘游戏和尖端科学之间的显著联系。

Matthew Sadler表示，玩家将注意到的第一件事就是AlphaZero的风格，它带着目的和力量围绕着对手的王者的方式。这种风格支撑着AlphaZero的动态灵活，最大限度地提高了自身的活动性和移动性，同时最大限度地减少了对手的活动和移动性。与直觉相反，AlphaZero似乎对“材料”的重视程度较低，这一想法是现代游戏的基础，每一件作品都具有价值，如果一个玩家在棋盘上的棋子价值高于另一个，那么他们就具有物质优势。相反，AlphaZero愿意在游戏早期牺牲材料，以获得长期收益。

令人印象深刻的是，它设法将其戏剧风格附加到各种各样的位置和开场中，从一开始它就以非常人性化目的，以非常谨慎的方式发挥作用。传统程序很强，几乎不会出现明显错误，但在面对没有具体和可计算解决方案的位置时会出现问题，而正是在这样的位置，AlphaZero能实现感觉，洞察或直觉。

这种独特的能力，在其他传统的国际象棋引擎中是没有的，已经被用来为国际象棋迷们提供有关Magnus Carlsen和Fabiano Caruana最近世界国际象棋锦标赛比赛的新见解和评论，并将在《Game Changer》中进一步探讨。“看看AlphaZero的分析与顶级国际象棋引擎甚至顶级大师级游戏的分析有何不同，这真是令人着迷，AlphaZero可以成为整个社区的强大教学工具。”

AlphaZero的教学能力与我们在2016年AlphaGo对战冠军李世石时所看到的相呼应。在比赛期间，AlphaGo发挥了许多极具创造性的策略，包括在第二场比赛中第37手，推翻了数百年的定势。这些招数已经被包括Lee Sedol本人在内的所有级别的玩家研究过，他们评论道：“我认为AlphaGo是基于概率计算的，它只是一台机器。但当我看到这一手时，我改变了主意。AlphaGo的确很有创意。”

Garry Kasparov：其影响远远超出了我心爱的棋盘，这些自学的专家机器不仅表现得非常优秀，我们实际上也可以从他们所产生的新知识中学习。

和Go一样，我们对AlphaZero对国际象棋的创造性反应感到兴奋，自从计算机时代开始以来，AI面临着巨大的挑战，包括Babbage，Turing，Shannon和von Neumann在内的早期开拓者都试图设计国际象棋程序。但AlphaZero不仅仅影响了国际象棋，棋牌或围棋。为了创建能够解决各种现实问题的智能系统，它们需要灵活并适应新情况。虽然在实现这一目标方面取得了一些进展，但它仍然是AI研究中的一项重大挑战，其系统能够以非常高的标准掌握特定技能，但在略微修改的任务中往往会失败。

AlphaZero能够掌握三种不同的复杂游戏，并可能完成所有完美信息游戏，这是克服这一问题的重要一步。它表明单个算法可以学习如何在一系列设置中发现新知识。尽管它还处于早期阶段，AlphaZero的创意见解加上在AlphaFold等其他项目中看到的令人鼓舞的结果，团队对创建通用学习系统的使命充满信心，这有助于找到一些新的方案，以解决最重要和最复杂的科学问题。

论文：science.sciencemag.org/content/362/6419/1140

下载论文的Open Access版本：deepmind.com/documents/260/alphazero_preprint.pdf

阅读 Garry Kasparov 随附的科学社论：science.sciencemag.org/content/362/6419/1087

阅读 Deep Blue联合创始人Murray Campbell 撰写的文章：science.sciencemag.org/content/362/6419/1118

下载前20名AlphaZero游戏：deepmind.com/documents/259/alphazero_stockfish_top20.zip

下载210个AlphaZero国际象棋游戏和100个将棋游戏：deepmind.com/research/alphago/alphazero-resources/

下载随附的图稿：deepmind.com/documents/245/alphazero_images.zip

了解有关AlphaZero书籍《Game Changer》的更多信息：www.newinchess.com/game-changer

本文转自ATYUN人工智能媒体平台，原文链接：AlphaZero称王！DeepMind AI制霸三大棋类游戏

更多推荐

加速Python数据分析的10个简单技巧（下）

微软AI参考图片颜色为视频着色，生成结果逼真

研究人员为智能扬声器开发AI算法，用于检测心脏骤停

AI算法帮助无人机在未知的杂乱环境中自主导航

**欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:bd@atyun.com**

AlphaZero称王！DeepMind AI制霸三大棋类游戏相关推荐

AlphaZero进化论：从零开始，制霸所有棋类游戏
2017年末,DeepMind推出了AlphaZero--一套能够从零开始自主学习国际象棋.将棋(类似于日本版的国际象棋)以及围棋的技艺,从而全面超越各项目世界冠军的系统. 对于这一系统带来的初步成果 ...
AlphaZero登上Science封面：从小白开始制霸多个游戏
DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature.近日,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级 ...
最新成果！超越AlphaZero！DeepMind让AI制霸「元宇宙」
点上方计算机视觉联盟获取更多干货仅作学术分享,不代表本公众号立场,侵权联系删除转载于:新智元 AI博士笔记系列推荐周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 Al ...
人类一败涂地！DeepMind再次制霸Atari游戏，比两年前快了200倍
视学算法报道编辑:David [导读]DeepMind又对Atari游戏下手了,这回秒的是自己,把两年前的大杀四方的Atari 57模型提速了200倍! 构建在各种任务中表现良好的「通用智能 ...
AlphaZero炼成最强通用棋类AI，DeepMind强化学习算法8小时完爆人类棋类游戏
[新智元导读]或许"智能爆炸"不会发生,但永远不要低估人工智能的发展.推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己,也刷新了世人对人工 ...
【重磅】AlphaZero炼成最强通用棋类AI，DeepMind强化学习算法8小时完爆人类棋类游戏...
2019独角兽企业重金招聘Python工程师标准>>> 世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是Dee ...
【重磅】AlphaZero炼成最强通用棋类AI，DeepMind强化学习算法8小时完爆人类棋类游戏
世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是DeepMind再次迅速超越了他们自己,超越了我们剩下所有人的想象. 12月5日 ...
超越AlphaZero，DeepMind新算法MuZero登顶Nature | AI日报
超越AlphaZero,DeepMind新算法MuZero登顶Nature 2016年,DeepMind 推出了第一个人工智能程序 AlphaGo,在围棋游戏中击败人类.两年后,它的继任者AlphaZ ...
AlphaZero：通用棋类AI，棋类游戏的“终结者”
机器是否能够产生智能,我们已经为此思考了很久很久.那么,该如何验证机器具有智能呢?一个常用方法就是玩棋盘游戏,比如国际象棋,看看其是否具有超人的能力,甚至击败世界冠军. 在国际象棋方面,IBM的深蓝在 ...

AlphaZero称王！DeepMind AI制霸三大棋类游戏

AlphaZero称王！DeepMind AI制霸三大棋类游戏相关推荐

最新文章

热门文章