从AlphaGo Zero的“双手互搏”理解人工智能

重点提示：

1.什么是AlphaZero的洞察力？
2.人类智能和机器智能是否都是来自概率统计？

神经网络算法其实是一种概率算法，而我们所依赖的整个世界也是建立在微观粒子的随机性之上（近代量子理论）；或许所谓智能，其实就是一种建立在随机原理之上的数学运算，从这个意义上进一步思考，不难得出机器智能必将超越人类智能的结论！

一、人工智能的诞生

1.从“图灵测试”说起

人工智能（Artificial Intelligence，即AI）是当今推动人类进步的重大技术，世界各主要大国都已将其作为国家战略予以高度重视。人工智能的研究，最早始于1950年艾伦.图灵（Alan Turing）发表的论文《计算机器与智能》（Computing Machinery and Intelligence）；因此，艾伦.图灵也被视为人工智能之父。

在这篇论文中，图灵正式提出了“机器能思考吗？”这一问题，并给出了肯定的答案。同时，图灵还描述了人工智能研究的目的，给出了人工智能发展的方向，并预言了真正具有思维能力的机器的出现，被广泛视为人工智能理论的开山之作。
图灵的贡献主要在于，坚定地确认了人工智能成功的可能性，并确定了一个判断人工智能是否成功的标准，即著名的“图灵测试”。
图灵测试的方法很简单，就是让测试者与被测试者（一个人和一台机器）隔开，通过一些装置（如键盘）向被测试者随意提问。进行多次测试后，如果有超过30%的测试者不能确定出被测试者是人还是机器，那么这台机器就通过了测试，并被认为具有人工智能。这个测试也叫“模仿游戏“。

一场正常的模仿游戏有ABC三人參与，A是男性，B是女性。两人坐在房间里；C是房间外的裁判，他的任务是要推断出这两人谁是男性谁是女性。（见上图）
可是男方是带着任务来的：他要欺骗裁判，让裁判做出错误的推断。
到了1952年，在一场BBC广播中，图灵谈到了一个新的详细想法。
图灵问：“假设一台机器代替了这个游戏里的男方的地位。会发生什么？”这台机器骗过审问者的概率会比人类男女參加时更高吗？这个问题代替了我们原本的问题：‘机器是否能思考？’”而这，也是图灵測试的本意。
让计算机来冒充人。假设足够多的裁判（图灵选择的数字是30%），误以为在和自己说话的是人而非计算机，那就算作成功了。

事实上，你可能已经注意到了图灵的真正目的。不是说“思考”没法定义吗？没关系，我们不去纠缠哲学，我们来制造一个可操作的标准。假设这台机器“表现得”和一个思考的人类（人类是会思考的，对吧？）无法区分，那么我们就大可把它当做是在“思考”。
能够看到，图灵測试（模仿游戏）的核心，事实上不是“计算机是否能和人对话”，而是“计算机是否能在智力行为上表现得和人无法区分”。

而棋类游戏的人机大战，恰巧就是这一思想的最好例证。

2.电影大片《模仿游戏》（图灵传记）

（参考“百度百科”）

关于艾伦.图灵的故事，推荐观看传记电影《模仿游戏》（The Imitation Game；又名模拟游戏或解码游戏）。该片生动客观地再现了艾伦.图灵在二战中协助盟军破译德国密码系统“英格玛”，从而扭转二战战局的真实经历；英国首相丘吉尔曾表示二战取得胜利最应该感谢的人就是图灵。

图灵（1912-1954）的一生是传奇，也是悲剧。图灵领导的破译小组因成功破译德军的“英格玛”（当时世界上最难的密码），对二战的胜利作出了重大贡献；但作为世界一流的科学家和二战英雄的图灵，随后却遭到了非人的迫害，以至于最终精神崩溃而自杀（年仅41岁）；当图灵在家中倒地死去后，人们发现在他旁边的桌子上有一个被咬了一口的苹果（像苹果公司的徽标一样），而这个苹果已被注入了剧毒的氰化物。

二、AlphaZero简介

AlphaZero（阿尔法零）是一个令人大开眼界且超乎寻常的强化学习算法，它以绝对的优势战胜了多名围棋以及国际象棋冠军。这个程序是由美国Google（谷歌公司）旗下的DeepMind子公司所属的AlphaGo团队开发。（见下图）

AlphaZero最关键也是最令人诧异的一点，就是其能够在不依赖于外部先验知识的情况下，在棋盘类游戏中获得超越人类的表现。AlphaZero通过自我博弈汲取经验知识来不断精通游戏。AlphaZero是最新的精简升级版（不再局限于国际象棋和围棋），它的上一个版本是AlphaGo Zero，下面是AlphaGo的族谱。

1.AlphaGo族谱：

DeepMind版本 ------时间 --------战胜 --------等级分
AlphaGo Fan --------2015-10 ----樊麾 --------3100+
AlphaGo Lee --------2016-03 ----李世石 -----3600+
AlphaGo Master ----2017-01 ----顶尖s -------5000-
AlphaGo Ke ----------2017-05 ----柯洁 --------5000-
AlphaGo Zero --------2017-10 ----自我 --------5000+
AlphaZero -------------2017-12 ----自我 --------5000+

2.Alpha家族成长之路

Alpha家族系列出自DeepMind公司，这家公司是2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼创立的。在2014年，DeepMind荣获了剑桥大学计算机实验室的“年度公司”奖项。2014年1月26日，Google宣布收购DeepMind科技，收购的价格大概为4亿美元。

显然，DeepMind真正被全球熟知是在第一次人机大战之后，从2016年的那场对弈之后，DeepMind旗下的围棋AI就开始了超神之路。

2016年1月27日，AlphaGo在没有任何让子的情况下，以5：0完胜欧洲围棋冠军、职业二段选手樊麾。在围棋人工智能领域，实现了一次史无前例的突破。计算机程序能在不让子的情况下，在完整的围棋竞技中击败专业选手，这是第一次。

2016年3月，阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战，以4比1的总比分获胜，举世哗然，人工智能概念开始被大众熟知。

2016年末2017年初，该程序在中国棋类网站上以“大师”（Master）为注册账号与中日韩数十位围棋高手进行快棋对决，连续60局无一败绩；（下图）

2017年5月，在中国乌镇围棋峰会上，阿尔法围棋以3比0的总比分战胜排名世界第一的世界围棋冠军柯洁（下图）。

在这次围棋峰会期间的2017年5月26日，阿尔法围棋还战胜了由陈耀烨、唐韦星、周睿羊、时越、芈昱廷五位世界冠军组成的围棋团队。在柯洁与阿尔法围棋的人机大战之后，阿尔法围棋团队宣布阿尔法围棋将不再参加围棋比赛。

2017年10月18日，DeepMind团队公布了最强版AlphaGo ，代号AlphaGo Zero。它的独门秘籍是“自学成才”。而且，是从一张白纸开始，零基础学习，在短短3天内，成为顶级高手。经过短短3天的自我训练，AlphaGo Zero就强势打败了此前战胜李世石的旧版AlphaGo，战绩是100：0。

2017年12月5日，AlphaGo Zero迎来升级，这个被称为AlphaZero的程序在三天内自学了三种不同的棋类游戏，包括国际象棋、围棋和日本的将棋，无需人工干预。在AlphaZero之外，DeepMind在医疗领域还打造了一个名为AlphaFold的AI系统，它能够应对当今生物学中最大的挑战之一：模拟蛋白质的形状。

2018年12月，AlphaGo Zero登上《科学》杂志封面，完整论文首次公开。

三、解读AlphaZero：

1.一种人类从未见过的智慧

（参考“电子发烧友”，并纠正了一些文字错误，原文将《科学》误写为《自然》）

在围棋上打败天下无敌手之后，DeepMind旗下的Alpha家族开始深入探究所有棋类，其中就包括国际象棋、日本将棋。

2018年12月初，在AlphaZero诞生一周年之际，《科学》杂志以封面文发布了AlphaZero经过同行审议的完整论文，Deepmind创始人兼CEO哈萨比斯亲自执笔了这一论文。

AlphaGo Zero发布于2017年10月，AlphaZero发布于2017年12月，是前者的精简升级版；而AlphaGo Zero真正受到重视是在2018年12月初发布在《科学》杂志上的论文之后。论文显示，AlphaGo Zero在三天内自学了三种不同的棋类游戏，包括国际象棋、围棋和日本将棋，而且无需人工干预。这一成果震惊了国际象棋界，几个小时内，AlphaGo Zero就成为了世界上最好的棋类玩家。

众所周知，在国际象棋方面，IBM的深蓝在20年前就打败了国际象棋大师，而后续的Stockfish和Komodo这些国际象棋程序也早已独霸国际象棋世界。在AlphaGo Zero发布之后，很多人质疑了其在国际象棋领域的价值。而本次的完整论文，对一些人认为机器算法下国际象棋没有价值的论调提出了几个措辞颇为严厉的批评。这是因为，在过去的12个月里，AlphaZero清楚展示了人类从未见过的一种智慧。

2.深蓝、Stockfish和Komodo虽然能赢人类，但不能真正理解棋局

在过去的二十年里，用机器算法下国际象棋已经取得了很大进步。1997年，IBM公司的国际象棋程序“深蓝”（Deep Blue）在一场六局的比赛中击败了当时的人类世界冠军卡斯帕罗夫（Garry Kasparov）。现在看来，这一成就并不神秘。深蓝每秒可以计算2亿个位置。它从不疲倦，从不在计算中出错，也从不会忘记片刻之前的想法。（下图为“深蓝”大战卡斯帕罗夫）

无论结果是好是坏，“深蓝”都像一台真正的机器，粗暴而物质化。它的计算能力远超过卡斯帕罗夫，但却无法真正从思维上超越他。在第一局的比赛中，深蓝贪婪地接受了卡斯帕罗夫用车换一名主教的牺牲，却在16步之后输了比赛。现在，诸如Stockfish和Komodo等当前世界上最强的国际象棋程序仍然在以这种方式下棋。它们喜欢吃掉对手的棋子；它们防守像钢铁一样强悍。但是，尽管这些国际象棋程序要比任何人类棋手强大得多，但并没有真正理解棋局本身的意义。

经过几十年的发展，人类大师关于棋类游戏的经验都被作为复杂的评估工具编进程序中，表明在下棋中该寻求什么样的有利位置以及避免陷入什么样的不利境地。比如，王的安全性，棋子的活动、兵形、中心控制，以及如何平衡利弊。但以往很多国际象棋程序却天生无视这些原则，给人留下的印象是野蛮粗暴的，这些程序速度快得惊人，但却完全缺乏洞察力。

3.AlphaGo Zero不仅打败了人类和所有程序，还拥有洞察力

所有这些都随着机器学习的兴起而改变。AlphaZero通过与自己对弈并根据经验更新神经网络，从而发现了国际象棋的原理，并迅速成为史上最好的棋手。它不仅能够轻而易举地击败所有最强大的人类棋手，还能击败当时的计算机国际象棋世界冠军Stockfish（计算机+程序）。

在与Stockfish进行的100场比赛中，AlphaZero取得28胜72平的好成绩。它没有输掉一场比赛。

最令人不可思议的是，AlphaZero似乎表达出一种天然的洞察力。它具备浪漫而富有攻击性的风格，以一种直观而优美的方式发挥着电脑所没有的作用。它会玩花招，冒险。在其中几局中，它使Stockfish瘫痪并玩弄它。当AlphaZero在第10局进行进攻时，它把自己的皇后佯退到棋盘的角落里，远离Stockfish的国王。通常来说，这并不是攻击皇后应该被放置的地方。

然而，这种奇怪的撤退行为充满了恶意，不管Stockfish如何应对，它都注定要失败。经过数十亿次残酷的计算后，AlphaZero几乎是在等待；Stockfish意识到，自己的处境是多么无望，就像一头被击败的公牛面对斗牛士一样平静落败。大师们从未见过这样的机器。AlphaZero拥有精湛的技艺，同时也拥有机器的力量。这是人类第一次瞥见一种令人敬畏的新型智能。

很明显，AlphaZero获胜靠的是更聪明的思维，而不是更快的思维。它每秒只计算6万个位置，而Stockfish会计算6千万个。它更明智，知道该思考什么，该忽略什么。卡斯帕罗夫在《科学》杂志文章附带的一篇评论中写道，AlphaZero通过自主发现国际象棋的原理，开发出一种“反映游戏真相”的玩法，而不是“程序员式的优先级和偏见”。

4.除了棋类，AlphaZero还能做什么？

现在的问题是，机器学习能否帮助人类发现所关心问题的真相？比如像癌症和意识、免疫系统之谜、基因组之谜等科学和医学尚未解决的重大问题。

早期迹象令人鼓舞。去年8月份，《自然医学》上的两篇文章探讨了机器学习如何应用于医学诊断。在一项研究中，DeepMind研究人员与伦敦莫尔菲尔德眼科医院（Moorfields Eye Hospital）的临床医生合作，开发出一种深度学习算法，可以准确地对各种视网膜病变进行分类。

另一篇文章也涉及一种机器学习算法，其能够确定急诊室病人的CT扫描是否显现出中风、颅内出血或其他重要神经疾病的迹象。对于中风患者来说，每一分钟都很重要；治疗耽误的时间越长，结果就越糟。新算法的准确性堪比人类专家，而且比人类专家快150倍。一个更快的诊断有助于医生对最紧急病例进行快速分类，并由人类放射科医生进行复查。

然而令人沮丧的是，机器学习算法还无法清晰表达它们的想法。我们不知道它们如何得出结论，所以也就无从确定能否信任机器。AlphaZero似乎已经发现了一些有关国际象棋的重要原则，但它无法与我们分享这种洞察力。作为人类，我们想要的不仅仅是答案，我们想要的是洞察力。从现在起，这将成为我们与电脑互动交流的开始。

事实上，这一情况在数学领域中早有耳闻。四色映射定理就是这样一个长期存在的数学问题。该定理指出在一定的合理约束条件下，有关相邻国家的任何地图都可以只使用四种颜色进行着色，这样相邻两个国家的颜色就不会相同。

虽然人们最终在计算机帮助下于1977年证明了四色映射定理，但是没有人能够检验论证中的所有步骤。从那以后，这个定理的证明得到了验证和简化，但仍有一些部分需要进行蛮力计算。这种发展使许多数学家感到恼火。他们不需要确认四色定理是正确的，但他们想知道为什么这是真的，但是证明没有帮助。

5.畅想未来：通用算法何时到来？

但是设想有一天，也许就在不久的将来，AlphaZero已经发展成为一种更通用的解决问题算法，其将拥有至高无上的洞察力，它能够拿出漂亮的证据，就像AlphaZero与Stockfish对弈时一样优雅，而且每一个证明都会揭示为什么定理是正确的。

对于人类数学家和科学家来说，这一天将标志着一个新时代的到来。机器的速度越来越快，相比之下人类神经元却以毫秒级的速度缓慢运转，我们再也跟不上机器的理解速度，人类洞察力的黎明可能很快就会变成黄昏。

无论是基因调控或癌症，还是免疫系统的编排，抑或是亚原子粒子的运动，其中或许还存在有待于发现的更深层模式。假设这些模式需要超越人类的更高智能来预测，而AlphaZero的继任者又能够识别并理解它们，那么在我们人类看来算法就像是一个神谕。

或许未来，我们不再明白为什么计算机的结论总是正确的，但我们可以通过实验和观察来检验它的计算和预测。科学将把我们的角色降低到旁观者的角色，在惊奇和困惑中目瞪口呆。

也许最终我们不再纠结于人类自身关于洞察力的匮乏。毕竟机器算法将能够治愈我们所有的疾病，解决我们所有的科学问题，并让我们所有的一切顺利前行。在我们作为智人存在的最初30万年时间里，我们在没有多少洞察力的情况下一样生存得相当好。我们将自豪地回忆起人类洞察力的黄金时代，这段几千年的辉煌插曲就发生在我们不理解的过去和我们不可思议的未来之间。

四、AlphaGo Zero的启示

AlphaGo Zero既然只依靠自身"双手互搏"，而不需借鉴人类智能就能产生机器智能，猜想必然有其独特之处。其自我对战的棋谱是其智能（或叫经验）的来源，但许多围棋高手看了都直呼看不懂，韩国国家队也开始在训练中参考AlphaGo Zero的走法。如果我们从下棋或技术以外的角度去理解AI呢，能从中悟出点什么吗？

1.人类智能和机器智能是否都是来自概率统计？

神经网络算法其实是一种概率算法，而我们所依赖的整个世界也是建立在微观粒子的随机性之上；或许所谓智能，其实就是一种建立在随机原理之上的数学运算，从这个意义上进一步思考，不难得出机器智能必将超越人类智能的结论！

但就AlphaZero来说，目前还主要是在棋类领域表现优秀，最终能否解决人类关心的重大问题实在不好说。

由于这个想法，我从网上找到了两局GIF动图棋谱，方便稍有围棋基础的读者借鉴，可从中感受一下机器智能到底不同在哪里。

2.AlphaGo Zero自我对战棋谱：

2017年10月19日凌晨，DeepMind公布的最新版AlphaGo Zero自我对战棋谱，以下就是从中选取的两局：执白/执黑各一局。
（动图来自“棋牌新闻”）

第一局（AlphaGoZero执白）

AlphaGoZero执白VSAlphaGoZero(001-052)：

AlphaGoZero执白VSAlphaGoZero(051-102)：

AlphaGoZero执白VSAlphaGoZero(101-152)：

AlphaGoZero执白VSAlphaGoZero(151-202)：

AlphaGoZero执白VSAlphaGoZero(201-252)：

AlphaGoZero执白VSAlphaGoZero(251-264)：

AlphaGoZero执白VSAlphaGoZero(全谱)：

AlphaGoZero执白中盘胜AlphaGoZero：

第二局（AlphaGoZero执黑）

AlphaGoZero执黑VSAlphaGoZero(001-052)：

AlphaGoZero执黑VSAlphaGoZero(051-102)：

AlphaGoZero执黑VSAlphaGoZero(101-152)：

AlphaGoZero执黑VSAlphaGoZero(151-202)：

AlphaGoZero执黑VSAlphaGoZero(201-252)：

AlphaGoZero执黑VSAlphaGoZero(251-302)：

AlphaGoZero执黑VSAlphaGoZero(301-352)：

AlphaGoZero执黑VSAlphaGoZero(351-402)：

AlphaGoZero执黑VSAlphaGoZero(401-452)：

AlphaGoZero执黑VSAlphaGoZero(451-469)：

AlphaGoZero执黑VSAlphaGoZero(全谱)：

AlphaGoZero执黑中盘胜AlphaGoZero：

AlphaZero：一种人类从未见过的智慧相关推荐

你从未见过的“地狱级”烂项目
作者 | 欧剃来源 | projectfailures.wordpress.com/ 你见过最烂的项目,撑了多长时间才完蛋?六个月?一年? 今天介绍的这个奇葩项目,不但一开始就烂得透透的,还硬撑了 ...
从未见过的堂兄杀了人，你的DNA是关键证据
大数据文摘出品作者:宋欣仪当你将自己的DNA数据上传到互联网时,你等于是把自己和所有亲属置于执法部门的监督之下. 今年三月,一位华盛顿州温哥华的普通妇女布兰迪·詹宁斯意外得知,她的DNA数据帮助爱 ...
深度学习环境搭建（从卸载CUDA到安装，以及Pytorch与torchvision的安装。你从未见过的全有版本）
深度学习环境搭建(从卸载CUDA到安装,以及Pytorch与torchvision的安装.你从未见过的全有版本) 先来点头疼的:在深度学习的过程中,环境搭建是必须要经过的一个关卡,由于版本对应麻烦,很 ...
英语演讲 | 清华大学留学生伊瓦娜2020年毕业演讲：我从未见过任何一个国家像中国这样
Professors, fellow graduates, friends, ladies and gentlemen, 尊敬的各位老师.各位毕业生.各位朋友们,女士们.先生们! It is an h ...
方块盒子怎么打开java_我的世界：MC你从未见过的4大“隐形”方块，获取方法竟这么简单？迷你：藏得真深！...
<我的世界>我的世界之中,充满了各种隐形方块,因为隐形的特性,极少人知道MC"隐形方块"的秘密!所以今天我们就来盘点一下你从未见过的MC4大"隐形" ...
面试那点小事，你从未见过的spring boot面试集锦（附详细答案）
一, 什么是spring boot? 多年来,随着新功能的增加,spring变得越来越复杂.只需访问页面https://spring.io/projects,我们将看到所有在应用程序中使用的不同功能的 ...
重磅 | 一场你从未见过的数据中心盛会
DCD>上海国际峰会你还不知道?! 来来来~~~ 小编给你科普一下这是一场全球顶尖的数据中心峰会全世界第二高楼 - 上海中心作为举办地 1500+到场专家学者 40+业内顶级赞助商 50+ ...
你从未见过的 HTML5 动画效果
HTML5 的 Canvas 对象将改变 JavaScript 的使命,使之成为 HTML5 下强大的动画脚本编写工具.本文介绍了 8 个你从未见过的,基于 HTML5 Canvas 和 JavaSc ...
计算机发展历程结绳记事,从结绳记事到竹简纸张，从计算机存储到光盘刻录，人类从未停止______...
[导读]华图河南人事考试网同步华图教育发布:从结绳记事到竹简纸张,从计算机存储到光盘刻录,人类从未停止______,详细信息请阅读下文!如有疑问请加[交流群汇总],更多资讯请关注河南华图微信公众号(h ...

AlphaZero：一种人类从未见过的智慧