AlphaZero如何学习国际象棋的?

DeepMind 和 Google Brain 研究人员以及前世界国际象棋冠军Vladimir Kramnik通过概念探索、行为分析和对其激活的检查，探索了人类知识是如何获得的，以及国际象棋概念如何在 AlphaZero 神经网络中表示。

AlphaZero 在短短四个小时内掌握了所有国际象棋专业知识。 AlphaZero 不仅要颠覆国际象棋世界，还要颠覆整个世界战略决策领域。 AlphaZero 胜利者代表了另一个重要方面的突破：这是一种可以推广到其他学习任务的算法。

众所周知，深度神经网络可以学习人类无法理解的不透明、无法解释的表示。因此从科学和实践的角度来看，探索像AlphaZero这样自学成才的超人类神经网络代理实际上在学习什么以及如何学习，才是最重要的。

在新论文***Acquisition of Chess Knowledge in AlphaZero***中，DeepMind 和 Google Brain 研究人员以及前世界国际象棋冠军Vladimir Kramnik探索了 AlphaZero 如何以及在多大程度上获取人类知识，以及如何在其网络模型中表示国际象棋概念。他们通过全面的概念探索、行为分析和对 AlphaZero 激活的检查来做到这一点。

像AlphaZero这样复杂的神经网络代理能学到什么?这个问题既有科学意义又有实践意义。如果强神经网络的表示与人类的概念没有相似之处，我们理解对其决策的解释的能力将受到限制，最终也会限制在神经网络可解释性方面的成就。在这项工作中，论文证明了AlphaZero神经网络在下棋时可以获得人类知识。通过探索广泛的人类国际象棋概念，论文展示了这些概念在如何在AlphaZero网络中表示。还提供专注于开局的行为分析，包括定性分析国际象棋大师Vladimir Kramnik。最后，对AlphaZero表示的底层细节进行了初步查看，并将结果的行为分析和表示分析放到网上。

研究人员的研究前提是：如果像 AlphaZero 这样的强神经网络的表示与人类概念没有相似之处，我们理解其决策的解释的能力将受到限制，最终限制了我们可以通过神经网络可解释性实现的目标。

该团队的研究旨在提高对以下方面的理解：

人类对于知识的编码
如何在训练中获取知识
通过编码国际象棋概念重新解释价值函数
AlphaZero 的进化与人类历史的比较
AlphaZero 的棋子下一步移动候选策略的演变
无监督概念发现和证明

该团队从大型输入数据集的网络激活中检测人类概念，在 AlphaZero 的国际象棋自我对弈训练过程中，在每个块和多个检查点上探测每个概念。这使他们能够建立一张图片，了解在训练期间学习的内容以及计算网络的位置。

用于选择 Stockfish 8 和自定义概念的时间地点图。下图，我们将一个 ResNet“块”算作一个层。

该团队使用稀疏线性探测方法检查国际象棋知识是如何逐渐获取和表示的，这样可以确定 AlphaZero 如何表示广泛的人类国际象棋概念。他们通过说明在训练时间学习什么概念以及在“什么时间什么地点”图中的网络来可视化这种概念知识的获取。

在研究内部表征是如何随着时间变化的之后，该团队接着研究了这些变化的表征是如何导致行为的变化的，方法是测量一组指定的棋位的移动概率的变化;通过将自我游戏训练中的进化与人类顶级游戏中移动选择的进化进行比较。

最后，考虑到已经建立的用于预测人类概念的AlphaZero的激活，通过使用非负矩阵分解(NMF)来直接查看这些激活，将AlphaZero的表示分解为多个因素，以获得AlphaZero网络正在计算的内容的补充视图。

下图确实是我们看到的，它将人类历史与AlphaZero在训练期间的历史偏好进行了比较。

如果训练不同版本的AlphaZero，得到的棋手可能会有不同的偏好。有趣的是，这意味着不存在“独一无二”的优秀棋手!下表显示了四种不同AlphaZero神经网络的偏好:

上表的先验是在 100 万次训练步骤后给出的。有时 AlphaZero 收敛成为喜欢 3…a6 的玩家，有时 AlphaZero 收敛成为喜欢用 3…Nf6 的玩家。

但是AlphaZero到底是怎么想的呢?AlphaZero如何评估位置?AlphaZero的神经网络评估函数没有Stockfish的评估函数那样的结构层次:Stockfish将一个位置分解为一系列概念(例如king safety, mobility, and material)，并将这些概念结合起来，以达到对位置的整体评估。而AlphaZero输出的值函数范围从-1(一定会失败)到+1(一定会胜利)，没有明确的中间步骤。虽然神经网络评估函数在计算一些东西但并不清楚是什么。为了了解正在被计算的内容，DeepMind和谷歌Brain的研究人员使用Stockfish概念值来尝试预测AlphaZero的位置评估函数(类似于通过预测游戏结果获得棋子值的方式)。

这种方法允许研究人员估算AlphaZero在某个位置的值，以及这种评估是如何随着自训练的进展而发展的。如上图所示，material 在AlphaZero的评估中较早出现为重要因素，但在后期的训练中，随着king safety等更复杂的概念的重要性上升，material （子力）的重要性逐渐下降。这种进化与人类惊人地相似:在学习国际象棋的早期过程中，我们只是通过棋子子力来评估位置，然后随着我们了解的更多对位置的其他方面有了更丰富的理解。

该团队对 AlphaZero 神经网络从初始化到训练结束的进程的研究得出了以下见解：

1）在 AlphaZero 网络中可以找到许多人类概念；

2）通过“what-when-where plots”呈现训练过程中知识获取的详细画面；

3）概念的使用和相对概念价值随着时间的推移而演变，AlphaZero 最初主要关注子力，更复杂和微妙的概念在训练中才出现作为价值函数的重要预测指标；

与历史人类游戏的比较表明，人类游戏的发展方式存在显着差异，但在 AlphaZero 的自我游戏策略的演变方面也有惊人的相似之处。

论文地址：https://arxiv.org/abs/2111.09259

ro 的自我游戏策略的演变方面也有惊人的相似之处。

论文地址：https://arxiv.org/abs/2111.09259

AlphaZero如何学习国际象棋的?相关推荐

AlphaZero炼成最强通用棋类AI，DeepMind强化学习算法8小时完爆人类棋类游戏
[新智元导读]或许"智能爆炸"不会发生,但永远不要低估人工智能的发展.推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己,也刷新了世人对人工 ...
【重磅】AlphaZero炼成最强通用棋类AI，DeepMind强化学习算法8小时完爆人类棋
原文链接:点击打开链接摘要: 或许"智能爆炸"不会发生,但永远不要低估人工智能的发展.推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己, ...
【重磅】AlphaZero炼成最强通用棋类AI，DeepMind强化学习算法8小时完爆人类棋类游戏...
2019独角兽企业重金招聘Python工程师标准>>> 世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是Dee ...
【重磅】AlphaZero炼成最强通用棋类AI，DeepMind强化学习算法8小时完爆人类棋类游戏
世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是DeepMind再次迅速超越了他们自己,超越了我们剩下所有人的想象. 12月5日 ...
智源社区AI周刊No.106：智源提出中英双语生成模型AltDiffusion；DeepMind等破解AlphaZero学习机理...
汇聚每周AI热点,不错过重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 破解数学难题已成为AI研究的一个主战场数学被认为是破解智能形成的机制机理,了解神经网络的理论基础等方面的重要工具.近日,MI ...
下围棋so easy ，AlphaZero开始玩量子计算！
来源:新智元本文约3073字,建议阅读9分钟. 本文介绍丹麦和德国的研究人员使用Deepmind的AlphaZero 开发了一种混合算法,将AlphaZero强大的搜索能力与量子计算有机结合起来,参 ...
超越AlphaZero，DeepMind新算法MuZero登顶Nature | AI日报
超越AlphaZero,DeepMind新算法MuZero登顶Nature 2016年,DeepMind 推出了第一个人工智能程序 AlphaGo,在围棋游戏中击败人类.两年后,它的继任者AlphaZ ...
DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！
来源:新智元本文约2400字,建议阅读10+分钟 AlphaZero下棋和人类下棋究竟有什么区别?是否掌握了一些人类未曾了解过的知识? [ 导读 ] AlphaZero下棋和人类下棋究竟有什么区别? ...
独家 | 浅谈强化学习原理（附代码链接）
作者:Michel Kana 翻译:王琦校对:王雨桐本文约4900字,建议阅读15分钟. 本文介绍了强化学习的基本原理,并通过代码实例来讲解如何找到最优策略. Google在2017年年底发布了A ...

AlphaZero如何学习国际象棋的?

AlphaZero如何学习国际象棋的?相关推荐

最新文章

热门文章