AlphaGo到底是怎么下棋的?

在一局围棋中,平均每一步的下法大约有200种可能。棋盘上可能出现的局面总数到了远大于宇宙中原子总数的地步。因此,通过暴力穷举手段预测所有的可能情况并从中筛选中最优势走法的思路,并不适用于围棋AI。

围棋棋盘上出现的可能局面数远大于宇宙中的原子数量。图片来源:Deepmind

AlphaGo选择了别的下棋方式。支撑AlphaGo提高棋力、打败人类选手的“秘诀” 有三个:深度神经网络、监督/强化学习、蒙特卡罗树搜索

深度神经网络是包含超过一个认知层的计算机神经网络。对于人工智能而言,世界是被用数字的方式呈现的。人们将人工智能设计出不同的“层”,来解决不同层级的认知任务这种具备许多“层”的神经网络,被称为深度神经网络。AlphaGo包含两种深度神经网络:价值网络和策略网络。价值网络使得AlphaGo能够明晰局势的判断,左右全局“战略”,抛弃不合适的路线;策略网络使得AlphaGo能够优化每一步落子,左右局部“战术”,减少失误。两者结合在一起,使得AlphaGo不需要过于庞大的计算也能够走出精妙的棋局,就像人类一样。

监督学习和强化学习是机器学习方式的不同种类。监督学习是指机器通过人类输入的信息进行学习,而加强学习是指机器自身收集环境中的相关信息作出判断,并综合成自己的“经验”。在初始阶段,AlphaGo收集研究者输入的大量棋局数据,学习人类棋手的下法,形成自己独特的判断方式。之后,在不计其数的自己与自己模拟对弈,以及每一次与人类棋手对弈中,AlphaGo都能并根据结果来总结并生成新的范式,实现自我提高。

最后,蒙特卡洛树是一种搜索算法。AI在利用它进行决策判断时,会从根结点开始不断选择分支子结点,通过不断的决策使得游戏局势向AI预测的最优点移动,直到模拟游戏胜利。AI每一次的选择都会同时产生多个可能性,它会进行仿真运算,推断出可能的结果再做出决定。

AlphaGo中的蒙特卡罗树搜索流程。图片来源:Nature

除了AlphaGo,围棋AI哪家强?

依赖于上述三大“武器”,AlphaGo成为了目前人类制造出来的最为优秀的围棋AI。连败人类棋手的胜绩就是明证。但除了它之外,世界各国也开发过不同的游戏AI,向围棋这一智力上的“绝对领域”发起挑战。

法国研发的Crazy Stone(狂石),日本研发的Zen(天顶)都曾是这一领域的翘楚。它们都曾经给人类造成过威胁,但从未像AlphaGo一样将最顶级的人类棋手打的一败涂地。在AlphaGo一举走红之后,人工智能界对围棋AI的研发热情空前高涨。

Zen的改良版DeepZenGO在2017年3月参加了日本举办的“世界最强棋手决定战”,先后负于中国棋手芈昱廷九段和韩国棋手朴廷桓九段后,战胜日本棋手井山裕太九段,取得第三名的成绩。

由中国腾讯公司研发的围棋AI“绝艺”(Fine Art)于2016年3月后完成,同年8月23日首次战胜职业棋手。11月2日,绝艺战胜世界冠军江维杰九段。11月19日,绝艺与柯洁九段交手,取得了一胜一负的成绩。如今,绝艺对世界冠军和全国冠军的胜率,已经能够维持在90%以上了。

作者:S.西尔维希耶
链接:https://www.guokr.com/article/442174/
来源:果壳
本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系sns@guokr.com

AlphaGo到底是怎么下棋的?相关推荐

  1. 为何谷歌围棋AI AlphaGo可能会把李世石击溃

    /* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 谷歌DeepMind开发的人工智能围棋程序AlphaGo以5:0的压倒性优势击败了欧洲围棋冠军.专业二 ...

  2. AlphaGo怎么下围棋的

    [原创]AlphaGo怎么下围棋的 最近DeepMind团队(google旗下)的AlphaGo(一个围棋的AI)以4:1战胜顶尖人类职业棋手李世石.她到底是怎么下棋的? AlphaGo在面对当前棋局 ...

  3. AlphaGo对战李世石谁能赢?两万字长文深挖围棋AI技术(二)

    编者按:李世石与Google Deepmind AlphaGo对战在即,围棋界和人工智能界对结果各有预测,但对于程序员来说,了解AlphaGo的技术路线可能更有意思.本文来自出门问问NLP工程师李理, ...

  4. 曲率已驱动了头发——深度分析谷歌AlphaGo击败职业棋手

    这篇是我们自开设星际随笔以来写得最长的一篇.我们也花了不少力气.包括把那5盘棋各打了两遍的谱,包括从Nature官网上把那篇谷歌的报告花了200元下载下来研究它的算法(后来发现谷 歌网站上可以免费下载 ...

  5. 强化学习笔记:AlphaGo(AlphaZero) ,蒙特卡洛树搜索(MCTS)

    1 AlphaZero的状态 围棋的棋盘是 19 × 19 的网格,可以在两条线交叉的地方放置棋子,一共有 361 个可以放置棋子的位置,因此动作空间是 A = {1,  · · , 361}.比如动 ...

  6. 人机大战之AlphaGo的硬件配置和算法研究

    AlphaGo的硬件配置 最近AlphaGo与李世石的比赛如火如荼,关于第四盘李世石神之一手不在我们的讨论范围之内.我们重点讨论下AlphaGo的硬件配置: AlphaGo有多个版本,其中最强的是分布 ...

  7. AlphaGo:黑色方碑?

    http://geek.csdn.net/news/detail/61218 投稿作者:张夏天 编者按: AlphaGo与李世石对战的第四局,李世石终于扳回一局.这场人机大战到底意味着什么?人类已经打 ...

  8. 最终一战柯洁再负AlphaGo,此后再无围棋人机大战

    本文来自AI新媒体量子位(QbitAI) 5月27日,人机大战第三场,天气晴朗. 经过209手的博弈,主动要求执白的柯洁再次负于AlphaGo.在这场人机大战中,世界围棋第一人0:3完败于围棋人工智能 ...

  9. 互联网+双“高新”时代

    前言: 说起移动互联网,想必大家都不陌生,它在人们进步的历史长河中,是一个伟大创举,是一次划时代跨越,是一次发展的里程碑,它带给人类社会的影响,已经远远超过了俩次工业革命,它小到改变了我们的生活方式, ...

最新文章

  1. 12,缓冲运动。匀速运动停止条件
  2. MOS管好坏的判别方法
  3. hbase启动后在log中出现cannot get log writer
  4. 如何使用puttygen基于pem文件生成可供登录的ppk文件
  5. 受限玻尔兹曼机准备知识——MCMC方法和Gibbs采样
  6. python中的运算符_Python 中的神秘运算符
  7. 入门机器学习(九)--应用机器学习的建议
  8. java –cp_Java设置–用Java设置
  9. 搭建rtmp推流服务器
  10. wap2.0技巧篇(转)
  11. C# Winfrom MQTT 客户端与服务器【代码】
  12. 35张动图:关于机房空调水冷系统和风冷系统
  13. ADS内Smith Chart Utility消失了Palette如何找回
  14. 统计学名词解释 —— 3. 「简单随机样本」、「联合分布」与「联合密度」
  15. 星起航:短视频营销之场景化
  16. 分享30个独特的 404 错误页面设计模板
  17. [nRF51822] 1、一个简单的nRF51822驱动的天马4线SPI-1.77寸LCD彩屏DEMO
  18. JScript 方法
  19. Java项目自动生成接口文档
  20. MySQL索引优化是什么意思?底层原理是什么?

热门文章

  1. LeetCode 222. Count Complete Tree Nodes 题解——Java
  2. C#Winform中DataGridView控件根据鼠标左右键获取单元格值或者行列
  3. 每一个程序员都应有的网址大全
  4. 电子商务 深度利用B2B网站
  5. 微型计算机的输入设备教案,高中信息技术教案设计:微型计算机的输入 输入设备1.doc...
  6. 多功能无线串口,空旷条件下传输距离可以达到1000米
  7. 原生js + 后端nodejs实现邮箱信封表白程序
  8. win10如何开启ClearType文本
  9. UIT创新科完成四川天翼“全球眼”定制化存储
  10. MATLAB与STK互联47:卫星在轨寿命分析(lifetime)