系列文章丨AlphaGo Zero, 对普通人来说意味着什么?
10 月 19 日凌晨,谷歌人工智能团队 DeepMind 在《自然》杂志上发表了一篇论文,描述了新一款围棋程序 AlphaGo Zero 从最开始的「臭棋篓子」到业余棋手,再成长为一个能够考量每一步棋战略意义的围棋大师的过程,而这样的飞跃仅花费了几天的时间。
在最初的 10 个小时里,AlphaGo Zero 发现了一个定式,不久之后,它又掌握了一些特定的棋法。三天后,在经过数百万盘的自我对抗之后,它的棋艺可以超越人类积累数千年的水平,并以 100 比 0 的成绩击败李世石版本的 AlphaGo。
AlphaGo Zero 以 100 比 0 的成绩击败李世乭版本的 AlphaGo
有趣的是,程序在发现某些简单的棋步之前就已经掌握了一些更为复杂的走法,例如人类棋手通常在早期就能掌握的战术「征」。
就是这样一款程序,被很多圈内人誉为人工智能领域的「重大进步」,因为输入游戏规则之后,它可以在没有人帮助的情况下,从零开始掌握这门古老的棋盘游戏。
旧版 AlphaGo 的训练需要成千上万份人类对弈的棋局数据,但 AlphaGo Zero 可以在没有这些帮助下完成学习。初始阶段,它会把棋子随机地放在棋盘上,但发现获胜策略后,它能迅速优化下棋的方式。
「它比以前的方法更强大,因为不再需要历史的棋局数据。可以说,我们已经突破了人类认知的障碍,因为它本身能够创造知识。」AlphaGo 的首席研究员 David Silver 说。
「AlphaGo Zero 发现了一些非常棒的下棋定式,然后超越这些定式并找到一些更加有力的方法。」DeepMind 的首席执行官 Demis Hassabis 表示,「你可以发现,它能重新发现人类几千年来积累的知识。」
因此,没有意外,这篇发表于 Nature 的论文在今天凌晨一公布,除了照例轰动技术圈,早在 5 月与 AlphaGo 交过手并惜败的柯洁也发来了「感慨式贺电」:
而关心 AlphaGo Zero 的非技术宅与吃瓜网友们的画风,基本都是这样的:
也许现在,在看过机器之心纯技术干货的解析之后,你会对科学家们对 AlphaGo Zero 的看法,以及 AlphaGo 在围棋以外可以大展身手的领域与可能性更感兴趣。
从零开始,这是可以进行「自我学习」的 “围棋九段”AlphaGo
相比于 AlphaGo Zero,人类千百年前对围棋的探索经验,只是一个「局部最优解」。
AlphaGo Zero 程序的核心是一组神经元,这些神经元连接在一起组成了一个人工神经网络。在棋局的每一回合中,神经网络都会查看棋盘上棋子所处的位置,然后计算出棋子下一步可能移动的方向以及相应的获胜概率。每盘棋局结束之后,神经网络都会进行更新,从而在下一次对弈中具备更强大的实力。
「AlphaGo Zero 远胜于此前的版本,不过它只是一个简单地程序,能够在训练数据更少、计算力更小的情况下更快地掌控棋局。如果给它更多的时间,AlphaGo Zero 也可以自己学习围棋规则」,Silver 这样表示。
David Silver 描述 AlphaGo Zero 是怎样学习下围棋的
而谢菲尔德大学神经科学教授 Eleni Vasilaki 表示,这是一项激动人心的壮举。「这可能意味着,在没有人类专家参与训练的情况下,AlphaGo 能够发现一些绝妙的棋步,在这项比赛中超越人类智能。」不过她也指出,尽管计算机可以在围棋比赛中击败人类,能够实现复杂、精密的计算,但它们在其他任务中可能还并不具备与人类相匹敌的能力。
「在某些人类很容易就可以完成的任务中,人工智能经常会失败。」她说,「就看看那些类人机器人在日常任务中的表现吧,例如行走、跑步和击球。」
卡内基梅隆大学计算机科学家 Tom Mitchell 把 AlphaGo Zero 形容为一项「杰出的工程成就」。他补充说:「它相当于终止了关于人类是否会在围棋中战胜计算机的探讨。我猜答案是不会。但同时它也开启了一个新的篇章,即计算机可以教授人类如何更好地进行对弈。」
这个想法受到美国围棋协会主席 Andy Okun 的认可:「我不知道人们的士气是否会受到计算机变强的影响,不过利用神经网络软件对围棋进行探索也将会是一种乐趣。因为它并不是通过表层理解我们而获得胜利的,而是发现了更加深层、内在的模式。」
让历史归零,这是迈向通用人工智能的 AlphaGo
AlphaGo Zero 让人类围棋的历史经验成为了「Zero」,标志着人类向通用型的人工智能迈出了重要一步。
「对我们来说,AlphaGo 的意义不仅限于围棋对弈领域,这也是我们开发通用算法的重大进步。」DeepMind 的首席执行官 Demis Hassabis 说。
DeepMind 首席执行官 Demis Hassabis
《Nature 自然科研》评论称,AlphaGo Zero 最大的突破是实现了白板理论。与婴儿的学习模式类似,它可以通过不断训练、成长获得知识和智力。这意味着,AlphaGo Zero 的学习模式也可以被应用解决其他现实问题。
从目前来看,大多数 AI 的应用着实「范围有限」,因为它们只能执行一项特定的任务,比如翻译语言或识别人脸。但在许多不同的任务中,通用人工智能都有潜力比人类表现得更好。
不过,它也只能完成那些可以在计算机中完全模拟的问题,而驾驶汽车这类任务就超出了这一范围。
「要得到能够与人类能力相媲美的人工智能,我们还有很长的路要走,」Hassabis 说,「在未来十年中,比较现实的是利用人工智能帮助人类发现新药物、材料以及破解粒子物理学中的奥秘。」
而现在,DeepMind 已经开启了新的尝试。
在伦敦,AlphaGo Zero 正在帮助科学家认识蛋白质折叠,这也有可能给药物研发带来新的进展。「药物研发、量子化学、材料研发…应用在这些领域都是有可能的,或许我们还能研发出常温的超导体。」Hassabis 说,「当我还是一个孩子的时候,在读物理书的时候,就曾想象有一天能够发现超导体,那是一个圣杯。」
不过,DeepMind 表示,新版 AlphaGo 不会像其他项目一样公布代码。外部人员可以参考发布在《自然杂志》上的论文内容。
但是业内人士表示,AlphaGo Zero 的「思路」清晰简洁,很有可能广泛适用于其他领域。
OpenAI 的人工智能研究科学家 Tim Salimans 对媒体表示,简单的、通用的方法在人工智能研究中具有很大的价值,因为通过细微的修改,它就可能解决其他问题。
「我认为,把它称为『突破性进展』一点也不为过。」Salimans 说,「虽然不能直接应用到其他领域,但是,我们可以把它看到是解决其他问题的第一步。」
系列文章丨AlphaGo Zero, 对普通人来说意味着什么?相关推荐
- 系列文章丨AlphaGo Zero为何如此备受瞩目?8位教授的独家讲解
文章来源:AI科技评论 北京时间10月19日凌晨,DeepMind在Nature上发表了名为Mastering the game of Go without human knowledge(不使用人类 ...
- 系列文章丨阿法狗 ZERO为什么这么强之DeepMind讲解
David Silver:Deepmind强化学习组负责人,AlphaGo首席研究员.David Silver1997年毕业于剑桥大学,获得艾迪生威斯利奖.David于2004年在阿尔伯塔大学获得计算 ...
- 系列文章丨阿法狗 ZERO为什么这么强之Nature讲解
阿法狗 ZERO以100:0打败阿法狗 ,引起轰动,论文在Nature发表. 阿法狗 ZERO引起轰动的原因: 1.完全自学,超越人类. 2.发展出超越人类认知的新知识,新策略. 3.能够快速移植到新 ...
- 系列文章(十一)丨边缘计算的安全思考
从文章(二)到文章(十),我们讨论的重点都是边缘计算系统内对用户可直接产生使用价值的功能,涵盖构造.部署.编排.集成.管理.运维.智能加速等话题.本篇讨论的中心是安全,即如何降低风险.应对挑战,响应威 ...
- [转]《零基础入门深度学习》系列文章(教程+代码)
无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作为一个有理想有追求的程序员,不懂深度学习(Deep Learning)这个超热的技术,会不会感觉马上就o ...
- 系列文章|OKR与敏捷(三):赋予团队自主权
OKR与敏捷开发的原理有着相似之处,但已经使用敏捷的团队再用OKR感觉会显得多余.这种误解的根源就在于对这两种模式不够了解,运用得当的情况下,OKR和敏捷可以形成强强联合的效果,他们可以创造出以价值为 ...
- 系列文章|OKR与敏捷(二):实现全栈敏捷
OKR与敏捷开发的原理有着相似之处,但已经使用敏捷的团队再用OKR感觉会显得多余.这种误解的根源就在于对这两种模式不够了解,运用得当的情况下,OKR和敏捷可以形成强强联合的效果,他们可以创造出以价值为 ...
- 系列文章|OKR与敏捷(二):实现全栈敏捷 1
OKR与敏捷开发的原理有着相似之处,但已经使用敏捷的团队再用OKR感觉会显得多余.这种误解的根源就在于对这两种模式不够了解,运用得当的情况下,OKR和敏捷可以形成强强联合的效果,他们可以创造出以价值为 ...
- TiDB 源码阅读系列文章(六)Select 语句概览
在先前的 TiDB 源码阅读系列文章(四) 中,我们介绍了 Insert 语句,想必大家已经了解了 TiDB 是如何写入数据,本篇文章介绍一下 Select 语句是如何执行.相比 Insert,Sel ...
最新文章
- 2. sed执行的流程
- 微信公众号可快速创建“门店小程序” 不用开发
- 【scala】 scala 条件控制 和异常处理(二)
- 3天,把MySQL索引、锁、事务、分库分表撸干净了!
- 《BI那点儿事》数据流转换——排序
- 编写windows 控件需要注意的几个标签属性(Attribute)
- mysql all 授权_mysql给数据库授权 GRANT ALL PRIVILEGES ON
- win7系统服务器错误404,Win7旗舰版系统下无法打开http://localhost出现404错误如何解决...
- 常用的27个Stata命令
- ESX VMware是什么
- 数据库系统SQL编程-02
- 教你用python制作人脸卡通画(附源码)
- python的round函数使用
- ActiveReportsJS3.0 详解 ActiveReportsJS3.X
- 10个提升PPT幻灯片制作效率的方法
- 【GameMaker】分离文件路径、文件名、后缀
- Ubuntu 安装和卸载mysql
- 在WebGL场景中管理多个卡牌对象的实验
- Github标星超级牛,免费又好用的Redis客户端工具!
- 专有网络VPC (产品简介,使用限制)
热门文章
- UBC、谷歌联合Hinton等提出3D点云的无监督胶囊网络,多任务上实现SOTA | AI日报...
- 微博:推动世界的力量(第2版)
- 《深入浅出Ext JS(第2版)》获专家好评
- 全面解读Objective-C语言及Cocoa特性——《Objective-C基础教程》
- Ubuntu下使用Anaconda安装opencv 解决无法读取视频
- 9个value_counts()的小技巧,提高Pandas 数据分析效率
- 吐血整理:24种可视化图表优缺点对比,一图看懂!
- 2020 诺贝尔奖「第一棒」:英美三位科学家摘得桂冠!
- 全奖博士 | 美国康涅狄格大学计算机科学与工程系
- 北京/上海/深圳内推 | 百度视觉技术团队招聘视觉/3D算法工程师