文章来源:AI科技评论

北京时间10月19日凌晨,DeepMind在Nature上发表了名为Mastering the game of Go without human knowledge(不使用人类知识掌握围棋)的论文,在论文中,Deepmind展示了他们强大的新版本围棋程序“AlphaGo Zero”—— 仅经过三天训练,就能以100:0击败此前击败李世石的AlphaGo Lee,经过21天训练,就能达到击败柯洁的AlphaGo Master的水平。

AlphaGo Zero的横空出世又一次引起大众争相讨论和转发,我们也第一时间联系到相关研究领域的教授和同学,与他们聊了聊看到AlphaGo Zero之后的一些思考和启发。

加拿大西蒙弗雷泽大学计算机学院教授、Canada Research Chair裴健第一时间对AI科技评论表达了他的观点,“最近的一系列成就把机器学习这把梯子又加长了很多,现在我们能爬很高的墙了,但这把梯子还是不能把我们带到月球。”

AlphaGo Zero是什么

AlphaGo Zero与原始的AlphaGo版本究竟有什么不同呢?上海交大CS系博士生李泽凡为我们带来了全面解答:

首先是网络输入的不同。在原始的AlphaGo版本中,首先用大量的人类对战棋谱进行输入训练,而AlphaGo Zero单纯地用黑子白子进行输入。

其次是网络设计的不同。AlphaGo的算法将policy网络和value网络,即策略网络和价值网络分开训练。但Alphago Zero将这两个网络联合训练,使得最后表达能力更好。并使用了残差网络模块,使得网络的深度能够得到大幅提升,表达能力更强。

最后,在训练方法上,Alphago Zero在每一步进行自我博弈训练的时候,其对手(陪练)往往设置成跟Alphago Zero在一个水平上的。这样的渐进学习方式也是提升训练效果和效率的因素。

那么,最终决定AlphaGo Zero表现和效率决定性因素具体是哪些呢?

“从论文上看,应该取决于三方面的因素。一是采用了一些改进的强化学习方法,使得学习过程收敛更稳定。二是从零开始学习,使得模型摆脱人类知识的束缚,有可能去探索更优的局部解。三是采用了最新的模型设计,如更深的残差卷积网络,使得优化、计算量和表达能力三方面都有增强。”纽约大学博士生张翔很好地解决了AI科技评论的疑问。

除了张翔,南京大学副教授俞扬博士在看到论文之后也对AI科技评论表示,

AlphaGo Zero的主要改进是在神经网络上使用了ResNet,以及在强化学习中使用了MCTS寻找学习样本标记。由于技术的改进,使得总体的MCTS可以极大简化,测试速度也因此得到了大幅提升。

“围棋经过上千年的传承,虽然不断会有新的突破,但整体上‘赢’的思维或套路可能已经趋于统一。因此,从优化的角度来看,利用人类知识进行学习的机制可能还是会让网络陷入跟人类思维一致的局部最优。但AlphaGo Zero这种从0开始的self-motivated强化学习机制,会使网络尝试各种可能性,打破基于人类知识的固化思维,从而获得更优解。”UIUC(伊利诺伊大学香槟分校) 博士后魏云超如是说道。

清华大学交叉信息研究院博士后王书浩也对AI科技评论表示,这种抛弃人类经验的方法与之前的工作相比,去除了领域知识相关的特征图像提取过程,更加接近于End-to-End的模型训练,能够达到更优的训练效果。

而在今年的ICCV上,UIUC联合培养博士沈志强发表了一篇类似观点的文章:使用预训练(人类知识或者其他大规模数据集)的模型可能会存在bias或者陷入局部极值点,往往得不到最佳的性能,而from scratch的训练(权重随机初始化)因为没有任何先验或者偏见,模型反而可以朝着正确的方向收敛,最后得到更优的性能。

实现AlphaGo Zero难吗?

可以看到,实现AlphaGo Zero算法的关键在之前也有过一些相关研究。这些关键性技术是否超乎了我们的想象范畴?

在与AI科技评论的交流中,张翔表示,这种技术对于学界来说并不新鲜。“对于围棋这样规则和目标可以精确定义的问题,自我比赛过程中通过输赢产生了足够的反馈信号,使得从零开始学习变得可能。”

王书浩则表示,当看到AlphaGo Zero,他非常惊讶。他继续说道,

不是因为这个工作复杂的可怕,而是简单的可怕。整个工作没有使用非常复杂的新算法,而仅仅用了深度强化学习和MCTS搜索,但是就是这样一个简单直接的尝试,得到了超越之前所有AlphaGo版本的“零度阿尔法狗”(AlphaGo Zero)。

“虽然对于学界来说,实现方法并不会使人感到非常惊讶,但目前只有DeepMind有这样的团队,以及领先一整个工程迭代的技术,才能够做这样的研究。”张翔对AI科技评论说道。

沈志强也对AI科技评论表达了类似于张翔的观点:DeepMind团队拥有非常强的工程能力,这点毋庸置疑,他们能够把算法实现过程中的每个细节包括参数设置等都把握的很好。

AlphaGo Zero给我们带来了什么

可以看到,AlphaGo Zero在算法上做的创新并不多,但实现起来却极具技术难度。那么,DeepMind进行这项极具难度的技术研究到底会带给我们什么实际意义呢?在这一点上,大家畅所欲言。

解放人力成本:

这次的成功为人类提供了新的工具。人类可以集中精力在更有创造性的智能任务上,把很多的搜索子任务交给机器完成。裴健教授如此说道。

促进强化学习的发展:

这次的论文中,AlphaGo Zero采用了规划的方法求解学习样本的标记,使得强化学习学得更好,这一思路也许在未来强化学习的发展上有重要作用。

有助于我们摆脱思维定势:

“AlphaGo Zero的这种学习方法以及创新突破告诉我们,应该如何考虑摆脱人类固有的思维和认知来解决一些实际问题,或者说可以考虑让计算机自己来学习解决这些问题的策略。通过算法的自我学习和探索,可能会得到人类意想不到的答案。”沈志强对AI科技评论说道。

更深层的讨论

当然,除了AlphaGo Zero给我们带来的实际意义,也要考虑到当前技术发展的局限性,以及如何带来更有应用价值的成果。

俞扬博士从应用价值的角度提出了相关思考:

DeepMind在AlphaGo Zero里没有使用人类数据和人工特征,主要是为了满足关于通用性的追求,同时也在挑战算法的能力。但是在解决应用问题时,如果能够低成本的获得人类数据,依然能够帮助强化学习系统快速取得较好的结果,这将会极具应用价值。

这次AlphaGo Zero的大热,也让加州大学伯克利分校博士生许华哲展开了对未来的思考。

总结:可以看到,AlphaGo Zero并没有用到很多创新的想法,但给我们带来了很多新的思考,对于学术研究也有其实际意义。不过,目前来讲,这种强化学习的方法想要走向实际应用,还有很长的路要走。

系列文章丨AlphaGo Zero为何如此备受瞩目?8位教授的独家讲解相关推荐

  1. 系列文章丨AlphaGo Zero, 对普通人来说意味着什么?

    10 月 19 日凌晨,谷歌人工智能团队 DeepMind 在<自然>杂志上发表了一篇论文,描述了新一款围棋程序 AlphaGo Zero 从最开始的「臭棋篓子」到业余棋手,再成长为一个能 ...

  2. 系列文章丨阿法狗 ZERO为什么这么强之DeepMind讲解

    David Silver:Deepmind强化学习组负责人,AlphaGo首席研究员.David Silver1997年毕业于剑桥大学,获得艾迪生威斯利奖.David于2004年在阿尔伯塔大学获得计算 ...

  3. 系列文章丨阿法狗 ZERO为什么这么强之Nature讲解

    阿法狗 ZERO以100:0打败阿法狗 ,引起轰动,论文在Nature发表. 阿法狗 ZERO引起轰动的原因: 1.完全自学,超越人类. 2.发展出超越人类认知的新知识,新策略. 3.能够快速移植到新 ...

  4. 系列文章(十一)丨边缘计算的安全思考

    从文章(二)到文章(十),我们讨论的重点都是边缘计算系统内对用户可直接产生使用价值的功能,涵盖构造.部署.编排.集成.管理.运维.智能加速等话题.本篇讨论的中心是安全,即如何降低风险.应对挑战,响应威 ...

  5. 系列教程丨用 Docker 探索开源软件 —— PostgreSQL(一)

    出品丨Docker公司(ID:docker-cn) 编译丨小东 每周一.三.五,与您不见不散! Docker 的一大优点是可以让您快速使用它来试用应用程序,而无需直接在开发人员的计算机上安装它.如果您 ...

  6. 《 FRIDA系列文章 》

    转载:<FRIDA系列文章>github 地址:https://github.com/r0ysue/AndroidSecurityStudy 由 Frida 提供的很棒的 项目.库和工具的 ...

  7. 开发者头条 2016 年度盘点系列文章

    2016 年开发者头条十大获赞最多文章 0. 如果有人问你数据库的原理,叫他看这篇文章 如果你对了解一个数据库感兴趣,但是从未有时间或意愿来刻苦钻研这个内容广泛的课题,你应该喜欢这篇文章. 1. 吐血 ...

  8. [转]《零基础入门深度学习》系列文章(教程+代码)

    无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作为一个有理想有追求的程序员,不懂深度学习(Deep Learning)这个超热的技术,会不会感觉马上就o ...

  9. 【机器学习系列文章】第1部分:为什么机器学习很重要 ?

    目录 路线图 谁应该读这个? 为什么机器学习很重要 语义树:人工智能和机器学习 强大的AI将永远改变我们的世界; 要了解如何,学习机器学习是一个很好的起点 如何阅读这个系列 关于作者 简单,简单的解释 ...

最新文章

  1. 2018/11/11蓝桥杯Java培训
  2. 3.11 随机初始化-深度学习-Stanford吴恩达教授
  3. kubeadm单集群部署k8s1.15.1flannel网络
  4. 二、Spark在Windows下的环境搭建
  5. NotificationListenerService不能监听到通知
  6. staruml透明_第05组 团队项目-需求分析报告
  7. java select下拉标签_java中下拉框select和单选按钮的回显操作
  8. jQuery做的自定义选项卡
  9. NGUI无限滚动列表实现滑动条
  10. duilib 控件位置
  11. 过流媒体取流失败_海康硬盘录像机:监控点取流失败,开始重连.错误代码为iVMS-4200.EXE[302]求大神解决...
  12. 测量图上点位平面位置\高程中误差怎么计算?
  13. Spark Sql编程
  14. C语言(动态开辟二维数组 指针数组、数组指针、一维数组模拟开辟)
  15. yum linux-headers,CentOS下yum安装缺少kernel-headers的解决方法
  16. Django中related_name作用
  17. HTML5期末大作业:基于HTML+CSS+JavaScript实现中国风文化传媒企业官网源码
  18. 黑客丛林通关攻略参考(更新中)
  19. Bash解析器常用快捷键
  20. jbpm3\jbpm4_在jBPM中支持高级用户交互模式

热门文章

  1. 他们创造了编程语言,他们是这个时代伟大的父亲
  2. 迷你书下载(持续更新中。。。)
  3. python常见错误集合
  4. 优化物理和机器学习之间的协同作用
  5. 独家 | ​PyMC3 介绍:用于概率编程的Python包
  6. 独家 | 17篇手把手教技术指南、技术进阶干货大合集
  7. 剑指offer:二叉树的下一个节点
  8. 我什么都没做,文章就自动变成了视频?AI神器解放视频编辑丨百度研究院出品...
  9. Python进阶最新中文版,开源!
  10. 癌细胞“绑架”神经元帮自己壮大,科学家破译癌细胞分子机制 | 最新Nature封面...