整理 | 安木

当你被 AlphaGo Zero 刷屏的时候,你是对人类的创造力产生自豪,还是对人类的未来感到担忧?

10 月 20 日,旷视科技(Face++)首席科学家孙剑博士接受了多家媒体的群访,同时对 AlphaGo Zero 的技术升级做了相关阐释。

「伟大」和「局限」是这次群访的关键词。在孙剑看来,AlphaGo Zero 的技术提升足够伟大,但在技术转换落地过程中却有着众多局限。在未来很长一段时间内,围绕大数据的训练模式和有监督的学习方法仍是主流深度学习技术应用的必需方式。

以下是沟通会的主要内容:

AlphaGo Zero 是不是真的无师自通?

说它「无师自通」,其实既对也不对,主要看怎么定义。

狭义的无师自通是针对于之前的系统而言的,因为 AlphaGo Zero 把人类教棋谱的过程去掉了。这个意义上来说,确实是第一次做到无师自通。这也为什么 AlphaGo Zero 大家这么关注的原因。

但是如果严格定义无师自通,从「有没有监督」这个角度来分析,AlphaGo 的学习过程还是有监督的。只不过增强学习是非常弱的监督形式,这意味着模拟下棋的过程不用看棋谱,而是看棋局的规则,同时最后输赢的信号也是监督的形式。从这个意义上说,它不是百分之百的无师自通,而是通过一种非常弱监督的增强学习完成的。

基于 AlphaGo Zero 的增强学习算法,它到底能做什么,不能做什么?

其实围棋有着一定的特殊性,因为在围棋规则内所有信号全部是可以观测的,但像打麻将或者博弈这样的游戏,对手是不能观测的。最重要的一点是,通过一个模拟器,围棋可以通过计算机的方式很快下完。这个模拟过程非常短,可能两三百步就做完了,非常高效。模拟结束后,中间所有的结构可以输出来,赢和输的信号很快就可以确定,所以这是一个非常强的假设。

但真实世界的情况没有那么容易。虽然说增强学习可以用来研究新药品,但是从结构搜索到制成药品,再到检验药品是否有效,这个闭环的代价十分昂贵,而且过程缓慢,你很难像下围棋这么简单做出来。

再举个例子,增强学习也可以应用于金融股票股价预测。这里非常好的匹配场景,但这还是有些不同。在围棋中,你每次下一个子都会对对方的布局有影响,但在股票市场,如果你的基金量小,可能对市场没有太大影响。你可以通过观测结果,做下一步的决策,但这也不可能非常快速模拟真实。你也可以拟合历史,分析基金量对市场的影响,但这个更难模拟。在真实世界需要预警,但这个很难收集到海量的数据。

从技术角度,为什么看重 AlphaGo Zero?

我们做研究追求极简,去除复杂。DeepMind 的论文最吸引人的地方就是它从之前到现在基本上是在做减法。

比如说很多搜索过程非常简化,把以前系统设计的两个网络合并成一个网络。这次的系统使用了深度残差网络,它对输入做简化。像以前需要人工输入分析黑白子的布局,这次可以相当于对着棋盘拍照片,把照片送给神经网络,让神经网络看着棋盘照片做决策,这个过程非常简单优美。

当然最简单的是,它抛弃了从人类棋谱进行学习的过程。系统刚开始基本上随便乱下,如果两个 AlphaGo Zero 刚开始对弈的话,基本上是随便下子,和人类下棋不一样。但是随着快速的收敛,一两天后它下得就像模像样,在两三天后就已经有了人类下棋的能力,这是整个系统的概况。

AlphaGo Zero 的系统里面有两个核心技术,一个是拟合搜索,一个是深度残差简易神经网络,两者通过非常简单优美的结合就做好了。其中的搜索方法是一个定制的高级版,适应于这个特定的问题,也是研发过程迭代了很多周期。

第二个核心技术,他们用了一个深度最深可以达到 80 的一个深度残差卷积神经网络,这个网络在学术上英文名词叫 ResNet。以前深度学习网络大概十层、二十层到头了,但是用残差网络就很好地解决了深度学习深度网络训练的问题,网络的深度从十几二十层在 2015 年被推到了 152 层。

下棋的背后是一个非常复杂的函数,越深的学习网络,越有更强大的威力来拟合这样的函数。残差学习的方法极大程度的解决了优化问题,这也是世界上第一个上百层的网络。

从应用角度,AlphaGo Zero 能够带来什么改变?

AlphaGo 无师自通的系统能不能解决所有问题?刚才我说了一些什么是可以学,什么不可以学。我再举个例子,比如我们公司做的人脸识别、图象识别,这些是不是完全不需要大数据就可以做,不需要监督数据就可以做?就目前看来,答案是否定的。

如果你去教机器去识别人脸,目前还不能找到一个完成这个目标的增强学习的方法,还是需要人来教。

对于人类来说,识别人脸是基本的能力。这是人在通过千年万年演化出来的一种生存能力,这是一个人后天学到的能力。要把这种能力赋予机器,还是需要人的监督信号,包括我们今天对人工智能做的很多事情,都要学习一些人类后天积累出来的能力。

不管是现在还是未来,这些任务还是需要海量的数据和更多信号。目前看来,在这些研究和商业应用中,监督学习依然是占主流的。

以下是媒体群访环节的问答整理:

AlphaGo Zero 这样的系统对硬件会带来什么样的影响?这方面的需求会减少还是增加?

整个系统对硬件的要求是下降的,因为算法提高了非常多。前一代 AlphaGo 系统需要训练很多长时间才可以做好,新的 AlphaGo Zero 是在一台机器上,由 Google 的 TPU 来完成的。这个其实也是给大家一个信号,这样的芯片会非常强。目前业界不光是 Google,包括很多家都在研究这样的深度神经网络加速芯片。

还可以看到业界的发展趋势是,越来越多的智能计算会切入手机设备,比如像华为的 Mate10,里面已经有内置的神经网络加速芯片,包括苹果或者越来越多的手机,都会有这样的能力,这个是对业界影响非常大的。

DeepMind 的论文里提到,这一项新的技术可以用于解决蛋白质折叠和新型材料开发等问题。那么,在新型材料开发的这些领域当中,会带来哪些新的可能?

首先我不是这方面的专家,到底怎么把这些信息应用到新材料开发中,我不能做非常准确的判断。在新材料开发过程中,最重要是你实验一下这个新材料,快速地检验它是否成功。如果你可以缩短检测周期,这个技术就可以应用了,如果这个周期不能缩短太多,或者缩短周期的成本很大,用这个技术也是不太现实的,这是我对这个问题的回答。

在一些模式越来越具体的情况下,人类对于大数据的依赖程度会不会减弱?

大数据分有监督和无监督,对于有监督的大数据的依赖会慢慢地减弱,但是对于无监督的大数据,我们需要越多越好。其实我们的感官就是各种传感器,在学习跑步的时候,听觉、感知平衡、眼睛都会感知周围的道路。其实这里面也包含了一些隐含监督信号,这与人工监督信号是两个概念。我们现在的研究都希望把人工监督信号降低。这是最新研究的一个热点,大家也做了各种各样的尝试。隐含监督信号可能是突破人工智能真正的方向。这个是我简单的一个看法。

如果基于 AlphaGo Zero 加入了残差神经网络这样一个整体学习方式,它可不可以自己产出一些好一点的数据?

现在已经在自己产生数据,它随机下棋的过程中会判断输赢,根据输赢的准则来调整神经网络里的参数,慢慢训练到后面就不是随机下棋了。所有过程中产生的棋局,都被它拿去训练了。可以说它是自我博弈与自我产生数据的,拿数据训练神经网络。

对于计算机视觉而言,AlphaGo Zero 的思路会不会有一些参考意义?

目前这对我们信心上有很大的鼓舞,但是在实际落地上还没有明确的思路,因为两个问题差别还蛮大的。我们人脸识别的大多数问题,都不可以像下棋一样被简单地描述。

我们自己研究院也做了一些无监督学习的探索。不过这与 AlphaGo 还是有差别的,我们现在用这个东西产生数据的方法,恐怕还只是辅助现在的监督学习,并没有说能够主导监督学习,或者整个学习过程。

AlphaGo Zero「无师自通」背后的伟大与局限 | 旷视孙剑解读相关推荐

  1. 李想的理想 IPO :新造车「异类」背后的思考

    攀登新造车领域的过程中,李想偏执的「凿」出了一条全新的路.在超级务实的战略之下,我们看到了一个更接近「原子」层面的思考和战略. 今天凌晨,理想汽车正式向美国证监会提交首次公开募股(IPO)文件,股票代 ...

  2. 「人造太阳」背后,能源为什么值得关注?| 极客视野

    能源大概就是人类文明的基石之一,让文明的无限进步成为可能. 圣波莱迪朗克坐落在法国南部,属于普罗旺斯地区,离同在法国南部的马赛市约 66 公里.这个鲜为人知的地方最近却受到了广泛关注,尤其是新科技爱好 ...

  3. 「人造太阳」背后,能源为什么值得关注?

    作者|赵子潇 来源|极客公园 圣波莱迪朗克坐落在法国南部,属于普罗旺斯地区,离同在法国南部的马赛市约 66 公里.这个鲜为人知的地方最近却受到了广泛关注,尤其是新科技爱好者们.不出意外的话,未来几年, ...

  4. 旷视AI「炼丹房」Brain++ 再升级!首席科学家孙剑发AI「灵魂」三问

    来源:新智元 [导读]从深度学习算法.计算机视觉算法到AIoT算法,从开源框架旷视天元到AI生产力平台Brain++,旷视十年故事,旷视首席科学家.旷视研究院院长孙剑讲给你听. 万万没想到,我和小伙伴 ...

  5. 旷视AI「炼丹房」Brain++ 再升级 首席科学家孙剑发AI「灵魂」三问

    万万没想到,我和小伙伴们被旷厂拿去「炼丹」了. 没错,就是这个炼丹炉! 站在炉子中央,各种算法代码眼前飞闪,让我体验了一把时空穿梭的快乐. OMG!真·颅内高潮... 业界认为「炼丹」过程正如算法研究 ...

  6. uni一t 说明书_不输特斯拉,站在UNI-T背后的长安「超级工厂」

    作者:陈曦 前些日子,特斯拉在官微上发布了一条关于自家上海超级工厂的内部视频. 该视频一经亮相,便迎来了吃瓜群众的一通顶礼膜拜外加彩虹屁. 对于超级工厂到底超级在哪里,从Giga 1到Giga 3,外 ...

  7. 星巴克和瑞幸背后,什么是中国人喝咖啡的「真相」?

    让咖啡回归饮料,让咖啡回归大众消费品的本质. 2020 年 9 月 3 日,随着一篇「消失 100 多天后,我回来了」的文章被多次转发,连咖啡重回公众视线.在获得新一轮投资之后,连咖啡放弃了外卖业务, ...

  8. AI「复活」《延禧攻略》众生相

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 一部<延禧攻略>,让清朝古装剧在国内大火了一把. 敢爱敢恨的魏璎珞,贤良淑德的富察皇后,深藏不漏的纯妃-- 人物特点各个鲜明,令 ...

  9. 谷歌公布云游戏平台「Stadia」 预计2019年上线

    在今天举行的 GDC 演讲上,谷歌正式公布了此前预告已久的全新云游戏平台「Stadia」.谷歌称这是一个不受硬件限制,能够将全世界所有玩家真正聚在一起的,随时随地游玩任何游戏的新服务. 「Stadia ...

最新文章

  1. Python之中文识别
  2. python从事哪些职业好玩_Python就业可选方向有哪些?带你了解Python主流职业选择!...
  3. WGAN新方案:通过梯度归一化来实现L约束
  4. node.js require 自动执行脚本 并生成html,nodejs 执行脚本并实时输出
  5. C语言程序顺序结构1交换变量,如何将c语言中结构体内的所有类型变量的值输出来...
  6. 前端学习(1990)vue之电商管理系统电商系统之自定义时间过滤器
  7. 计算机论文答辩注意哪些问题,计算机专业论文答辩(准备和注意事项)
  8. map集合——阅读理解(洛谷 P3879)
  9. SpringCloud学习笔记029---在SpringCloud项目中使用Zuul实现基本的网关统一处理
  10. Fluent NHibernate实战(原创)
  11. matlab 解析 mnist 数据集
  12. 会java需要多久能学会python_学好Python,c++ 和Java要多久?
  13. CI框架 CodeIgniter 伪静态 htaccess设置和Nginx伪静态方法2
  14. mac 输入法/键盘 锁定
  15. Python处理Excel表中单元格带有换行的数据
  16. Linux系统下安装wgrib2
  17. flux和redux
  18. 【bat】验证是否安装某个软件
  19. android图标分组名称唯美,Android 使用网络图片当图标创建快捷方式(整理版本)
  20. KMP算法及next数组(最大公共前后缀)求解

热门文章

  1. Maya ACES工作流程配置(Arnold 及 RedShift 贴图配置规范-还原出SP-Aces流程下贴图正确的效果) PS还原Aces流程下渲染的图
  2. 中国人有多拼?令世界惊叹汗颜甚至有一点恐惧!七张图揭示一切
  3. 【Web动画】科技感十足的暗黑字符雨动画
  4. jquery返回页面顶部
  5. html5 自建工作流,flowable可视化工作流设计器,html5工作流设计器,vue版本工作流...
  6. vue中swiper仿去哪儿网相册
  7. 游泳防水耳机哪个牌子的好、好用的游泳耳机推荐
  8. 如何查看本地电脑ip
  9. 计算机理论知识和操作技能要求是什么,所学专业对应职业群中的职业,有哪些已经有了国家颁布的职业资格标准?这些职业资格标准的分级情况如何?这些职业资格标准中,理论知识和操作技能要求是什么?!!!!!...
  10. 8款免费英文字体,特别适合简约风格网页设计