夏乙 问耕 发自 凹非寺
量子位 出品 | 公众号 QbitAI

谁能想到,NIPS这种顶会都能风波乍起。

Ali Rahimi(阿里·拉希米),因为2007年发表的一篇论文,获得今年的“Test of Time”最具时间价值大奖。当然,阿里作为最佳论文作者理所应当的登台演讲。

起初,这个演讲主要介绍之前的研究成果。阿里说从很多方面来讲,我们的状况都比10年前好多了。在技术上,取得了很大的进步,街上跑着自动驾驶汽车,人工智能可以干很多事情……基于机器学习技术,能产生出几十亿美元的公司。

后来,火药味逐渐浓烈起来,阿里朝着整个深度学习界开了一枪,他说:

但某些方面更糟糕了。

空气中飘荡着一种自鸣得意的感觉,我们会说“人工智能是新的电力”。(安德鲁老师最爱的说法)

我想换个比方:机器学习已经成了炼金术。

炼金术挺好的,炼金术没毛病,它自有它的地位,炼金术“管用”。

炼金术带来了冶金、纺织、现代玻璃制造工艺、医疗等等领域的发明。但同时,炼金术还相信水蛭能治病,廉价金属能变成金子。

从当年的炼金术到现在的物理、化学,到我们现在对宇宙的认识,科学家们要消解掉2000年的炼金术理论。

如果你要做个照片分享系统,用“炼金术”就行。但我们现在所做的远远超出了这个范围,我们所做的系统用在医疗领域,用在社交媒体上,甚至能影响大选。

我希望我所生活的世界里,这些系统都建立在严格、周密、可验证的知识之上,而不是基于“炼金术”。

我有点怀念十年前NIPS上质疑各种想法够不够严谨的“学术警察”,希望他们回来。

(不关心技术细节的可以跳过下面的例子)

举个例子,不知道你有没有经历过这样的情况:从零开始搭建、训练了一个神经网络,然后发现它不管用的时候,总觉得是自己的错。这种状况我大约每三个月就要经历一次,我想说,这不是你的错,是梯度下降的错。

比如说这个最简单的深度神经网络,两层线性网络:

左边是我的模型,右边是损失函数,底下是不同参数设置下梯度下降的过程。有时候loss一开始下降得很快,后来就不动了。你可能会觉得遇到了局部最小值,或者鞍点,loss和0相差还很远。

换一个下降的方向,很快就能优化到最低。

你可能会觉得这个例子不自然,或者说梯度下降在更大的神经网络上表现得不错,我的回答是:第一,很多人都被梯度下降坑过;第二,我们把自己的工具用在简单的例子上,从中学习知识,然后应用到更复杂的场景,这正符合我们建立知识的方式。

梯度下降带来的痛苦是真实存在的。

上个月,我的朋友Boris给我发了封邮件:

周五,另一个组有人改动了TensorFlow内部的默认舍入模式,从“舍到0”改成了“四舍五入到偶数”。

我们的训练就崩溃了,误差从<25%飙升到了~99.97%。

这样的邮件我收到过不少,网上也有人在讨论类似的问题。

会发生这种情况,是因为我们把脆弱的优化技巧用到了我们不理解的loss上, 我们的解决方案在本来就已经很神秘的技术上增加了更多神秘性。

Batchnorm是加速梯度下降的一种方法,把Batchnorm插入到深度神经网络的层中,梯度下降的速度就会更快。

我不排斥使用一些自己不懂的技术,比如说我是坐飞机来的,并不完全清楚它的工作原理,但知道有整个航空界都在研究这项技术就很安心了。

而对于Batchnorm的工作原理,我们只知道它的功能是“reducing internal covariate shift”。

可是为什么这样就能加速梯度下降了?有没有相关的理论或者实验?你甚至都不清楚internal covariate shift是什么,就不想要一个定义吗?

Batchnorm已经成了构建深度神经网络的一个基础工具,但我们对它几乎一无所知。

想想过去一年里你为了刷竞赛榜单而做的实验、尝试的新技术;再想想过去一年里你为了解释奇怪现象、寻找其根源而做的努力。前者,我们做得很多,后者,我们应该再多做一些。简单的实验和理论是帮我们理解复杂系统的基础。

我们还有一件事可以做。现在,所有商用硬件上运行的成熟计算引擎都是梯度下降的变体,处理着数百亿的变量。

想象一下,如果我们有能在标准商用硬件上运行,处理数百亿变量线性解算器或者矩阵分解引擎,想象一下这样我们能做出多好的优化算法,用多好的模型来做实验,当然,这在数学上和系统上都很难,但这正是我们要解决的问题。

我对这个圈子有真挚的爱,这也是为什么我会站在这儿,号召大家更严格精确,别那么像炼金术师。

希望我们可以共同努力,将机器学习从“炼金术”变成“电力”。

完整演讲,参见下面这段视频:

NIPS风波 | 获奖者登台开炮:ML是炼金术,大神LeCun强硬回怼相关推荐

  1. NIPS不改名再引风波:签名抗议活动开启,大咖纷纷发声支持

    问耕 发自 凹非寺 量子位 出品 | 公众号 QbitAI NIPS到底该不该改名? 昨天官方宣布结果:不改.你以为这件事就到此为止了?并没有. 刚刚,英伟达研究负责人.加州理工教授Anima Ana ...

  2. 携Science封面、NIPS最佳论文,CMU大神Noam博士毕业,论文已公开

    机器之心报道 作者:杜伟 还记得在双人无限扑克和多人无限扑克中战胜人类顶级玩家的游戏 AI 系统冷扑大师(Libratus)和 Pluribus 吗?近日,这两个 AI 系统的开发者之一.CMU 大神 ...

  3. 诗人般的机器学习,ML工作原理大揭秘

    诗人般的机器学习,ML工作原理大揭秘 https://www.cnblogs.com/DicksonJYL/p/9698208.html 选自arXiv 作者:Cassie Kozyrkov 机器之心 ...

  4. 携Science封面、NIPS最佳论文,CMU大神博士毕业论文公开

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...

  5. 机器学习系列(二)ML经典十大算法之一:决策树算法--从代码和统计学角度谈谈cs是如何预测你的行为

    写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿.这名字是来自world order乐队的一首HAVE A NICE DAY.如今,走到现在很多坎坷和不顺,如今终于 ...

  6. 如何把薪资谈高一倍?请看大厂offer拿到手软的ML大神自述

    点击"小詹学Python","星标"或"置顶" 关键时刻,第一时间送达 本文转载自"机器之心" 本文作者刚刚博士毕业,在 ...

  7. 重磅 | 机器学习大神Bengio最新论文发布,专注RNN优化难题,将在NIPS提出新概念fraternal dropout

    编译 | Troy·Chang.爱心心.reason_W 校对 | reason_W 下个月机器学习领域的顶会Nips就要在大洋彼岸开幕啦,那么这次的Nips又有什么值得关注的亮点呢?Bengio在新 ...

  8. NIPS 2017上演:Google大神们将带来哪些「精彩」?

    来源:雷克世界 作者:Christian Howard编译:嗯~阿童木呀.我是卡布达 概要:Google在2017年NIPS大会将展现出色的影响力,约有450多名Google员工将会通过技术讲座.海报 ...

  9. DeepMind AI 科学家:2020年NLP和ML领域十大研究进展

    来源 | AI科技评论     编译 | bluemin 编辑 | 陈大鑫 DeepMind NLP科学家Sebastian Ruder在这篇文章中概述了2020年机器学习和自然语言处理领域在10个振 ...

最新文章

  1. 抓取百度页面html,百度会抓取页面代码中的注释内容吗
  2. matlab 返回变量类型的命令,MATLAB主要命令汇总
  3. Linux 学习重点内容(第二节)
  4. ansbile--playbook剧本案例
  5. jsp连接Sql Server 2000数据库
  6. Nginx+DNS负载均衡实现
  7. DownList下的部门树
  8. javascript简介和基本语法
  9. strlen 计算给定字符串的长度
  10. 避免过度设计,一对多时才用父类、接口
  11. Java常用设计模式
  12. 没基础的大学生如何自学c语言 ?
  13. JavaScript 是如何工作的:模块的构建以及对应的打包工具
  14. 3.6Python之sys模块
  15. 开篇──纪念调零的百合
  16. 6.1、减肥计划,不死神兔,百钱百鸡案例
  17. 屏幕尺寸/机型/系统版本判定
  18. 转:网络安全法重点解读
  19. Python基础语法(一)——变量定义和运算符的使用
  20. P4117 [Ynoi2018] 五彩斑斓的世界

热门文章

  1. 苹果发布 iOS、macOS 更新,系统修复英特尔重大漏洞
  2. 62 岁的比尔·盖茨当选外籍院士,但却与微软无关
  3. Java实战视频bilibili
  4. MDC机制实现日志的链路追踪
  5. pip更新后怎么还是旧版本_微信号不能修改第二次怎么办?微信更新后还是不能修改微信号怎么办?...
  6. 户外lisp导向牌如何安装_安装案例|户外标识牌常用安装方法
  7. mysql新增字段会锁表_MySQL锁(二)表锁:为什么给小表加字段会导致整个库挂掉?...
  8. html session登陆验证,原创 实现session登陆时间的验证,验证用户登录页面的一个监听器...
  9. 软件维护复杂度的因素
  10. java 查找引用_java – Eclipse查找方法的引用