NIPS风波 | 获奖者登台开炮:ML是炼金术,大神LeCun强硬回怼
夏乙 问耕 发自 凹非寺
量子位 出品 | 公众号 QbitAI
谁能想到,NIPS这种顶会都能风波乍起。
Ali Rahimi(阿里·拉希米),因为2007年发表的一篇论文,获得今年的“Test of Time”最具时间价值大奖。当然,阿里作为最佳论文作者理所应当的登台演讲。
起初,这个演讲主要介绍之前的研究成果。阿里说从很多方面来讲,我们的状况都比10年前好多了。在技术上,取得了很大的进步,街上跑着自动驾驶汽车,人工智能可以干很多事情……基于机器学习技术,能产生出几十亿美元的公司。
后来,火药味逐渐浓烈起来,阿里朝着整个深度学习界开了一枪,他说:
但某些方面更糟糕了。
空气中飘荡着一种自鸣得意的感觉,我们会说“人工智能是新的电力”。(安德鲁老师最爱的说法)
我想换个比方:机器学习已经成了炼金术。
炼金术挺好的,炼金术没毛病,它自有它的地位,炼金术“管用”。
炼金术带来了冶金、纺织、现代玻璃制造工艺、医疗等等领域的发明。但同时,炼金术还相信水蛭能治病,廉价金属能变成金子。
从当年的炼金术到现在的物理、化学,到我们现在对宇宙的认识,科学家们要消解掉2000年的炼金术理论。
如果你要做个照片分享系统,用“炼金术”就行。但我们现在所做的远远超出了这个范围,我们所做的系统用在医疗领域,用在社交媒体上,甚至能影响大选。
我希望我所生活的世界里,这些系统都建立在严格、周密、可验证的知识之上,而不是基于“炼金术”。
我有点怀念十年前NIPS上质疑各种想法够不够严谨的“学术警察”,希望他们回来。
(不关心技术细节的可以跳过下面的例子)
举个例子,不知道你有没有经历过这样的情况:从零开始搭建、训练了一个神经网络,然后发现它不管用的时候,总觉得是自己的错。这种状况我大约每三个月就要经历一次,我想说,这不是你的错,是梯度下降的错。
比如说这个最简单的深度神经网络,两层线性网络:
左边是我的模型,右边是损失函数,底下是不同参数设置下梯度下降的过程。有时候loss一开始下降得很快,后来就不动了。你可能会觉得遇到了局部最小值,或者鞍点,loss和0相差还很远。
换一个下降的方向,很快就能优化到最低。
你可能会觉得这个例子不自然,或者说梯度下降在更大的神经网络上表现得不错,我的回答是:第一,很多人都被梯度下降坑过;第二,我们把自己的工具用在简单的例子上,从中学习知识,然后应用到更复杂的场景,这正符合我们建立知识的方式。
梯度下降带来的痛苦是真实存在的。
上个月,我的朋友Boris给我发了封邮件:
周五,另一个组有人改动了TensorFlow内部的默认舍入模式,从“舍到0”改成了“四舍五入到偶数”。
我们的训练就崩溃了,误差从<25%飙升到了~99.97%。
这样的邮件我收到过不少,网上也有人在讨论类似的问题。
会发生这种情况,是因为我们把脆弱的优化技巧用到了我们不理解的loss上, 我们的解决方案在本来就已经很神秘的技术上增加了更多神秘性。
Batchnorm是加速梯度下降的一种方法,把Batchnorm插入到深度神经网络的层中,梯度下降的速度就会更快。
我不排斥使用一些自己不懂的技术,比如说我是坐飞机来的,并不完全清楚它的工作原理,但知道有整个航空界都在研究这项技术就很安心了。
而对于Batchnorm的工作原理,我们只知道它的功能是“reducing internal covariate shift”。
可是为什么这样就能加速梯度下降了?有没有相关的理论或者实验?你甚至都不清楚internal covariate shift是什么,就不想要一个定义吗?
Batchnorm已经成了构建深度神经网络的一个基础工具,但我们对它几乎一无所知。
想想过去一年里你为了刷竞赛榜单而做的实验、尝试的新技术;再想想过去一年里你为了解释奇怪现象、寻找其根源而做的努力。前者,我们做得很多,后者,我们应该再多做一些。简单的实验和理论是帮我们理解复杂系统的基础。
我们还有一件事可以做。现在,所有商用硬件上运行的成熟计算引擎都是梯度下降的变体,处理着数百亿的变量。
想象一下,如果我们有能在标准商用硬件上运行,处理数百亿变量线性解算器或者矩阵分解引擎,想象一下这样我们能做出多好的优化算法,用多好的模型来做实验,当然,这在数学上和系统上都很难,但这正是我们要解决的问题。
我对这个圈子有真挚的爱,这也是为什么我会站在这儿,号召大家更严格精确,别那么像炼金术师。
希望我们可以共同努力,将机器学习从“炼金术”变成“电力”。
完整演讲,参见下面这段视频:
NIPS风波 | 获奖者登台开炮:ML是炼金术,大神LeCun强硬回怼相关推荐
- NIPS不改名再引风波:签名抗议活动开启,大咖纷纷发声支持
问耕 发自 凹非寺 量子位 出品 | 公众号 QbitAI NIPS到底该不该改名? 昨天官方宣布结果:不改.你以为这件事就到此为止了?并没有. 刚刚,英伟达研究负责人.加州理工教授Anima Ana ...
- 携Science封面、NIPS最佳论文,CMU大神Noam博士毕业,论文已公开
机器之心报道 作者:杜伟 还记得在双人无限扑克和多人无限扑克中战胜人类顶级玩家的游戏 AI 系统冷扑大师(Libratus)和 Pluribus 吗?近日,这两个 AI 系统的开发者之一.CMU 大神 ...
- 诗人般的机器学习,ML工作原理大揭秘
诗人般的机器学习,ML工作原理大揭秘 https://www.cnblogs.com/DicksonJYL/p/9698208.html 选自arXiv 作者:Cassie Kozyrkov 机器之心 ...
- 携Science封面、NIPS最佳论文,CMU大神博士毕业论文公开
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...
- 机器学习系列(二)ML经典十大算法之一:决策树算法--从代码和统计学角度谈谈cs是如何预测你的行为
写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿.这名字是来自world order乐队的一首HAVE A NICE DAY.如今,走到现在很多坎坷和不顺,如今终于 ...
- 如何把薪资谈高一倍?请看大厂offer拿到手软的ML大神自述
点击"小詹学Python","星标"或"置顶" 关键时刻,第一时间送达 本文转载自"机器之心" 本文作者刚刚博士毕业,在 ...
- 重磅 | 机器学习大神Bengio最新论文发布,专注RNN优化难题,将在NIPS提出新概念fraternal dropout
编译 | Troy·Chang.爱心心.reason_W 校对 | reason_W 下个月机器学习领域的顶会Nips就要在大洋彼岸开幕啦,那么这次的Nips又有什么值得关注的亮点呢?Bengio在新 ...
- NIPS 2017上演:Google大神们将带来哪些「精彩」?
来源:雷克世界 作者:Christian Howard编译:嗯~阿童木呀.我是卡布达 概要:Google在2017年NIPS大会将展现出色的影响力,约有450多名Google员工将会通过技术讲座.海报 ...
- DeepMind AI 科学家:2020年NLP和ML领域十大研究进展
来源 | AI科技评论 编译 | bluemin 编辑 | 陈大鑫 DeepMind NLP科学家Sebastian Ruder在这篇文章中概述了2020年机器学习和自然语言处理领域在10个振 ...
最新文章
- 抓取百度页面html,百度会抓取页面代码中的注释内容吗
- matlab 返回变量类型的命令,MATLAB主要命令汇总
- Linux 学习重点内容(第二节)
- ansbile--playbook剧本案例
- jsp连接Sql Server 2000数据库
- Nginx+DNS负载均衡实现
- DownList下的部门树
- javascript简介和基本语法
- strlen 计算给定字符串的长度
- 避免过度设计,一对多时才用父类、接口
- Java常用设计模式
- 没基础的大学生如何自学c语言 ?
- JavaScript 是如何工作的:模块的构建以及对应的打包工具
- 3.6Python之sys模块
- 开篇──纪念调零的百合
- 6.1、减肥计划,不死神兔,百钱百鸡案例
- 屏幕尺寸/机型/系统版本判定
- 转:网络安全法重点解读
- Python基础语法(一)——变量定义和运算符的使用
- P4117 [Ynoi2018] 五彩斑斓的世界
热门文章
- 苹果发布 iOS、macOS 更新,系统修复英特尔重大漏洞
- 62 岁的比尔·盖茨当选外籍院士,但却与微软无关
- Java实战视频bilibili
- MDC机制实现日志的链路追踪
- pip更新后怎么还是旧版本_微信号不能修改第二次怎么办?微信更新后还是不能修改微信号怎么办?...
- 户外lisp导向牌如何安装_安装案例|户外标识牌常用安装方法
- mysql新增字段会锁表_MySQL锁(二)表锁:为什么给小表加字段会导致整个库挂掉?...
- html session登陆验证,原创 实现session登陆时间的验证,验证用户登录页面的一个监听器...
- 软件维护复杂度的因素
- java 查找引用_java – Eclipse查找方法的引用