算力不是王道，强化学习之父Rich Sutton的六点错误

https://www.toutiao.com/a6671080472157618702/

来源：文/Rodney Brooks 新智元肖琴编辑

【导读】强化学习之父Richard Sutton总结AI研究“苦涩教训”，认为利用算力才是王道，不应依靠人类知识。对此，著名机器人专家Rodney Brooks 撰文反驳，阐述了Sutton观点错误的六大原因。

The Bitter Lesson还是A Better Lesson？

近日，强化学习之父、加拿大计算机科学家 Richard S. Sutton 在其个人网站上发文The Bitter Lesson，指出了过去 70 年来 AI 研究方面的苦涩教训：我们过于依靠人类知识了。

参考阅读：

强化学习之父：AI研究70年教训深刻，未来探索要靠智能体自己

他认为，过去 70 年来，AI 研究走过的最大弯路，就是过于重视人类既有经验和知识，研究人员在训练 AI 模型时，往往想将人类知识灌输给智能体，而不是让智能体自己去探索。这实际上只是个记录的过程，并未实现真正的学习。

Sutton说，事实证明，这种基于人类知识的所谓 “以人为本” 的方法，并未收到很好的效果，尤其是在可用计算力迅猛增长的大背景下，在国际象棋、围棋、计算机视觉等热门领域，智能体本身已经可以自己完成 “规模化搜索和学习”，取得的效果要远好于传统方法。

由此，Sutton认为利用算力才是王道，过去的教训必须总结，未来的研究中，应该让 AI 智能体自己去发现，而不是将我们发现的东西记下来。

这番言论引来许多反对的声音，比如，牛津大学计算机科学教授 Shimon Whiteson 写道：“Sutton 说 AI 的发展历程告诉我们，利用计算力要胜过利用人类知识。我认为这是对历史的一种很奇怪的解释。AI 的成功不仅取决于丰富的计算资源，还取决于没有被抛弃的人类知识。”

近日，著名 AI 专家 Rodney Brooks 也加入反对Sutton的队伍，他撰文 “A Better Lesson”，阐述Rich Sutton的观点错误的六大原因。

Rodney Brooks 被誉为机器人教父，机器人领域祖师爷级别的学者，他还是澳洲科学院院士，美国国家工程院院士，前 MIT 计算机科学和人工智能实验室主任。

Rodney Brooks

新智元对 Rodney Brooks 的评论文章翻译如下：

Sutton观点错误的六大原因

就在上周，Rich Sutton 发表了一篇题为《苦涩的教训》(The Bitter Lesson) 的短文。我打算尽量把这篇评论写得比他的帖子更短。Sutton 在强化学习领域有着长期而持续的贡献。

在他的文章中，Sutton 用了很多很好的例子来论证，在人工智能 70 年的历史中，更多的计算和更少的内置知识总是构建 AI 系统的最佳方式。这与许多新进入 AI 领域的人们目前的思维模式产生了共鸣，他们认为，设计学习网络并投入大量计算能力，要比为某个任务专门设计一个计算架构更好。然而，我必须要说的是，上周在美国国家科学院 (National Academy of Science) 举办的为期两天的深度学习研讨会上，后一种观点更为流行，某种程度上这与 Sutton 的观点正好相反。

我认为 Sutton 错了，原因有很多。

1. 深度学习最著名的成功之一就是图像标注 (image labeling)，使用 CNN，即卷积神经网络，但 CNN 的本质是网络的前端由人类设计来处理平移不变性，即对象可以出现在框架的任何地方。使用深度学习网络也必须学习那些看起来学究气十足的东西，并且会使学习的计算成本提高许多个数量级。

2. 在图像标记方面，还有其他一些东西受到了极大的影响，因为目前的 CNN 中缺乏某些众所周知对人类表现很重要的内置功能。例如，颜色恒常性 (color constancy)。

有这么一个著名的例子：一个停车标志上被贴了一些胶带，就被一个为自动驾驶训练的 CNN 误认为是一个 “限速 45 英里” 的限速标志了。

人类不会犯这样的错误，因为他们知道停车标志是红色的，限速标志是白色的。CNN 并不知道这一点，因为相机中的像素颜色和物体的实际颜色之间的关系是一种非常复杂的关系，而这种关系并没有被训练算法使用的区区数千万张训练图像所阐明。

未来可行的训练集可以是将人类的工作负载转移为创建大量的训练集，并编码我们希望系统学习的标签。这就像直接构建一个颜色恒常性阶段一样需要内置知识。这是把人类的智力工作转移到其他地方的花招。

3. 事实上，对于今天的大多数机器学习问题，都需要人来设计一个特定的网络架构才能使学习顺利进行。所以，我们现在期望的不是由人类构建特定的知识，而是由人类构建特定的、适当的网络，以及构建需要使用的特定训练机制。再说一次，说 AI 在没有人类参与的情况下取得成功，这是一种花招。相反，我们要求人类将他们的智慧以一种不同的形式注入算法中。

4. 大量的数据集根本不是人类学习东西所需要的，所以这里缺失了某些东西。今天的数据集可以有数十亿个样本，但一个人可能只需要少数几个样本就能学会同样的东西。但更糟糕的是，训练我们今天所看到的大多数网络所需的计算量只能由预算非常庞大的大公司提供，AI 的成本过高使得个人甚至大学院系难以推动。对于智能系统，这不是一个可持续发展的模式。对于一些机器学习问题，由于在训练过程中需要消耗大量能耗，我们已经开始看到一些明显节约的方法。

5. 摩尔定律 (Moore’s Law) 正在放缓，因此，一些计算机架构师报告称，单个芯片上计算量倍增的时间正在从一年延长到 20 年。此外，登纳德缩放定律 (Dennard scaling) 在 2006 年的崩溃意味着机器的功耗随着性能提升而提高，因此我们甚至可能无法承受在小型机器上提高机器学习的结果 (更不用说实际的学习)，例如，自动驾驶汽车可能需要 2500 瓦的电力来进行计算 —— 而人脑只需要 20 瓦。因此，Sutton 的观点只会让情况变得更糟，让 AI 和 ML 的使用变得不切实际。

6. 计算机架构师现在正试图通过为训练好的网络构建专用芯片来解决这些问题。但他们需要将硬件锁定到特定的网络结构，并利用人工分析，在不改变计算结果的情况下大幅降低电力预算。这有两个缺点。首先，它锁定了特定于特定解决方案的硬件，因此每当我们遇到新的 ML 问题，我们都需要设计新的硬件。其次，它只是简单地转移了应用人类智能的地方，而不是完全消除人类参与设计的需要。

因此，我对 Rich Sutton 这篇文章的看法是，我们应该从过去 70 年的 AI 研究中吸取的教训，根本不是只要使用更多的计算力就总能成功。相反，我认为应该吸取的更好的教训是，我们必须考虑任何解决方案的总成本，而且到目前为止，这些都需要大量的人类智慧。

这篇评论，包括这句话，比 Sutton 的帖子短了 78 个词。

原文链接：

https://rodneybrooks.com/a-better-lesson/

算力不是王道，强化学习之父Rich Sutton的六点错误相关推荐

强化学习教父Richard Sutton新论文探索决策智能体的通用模型：寻找跨学科共性...
来源:机器之心本文约5200字,建议阅读10+分钟论文虽然有些难懂,但或许是一个新的研究方向. 强化学习和决策多学科会议(Multi-Disciplinary Conference on Rein ...
只有大规模算力才能救AI？强化学习之父 vs 牛津教授掀起隔空论战
乾明安妮发自凹非寺量子位出品 | 公众号 QbitAI 70年来, 人们在AI领域"一直连续犯着同样的错误". 这是"强化学习之父"理查德·萨顿(Ri ...
强化学习之父--David Sliver最新演讲内容！
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本文主要是分享强化学习之父-David Sliver在2020年的最新演讲视频,讲 ...
“强化学习之父”萨顿：预测学习马上要火，AI将帮我们理解人类意识
李杉编译自 KDnuggets 量子位出品 | 公众号 QbitAI 地处加拿大埃德蒙顿的阿尔伯塔大学(UAlberta)可谓是强化学习重镇,这项技术的缔造者之一萨顿(Rich Sutton)在这 ...
什么是强化学习？强化学习之父：它是人工智能的未来
https://www.toutiao.com/a6695987727583674893/ 我相信,从某种意义上讲,强化学习是人工智能的未来.--强化学习之父,Richard Sutton Googl ...
IJCAI-21三大奖项公布，强化学习之父、CMU助理教授方飞、德扑AI之父获奖
转自:机器之心「强化学习之父」Richard Sutton.CMU 助理教授方飞.「德扑 AI 之父」 Tuomas Sandholm 分别获得了今年 IJCAI-21 的卓越研究奖.计算机与思想奖 ...
Compute Goes Brrr：重温强化学习之父Sutton关于AI的70年惨痛教训
导语:所以,"惨痛教训"是对是错?可能既不是这边,也不是那边. 译者:AI研习社(Key) 双语原文链接:Compute Goes Brrr: Revisiting Sutton' ...
mujoco强化学习环境配置，常见OSError: __glewBindBuffer错误解决方案
文章目录一.mujoco强化学习安装二.遇到错误 __glewBindBuffer 一.mujoco强化学习安装参考链接1 ubantu18参考链接注意的是,现在mujoco开源了,直接官网下 ...
游戏中应用强化学习技术，目的就是要打败人类玩家？
来源:AI前线作者:凌敏采访嘉宾:黄鸿波 2016 年,DeepMind 公司开发的 AlphaGo 4:1 大胜韩国著名棋手李世石,成为第一个战胜围棋世界冠军的人工智能机器人,一时风头无两.Al ...

算力不是王道，强化学习之父Rich Sutton的六点错误

算力不是王道，强化学习之父Rich Sutton的六点错误相关推荐

最新文章

热门文章