OpenAI雄心勃勃的机器人计划失败了：强化学习没法用？

来源：机器之心

曾经训练出单手解魔方机器人的 OpenAI，眼下已经解散了机器人团队。这家执着于实现通用人工智能（AGI）的公司现在放弃了机器人研究，理由是「数据不够丰富」。

近期，OpenAI 公司联合创始人 Wojciech Zaremba 在一档播客节目中透露了这个消息。当主持人问到「你们为什么选择了机器人领域」的时候，Wojciech Zaremba 却表示，OpenAI 已将重点转移到其他领域，因为在那些领域中数据更容易获得。

视频地址：https://youtu.be/429QC4Yl-mA

Wojciech Zaremba：我们曾在机器人技术上研究了几年，直到最近我们改变了 OpenAI 的关注点，实际上，我解散了机器人团队。

主持人：你为什么这样做？

Wojciech Zaremba：事实证明，只要能够访问数据，以及借助机器学习、无监督和强化学习，我们就可以取得巨大的进步…… 实际上有很多领域的数据非常丰富。而数据问题阻碍了我们在机器人技术方面的发展。

「解散机器人团队这个决定对我来说很难，但前段时间我意识到，从公司的角度来看，实际上这样是最好的」，Wojciech Zaremba 说道。

一份 OpenAI 方面发送给 VentureBeat 的声明表示：「在通过我们的魔方机器人项目和其他项目推进强化学习的最新技术之后，去年 10 月，我们决定不再继续进一步的机器人研究，而是将团队力量整合到其他项目中。由于人工智能及其能力的快速进步，我们发现其他方法，例如根据人类反馈进行强化学习，可以使我们的研究取得更快的进展。」

2019 年，OpenAI 展示了单手解魔方机器人的研究成果，一度引发科技圈的讨论热潮。单手玩魔方，对于一般人类来说都很困难，而那台 13000 年经验训练出来的五指机械手，还原魔方的几率达到了 20-60%，即使受到戴橡胶手套、绑住食指和中指、蒙上一块布等干扰，也不会影响其工作效率。

这是 OpenAI 此前两年多工作的研究成果。2017 年 5 月，OpenAI 发布了 Roboschool，这是一个用于在模拟环境中控制机器人的开源软件。同年，该公司表示已经创建了一个完全在模拟中训练并部署在一个物理机器人上的系统，只需要完成一次学习就能学会新任务。2018 年，OpenAI 提供了模拟机器人环境和 Hindsight Experience Replay 的 baseline 实现，这是一种可以从失败中学习的强化学习算法。

如果我们是一家机器人公司，或者公司的使命与现在有所不同，我认为我们会继续下去。事实上，我非常相信机器人所采取的方法和方向，但是从我们想要实现的目标——也就是构建 AGI 来看，目前还有所欠缺。当创造机器人时，我们以为可以凭借自主生成数据和强化学习走得很远。

这让人们想起了昨天 AI 圈内讨论的一个话题：

图源：https://www.zhihu.com/question/449478247/answer/2001407526

当然，在回答的更新部分中，俞扬表示：说没法用只是吐个槽，要想发论文，就只能沿着所谓的 SOTA 来改进，即使是看起来没有希望的方向。俞扬进一步说道：

好多留言说明了「没法用」反映出大家的心声。实际上强化学习这个古老的研究领域 2016 前在国内一直比较冷的根源就是没法用。研究领域大家也都清楚强化学习算法样本利用率低，然后做出了很多改进，但是要改进到什么程度才能有用呢，其实根据我们的经验有一个标准：

零试错：一次试错不能有，上线即能发挥效果，还要明显优于基线。

offline RL 是个正确的方向，但是目前的主流研究也有很多明显的弯路，可能发论文与做落地本身就是不同的事，大家的关心点不可能完全一致吧。

另外就是我们的落地越来越多，不再想着去说服别人 RL 可以用了。

对 AGI 的执着

一直以来，OpenAI 都认为巨大的算力是通向 AGI 或让 AI 学习任何人类学习任务之路的必要步骤。虽然 Yoshua Bengio、Yann LeCun 等大佬都认为 AGI 不可能存在，但 OpenAI 的联合创始人及其观点支持者始终相信强大的计算机与强化学习、预训练和其他技术相结合，可让 AI 实现跨越式进步，这几位联合创始人包括 Greg Brockman、首席科学家 Ilya Sutskever、Elon Musk、Reid Hoffman 和 Y Combinator 前总裁 Sam Altman。

这条路线上的代表成果就是 DALL-E，这是一个 120 亿参数的文本 - 图像引擎，本质上是一个视觉创意生成器，称为「图像版 GPT-3」。DALL-E 能够结合不同的想法来合成物体，其中一些物体在现实世界中不太可能存在——比如蜗牛和竖琴的混合体。

输入「牛油果形状的椅子」，就可以获得绿油油、形态各异的牛油果椅子图像。

Brockman 和 Altman 十分相信 AGI 将能够掌握比任何人都多的领域知识，特别是识别人类专家无法掌握的复杂的、跨学科的联系。此外他们预测，社会科学等相关领域的研究者如果与部署的 AGI「密切合作」，有助于解决气候变化、医疗保健和教育方面的长期挑战。

Zaremba 断言，预训练是创建大型复杂 AI 系统的一种特别强大的技术。预训练有助于模型学习可在目标任务上重用的通用特征，以提高其准确性。GitHub 最近推出了代码生成工具 Copilot，在 OpenAI 开发其支撑模型 Codex 的过程中，预训练起到了重要作用。GitHub Copilot 提供代码建议的服务适用于 Microsoft Visual Studio 等开发环境中的整行代码。Codex 是 OpenAI GPT-3 的微调版本。

一连几条推特，Zaremba 都在为 Copilot 宣传：「如果个人电脑是工程师心中的自行车，那么 Copilot 就是自动驾驶的特斯拉。」

「我相信预训练能够让模型在提升相同智能能力的情况下，成本仅用原方法的 1/100。」Zaremba 说道。

说点儿现实的因素

深入思考，OpenAI 放弃机器人技术可能反映了该公司面临的经济现实。随着研发成本的增加， DeepMind 近年来也经历了类似的转变，从有声望的项目转向商业应用——例如蛋白质结构预测。

众所周知，机器人技术是一个成本高昂的领域。由于经济原因进行大规模变动的机器人公司并不是个例：

比如工业机器人公司 Rethink Robotics 在试图寻找收购方失败后数月关门大吉；本田 Asimo 机器人在 2018 年宣布终止开发；就连业内领先的波士顿动力公司近年来也是多次易主，在韩国现代汽车集团以 11 亿美元收购控股权之前，2014 年曾被谷歌以 30 亿美元的价格收购，2017 年又被软银收购。

一年前，微软宣布向 OpenAI 投资 10 亿美元共同开发微软 Azure 云平台的新技术。作为交换，OpenAI 同意将其部分知识产权许可给微软，并且在开发下一代计算硬件时用 Azure 训练和运行 AI 模型。

之后的几个月里，OpenAI 发布了一个 Microsoft Azure 驱动的 API，允许开发人员探索 GPT-3 的功能。GPT-3 现在已被众多业内开发者在 300 多个不同的应用程序中使用，平均每天产生 45 亿个单词。2020 年底，微软宣布将独家许可 GPT-3 为客户开发和交付 AI 解决方案，以及创建利用自然语言生成能力的新产品。最近，微软又宣布 GPT-3 将与 Power Apps「深度」集成。

而 DALL-E、Jukebox 等项目也具有明显的商用价值，OpenAI 预测 DALL-E 有一天甚至可以强大到取代 3D 渲染引擎。

在这些商业动向的背后，是机器人商业化场景落地难的实际现状。在 AI 产业落地面临复杂场景挑战的今天，对于 OpenAI 来说，放弃成本高昂且研发成果匮乏的机器人研究团队，也许是一个长远的明智选择。

参考链接：

https://venturebeat.com/2021/07/16/openai-disbands-its-robotics-research-team/

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

OpenAI雄心勃勃的机器人计划失败了：强化学习没法用？相关推荐

tensorflow命令行安装失败_2019-1 强化学习入坑记之ancanda安装
入门RL强化学习,首先要装Tensorflow环境,用ananconda最佳,以此记录我的安装过程计划: ancanda安装 python3.6 环境设置 tensorflow cpu版本安装实验 ...
走向开放世界强化学习、IJCAI2022论文精选、机器人 RL 工具、强化学习招聘、《强化学习周刊》第73期...
No.73 智源社区强化学习组强化学习周刊订阅 <强化学习周刊>已经开启"订阅功能",扫描下面二维码,进入主页,选择"关注TA",我们 ...
【假期学习计划】深度强化学习算法与应用培训班
深度强化学习应用与实战培训班内容一.强化学习概述二.马尔科夫决策过程 1.马尔可夫性 2.马尔可夫决策过程 3.策略与价值 4.最优化原理 5.MDPs扩展三.动态规划 1.动态规划 2.价值迭 ...
论强化学习的根本缺陷
来源:AI 科技评论摘要:本文来自斯坦福大学博士生 Andrey Kurenkov 在 The Gradient 上发表的文章. 在本文中,我们将讨论人工智能的一个核心领域--强化学习--的局限性. ...
OpenAI公布强化学习新算法，可控制复杂机器人
近日,OpenAI 发布了一种新型的强化学习算法:近端策略优化(Proximal Policy Optimization,简称 PPO),这种算法不但在性能上比肩甚至超过当前最先进的方法,而且更容易实 ...
ROS、OpenAI和Gazebo机器人与人工智能仿真与实践教研杂记（三）深度学习
机器人在环境中如何自主行驶呢?不同的机器人需要配置不同参数,差速或者其他动力学模型,如何获得更好的环境参数? 关于ROS.OpenAI和Gazebo已经测试过环境包括: Ubuntu 16.04 + ...
干货 | 浅谈机器人强化学习--从仿真到真机迁移
" 对于机器人的运动控制,强化学习是广受关注的方法.本期技术干货,我们邀请到了小米工程师--刘天林,为大家介绍机器人(以足式机器人为主)强化学习中的sim-to-real问题及一些主流方法. ...
论文研读笔记（五）——通过单机器人进化策略搜索增强多机器人导航的深度强化学习方法
通过单机器人进化策略搜索增强多机器人导航的深度强化学习方法(Enhancing Deep Reinforcement Learning Approaches for Multi-Robot Navig ...
TensorFlow 强化学习：1~5
原文:Reinforcement Learning With TensorFlow 协议:CC BY-NC-SA 4.0 译者:飞龙本文来自[ApacheCN 深度学习译文集],采用译后编辑(MT ...

OpenAI雄心勃勃的机器人计划失败了：强化学习没法用？

OpenAI雄心勃勃的机器人计划失败了：强化学习没法用？相关推荐

最新文章

热门文章