明敏 发自 凹非寺
量子位 | 公众号 QbitAI

现在,让机械狗自己打滚一个小时,它就能学会走路了!

步态看着相当有模有样:

还能扛住大棍子的一通狂怼:

就算是摔了个四仰八叉,翻个身自己又站起来了:

如此看来,训机械狗和普通训狗真是要没什么两样了啊。

这就是UC伯克利大学带来的最新成果,让机器人直接在实际环境中训练学习,不再依赖于模拟器

应用这一方法,研究人员在短时间内训练出了4个机器人。

比如开头看到的1小时学会走路的机械狗;

还有2个机械臂,在8-10小时实战抓取后,表现接近于人类水平

以及一个拥有计算机视觉的小机器人,在自己摸索2小时后,能丝滑地滚动到指定位置。

该研究由Pieter Abbeel等人提出,Pieter Abbeel是吴恩达的第一位博士生,前不久他刚刚获得2021 ACM 计算奖(ACM Prize in Computing)。

目前,该方法的所有软件基础架构已经开源。

一个叫做“空想家”的算法

本文方法的pipeline大致可分为4步:

第一步,是先把机器人放在真实环境里,收集数据

第二步,把这些数据传输到Replay Buffer。这一步骤就是利用历史数据进行训练、“总结经验”,高效利用收集到的样本。

第三步,World Model会对已有经验进行学习,然后“脑补”出策略。

第四步,再用演员评论家(Actor Critic)算法来提升策略梯度法的性能。

然后循环往复,将已经提炼出的办法再使用到机器人身上,最后达到一种“自己摸索学习”的感觉。

具体来看,这里的核心环节是World Model

World Models是2018年由DAVID HA等人提出的一种快速无监督学习方式,获得了NIPS 2018的Oral Presentation。

它的核心理念是认为人类是基于已有经验,形成了一个心理世界模型,我们所做的决定和行动都是基于这个内部模型。

比如人类在打棒球时,做出反应的速度远比视觉信息传达到大脑中的快,那么在这种情况下还能正确回球的原因,就是因为大脑已经做出了本能的预测。

此前,基于World Model这种“脑补”的学习方法,谷歌提出了Dreamer这种可扩展的强化学习方法。

这一次提出的方法是在此基础上,叫做DayDreamer。

(貌似可以叫做空想家?

具体来看,World Model就是一个智能体模型。

它包括一个视觉感知组件,能将看到的图像压缩成一个低维的表征向量作为模型输入。

同时还有一个记忆组件,可以基于历史信息,对未来的表征向量做出预测。

最后,还包括一个决策组件,它能基于视觉感知组件、决策组件的表征向量,决定采取怎样的动作。

现在,我们回到本次UC伯克利学者提出的方法。

不难发现,其中World Model Learning部分的逻辑就是一个经验积累的过程,Behavior Learning部分则是一个动作输出的过程。

本篇论文方法的提出,主要解决了机器人训练中两方面的问题:

效率和准确率

一般来说,训练机器人的常规方法是强化学习,通过反复实验来调整机器人的运作。

不过这种方法往往需要非常大量的测试,才能达到很好的效果。

不仅效率低下,而且训练需要付出的成本也不低。

后来,不少人提出在模拟器中对机器人进行训练,可以很好增效降本。

但是本文作者认为,模拟器训练方法在准确性方面的表现还是不够好,只有真实的环境才能让机器人达到最好的效果。

从结果来看,在训练机器狗的过程中,只花10分钟时间,机器狗就能适应自己的行为了。

和SAC方法对比来看,效果有明显提升。

在机械臂训练过程中,这一新方法还克服了视觉定位和稀疏奖励的挑战,几小时内的训练成果明显优于其他方法。

研究团队

值得一提的是,本次带来新成果的研究团队成员,也非常令人瞩目。

其中,Pieter Abbeel是吴恩达的开山大弟子。

他现在是UC伯克利电气工程和计算机科学教授,伯克利机器人学习实验室主任,伯克利AI研究院共同主任,曾加入过OpenAI。

前不久,他还获得了2021 ACM 计算奖(ACM Prize in Computing),以表彰其在机器人学习方面的贡献。

与此同时,他还是AI机器人公司Covariant的联合创始人。

另一位Ken Goldberg,也是AI领域的顶级专家。

他现在是UC伯克利工程教授,研究方向为强化学习、人机交互等。

2005年,他被评选为IEEE院士。

与此同时,Goldberg还是一位艺术家,是UC伯克利艺术、科技文化研讨会的奠基人。

此外,Philipp Wu、Alejandro Escontrela、Danijar Hafner三人为共同一作。

其中Philipp Wu还只是UC伯克利一位大四的学生。

One More Thing

在观看机械狗训练的视频时,我们发现研究人员使用的Unitree机械狗,

这个品牌来自中国企业宇树科技,之前登上过春晚的机器小牛,也来自它家。

而且,最近宇树机器狗集体进行Go1测试的视频曝光,还在国外火了一波。

论文地址:
https://danijar.com/project/daydreamer/

参考链接:
https://worldmodels.github.io/

新出生的机器狗,打滚1小时后自己掌握走路,吴恩达开山大弟子最新成果相关推荐

  1. 吴恩达:大数据终将帮助机器拥有自主智慧

    福布斯网站对加盟百度人工智能实验室的吴恩达进行了专访.文章指出,招纳吴恩达,体现了百度希望通过研发世界一流技术,将自身打造为世界前列的创新型公司的愿景.在以下访谈中,吴恩达透露了他将如何帮助百度实现这 ...

  2. 独家 | 林元庆新征程:创立AIbee估值8亿,毗邻百度,吴恩达助攻

    李根 安妮 发自 凹非寺  量子位 报道 | 公众号 QbitAI △ 前百度研究院院长.AIbee创始人林元庆 正式告别百度后的第60天,林元庆带着新头衔亮相. 这位清华毕业生,在"隔壁大 ...

  3. 吴恩达新课发布1天,引3万人观看 | 完整PPT

    作者丨金磊 来源丨量子位 编辑丨极市平台 什么样的课程, 时间,便吸引了全球近3万人的观看? 有名师--国际最权威的ML学者之一,吴恩达(Andrew NG). 有较新概念--机器学习操作 (MLOp ...

  4. 资源贴|吴恩达新课发布第1天,3万人观看 | 完整PPT

    作者丨金磊 来源丨量子位 编辑丨极市平台 什么样的课程, 时间,便吸引了全球近3万人的观看? 有名师--国际最权威的ML学者之一,吴恩达(Andrew NG). 有较新概念--机器学习操作 (MLOp ...

  5. 突发!吴恩达确诊新冠,46岁生日还有不到3个月

    编辑:好困 袁榭 [新智元导读]当代人工智能领域最权威的学者之一吴恩达,于2022年2月8日晨在自己推特上宣布新冠检测结果阳性,不过症状轻微. 北京时间,2022年2月8日早上6点,吴恩达新冠病毒检测 ...

  6. 3-2 Coursera吴恩达《构建机器学习项目》 第二周课程笔记-机器学习策略(2)

    上节课3-1 Coursera吴恩达<构建机器学习项目> 第一周课程笔记-机器学习策略(1)我们主要介绍了一些优化机器学习的策略和方法,包括正交化.评估指标.数据集的划分.贝叶斯错误率和可 ...

  7. 百度吴恩达:图像和音视频搜索是人工智能新方向

     百度吴恩达:图像和音视频搜索是人工智能新方向 作者:吴恩达 未来论坛创立大会今天在北京举行.本届大会的主题是"指数Exponential --通向明天的技术力量(The power o ...

  8. 吴恩达新研究:AI看心电图,诊断心律失常准确率超过人类医生丨Nature

    郭一璞 发自 凹非寺  量子位 报道 | 公众号 QbitAI 吴恩达团队又在AI医疗方面取得了革命性突破,搞定了心律失常诊断. 只要让AI输入心率数据,就可以判断出你是否心律失常.具体是哪一种情况. ...

  9. 吴恩达“旗下”Drive.ai无人出租车来了!新硬件成本更低,外挂4块屏幕

    李根 发自 凹非寺  量子位 报道 | 公众号 QbitAI 就在4小时前,吴恩达又"炫妻"了. 着正装,戴牛仔帽,怀揽美妻Carol Reiley,熟悉的面孔熟悉的微笑,自曝身处 ...

最新文章

  1. 剑指offer---二叉树和双向链表
  2. 图片html代码查看器,360度全景商品图片查看器
  3. 64 任务调度神器 Airflow
  4. linux 检测日志文件内容变化
  5. 平面设计师如何训练自己创意思维
  6. mysql数据库优化课程---6、mysql结构化查询语言有哪些
  7. 采用UDP协议实现PIC18F97J60 ethernet bootloader
  8. aspnet网站开发实例_新手用户如何根据网站类型或应用场景选择云服务器?
  9. Spark SQL UDF2的使用
  10. Emacs 配置 latex
  11. 基于单片机的贪吃蛇游戏
  12. 钉钉自定义机器人python_钉钉自定义机器人demo
  13. [渝粤教育] 西南科技大学 仓储与配送管理 在线考试复习资料
  14. 计算语言学之语法理论
  15. 计算机组成原理学习-实验一 运算器实验(详细、系统)
  16. feature map
  17. 在计算机桌面上的回收站作用是,计算机桌面回收站的设置(回收站的概念及设置、使用说明)...
  18. 罗胖精选 | 如何打造高效运转的团队?
  19. 双馈异步风力发电机matlab,基于Matlab的双馈异步风力发电机风电场仿真
  20. 有效的字母异位词python(leetcode242)

热门文章

  1. 简书PC端私密文章放在哪?
  2. 【Effective C++ 条款03 笔记】尽可能使用const
  3. Java中什么是JRE?什么是JRE?
  4. pm2 : 无法加载文件 C:\Users\zhanghuan\AppData\Roaming\npm\pm2.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 htt ps:/go.micr
  5. PMP证书的含金量高吗?值得考吗?
  6. 4-2 能力提升与优势打造-工作流程梳理-从执行跃迁到流程的方法流程化、工具化、清单化
  7. Windows10系统盘清理实用攻略
  8. FIAS互动分析系统
  9. mysql入门最全参考笔记
  10. 中华英才网后续难雄起