郭一璞 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

深度强化学习,可以用来学走路了。

Agility Robotics的双足机器人Cassie,这个没有上半身的机器人,就靠着深度强化学习学会了更灵活的使用自己身体的唯二器官:左腿,和右腿。

看,它可以正常的往前走。

还能大步快走,差点就跑起来了。

作为一个传送带运动爱好者,万一踩到了传送带的边缘也不会两脚劈叉,而是稳稳的继续前行。

甚至,倒着走也一样稳。

或者学习一下螃蟹,横行霸道。

这种时候,不怀好意的人类就开始欺负它了,拿木棍戳它的小肚腩。

站的稳稳地,Cassie没有一点点要倒下的意思。

既然戳肚子正前方没有反应,那我们换个角度,戳肚子的侧面,大概是“腰子”的位置。

稍稍歪了一下,但影响不大,Cassie该怎么走还是怎么走。

肚子看来干扰不了,那就干扰脚底,放一块木板,绊倒它。

可惜如意算盘没能实现,Cassie一脚踩在木板上,稍微晃了晃,依然稳步前行,甚至还回踩了一脚。

学走路进行时

新的行走技能,要归功于加拿大不列颠哥伦比亚大学计算机系和俄勒冈州立大学动力机器人实验室两所机构。

让Cassie学会行走,需要用到强化学习模仿学习(Imitation Learning)

强化学习解决马尔可夫决策过程( Markov Decision Process, MDP)的最优策略,需要用到策略梯度算法;而模仿学习则需要解决参数策略问题。

之后,需要用到关键算法DASS来搞定数据集。每次连续设计迭代时重新定义奖励函数,用确定性行动随机状态(Deterministic Action Stochastic State,DASS)元组来表征策略。

之后,将DASS于强化学习、模仿学习结合在一起,为机器人设定策略。
现在需要在Cassie机器人上实验了。

Cassie双足机器人身高大约1米,体重31千克,两条腿上有复杂的传动机制,红色箭头都是主动关节,黄色的箭头都是被动关节。

需要在神经网络上进行参数化策略优化,这里用到了actor-critic算法和MuJoCo模拟器。

策略设计过程则是依靠四个基于追踪的策略的起始点。 DASS样本根据箭头的方向,从一个策略传递到下一个策略。

实际操作中,需要先训练几个初始策略,之后参考机器人的运动状态和需要达到的运动速度进行调整,这里只需要5~10k的小数据集就能实现变速行走策略。

最后,就可以让机器人跑起来了。Cassie机器人需要和计算机联网,操作过程中研究者们用到了Ubuntu系统和PyTorch框架来执行学习策略。

实验之后,可以看出使用更大的神经网络,就可以更快的产出更稳定的策略,比如图中的蓝色线条要明显优于红色和绿色。

传送门

最后,如果你需要了解更详细的步骤,可以阅读这项研究的论文。

论文:
Iterative Reinforcement Learning Based Design of Dynamic Locomotion Skills for Cassie
Zhaoming Xie, Patrick Clary, Jeremy Dao, Pedro Morais, Jonathan Hurst, Michiel van de Panne
https://arxiv.org/abs/1903.09537

小程序|get更多AI资讯与资源

加入社群

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;

欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文相关推荐

  1. 每公里配速9分18秒,双足机器人完成5公里慢跑

    内容描述:俄勒冈州立大学的 Cassie 在 53 分钟里完成了一段五公里慢跑,刷新了双足机器人的运动记录. 近日,来自美国俄勒冈州立大学的知名机器人研究团队 Agility Robotics 打造的 ...

  2. 装上螺旋桨,加州理工让只能行走的双足机器人「上了天」,还玩起了障碍滑板、走绳索...

    视学算法报道 编辑:杜伟.陈萍 能走能飞,这才是最酷的双足机器人吧?! 有的机器人可以行走,有的可以飞行.你见过既能行走又能飞行的双足机器人吗? 加州理工学院的研究人员就打造了这样一台机器人 LEON ...

  3. 【双足机器人(3)】3D线性倒立摆Python仿真(附代码)

    往期 本文是双足机器人系列的第三篇,在前面的文章中我们介绍了2D线性倒立摆的基本理论,详见: [双足机器人(1)]线性倒立摆及其运动控制(附代码) 在这篇文章中我们要详细介绍3D线性倒立摆的基本内容, ...

  4. 双足机器人ZMP预观控制算法及代码实现

    1. 简介 本文的主要内容参考了Kajita等人2003年的论文,Biped Walking Pattern Generation by using Preview control of Zero-M ...

  5. 双足机器人的最新就业方向:波士顿动力机器人「进厂搬砖」了!

    来源丨机器之心 点击进入->3D视觉工坊学习交流群 Atlas灵活得像个人一样. 近日,一段波士顿动力机器人 Atlas 在「施工现场」搬运物体的视频火了. 视频中,高架上的工人师傅说自己忘了带 ...

  6. matlab强化学习算例理/菜鸟理解1——双足机器人行走算例

    目录 matlab双足机器人强化学习算例介绍 强化学习的一些基础理解 菜鸟对一些名词的理解 matlab强化学习库介绍 双足机器人算例逻辑盘点 如何改写算例做自己的强化学习. %写在前面: 本人大四狗 ...

  7. 【双足机器人(1)】线性倒立摆及其运动控制(附代码)

    1. 简介 在仿人双足机器人的控制里面,可以将机器人模型简化为一个线性倒立摆模型(下图来自梶田秀司教授的<仿人机器人>[1],该书电子版可在公众号后台回复[HR]获得),用于机器人的平衡控 ...

  8. diy直立双足机器人_速看!近期国内外机器人资讯大汇总

    导语 三季度即将过半,二季度机器人事件回顾,智览行业发展.二季度机器人行业呈现出了怎样的发展动态呢?从行业大角度出发,带领大家回顾过去二季度的行业精彩. 国内 钛米机器人钛元助力首款人工智能5G农业机 ...

  9. ROS(12):双足机器人开发调研

    本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/49474219 未经博主允许不得转载.  博主地址是:http://blog.cs ...

最新文章

  1. ubuntu python设置utf-8
  2. 使用SAP WebIDE进行一个典型的bug修复流程
  3. 有效数据外含有额外数据_Excel|应用数据有效性规范数据录入
  4. ASP.NET验证控件祥解
  5. Java高级程序猿技术积累
  6. 软件测试系统学习流程和常见面试题
  7. The file contains a character that cannot be represented in the current code pag
  8. 计算机网络与通信pdf谢希仁_考情分析|2020年同济大学计算机考研考情分析
  9. 记一次mybatis-plus遇到的问题
  10. Linux虚拟网络基础——Bridge
  11. 计算机的kb和m之间的换算,g和兆的换算(G和M之间的换算)
  12. centos系统安装杀毒软件clamav
  13. w10不能访问网络计算机,Win10无法联网提示“无法访问您可能没有权限使用网络资源”怎么办...
  14. cdr非法软件禁用网络弹窗警告提示盗版设置方法
  15. iOS-申请邓白氏编码的超详细流程介绍
  16. 数据挖掘技术具有哪些特点?
  17. listview winfrom 表头_c# listview添加表头
  18. 新版标准日本语高级_第18课
  19. 全媒体运营师胡耀文教你:如何提升线上活动参与度?分享5个技巧
  20. Python - faker

热门文章

  1. 马化腾评 ofo 溃败原因;京东到家否认裁员;王兴质押全部摩拜股权 | 极客头条...
  2. Android 内核的开发“顽疾”如何解决?
  3. 快戳!Python 开发者的福音来啦!
  4. 腾讯没有梦想,阿里没有盟友?
  5. 网络编程之 进程间的通信之管道的使用
  6. oracle 12c 取消omf,Oracle12c创建及删除PDB
  7. java 循环间隔执行一次,每隔Java运行一次循环
  8. php网页设计设计心得体会,网页设计心得体会范文
  9. 查看数值类型python_python怎么看数据类型
  10. 分析reduce()的原理