每次看到人类训练机器人,我都会很困惑一件事,那就是在如此残酷环境中培养出来的技能,到底能在现实世界中用上几回?

像是狠狠从背后踹它一脚,让它倒地后再爬起来;让两个机器人斗殴在地上疯狂摩擦;又或者是在十几米的高台不停地跳高高……有事吗???

这么对待重金打造的机器人,先不说画面“不忍直视”,修理损耗难道不要钱的吗?

后来我明白了,这跟目前的技术路径有关。深度学习就是要进行大量的实践和训练,才能不断优化算法,直至机器人能够应对真实世界中各种各样的状况。

理论上讲,只要时间足够长、预算无上限,猴子也能用电脑写出文学著作,更何况是算力逆天的机器。

但,这跟我们普通人又有什么关系呢?我们能否在有生之年用上(而且买得起)可靠解决问题的机器小助手呢?一万年太久,我们只争朝夕好吗?

最近,伯克利和谷歌大脑最新开发的强化学习算法——soft actor-critic(SAC),据说就现实世界的机器人学习,或许,有望改变一下训练机器人的古早思维。

今天我们就来聊聊,SAC会如何改变机器人的“成材之路”?

为什么想要一个rio的机器人,这么难?

在介绍SAC这个新算法之前,有必要先解释一下,是不是一定要有更好的机器人算法呢?或者说,这个算法到底能够改变什么?

这要从机器人在现实世界中遇到的挑战来解答。

首先,是目前的训练方式,决定了机器掌握新技能的速度还远远不够。

传统的机器学习算法,每次执行新任务时,都需要对原型设计进行参数调整,有的还需要重新收集数据进行训练,这就使得机器新技能所需的总时间迅速增加;

其次,现实场景中的无数意外,都有可能让机器出现故障。

真正在使用机器时,无论出现什么问题,比如断电或者网络延迟,机器都会以“死机”来应对危机。如果每次都要以“重启”来恢复作业,那应用机器人的价值何在?

以上都是效率问题,传统训练方式带来的成本困境,更是令研究人员愁到秃头。

无论是训练人员人为制造bug的暴力操作,还是执行器在种种复杂环境下的高频抖动,都会给硬件带来极大的磨损。这是机器人吗?这是钞票粉碎机啊!

当然,人类也不是没有想过办法。比如让机器人打游戏啦,设计仿真环境啦,这些努力都大大减少了对现实训练的依赖,但归根结底,都无法替代现实环境的多样性和随机性。最重要的,还是得打造一套专为现实世界机器人“量身定制”的算法。

真实世界的机器人,到底需要怎样的算法?

那么,这样一套算法应该具备哪些属性呢?

至少需要有这样几个关键要素:

1.良好样本复杂性。提供给算法的训练样本数量越多,机器获得数据标签的时间成本也就越低,返回的误差也更小,在强化学习中的表现自然也就越出色;

2.没有敏感的超参数。为了提高机器学习的性能和效果,往往需要对超参数进行优化,但在现实环境中,自然是参数调整越少越好。算法就需要最大限度地减少调整超参数的需求;

3.异步采样。真实世界中,难免会出现数据流终端、推理延迟等问题,要让机器在“重启”阶段也能够保持一定的持续性和稳定性,就必须将数据的收集和训练在确保在最小化的多个独立线程中进行。

4.动作平滑。为了防止大幅度动作或震动损坏硬件,因此,时间上具有关联和连贯性的探索就变得尤为重要了。

简单总结一下,如果我们相信未来真实世界中的机器人不可或缺,那么,要求它用无限长的时间、无限多的投入、无数次的碰壁去掌握这样那样的本领,显然不太明智。

如何让它自己进行有取舍、有现实意义的训练呢?SAC应声出现。

SAC成功的秘诀,就是心大

说了这么多,正主终于出现了。那么。究竟什么是SAC?

SAC,全称是Soft actor-critic。从名字不难看出,SAC也是基于Actor-Critic算法的逻辑,即actor(玩家)随机表演,critic(评委)随机打分,互相制衡下追求更好的表现(reward)。

不同的是,SAC对参数的态度十分“温柔”,它会自动权衡预期收益(最大化回报)和探索深度(最大化的不确定性),然后自动学习不是将其视为需要调整的“超参数”,从而获得最优策略。

这样带来的好处是,训练样本多样,还不需要频繁调整参数,学习效率高了很多。即使遇到最差的实验环境,也表现良好。

这就像是以前机器需要在人类亲妈的“呵护”之下,点灯熬夜穷经皓首地做奥数题,以期成为“数学神童”。如今学会了劳逸结合奋发图强,拿下高考高分就一本满足了。显然,后者才是大多数普通机器的榜样和人类家长应该有的期待嘛。

具体表现如何,有请来自“伯克利小学”的三位机器人同学现身说法:

第一个向我们走来的是Minitaur,一个带有八个驱动执行器的小型四足机器人。在前进时,往往借助控制器追踪四肢的摆动部位,观察好各种角度以平衡腿上的力度。如果没有有效的训练策略,很容易失去平衡而摔倒,摔多了钢筋铁骨也会坏的啊。

不过,在掌握了新的学习方法之后,由于训练时将数据的不确定性最大化,Minitaur不需要任何额外的学习,就可以驾驭绝大对数平衡性的干扰。

第二位是非常灵活的“三指手”同学,它的任务是用手旋转“阀门”,使彩色挂钩朝右。但阀门上安装了一个小型电机,受力会自动复位。因此,每转一次,阀门的初始位置都会被随机重置,使得机器必须重新感知当前的阀门方向。这个任务需要感知预测,并精准地控制9个伺服电机关键来完成,非常具有挑战性,但我们的“三指手”依然顺利完成了任务。

最后一位机器人同学虽然在玩乐高,但并没有从中得到多少乐趣。因为训练者要求它在堆叠积木的时候准确地对准螺柱以减少摩擦。

除了需要确定关节的位置和速度之外,还需要保证末端的力度,并且将复杂命令同时传送给7个关节。这和要求人类小孩“百步穿杨”有差别吗?

不过,掌握了SAC大法的机器并没有让人失望,只用3个小时就学会了如何搞定这个任务。而以往使用的PPO策略用了7.4小时才搞定。SAC是不是很棒棒?

在论文中,研究人员给SAC用了一个高调的定语:“state-of-the-art”(最先进的),可以说是实至名归了。

当然了,上述还都只是些比较概念化的实验,真正要将这种能力扩展到更具挑战性的现实任务中,还需要大量的优化迭代、开发编码调参等工作,不过可以预测的是,由于SAC的出现,机器人正在无限近地接近概念到实用的临界点。

有了这个最佳引路人,机器人终于可以少受点“虐待”,真正渗透进生活的细节了。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31561483/viewspace-2557323/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31561483/viewspace-2557323/

机器人素质教育,是时候普及一下了相关推荐

  1. 看机器人教育引领素质教育主流

    看机器人教育引领素质教育主流 这些年,人工智能.创客.STEAM.机器人肯定是教育领域的关键词,当然这也是对传统教育的挑战.这种被称为"新时代的素质教育"就像一个蹒跚学步的孩子,体 ...

  2. 机器人教育发展_得于人工智能发展,机器人教育低龄化越来越普及

    近两年,各种看得到看不到的渠道都在推荐学机器人少儿编程,虽有利益使然,不过机器人少儿编程也确实算得上是通往世界名校大门的快速通道. 相信很多家长也同样能感到,最近这股风刮得实在是太大,以至于周围的家长 ...

  3. 机器人创客教育在哪里

    二十一世纪已经全面进入人工智能与机器人教育并驾齐驱的社会,格物斯坦表示,未来不掌握高科技,就算读书速到博士研究生,也算半个文盲,机器人教育是真正意义上全方面培养学生们的各项能力. 世界各国,机器人教育 ...

  4. 全球及中国STEAM素质教育行业发展价值与运营能力状况分析报告2022版

    全球及中国STEAM素质教育行业发展价值与运营能力状况分析报告2022版 HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS-- [修订日期]:2021年11 ...

  5. 凡子谷机器人创客教育_机器人创客教育好处

    二十一世纪已经全面进入人工智能与机器人教育并驾齐驱的社会,格物斯坦表示,未来不掌握高科技,就算读书速到博士研究生,也算半个文盲,机器人教育是真正意义上全方面培养学生们的各项能力. 世界各国,机器人教育 ...

  6. 计算机素质教育论文800,关于素质教育的作文800字

    关于素质教育的作文800字 今年春天,山东省素质教育工作会议召开.省教育厅厅长在会议上强调:山东省所有中小学都要全面普及素质教育,继续加大对全省中小学的督查力度.今后一段时间内,各级教育行政部门要不定 ...

  7. 计算机文化教育对学生思维品质的影响,信息技术教育让素质教育绽放“光芒”...

    信息技术 信息技术教育让素质教育绽放"光芒" [内容摘要]近年来,在素质教育的大前提下,中小学开展信息技术教育.培养学生成为具有良好信息素养的公民,是21世纪信息化社会对学校教育的 ...

  8. 互联网快讯:快手启动“新锐品牌计划;猿辅导、掌门教育布局素质教育

    零售电商 1.阿里社区电商品牌升级为"淘菜菜",整合"盒马集市"与"淘宝买菜" 2.达达集团与完美日记达成战略合作,超160家门店已上线京东 ...

  9. 启发国内学子学习少儿机器人编程教育

    近几年,少儿编程十分火热,作为人工智能时代的新兴科目,少儿编程成为许多家长提升孩子思维与能力不二之选."双减"意见落地,除教培行业外,也受到了家长们的热切关注.我们都知道,&quo ...

最新文章

  1. 为什么有些老板要注册很多家公司
  2. Flask-uploads 简单使用
  3. 从pfx里面 解析出公私钥
  4. 数据库:悲观锁与乐观锁
  5. MySQL光标的使用
  6. android 学习过程中登陆失效的个人理解
  7. php通用下载方法,php实现当前页面点击下载文件的简单方法
  8. C# WPF MVVM开发框架Caliburn.Micro 名称Transformer⑩①
  9. java coin介绍_代码示例中的Java 7:Project Coin
  10. append从一个添加到另一_麻城一总投资1.5亿项目开工建设,另一项目预计9月底开工,还有一个年产值14亿的5G项目快速推进中...
  11. 木马的隐藏及其启动方式 (转)
  12. 双系统格式化Ubuntu分区后Windows 开机出现grub rescue问题
  13. 360签名工具 linux,360签名工具-360apk签名工具(qihoo360 apk signer)下载 v1.0官方版--pc6下载站...
  14. 模拟鼠标移动、点击,双击,键盘输入,鼠标滚轮滚动
  15. adobe flash java_Adobe 发布最后的 Flash 更新:官方强烈建议立即卸载
  16. 组合体视图的画图步骤_工程制图 组合体
  17. winrar密码秒破_家用的指纹密码锁好用吗?什么品牌好?
  18. 中段尾段全段什么意思_排气管中段 尾段 全段 和芭蕉 是什么意思
  19. 如何批量保存虾皮购物中的商品主图、颜色分类图片
  20. 如何使用 Windows 10 自带的磁盘清理程序?

热门文章

  1. 常用的Linux快捷键 [译]
  2. 联想计算机网络唤醒是怎么回事,笔记本开启网络唤醒功能设置的操作方法
  3. 论文数据分析-1(论文数据统计)
  4. cglib中Enhancer介绍
  5. 机器人控制器编程课程-教案04-综合
  6. ChatGPT详聊IT服务台,AI可以取代人工么?
  7. 10月3日 c语言 输入4*5矩阵
  8. 基于STM32的红外人体感应器控制LED灯的状态
  9. 10个适合于高级Java开发人员的外国网站
  10. 十一、PL/SQL过程