强化栗 发自 凹非寺 
量子位 出品 | 公众号 QbitAI

强化学习AI打游戏,早就不稀奇了。

智能体在虚拟世界里死去活来,慢慢了解怎样的策略能让自己活得更长,得到更多的奖励

但AI可能不知道,游戏打不好,也可能是智能体的身体结构有问题。

 今天的主角,可能是AI界的橡胶果实了

如果可以一边学策略,一边改身材,或许能成就更伟大的强化学习AI。

于是,来自谷歌大脑的David Ha,为自家AI制定了双管齐下的特殊训练计划:

智能体不断调整自己的身材,比如腿的长度,找到最适合当前任务的结构;同时进行策略训练。

 身材修炼前 (左) vs 身材修炼后 (右):速度明显不一样

你看,智能体把腿跑细了,速度也快了许多。

除此之外,还可以培养越野能力。

在沟壑纵横的旅途中,原始身材的智能体时常翻车。

 改造前,翻车日常

但炼成优雅身型之后,翻车事件几乎不存在了,策略训练时间也缩减到原来的30%

身材科学了,策略也就好学了。

那么,是怎样的婀娜身段,能在降低时间成本的同时提升性能?再看一会儿你就知道了。

秀外慧中,有何密方?

从前的智能体,形状结构大都是固定的,只关注策略训练。可是,系统预先设定的身材,通常都不是 (针对特定任务) 最理想的结构。

因此,如同上文所说,策略要学,身材优化也要一起学。

这样一来,只用策略网络的权重参数 (Weight Parameters) 来训练就不够了,环境也要参数化

身体结构特征,比如大腿或小腿的长度、宽度、质量、朝向等等,都是这环境的组成部分。

这里的权重参数w,把策略网络参数环境参数向量结合起来,便可以同时培养身材和技巧。

随着权重w的不断更新,智能体会越来越强。

身材改造有没有用?只要和仅学策略、不改结构的智能体比一场,如果奖励分有提升,就表示AI找到了更适合这个环境的身型。

注意,为了修炼AI的冒险精神,研究人员把高难度动作的奖励扩大,引导智能体挑战自我。

身材改造,疗效甚好

比赛场地分两大块,一是基于Bullet物理引擎的机器人模拟库Roboschool,二是基于Box2D物理引擎的OpenAI Gym

两类环境都经过了参数化,AI可以学着调整里面的参数。

解锁高分姿势

首先,来到足球场 (RoboschoolAnt-v1) ,这里的智能体Ant是只四脚怪,每条腿分三截,由两个关节控制。腿是留给AI调节的,球状身躯是不可调节的。

 三截腿,最内侧的一截比较不明显

任务很简单,跑得越远越好。

经过训练 (上图右) ,智能体最明显的变化是腿部更加细长了,且四条腿长短不一,打破了对称性。身材改变之后,步频也加快了许多,长腿怪更早穿过了棕色跑道。

看一下奖励分:在100次测试里,原始结构的得分是3447 ± 251,而新结构的得分为5789 ± 479,疗效显著。

 左为原始,右为身材训练后 (红线代表激光雷达)

然后,进入绿地场景 (BipedalWalker-v2,基于Box2D,属于Gym) 。这里的智能体是两足的,在“激光雷达”的指引下往前走。

任务是在规定时间内,穿越一片和平的地形 (这是简单版,充满障碍物的复杂版见下文) 。用分数来看,100次Rollout超过300分就算任务成功。

原始身材获得了347分,优化后的身材则有359分。

两边任务都成功了,但改造过结构的智能体除了瘦腿之外,两腿四截的长度都有变化,给了AI弹跳前进的新姿势。动作看上去更加轻松,分数也高过从前。

好身材,能加速策略学习

上文绿地的硬核版 (BipedalWalkerHardcore-v2) 在此:路途崎岖,千山万壑,一不小心就会堕入深渊。

David Ha要在此证明,强健的身材能为智能体的策略学习带来加成,而不只是“两门功课同步学”那样粗暴的合体。

与之前的全面瘦腿不同,这次智能体的后腿,进化出了厚实的小腿,且长度和沟壑的宽度相近。

 红线代表激光雷达

这样一来,在跨越鸿沟的时候,后腿就能架起一座桥,保护智能体平稳通过,不翻车

与此同时,前腿承担了“危险探测器”的责任,侦查前方有怎样的障碍物,作为“激光雷达”的辅助,可以给后腿的下一步动作提供依据。

重点是,在这副新身材诞生的过程中,AI已学会了通关策略,耗时仅12小时。对比一下,不做身材优化的原始训练方法,用时长达40小时 (前馈策略网络,96个GPU) 。

这就是说,优雅的结构加速了智能体的学习过程。

 加入身材优化(橙色) ,训练效率明显提升,约1000代达成目标

脑洞,并非从天而降

第一,David Ha如何能预感到,改善智能体的结构就可以提升训练效率

他说,是从大自然得到了启发。

 错误示范

有些动物在脑死亡之后,依然可以蹦跳,依然可以游泳。

也就是说,生物体的许多行为,并不依赖大脑。

有种叫做体验认知 (Embodied Cognition) 的理论认为,认知的许多特征,都不是大脑独自决定:生物体的方方面面,如运动系统、感知系统、生物体与环境的相互作用等等,都会对认知产生影响。

比如,运动员在长期训练的过程中,除了身体得到锻炼,某些特定的心理素质也会随之生成。

David Ha觉得,这样的现象在AI身上也有可能发生:对躯体进行训练,从而影响认知。

第二,通过训练来改变智能体结构的想法,也是来源于自然。

 火烈鸟本不是红色,吃了小鱼小虾之类的食物,羽毛才变红

中学生物告诉我们,表现型是基因型环境共同作用的结果。

那么,各式各样的虚拟场景,也会让更适应环境的智能体结构脱颖而出。这样,AI便可以借助环境的选择,炼成更加精湛的技能。

缘,妙不可言。

论文传送门:
https://designrl.github.io/

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

谷歌AI为达目的,把自己的身体改造成了这样……相关推荐

  1. 谷歌AI智商达苹果Siri两倍 但不及6岁儿童

    来源:IT之家 概要:3名中国研究员近期发表的论文指出,谷歌人工智能技术相对于苹果Siri"智商"明显更高. 3名中国研究员近期发表的论文指出,谷歌人工智能技术相对于苹果Siri& ...

  2. 一文看尽谷歌AI全年重大研究突破,Jeff Dean执笔,全程干货

    本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处 本文约一万字,建议阅读10+分钟. 学术和应用两开花,开源和新技术同步推进. 刚刚,Jeff Dean代表Google A ...

  3. 击败谷歌AI拿下“最强”称号?Facebook AI开源聊天机器人Blender

    如今,我们对虚拟语音助手已经十分熟悉.无论是苹果 Siri.亚马逊 Alexa,还是百度小度,阿里巴巴天猫精灵,在提供帮助之余,还经常扮演着被无聊人类调戏的对象. 就在你来我往的博弈之间,语音助手们练 ...

  4. 谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复“谷歌BERT论文”下载彩标PDF论文)

    谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复"谷歌BERT论文"下载彩标PDF论文) 原创: 秦陇纪 数据简化DataSimp 今天 数据简化 ...

  5. 一周AI看点 | 谷歌AI工程师说五年内实现人机对话,能实现吗;NASA开发AI竞赛无人机要挑战人类职业玩家,无需外部定位技术

    本期一周AI看点包括行业热点.投融资.业界观点.技术前沿以及应用等方面. 01 行业 NASA开发AI竞赛无人机,欲挑战人类职业玩家 近日,NASA喷气推进实验室(Jet Propulsion Lab ...

  6. 快讯 | 谷歌AI实验室DeepMind CEO称:AI未来也许会拥有自我意识;国内首个自主研发髋膝一体骨科手术机器人上市

    一分钟速览新闻点 东南大学新增未来机器人等5个新专业 北大团队推出"职场神器"ChatExcel,表格用户不再需要记公式 节卡机器人再度亮相汉诺威工博会,助力工业碳中和与数字化转型 ...

  7. 【IEEE 2021大奖出炉】谷歌AI掌门人Jeff Dean获冯诺依曼奖

    作者 | 陈大鑫 近日,2021年度IEEE 冯诺伊曼奖项结果正式公布! Google 高级研究员(Senior Fellow).AI掌门 Jeff Dean摘得本年度奖项,获奖理由为「表彰其对大规模 ...

  8. IEEE 2021多项大奖出炉!谷歌AI掌门人Jeff Dean获冯诺依曼奖

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:AI科技评论 作者 | 陈大鑫 近日,2021年度IEEE 冯诺伊曼奖项结果正式公 ...

  9. 从Pixel 3a到Android Q,一份谷歌AI能力的“成绩单” | Google I/O全程回顾

    作者 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 当地时间 5 月 7 日上午(北京时间 5 月 8 日凌晨一点),一年一度的 Google I/O 开发者大会如期而至.今年也是 ...

最新文章

  1. micropythonesp8266的温度湿度_用ESP8266上传温湿度给ONENET(不需要arduino)
  2. 输入一个整数,输出该数二进制表示中1的个数。其中负数用补码表示
  3. 剑指 Offer 05. 替换空格(两种做法)
  4. Redis的两种备份方式:RDB和AOF
  5. jquery练习——简单的图片结果展示效果
  6. FashionMNIST数据集国内可以用的下载地址
  7. 活动策划方案具体流程
  8. 通信原理及matlab仿真实验指导书,通信原理实验指导书——2015.pdf
  9. mysql获取姓名拼音首字母_C# 汉字获取拼音首字母,给数据库中的姓名添加首字母...
  10. php网页显示左中,php的动态页面在ie内核的浏览器面整体偏左的解决方法静
  11. 互联网评论(一):由“戴尔用博客与中国用户沟通”想起
  12. Win10 Office2016 激H失败错误代码0x80080005
  13. 快速开始keras 教程
  14. 姓氏头像框一键制作小程序源码
  15. 固态硬盘 每秒1.5G
  16. 经典排序算法-----归并排序(C语言实现)
  17. 快捷键与偏好设置整理
  18. 基于51单片机的脉搏测量仪protues仿真设计
  19. 细粒度的线程控制?使用Lock Condition~
  20. 【转】如何使用分区助手完美迁移系统到SSD固态硬盘?

热门文章

  1. 支付宝推生物识别;Google 爆重大隐私问题;TensorFlow 2.0 即将发布 | 极客头条
  2. 腾讯 WeGame 被迫下架《怪物猎人:世界》究竟该怪谁?| 畅言
  3. @苹果,iOS App 还需要多久才能运行在 Mac 上?
  4. 这三种程序员,是时代的溺水者
  5. c语言tracert程序一直超时,TRACERT怎么用我用这个命令为什么都是超时啊 爱问知识人...
  6. 牛逼!java开发环境配置视频教程
  7. 来来来!java页面导出数据到excel
  8. 给Java程序员的一些面试建议,大厂面试题汇总
  9. android radiobutton底部导航,android中Fragment+RadioButton实现底部导航栏
  10. 限制会话id服务端不共享_【干货分享】Web安全漏洞深入分析及其安全编码