李飞飞团队从动物身上get AI新思路,提出RL计算框架
2021-02-10 13:47:36
杨净 发自 凹非寺
量子位 报道 | 公众号 QbitAI
如果机器能像动物一样学习与进化会如何?
这是李飞飞团队的最新研究。
在过去6亿年中,动物在复杂的环境中学习与进化成各异的形态,又利用进化的形态来学习复杂的任务。如此周而复始的学习与进化,造就了动物的认知智慧。
但其中环境复杂性、进化形态和智能控制的可学习性之间的关系原理仍然难以捉摸。
本中提出了一种深度进化强化学习计算框架DERL。它可以演化不同的形态,在复杂的环境中学习一些具有挑战性的运动、操纵任务。
最终利用DERL,研究人员证明了环境复杂性、形态智能和控制的可学习性之间的几个关系。
通过学习和进化来实现的形态智能
创建适应性的形态,在复杂的环境中学习操纵任务是具有挑战性的,存在双重困难。
第一种,在大量可能的形态组合中进行搜索。第二种,通过终生学习评估适应性所需要计算时间。
因此,此前的工作要么在有限的形态空间中进化,要么专注于寻找固定的形态最佳参数,亦或是就在平坦的地形中学习。
为了克服这些实质性的限制,本文提出了深度进化强化学习(Deep Evolutionary Reinforcement Learning,DERL)计算框架。
本文提出了一种高效的异步方法,用于在许多计算元素之间并行化学习和进化基础计算。
如图(b)所示,进化的外循环通过突变操作优化机器形态,比如高度、位置、箱子的大小等属性。
而内部的强化学习循环则用来优化神经控制器的参数。
还引入了一个UNIMAL,即UNIversal aniMAL形态设计空间,如图(d)所示,它既具有高度的表现力,又丰富了有用的可控形态。
而复杂环境由三个随机生成的障碍物组成:山丘、台阶和碎石。模型必须从初始位置(图e绿色物体)开始,并将一个盒子移动到目标位置(红色方块)。
此外,DERL创建了体现型的模型,不仅可以在较少的数据进行学习,还可以泛化解决多个新任务,从而缓解了强化学习的样本效率低下。
DERL的运作方式是模仿达尔文进化过程中几代模型在形态上的搜索、一生中的神经学习交织在一起的过程,通过智能控制来评估一个给定形态解决复杂任务的速度和效果。
总共有8个测试任务,涉及了稳定性、敏捷性和操纵性的测试,来评估每个形态对强化学习的促进作用。
研究人员在每个环境的3次进化运行中挑选出10个表现最好的形态。然后,每个形态从头开始训练所有8个测试任务。
最终选出了在不同环境下演化出的最佳模型形态。
结果发现,通过鲍德温效应,模型适应性可以在几代的进化过程中从其表型学习能力迅速转移到其基因型编码的形态上。
(鲍德温效应:没有任何基因信息基础的人类行为方式和习惯,经过许多代人的传播,最终进化为具有基因信息基础的行为习惯的现象。)
这些进化后的形态学又赋予了模型更好更快的学习能力,以适应新任务。
团队猜测,很可能是通过增加被动稳定性和能量效能来实现的。
此外还证实了环境复杂性、形态智能和可学习性控制之间存在着以下的关系。
首先,环境复杂性促进了形态智能的进化,以一种形态促进学习新任务的能力来量化。
其次,进化时会迅速选择学习速度较快的形态,这一结果构成了长期以来猜想的形态学鲍德温效应的首次证明。
第三,实验表示, 鲍德温效应和形态智能的出现都有一个机理基础,即通过物理上更稳定、能量效率更高的形态的进化,从而可以促进学习和控制。
团队介绍
这篇文章李飞飞团队领衔,由来自斯坦福大学计算机科学系、应用物理系、吴蔡德神经科学研究所等团队共同研究。
第一作者是Agrim Gupta,斯坦福大学二年级博士生,致力于研究计算机视觉。
论文链接:
https://arxiv.org/abs/2102.02202
— 完 —
李飞飞团队从动物身上get AI新思路,提出RL计算框架相关推荐
- 李飞飞团队从动物身上get AI新思路,提出RL计算框架,让机器在复杂环境学习和进化...
杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 如果机器能像动物一样学习与进化会如何? 这是李飞飞团队的最新研究. 在过去6亿年中,动物在复杂的环境中学习与进化成各异的形态,又利用进化的形 ...
- 李飞飞团队新作登PNAS!AI 与人类互动才能提高智能水平!
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:AI科技评论 作者 | 李梅 编辑 | 陈彩娴 人类从与 ...
- 李飞飞团队CVPR论文:让AI识别语义空间关系(附论文、实现代码)
本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处. 本文共1000字,建议阅读5分钟. 斯坦福视觉实验室即将在CVPR 2018上发表的一篇关于研究"指称关系&q ...
- 视觉能力提升112%!李飞飞团队让AI进入社会,学会了“骗”标注…
作者 | 李梅 编辑 | 陈彩娴 来源 | AI科技评论 人类从与他人的互动中学习,而目前的人工智能却常常只能在与社会隔离的环境中学习.所以当我们把一个智能体放到真实世界中时,它会不可避免地在遇到大量 ...
- 李飞飞团队最新研究 :「四步」AI方案助老人抵抗新冠肺炎,联合学习降低个人隐私风险
自2018年回归学术界后,李飞飞教授便很少对外露面,近日在一次斯坦福的线上会议,让我们有机会了解她与团队的最新研究--<AI-ASSISTED IN-HOME ELDERLY CARE AMID ...
- 李飞飞团队加入AI抗疫:家用监控系统,可以远程反馈新冠症状
白交 发自 凹非寺 量子位 报道 | 公众号 QbitAI AI女神李飞飞,也率队加入科技抗疫中. 最近,在斯坦福大学HAI研究院举办"COVID-AI"直播大会上,李飞飞团队提 ...
- 这么多人,AI怎么知道你说的是哪个? | 李飞飞团队CVPR论文+代码
夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 保安,保安!抓住那个砸玻璃的人! 对于人类保安来说,理解这个指令是自然而然毫无难度的事.但机器就不一样了:它们能从画面中认出人人人人人,但究 ...
- 李飞飞团队最新研究,真实场景中识别物体具体属性,连表面纹理都识别出来了...
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 整理:公众号@量子位 本文仅做学术分享,如有侵权,请联系删除. 现在,细微到物体表面的纹理,AI都可以 ...
- 时间序列的建模新思路:清华、李飞飞团队等提出强记忆力E3D-LSTM网络
作者 | Yunbo Wang,.Lu Jiang. Ming-Hsuan Yang.Li-Jia Li.Mingsheng Long.Li Fei-Fei 译者 | 凯隐 编辑 | Jane 出品 ...
最新文章
- 【阅读笔记】Thinking in Java 对象入门
- “忽悠”智能机器人,竟然改改物品纹理就成功了!北航新研究:时空融合对抗攻击算法...
- mysql 配置文件
- 51CTO微博认证说明
- 大剑无锋之GC【面试推荐】
- 产品认知:揭秘你不会画产品信息结构图的本质
- Spring-Boot + AOP实现多数据源动态切换
- stotybord如何添加子视图_Revit软件技巧合集(建筑构件、视图处理、建筑表现、高级技巧)...
- 使用Spring自定义注解实现任务路由
- Android7.0的xposed框架,Android 7.x 安装Xposed框架
- 奈学教育CEO孙玄:成为一个有情怀的工程师,我的12点思考
- vue 两种文档下载方法的实现(后台传递文件流,后台返回文件下载地址)
- 打印机的系统是linux吗,linux下打印机的配置和使用
- IPQ5000/IPQ5010/IPQ5018/方案WiFi6开发 工业5G CPE
- DOSBox+MASM搭建汇编环境
- 简单的stm32程序
- Windows Server 2012/2016 桌面显示我的电脑图标
- 计算机快速格式化u盘启动,小编教你如何解决u盘打不开提示格式化
- 51单片机ROM和RAM
- 史上最全Apidoc文档生成详解
热门文章
- pads pcb导出pdf文件_干货 | 学会设计不规则形状PCB,看这一篇就够了
- python制作图形化小游戏_创意编程|Python的GUI简易界面设计测测你的反应力
- OJ在线编程----常见输入输出练习场
- oracle修改备库状态,Oracle-CRSCTL命令显示备库状态不正确
- linux重命名命令
- oracle insert汉字出错,Oracle数据库之Oracle批量插入数据SQL语句太长出错:无效的主机/绑定变量名...
- John Hopcroft、Bart Selman与张宏江展望“AI未来10年”
- 是不是“异常”让我的脑子糊涂了?
- 对于任天堂你了解多少?
- 对线性代数的思考和理解