博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI

李飞飞团队的机器人模拟训练场2.0版本来了!

这个拥有超过8000个交互式场景的模拟环境iGibson,再次发生了进化!

而进化之后的iGibson 2.0,核心就一句话:

机器人们别抓小球儿了,来做家务吧!

像是模拟环境中增加的温度、湿度、切片等多种物理状态,就亟待各位机器人来个洗、切、炒菜一条龙服务:

而且这可是外表颜色会发生改变的真·煮熟。

做完饭之后,还能擦一下台子上的污渍,整理一下桌面。

再把没用完的蔬菜放回冰箱,看着它变成“冰冻”状态。

人类还能通过VR进入模拟环境,给机器人示范下如何做一个标准的家务:

那么现在,就一起来看看这次版本更新的具体内容吧。

新增5种物理状态

好的,现在我们的机器人选手进入了模拟环境,它将要做一顿菜。

而这顿菜,将会用到这次iGibson 2.0扩展的五个新的物理状态:

湿润程度

先从洗菜开始。

洗菜的水来自一种流体模拟系统。

比如下方这个水槽上的水龙头:

水龙头作为液滴源产生液滴,然后汇聚在其他容器(盘子)里,或被可浸泡的物体(毛巾)吸收。

在iGibson 2.0中,物体吸收的液滴量也就对应了物体的湿润程度。

切割

洗完了,开始切菜。

但这里就碰到了一个难题:

一般来说,模拟环境中的物体会被假定为具有固定节点和三角面的三维结构,要实现“切割”这一动作并不简单。

而iGibson 2.0则通过更新切片状态、保持物体实例的扩展状态来完成切割动作。

当拿着切片工具,并作用了超过物体切片力阈值的力时,切片状态就会转为“真”。

这时,模拟器会将会将一个物体替换为两个:

这两半“被切开的物体”则会继承整个对象的扩展物体状态(如温度)。

而这种转换是不可逆的,在之后的模拟时间中,物体会一直保持这种切片状态。

温度

现在,我们要使用这个微波炉来煎鱼了:

要让温度自然变化,iGibson 2.0便将WordNet层次结构中的对象类别注释为热源

这是iGibson 2.0中的一个新规定:

即每个模拟对象都应该是WordNet中现有对象类别的一个实例。

而这种语义结构能够将特征与同一类别的所有实例联系起来。

好,现在我们要通过这个热源来改变改变其他物体的温度。

和现实中的微波炉一样,用手拨动后受热物体就会开始升温。

具体温度会这样变化:

∆sim:模拟时间 r:热源变化率

并且,每个物体在过去达到的最高温度的历史值也会被保留。

比如上图中的鱼,在过去曾达到过烹饪或燃烧的温度。

因此即使在热源关闭后,它也会呈现出被烤熟或烧焦的外观。

也就是说在模拟环境中如果烤糊了,那也就是真的烤糊了!

清洁程度

清洁程度换句话说,就是含有灰尘污渍的程度。

在iGibson 2.0中,对象初始化时可以含有灰尘或污点颗粒,还能采取行为来改变物体的清洁度。

因此,在做完菜后,机器人可以选择用布擦拭灰尘颗粒:

或者选用湿的工具(擦洗器)来清除来清除污渍:

状态切换

iGibson 2.0为一些对象提供“开”和“关”两种状态的切换功能,并同时维护其内部状态和外观变化。

这种状态的切换是通过触摸一个虚拟固定链接TogglingLink来完成的。

比如下方这个烤箱,在“开启”状态(右图)时,其外观会发生改变。

于是最后,机器人关掉器械,圆满完成了这次任务。

而这样一个稳固、逼真、便捷的模拟环境,自然也就意味着机器人能够进行更多、更复杂的任务训练。

基于逻辑谓词的生成系统

加上前面这些新的物理状态后,就足以模拟室内环境中的一系列基本活动。

不过如果用我们平常生活中的自然语言来描述这些状态的话,emmm……

就像是重庆人的“微辣”之于外地人一样,一定会存在个体理解上的语义差异。

因此,iGibson 2.0以常见的自然语言为基础,定义了一组逻辑谓词(Logical Predicates):

这组逻辑谓词将扩展的对象状态映射到对象的逻辑状态上,以符号化方式描述对象的状态。

基于不同的逻辑谓词,我们会对有效对象进行不同的采样。

比如,对于像是Frozen这种基于物体扩展状态的谓词,就对满足谓词要求的扩展状态值进行采样。

而如果是OnTopOf这种运动学谓词,就需要结合射线投射、分析方法等机制,来保证物体处在一个静止的物理状态:

那么这时,我们就得到了一个基于逻辑谓词的生成系统。

在这一系统中,我们只要指定一个逻辑谓词的列表,就能更加快速、便捷地生成模拟场景。

VR让机器人学着人类做

现在,机器人训练的场地已经搭建好了。

我们的最终目标,是让机器人通过训练来完成越来越复杂的任务。

那么,或许可以让机器人来看看人类是怎么做的,进而开发出新的解决方案?

于是,iGibson 2.0引入了VR,让人类也能进入机器人训练的场景中:

团队根据通过OpenVR与市面上主要的VR头盔兼容,并有一个额外的跟踪器来控制主体。

通过iGibson的PBR渲染功能,系统会以最高90帧/秒的速度接收从虚拟化身的头部视角生成的立体图像。

而通过人类在VR环境中完成任务的流程,研究人员也能更加便捷地收集到长期、复杂、双手动移动操作任务的演示数据。

当然,抓小球的经典任务也不能忘。

为了提供更自然的抓取体验,团队实现了一个辅助抓取(AG)机制:

在用户通过抓取阈值(50%驱动)后,只要物体在手指和手掌之间,就能在手掌和目标物体之间形成一个额外的约束。

妈妈再也不用担心机器人抓不住小球了

而最后,李飞飞团队也表示:

iGibson是一个完全开源的、面向大型场景交互任务的模拟环境。

我们希望iGibson 2.0能成为社区有用的工具,减少为不同任务创建模拟环境的负担,促进具身AI(embodied AI)研究的解决方案的发展。

下载地址:
https://github.com/StanfordVL/iGibson

论文地址:
https://arxiv.org/abs/2108.03272

官网:
http://svl.stanford.edu/igibson/

参考链接:
https://twitter.com/drfeifei/status/1425204811771744263

李飞飞团队给机器人造了一个“模拟厨房”:洗切炒菜一条龙训练!人类还能VR监管 | 开源...相关推荐

  1. 开源!李飞飞团队给机器人打造一条龙训练!人类还能VR监管

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 李飞 ...

  2. 李飞飞团队从动物身上get AI新思路,提出RL计算框架,让机器在复杂环境学习和进化...

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 如果机器能像动物一样学习与进化会如何? 这是李飞飞团队的最新研究. 在过去6亿年中,动物在复杂的环境中学习与进化成各异的形态,又利用进化的形 ...

  3. 李飞飞团队CVPR论文:让AI识别语义空间关系(附论文、实现代码)

    本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处. 本文共1000字,建议阅读5分钟. 斯坦福视觉实验室即将在CVPR 2018上发表的一篇关于研究"指称关系&q ...

  4. 李飞飞团队从动物身上get AI新思路,提出RL计算框架

    2021-02-10 13:47:36 杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 如果机器能像动物一样学习与进化会如何? 这是李飞飞团队的最新研究. 在过去6亿年中,动物在复杂的环境 ...

  5. 李飞飞团队最新研究 :「四步」AI方案助老人抵抗新冠肺炎,联合学习降低个人隐私风险

    自2018年回归学术界后,李飞飞教授便很少对外露面,近日在一次斯坦福的线上会议,让我们有机会了解她与团队的最新研究--<AI-ASSISTED IN-HOME ELDERLY CARE AMID ...

  6. 这么多人,AI怎么知道你说的是哪个? | 李飞飞团队CVPR论文+代码

    夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 保安,保安!抓住那个砸玻璃的人! 对于人类保安来说,理解这个指令是自然而然毫无难度的事.但机器就不一样了:它们能从画面中认出人人人人人,但究 ...

  7. 回斯坦福之后研究成果曝光,李飞飞团队用机器学习教机械臂做动作

    此次李飞飞团队结合了AI及深度学习等相关技术,让机械臂拥有模仿和学习的功能,是一次技术进步. 自从李飞飞离开谷歌回到斯坦福之后,她的研究方向及成果就备受业界关注.近日,其领导的团队在瑞士苏黎世召开的机 ...

  8. 用TCN取代RNN!李飞飞团队提出口语语音识别新方法

    \n 在自然语言理解中,Word2Vec.EMLo和BERT对各项语言理解任务的提升效果非常明显.而在语音识别和情感识别中,基于字符.音素等的编码识别则面临着很多的挑战.近日,李飞飞团队与斯坦福大学音 ...

  9. 斯坦福大学李飞飞团队图像分类课程笔记

    斯坦福大学李飞飞团队图像分类课程笔记 Stanford image classification course notes 这是斯坦福CS231n课程图像分类基础知识. 目标:这一节先介绍图像分类基本 ...

最新文章

  1. AFF镜像工具集afflib-tools
  2. linux系统中如何查看日志 (常用命令)
  3. 发布至今18年,为什么SQLite一定要用C语言来开发?
  4. 《C++ Primer》14.2.1节练习
  5. IDEA中控制台中文乱码问题
  6. C语言结构体初始化(转载)
  7. pyCharm-激活码(2018)
  8. rdkitpython | 通过反应获得断键位点与类型
  9. Cnskype移动办公现状分析管理
  10. 学好英语网html首页制作,首页英语
  11. 电脑自带的edge浏览器无法访问解决问题
  12. MaskRCNN源码解析1:整体结构概述
  13. 内存取证-volatility工具的使用 (史上更全教程,更全命令)
  14. 使用python实现自动爬取得物交易记录,商品信息进行数据分析
  15. 【TCP-IP详解卷1-协议】第一章 概述
  16. 超级减肥王 V4.1.0 iPad版
  17. webpack (常问高薪面试题11道)(20220401)
  18. 代码随想录——求根节点到叶节点数字之和
  19. 防疫与复工同行,长沙望城进入“双统筹”的关键时刻
  20. HTTP-XMLHttpRequest

热门文章

  1. 禁用Chrome缓存进行网站开发
  2. SQL Server中的char,nchar,varchar和nvarchar有什么区别?
  3. 2019/2/23研究日志
  4. 《深入理解Oracle 12c数据库管理(第二版)》PDF
  5. 修改Eclipse发布路劲(Deploy path)
  6. 转:Ubuntu中安装和配置 Java JDK,并卸载自带OpenJDK(以Ubuntu 14.04为例)
  7. 国外程序员收集整理的PHP资源大全
  8. tmux的使用方法和个性化配置
  9. java代码生成springdao_请JAVA高手推荐个SSH的后台代码生成工具!!要能生成Spring整合Hibernate的DAO类和Service类!...
  10. runtime 项目实战方法处理