夏乙 编译整理

量子位 出品 | 公众号 QbitAI

AlphaGo的节节胜利,向人们展示了强化学习的强大能力。但要是想让这种方法作用于现实世界,指挥机器人完成开门、拿东西、放东西等等对人类来说轻而易举的任务,还需要解决一个问题:

一个强化学习模型要经历多次试错过程才能收敛,可是让它在现实世界中一次一次地试错显然有些不切实际。

为了填平这道虚拟和现实世界中的鸿沟,一个名叫AI2-THOR的新框架产生了。

class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.7647058823529411" data-w="480" data-src="http://v.qq.com/iframe/player.html?vid=v0519y95fpr&width=670&height=376.875&auto=0" style="display: none; width: 670px !important; height: 376.875px !important;" width="670" height="376.875" data-vh="376.875" data-vw="670" src="http://v.qq.com/iframe/player.html?vid=v0519y95fpr&width=670&height=376.875&auto=0"/>

AI2-THOR是由艾伦人工智能研究所(AI2)、斯坦福大学、卡耐基梅隆大学、华盛顿大学、南加州大学合作完成的。它为人工智能Agent提供了一个室内装修效果图画风的世界,高度仿真,Agent可以和里面的各种家具家电交互——比如说打开冰箱、推倒椅子、把电脑放在桌子上等等。

为了让Agent与场景的交互尽可能接近真实,AI2-THOR除了包含表面上能看到的高质量3D场景之外,背后还有Unity 3D引擎,能让其中的物体遵循现实世界的物理规则来运动,也就是让交互动作尽可能真实。

另外,AI2-THOR还提供Python API。

与同类框架相比,Agent可以操作场景中的物体,是AI2-THOR的一大亮点。它的真实性和对物理规则的整合,也是很少有框架具备的。

在提出这个框架的同时,这些研究人员还为了提高强化学习模型对新目标的泛化能力,提出了一个以当前状态和目标的函数为策略的演员-评论家模型。

这二者结合起来,达到了比最先进的深度强化学习方法更快的收敛速度,还能够泛化到各种目标和场景。

在模拟场景中训练的模型在经过少量微调后,甚至能泛化到真实的机器人活动场景。另外,他们的模型可以端到端地训练,不需要特征工程、图像之间的特征匹配和环境的3D重建。

项目主页:

http://ai2thor.allenai.org/

开源代码:

https://github.com/allenai/ai2thor

相关论文:

Visual Semantic Planning using Deep Successor Representations
Yuke Zhu, Daniel Gordon, Eric Kolve, Dieter Fox, Li Fei-Fei, Abhinav Gupta, Roozbeh Mottaghi, Ali Farhadi · ICCV 2017
https://arxiv.org/pdf/1705.08080.pdf

Target-driven visual navigation in indoor scenes using deep reinforcement learning
Yuke Zhu, Roozbeh Mottaghi, Eric Kolve, Joseph Lim, Abhinav Gupta, Fei-Fei Li, and Ali Farhadi · ICRA 2017
http://ai2-website.s3.amazonaws.com/publications/target_driven_visual.pdf

活动报名


加入社群

量子位AI社群12群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot4入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot4,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。


量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


这个高仿真框架AI2-THOR,想让让强化学习快速走进现实世界相关推荐

  1. 上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练

    机器之心专栏 作者:上海交大和UCL多智能体强化学习研究团队 基于种群的多智能体深度强化学习(PB-MARL)方法在星际争霸.王者荣耀等游戏AI上已经得到成功验证,MALib 则是首个专门面向 PB- ...

  2. 强化学习与3D视觉结合新突破:高效能在线码垛机器人

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 转自 | 机器之心 国防科技大学.克莱姆森大学和视比特机器人的研究 ...

  3. 《强化学习周刊》第30期:Deep Mind开展人机交互的新试点研究、MIT提出神经进化优化框架...

    No.30 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  4. DeepMind悄咪咪开源三大新框架,深度强化学习落地希望再现

    作者 | Jesus Rodriguez 译者 | 夕颜 出品 | AI科技大本营(ID:rgznai100) [导读]近几年,深度强化学习(DRL)一直是人工智能取得最大突破的核心.尽管取得了很多进 ...

  5. 系统学习深度学习(三十九)--基于模型的强化学习与Dyna算法框架

    转自:https://www.cnblogs.com/pinard/p/10384424.html 在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Poli ...

  6. 求解带不确定事件的FJSP的多目标强化学习框架

    文献:Hao Wang, Junfu Cheng, Chang Liu, Yuanyuan Zhang, Shunfang Hu, Liangyin Chen,Multi-objective rein ...

  7. 【喜报】“深度强化学习实验室”战略合作伙伴”南栖仙策“完成Pre-A轮融资,高瓴创投领投

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 3月10日,南栖仙策宣布获总额数千万元的Pre-A ...

  8. 云计算仿真框架CloudSim介绍

    幻灯片1 云计算仿真框架CloudSim介绍 jiangzw#ihep.ac.cn (以下为本人某次报告做的调研的PPT及其它一些实践记录,为保证清晰度,一些插入的图片较大,可在新标签页中打开) (  ...

  9. USB设备仿真框架设计指南——7.USB设备模拟器示例

    本节描述DSF中包含的USB设备模拟器示例. 本节包括以下内容: DSF USB HID通用样本 DSF USB Loopback设备仿真 DSF USB音频设备示例 USB键盘样本 英文原文连接:h ...

最新文章

  1. AI界的七大未解之谜:OpenAI丢出一组AI研究课题
  2. UA MATH571A 多元线性回归IV 广义线性模型
  3. Oracle 查询字段在什么表
  4. POJ 1753 Flip Game (黑白棋) (状态压缩+BFS)
  5. Educational Codeforces Round 17 E. Radio stations cdq分治 + 树状数组
  6. Hbase 预写日志WAL处理源码分析之 LogCleaner
  7. Docker 概念很难理解?一文搞定 Docker 端口绑定
  8. 代码覆盖率:80%,不能少(转)
  9. c语言新手的无奈,几个新手容易犯的错误
  10. Tomcat starup.bat脚本开机自启动
  11. kernal tch 下载 天正_tch_kernal.arx
  12. LInux服务器的基本优化
  13. 完整代码及解析!!手写数字识别系统(手写数字测试识别 + pytoch实现 + 完整代码及解析)
  14. 在线24点计算器工具
  15. 使用stress服务进行CPU和内存压力测试
  16. java doc转换docx_java PDF转DOC.docx
  17. 此主机支持 AMD-V,但 AMD-V 处于禁用状态。 如果已在 BIOS/固件设置中禁用 AMD-V,或主机自更改此设置后从未重新启动,则 AMD-V 可能被禁用。 (1) 确认 BIOS/固
  18. Springboot毕设项目篮球文化商铺系统的设计与实现t1klm(java+VUE+Mybatis+Maven+Mysql)
  19. JavaSE高级【吐血整理汇总】
  20. jenkins 邮件抄送

热门文章

  1. oracle sql取查询结果第一条,SQL获取第一条记录的方法(sqlserver、oracle、mysql数据库)...
  2. connection linux refuse telnet_在 Linux 中安装并使用 PuTTY
  3. jdbctemplate mysql 配置_Spring Boot 初级入门教程(十四) —— 配置 MySQL 数据库和使用 JdbcTemplate 测试...
  4. ios项目 swift 定义常量 其他文件引用_面试应该注意的Swift知识点
  5. c语言标识符的规范,初识C语言-声明和使用变量、标识符的命名规范以及基本数据类型...
  6. vue3中v-model的重大更新
  7. java swing 按键_Java Swing 快捷键
  8. 为什么对流层散射通信距离远、容量大、_中级通信工程师|「专业实务」第9章重点学习内容!...
  9. linux查看某个端口的流量_Linux下如何对端口流量进行统计
  10. cad加载dll_关于CAD三维建模的35个问题