作者丨陈萍、小舟

来源丨机器之心

《我的世界》里,玩家不一定都是人类,现在 AI 也会玩了。

《我的世界》是全球知名度最高的开放世界游戏。小朋友只需观看十分钟的教学视频,就能学会在游戏中寻找稀有的钻石,但这却是 AI 此前无法企及的高度。

今天 OpenAI 的研究团队宣布他们开发了一种能玩《我的世界》的智能体,其中使用《我的世界》游戏大量未标记视频数据集训练神经网络,仅使用少量标记数据。

微调之后,OpenAI 训练的模型还可以学习制作挖矿工具,熟练的人类玩家在 20 分钟内可以完成这个任务(24000 次操作)。OpenAI 的模型使用按键和鼠标移动控制人机界面,这使得该模型非常通用,这向通用计算机使用智能体迈出了一步。

论文地址:https://cdn.openai.com/vpt/Paper.pdf

我们先来看下效果,模型建造一个简陋的木制避难所:

制作石镐

在村庄里搜寻

VPT 方法

互联网包含大量可供我们学习的公开视频,例如游戏玩家演示游戏玩法,《我的世界》玩家建造一个错综复杂的房子。然而这些视频只提供了事情发生的记录,而不是确切的实现方式,即没有说明鼠标移动和按键的确切顺序。

相比于 OpenAI 的大型语言模型,要在视频游戏等更通用领域构建大型基础模型(foundation model),缺乏动作标签带来了新的挑战。

为了利用互联网上可用的大量未标记视频数据,该研究提出了一种新颖但简单的半监督模仿学习方法:视频预训练(VPT)。

该研究首先从游戏商家那里收集了一个小型数据集,其中不仅记录了玩游戏的视频,还记录了玩家采取的行动,即按键和鼠标的移动。利用这些数据,该研究训练了一个逆动力学模型 (IDM),以预测视频中每个步骤所采取的动作。重要的是,IDM 可以使用过去和未来的信息来猜测每一步动作。与仅给定过去视频帧预测动作的行为克隆任务相比,这种任务要容易得多,需要的数据也要少得多。然后该研究使用经过训练的 IDM 来标记更大的在线视频数据集,并通过行为克隆来学习行动。

下图为 VPT 方法概览:

VPT 零样本结果

该研究选择《我的世界》这个游戏中验证了所提方法,因为它 (1) 是世界上最流行的视频游戏之一,拥有大量可免费获得的视频数据,并且 (2) 是开放式的,可以提供各种各样的行为动作,类似于现实世界的应用程序(如计算机使用)。与之前的工作在《我的世界》中使用简化动作空间不同,OpenAI 的新模型使用更普遍适用、难度也更大的原生人机界面:鼠标和键盘使用 20Hz 帧率。

该研究的行为克隆模型(VPT 基础模型)使用 70000 小时的 IDM 标记在线视频进行训练,在《我的世界 》中完成了强化学习几乎不可能实现的任务。新模型学会了砍树收集原木,将原木制作成木板,然后将木板制作成箱子;这个行为序列对于《我的世界》高级玩家在约 50 秒内执行 1000 个连续的游戏动作。

《我的世界》制作箱子过程中每一步所需的动作数目和时间。

零样本模型制作箱子的过程。

此外,该模型还可以执行人类在游戏中经常执行的其他复杂技能,例如游泳、狩猎动物、食用食物以及一些《我的世界》专用技能。

游泳。

狩猎。

食用食物。

用行为克隆进行微调

基础模型旨在具有广泛的行为特征,并且完成各种任务。为了整合新知识或让他们专注于更具体的任务,通常的做法是基于更小、更具体的数据集对模型进行微调。

那么,VPT 基础模型如何微调到下游数据集呢?OpenAI 让人类玩家在最新版《我的世界》中玩了 10 分钟,并用基本的材料建造房子。OpenAI 希望这能增强基础模型执行早期游戏技能的能力。结果表明,基础模型在可靠执行早期游戏技能方面有了巨大进步,而且微调后的模型还掌握了制作石器等新技能。

制作一个石镐所需要的物品顺序

数据扩展

也许该研究中最重要的假设是,使用标记的 contractor 数据训练 IDM(作为 VPT pipeline 的一部分)要比直接从同一个小型 contractor 数据集训练 BC 基础模型有效得多。为了验证这一假设,研究者不断增加数据量来训练基础模型,数据量规模从 1 小时增加到 70000 小时。他们将训练分为两个部分,如下图虚线所示,训练数据时长以 2000 为分界线。

基础模型训练数据对微调的影响:从图中可以看出,随着基础模型数据的增加,模型制作能力随之增加,只有在最大的数据规模下,我们才会看到石器工具制作的出现。

通过强化学习进行微调

当指定的奖励函数足够好时,强化学习便能够成为一种强大的方法去激发更高的,甚至是超人类的表现。VPT 模型和 RL 搭配更好,因为模仿人类行为可能比采取随机行动更有帮助。该研究设置了一些模型挑战任务,即收集钻石鹤嘴锄,这是在《我的世界》中前所未有的能力。

制作一把钻石鹤嘴锄需要一长串复杂的子任务。为了使这个任务易于处理,该研究会奖励序列中的每一项智能体。

RL 微调 VPT 模型制作钻石鹤嘴锄

该研究发现,从随机初始化(标准 RL 方法)训练的 RL 策略几乎没有获得任何奖励。与之形成鲜明对比的是,VPT 模型的微调不仅可以(它在 10 分钟的《我的世界》中有 2.5% 会这样做),而且它在收集所有物品以获得钻石镐方面的成功率甚至达到了人类的水平。这是人类首次展示计算机智能体能够在《我的世界》中制作钻石工具,而人类平均需要 20 多分钟(24000 次操作)。

VPT 让智能体通过观看互联网上的大量视频就可以进行学习铺平了道路。与只会产生表征先验的生成视频建模或对比方法相比,VPT 提供了在更多领域可以直接学习大规模行为先验的可能性,而不仅仅是语言。虽然该研究只在 《我的世界》中进行实验,但该游戏开放的,并且原生人机界面(鼠标和键盘)非常通用,因此这项研究也会给其他领域带来益处,例如电脑使用。

此外,该研究还开源了数据、《我的世界》所需环境、模型代码、模型权重,他们希望这些开源有助于未来 VPT 的研究。

原文链接:

https://openai.com/blog/vpt/

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

AI模型看看视频,就学会了玩《我的世界》:砍树、造箱子、制作石镐样样不差...相关推荐

  1. 一周速递|OpenAI:AI通过看视频学会玩《我的世界》,人类第一块量子尺度电路发布

    『运筹OR帷幄』原创 OpenAI:看了7万小时的游戏视频后AI学会了像人一样玩<我的世界>! 长久以来,研究人员一直在致力于让人工智能学会玩类似<我的世界>一样的开放世界游戏 ...

  2. 用让新海诚本人惊讶的 AI 模型制作属于你的动漫视频

    本文将介绍如何使用 GAN 模型来生成属于你自己的动漫风格的视频,为自己.喜欢的菇凉或者调皮可爱孩子生成一个别具一格的动漫风格的视频. 本文操作难度较低,适合想要试玩了解 GAN 模型的同学.可以同时 ...

  3. OpenAI教GPT-3学会上网,「全知全能」的AI模型上线了

    视学算法报道 编辑:陈萍 它被命名为 WebGPT,OpenAI 认为浏览网页的方式提高了 AI 解答问题的准确性. 如果 AI 学会上网,那么它就拥有了无限获取知识的方式,之后会发生什么就不太好预测 ...

  4. AI:百度飞桨EasyDL多门视频课程,手把手教你如何定制高精度AI模型

    AI:百度飞桨EasyDL多门视频课程,手把手教你如何定制高精度AI模型 目录 百度飞桨EasyDL多门视频课程,手把手教你如何定制高精度AI模型 百度飞桨EasyDL多门视频课程,手把手教你如何定制 ...

  5. AWS AI 全面助力视频理解,GluonCV 0.6 轻松复现前沿模型

    点击我爱计算机视觉标星,更快获取CVML新技术 视频理解是近几年非常流行的研究方向,因为视频是最接近于人眼的真实输入,分析时间序列上的图像变化有助于我们开发更强的计算机视觉.而在视频理解领域,最具代表 ...

  6. 国外人工智能研究:一种可以通过文本描述直接生成视频的AI模型

    文章来源:ATYUN AI平台 最近,一种新的方法可能会让电影编剧拒绝来自大型电影制片厂的巨额预算和强大资源 - 依靠文本进行视频生成(Video Generation from Text).当然,从 ...

  7. 独家 | 围绕DeepMind最新AI模型的炒作,忽视了它真正值得注意的地方(附链接)...

    文: Melissa Heikkilä 2022 年4月22日 翻译:陈超校对:zrx本文约1800字,建议阅读5分钟 一些人担忧关于这些工具喋喋不休的讨论正在对整个领域造成负面的影响. 这个月早期, ...

  8. Facebook 万字长文:AI 模型全部迁移至 PyTorch 框架

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 转自 | 新智元 来源 | Facebook AI Blog 编辑 ...

  9. Facebook万字长文:AI模型全部迁移至PyTorch框架

    来源:新智元本文约3800字,建议阅读8分钟PyTorch 占领 Facebook. [ 导读 ] 2017年,PyTorch诞生,成为当下最流行的深度学习框架.近日,Facebook宣布让PyTor ...

最新文章

  1. java swing 表格不显示_JAVA SWING 表头不显示问题
  2. 第四期 SA 分析师认证名单正式公布!
  3. grep 显示前后几行
  4. 中国工程院院士:物联网市场须走出碎片化
  5. python类的使用的生物学应用_当AI遇到生物-深度学习在生物研究中的应用案例列表...
  6. 用计算机弹歌我的歌声里,我的歌声里 (完整版)
  7. static,inline,volatile的作用
  8. Git版本管理及使用规范
  9. 宝马「试水」神经形态芯片
  10. 关于永洪BI Kerberos机制的详细介绍
  11. QQ斗地主记牌器(只支持角色版)
  12. 你了解PowerBI中的去年同期吗
  13. mac电脑谷歌浏览器全屏显示选项卡
  14. VMware Workstation 虚拟机下载及安装的详细步骤
  15. windows系统漏洞修复CVE-2016-2183,CVE-2013-2566,CVE-2015-2808
  16. 【pyqt5学习】——菜单栏(QMenu())、工具栏QToolBar学习
  17. 如何使用语音验证码API
  18. java es 如何查询_使用elasticsearch的java-api进行查询
  19. 【Javascript的基本知识——数据的流程和流程的切割】
  20. *通配符与微信小程序的WXSS

热门文章

  1. 微信Mac 3.0.0内测版上线!终于可以用电脑刷朋友圈了!!
  2. SpringCloud Gataway 跨域配置
  3. Python:实现一个Pangram字符串至少包含一次所有字母算法(附完整源码)
  4. html里列表前的空心圆圈,如何在HTML中创建带有圆圈项目符号的无序列表?
  5. 织梦仿微信公众号文章页面html,织梦DEDECMS微信内容页插件
  6. Pta——谷歌的招聘
  7. 【洛谷P2357】守墓人【线段树】
  8. OSChina 周三乱弹 ——我们职业更好的名字:爱码士
  9. 小程序开发框架介绍---remax 小程开发框架学习笔记
  10. 400分理科学计算机,2021高考400分左右的理科大学有哪些