鱼羊 Alex 发自 凹非寺
量子位 | 公众号 QbitAI

又一个AI老大难问题,被DeepMind攻克了:

一只名叫DreamerV3的AI,在啥也不知道的情况下被丢进《我的世界》(MineCraft)里,摸爬滚打17天,还真就学会了如何从0开始挖钻石。

就是从撸树开始的那种

要知道,之前为了攻克这个问题,CMU、微软、DeepMind和OpenAI还联手在NeurIPS上拉了个比赛,叫MineRL。

结果搞了三四年,AI们也没能在不参考人类经验的情况下,完成挖钻石任务。

此前表现最好的VPT选手,为了达成这一成就,可是狂看了70000+小时《我的世界》游戏视频,并且用上了720个V100……

这不DeepMind的最新结果一出,研究人员都开心坏了。

MineRL的发起人之一、前OpenAI研究科学家William Guss就第一时间跑来发表贺电:

4年了,“钻石挑战”终于被攻克了!

今年刚拿到了NeurIPS杰出数据集和基准论文奖的MineDojo作者、英伟达AI科学家范麟熙则表示:

AI玩转MineCraft背后,有个莫拉维克悖论:一些任务对于人类而言很困难(比如围棋),但对AI来说很简单。但像MineCraft这样人类高玩无数的游戏,情况却相反。
DreamerV3能在没有任何人工数据辅助的情况下收集钻石,这让我感到非常兴奋。

如何做到

所以,这个0基础挖钻石任务,到底有啥难点?

首先,在《我的世界》里,初始世界是完全随机生成的。

即使是人类玩家,想要快速挖到钻石,也得有相当丰富的经验。比如,知道怎么推算钻石的位置、掌握一些挖掘窍门(如鱼骨挖矿法)等。

排除掉经验的因素,对于AI来说,这个挖钻石的过程也挺复杂,至少得要7个步骤

第一步,玩家在空手进入《我的世界》中时,需要先撸树来获取木块:

第二步,得用木块用来合成工作台:

第三步,在工作台上合成木镐,用来挖圆石:

第四步,获得圆石之后,需要合成一个石镐,用来快速挖铁矿:

第五步,为了将铁矿合成铁锭,还需要做一个熔炉来烧铁:

第六步,合成铁镐,用来挖钻石:

第七步,寻找钻石,然后用铁镐挖出钻石:

p.s. 有玩家测试过,在AI知道钻石等各种资源坐标的情况下(开外挂),也需要2-3分钟才能搞定。

这也就意味着,AI必须在有限时间里,做出大量决策。

那么既然不能参考人类高手的经验,自然就需要强化学习(Reinforcement Learning)出马。

具体而言,DeepMind的研究人员提出了一种基于世界模型的通用算法

在整体架构上,DreamerV3由3个神经网络组成:世界模型、评委(critic)和演员(actor)。

世界模型要做的,是把环境输入编码为离散的表征,并通过预测来指导下一步要执行的操作。

而评委和演员则会根据抽象出来的表征进行学习。其中,评委网络会输出一个标量值来代表行动价值,从而帮助演员网络选择最优的行动。

这里面的一个核心点在于,DeepMind的研究人员希望DreamerV3不仅仅能处理同类型的问题,还可以用固定超参数,掌握跨领域任务

因此,研究人员需要系统地解决世界模型、评委和演员等各个组件中信号大小不同,以及稳定平衡目标的问题。

研究人员发现:

以前的世界模型,需要根据复杂3D环境的视觉输入,对表征损失进行不同的缩放,在训练过程中还得调整不少超参数,但这里面其实有许多没必要的细节。

而如果把自由比特(free bits)和KL平衡(KL balancing)结合起来,就可以在不调整超参数的情况下让DreamerV3在不同领域中学习。

KL平衡是上一代DreamerV2中提出的一项新技术。能够使预测向表征移动的速度比表征向预测移动的速度更快,带来更精确的预测。

自由比特避免了简单环境下的过度拟合。

DreamerV3的三大块都用上了固定超参数,具体如下:

实验结果

也就是说,DreamerV3如今成了世界上第一个纯靠自己摸索,就能在《我的世界》里速挖钻石的AI。

并且DreamerV3的本事可不只是玩MC。

在另外7项基准测试中,DreamerV3都取得了成功,并且在BSuite、Crafter上达到了SOTA。

值得一提的是,在这些任务中,训练智能体所用到的GPU资源都仅为1块V100。研究人员表示,这意味着有更多的实验室能跑得动这一模型。

另外,在需要时空推理的三维空间中,DreamerV3也能快速进行学习。

在DeepMind为强化学习专门打造的3D平台DMLab上,DreamerV3在任务中使用的交互次数仅为IMPALA的1/130。

目前,DreamerV3的代码是coming soon的状态。

感兴趣的小伙伴可以蹲一波~

参考链接:
[1]https://danijar.com/project/dreamerv3/
[2]https://twitter.com/DeepMind/status/1613159943040811010

百度研究院、阿里达摩院、量子位智库

年度十大科技报告

总结2022,预见2023。来自百度研究院、阿里达摩院和量子位智库的年度十大科技报告均已发布,点击下方图片即可跳转查看。

百度研究院

阿里达摩院

量子位智库

点这里

在《我的世界》里挖钻石把AI难哭了,DeepMind最新算法终于扳回颜面相关推荐

  1. 我的世界挖钻石的最佳方式

    玩我的世界这么多年,许多朋友们可能都不知道怎样才可以更好的挖到钻石吧 其实,挖钻石很简单,只需要在地底18层这里多转悠几下可能就获得了,因为这里通常是钻石最多的地方

  2. 6美元进公园随便挖钻石

    一对来自美国得克萨斯州的夫妇9月23日在阿肯色州的"钻石坑"州立公园挖到一颗重达6.35克拉的钻石.这是该公园自开放以来游客挖到的第八大天然钻石,也是近8年来在这里发现的最大一颗钻 ...

  3. 我的世界java版钻石剑附魔_我的世界钻石剑怎么附魔 钻石剑附魔100级指令

    我的世界想给钻石剑附魔100级需要先获得命令方块,然后把它放置在地上,右击进入命令台,然后输入:/give @p minecraft:diamond_sword 1 0 {ench:[{id:16,l ...

  4. 在混乱的数字货币世界里,如何掌握你的思维避免掉进陷阱?

    加密货币处在一个理性的世界:计算机冷静地交换信息,程序员自动写出无尽的软件代码.感受和情绪似乎毫无用武之地,对吧? 错! 加密货币绝对具有破坏性,它不仅会动摇我们生活和娱乐等外部世界的基础,还会扰乱我 ...

  5. Unix / Linux世界里的4-2-1

    Unix / Linux世界里的4-2-1 在Unix / Linux世界里,4代表可读( r ),2代表可写入 ( w ),1代表可执行 ( x ) 如果拥有7 = 4+2+1 的权限,即代表这个人 ...

  6. 中国速度之二神山建设(3):有力的技术保障,基建世界里的云原生缩影 | IDCF DevOps案例研究...

    内容来源:DevOps案例深度研究第4期 – 火神山雷神山 DevOps实践研究战队(本文只展示部分PPT及研究成果,全程视频请移步文末) 本案例内容贡献者:赖泽薇.张扬.邓茜芸.韦一.刘德权.候利涛 ...

  7. 一个四维的人在三维世界里到底长什么模样?

    " 我们曾经仰望浩瀚的星空,思考自身的存在." --< 星际穿越 > 今天我们来聊聊维度... 大家有没想过,我们所处的宇宙,其实是一个多维宇宙. 但可惜的是人类仅仅只 ...

  8. Composer - PHP 世界里用于管理项目依赖的工具

    Composer - PHP 世界里用于管理项目依赖的工具 Composer v1.8 版本正式发布.Composer是 PHP 世界里用于管理项目依赖的工具. 如果你已经安装了 Composer , ...

  9. 敏捷世界里中层经理的角色

    Mário Moreira在他的名为敏捷实施路线图的博客中探讨了敏捷世界里中层经理的角色,和面对这一现实的挑战. \\ 通过与不同角色的中层经理(也就是直线经理.职能经理.经理和主管)进行对话,他发现 ...

最新文章

  1. ubuntu平台下搭建PHPWind网站运行环境
  2. shiro与springMVC整合
  3. NYOJ 372 巧克力
  4. OpenCV+3计算机视觉++Python语言实现+第二版pdf
  5. python三引号解析_[宜配屋]听图阁
  6. 高通量数据中批次效应的鉴定和处理(三)- 如何设计尽量避免批次影响
  7. Java程序员从笨鸟到菜鸟之(九十四)深入java虚拟机(三)——类的生命周期(下)类的初始化...
  8. Mac系统Option键的妙用,能够极大提升你的效率
  9. ahk写入excel单元格_AHK(二):设置Excel操作快捷键
  10. zip与rar的区别
  11. TIOBE 6 月编程语言排行榜:编程语言的长尾效应
  12. 中兴网络机顶盒-ZXV10 B860AV1.1-t装第三方软件实现直播
  13. dcn网络与公网_ip 中的,内网,外网,公网,dcn网络,分别是什么意思?
  14. 遥感测深方法综述(二)CZMIL 机载LiDAR 测深系统
  15. Go语言打造起名系统,拿去叫我雷锋
  16. HDU Today 【最短路径】+【构造map】
  17. mydock 怎么卸载_MyDock(桌面dock栏)下载_MyDock(桌面dock栏) 版本:v4.8.8.9官方版_魅蓝下载...
  18. 借助zabbix和mysql performance monitor模板实现mysql数据库的监控
  19. 卿苏德:可信区块链10大观察评测结果,重磅!
  20. 小米4 第三方re奇兔_【搞事】小米上架39元充电器 20W可适配iPhone 12系列

热门文章

  1. XTS分布式事务框架
  2. Java管理SSL证书
  3. python中每个if条件后都要使用冒号吗_机器学习之python入门指南(三)条件语句和循环语句的使用...
  4. 关于量子理论的思考及2022诺贝尔物理学奖思考日记
  5. qq和TIM都不能联网解决方法 “登陆超时,请检查你的网络或者本机防火墙设置。错误码:0x00000001”
  6. C++——Manacher算法
  7. Java并发编程78讲--27 第27讲:什么是自旋锁?自旋的好处和后果是什么呢?
  8. DEll服务器的IDRAC远程安装centos7操作系统
  9. 微信小程序canvar画布生成图片及保存图片
  10. Android Setting 设置项添加到快速搜索