鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

盆友,你感受过被分手厨房,啊不,《煮糊了》(Overcooked)支配的恐惧吗?

其实,别说是你,就是AI们碰上需要多人配合,又得切菜,又得上锅,又得送菜,地形还复杂的情况,也一样会分分钟败下阵来。

这不,来自诺丁汉大学、UC伯克利和微软研究院的研究人员,现在就提出:不会玩《煮糊了》的深度强化学习模型,不是好协作AI。

他们还发现,当前多数深度RL模型,竟然都没法儿在《煮糊了》里拿到65%以上的分数。

为此,他们专门写了一篇论文。

用简化版《煮糊了》进行基准测试

想要在现实世界中应用深度强化学习模型,实现AI与人类的协作,目前一个大的挑战在于,这类系统在遇到开发过程中未曾见过的情况、未训练过的行为时,能否保持鲁棒性。

而如何去评估模型的鲁棒性,也是困扰学界的一个难点。

不知道是不是分手厨房带来的胡闹现场启发了他们,研究人员认为,《煮糊了》能够成功在系统能够处理的范围内,测试出潜在的边缘案例。

比如,在游戏中,系统必须应对这样的场景:盘子被不小心落在了柜台上,搭档因为思考或者暂时离开停留在原地……

于是,他们根据《煮糊了》的环境,设计了简化版的单元测试。

主要分为三类:

状态鲁棒性单元测试,这时成功的标准不取决于搭档的状态。如上图(a)中,绿帽子厨师已经拿到了一个盘子,所以无论绿帽子厨师接下来作出怎样的决策,蓝帽子厨师都只要向左拿一个洋葱就是了。

智能体鲁棒性单元测试,这时搭档的状态会影响结果,需要衡量智能体的鲁棒性。如上图(b)中,通道只有一条,绿帽子厨师想要去送汤,蓝帽子厨师就得让开。

智能体&记忆鲁棒性单元测试。如上图(c)中,绿帽子厨师没动静了,出于离开状态,那么蓝帽子厨师应该自己去取盘子送汤。这个状态需要结合历史记录来检测。

研究人员表示,这套基于《煮糊了》的测试套件,能提供无法通过简单考虑验证奖励获得的信息,因此未来可以作为一个评判人工智能协作能力的基准指标。

传送门

论文地址:
https://arxiv.org/abs/2101.05507

代码地址:
https://github.com/HumanCompatibleAI/human_ai_robustness

参考链接:
https://venturebeat.com/2021/01/15/researchers-propose-using-the-game-overcooked-to-benchmark-collaborative-ai-systems/

  • JavaScript 内存详解 & 分析指南

  • 这个网站开通后,可以更好帮助大家赚钱啦!

  • Eclipse官宣,干掉VSCode!

  • 太牛逼了,这家公司重新造轮子!骨骼动画

  • CreatorH5全平台游戏开发教程PDF下载

卧槽!AI,感受被『分手厨房』支配的恐惧...相关推荐

  1. AI,来感受被「分手厨房」支配的恐惧吧!

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 盆友,你感受过被分手厨房,啊不,<煮糊了>(Overcooked)支配的恐惧吗? 其实,别说是你,就是AI们碰上需要多人配合,又 ...

  2. 『姑苏 · 踏青』:诗情未尽在苏杭

    摄于杭州 一.『苏沪杭之行』缘起 这次苏沪杭之行,不是临时起意,而是蓄谋已久. 去年一年的空闲时光,我都花在了备战考研上.备战的过程枯燥乏味,那时候我就已经暗下决心,等到考完之后,无论战果如何,都要进 ...

  3. 洛谷 2 月月赛 I 『MdOI R4』 (Div2) A ~ D 四题全,也许会有六题,超高质量题解 (Div.1E、F下辈子一定补)【每日亿题2 / 9】

    整理的算法模板合集: ACM模板 点我看算法全家桶系列!!! 实际上是一个全新的精炼模板整合计划 目录 A.P7337 『MdOI R4』Fun B.P7338 『MdOI R4』Color C.P7 ...

  4. 『高级篇』docker之APIGateway(17)

    原创文章,欢迎转载.转载请注明:转载自IT人故事会,谢谢! 原文链接地址:『高级篇』docker之APIGateway(17) 这次说最后一个模块APIGateway,他的功能就是将我们客户端的请求统 ...

  5. 『中秋赏月』程序员用文心大模型带你玩转不一样的中秋

    『中秋赏月』文心大模型带你玩转不一样的中秋 中秋 文心大模型使用 安装wenxin_api 利用ERNIE-ViLG文生图模型生成图片 下载生成的图片 使用ERNIE 3.0模型,生成有关中秋的佳句 ...

  6. [日推荐]『口红IN』女票生气了怎么哄?这里有妙招!

    2019独角兽企业重金招聘Python工程师标准>>> 对于妹纸们来说,这个世上没有什么口红解决不了的问题,一支不够?两支!两支不够?来一套! 对于男生来说这句话同理,不开心?送一支 ...

  7. Revit翻模 | 据说超一半用户下载建模助手是因为『 快速立管 』

    大家好,这里是建模助手. 大家都知道,在建模中,立管是怎么都逃不掉的,巨烦人的一环. 烦人到什么地步呢,立一条管要鼠标点击十多次,还要设定管径和起始标高数值. 在没有插件的帮助下,熟练的建模师差不多几 ...

  8. 猹猹查叉叉『查找专题』

    目录 零.基本概念 1.查找表 2.关键字 3.查找方式 4.分类 5.基本操作 6.查找表的效率 7.compare函数 一.线性查找 1.顺序表的线性查找 a.数组的顺序查找 b.设置哨兵位[即从 ...

  9. [日推荐]『番茄闹钟』让你专注每个25分钟!

    时间就是金钱,金钱就像流沙,不知道怎么就流失了.你是否有过这样的感受,工作一天下来却不知道自己干了啥,一天完成一件事效率低下,经常抱怨没时间打电话问候爸妈,没时间运动,没时间-- 一款软件就能轻松改善 ...

最新文章

  1. 2022-2028年中国改性尼龙行业市场全景评估及产业前景规划报告
  2. 小脚本,统计一个目录下满足特定条件文件的代码行数
  3. 【微信小程序】给绑定事件传参数
  4. python odoo_odoo python 使用缓存
  5. 【Elasticsearch】Elasticsearch 7 : 动态映射 dynamic
  6. 初学者,学习vue应该从何下手?
  7. 查看oracle归档大小,ORACLE RAC按实例统计每天归档日志大小
  8. HTMO DOM部分---小练习;列表之间移动、日期选择、好友选中、滑动效果、滚动条效果、飞入飞出效果。...
  9. 网络管理与维护作业13
  10. android使用的数据,在 Android 应用中使用数据 - Xamarin | Microsoft Docs
  11. 系统集成项目管理工程师(软考中级)—— 第七章 知识产权 笔记分享
  12. CSDN中用Markdown如何给文本加下划线(可延长下划线)
  13. ARN的内存和CPU配置
  14. 2019年安徽大学ACM/ICPC实验室新生赛
  15. 几何画板用迭代法作图的技巧
  16. HTTP和RTSP简介
  17. pygame动画演示小球碰撞
  18. 关闭您的磁盘几乎已满提示-Mac OS
  19. 英语口语学习(03-06)
  20. csdn查看自己收藏的文章

热门文章

  1. 将本地文件复制到Linux系统盘中
  2. 路由器动态ip怎么设置上网
  3. windows server 2008安装JDK8
  4. 基于L298N的STM32的直流电机PWM调速控制
  5. 个人表现怎么写学生_小学生家长寄语大全 家长寄语怎么写
  6. 深入了解视觉语言模型
  7. 来自一名底层游戏建模师的独白,你是否有共鸣
  8. CBM 业务模型是什么和为什么?
  9. vue渲染.md文件
  10. 什么是线程(基础系列一)