卧槽!AI,感受被『分手厨房』支配的恐惧...
鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
盆友,你感受过被分手厨房,啊不,《煮糊了》(Overcooked)支配的恐惧吗?
其实,别说是你,就是AI们碰上需要多人配合,又得切菜,又得上锅,又得送菜,地形还复杂的情况,也一样会分分钟败下阵来。
这不,来自诺丁汉大学、UC伯克利和微软研究院的研究人员,现在就提出:不会玩《煮糊了》的深度强化学习模型,不是好协作AI。
他们还发现,当前多数深度RL模型,竟然都没法儿在《煮糊了》里拿到65%以上的分数。
为此,他们专门写了一篇论文。
用简化版《煮糊了》进行基准测试
想要在现实世界中应用深度强化学习模型,实现AI与人类的协作,目前一个大的挑战在于,这类系统在遇到开发过程中未曾见过的情况、未训练过的行为时,能否保持鲁棒性。
而如何去评估模型的鲁棒性,也是困扰学界的一个难点。
不知道是不是分手厨房带来的胡闹现场启发了他们,研究人员认为,《煮糊了》能够成功在系统能够处理的范围内,测试出潜在的边缘案例。
比如,在游戏中,系统必须应对这样的场景:盘子被不小心落在了柜台上,搭档因为思考或者暂时离开停留在原地……
于是,他们根据《煮糊了》的环境,设计了简化版的单元测试。
主要分为三类:
状态鲁棒性单元测试,这时成功的标准不取决于搭档的状态。如上图(a)中,绿帽子厨师已经拿到了一个盘子,所以无论绿帽子厨师接下来作出怎样的决策,蓝帽子厨师都只要向左拿一个洋葱就是了。
智能体鲁棒性单元测试,这时搭档的状态会影响结果,需要衡量智能体的鲁棒性。如上图(b)中,通道只有一条,绿帽子厨师想要去送汤,蓝帽子厨师就得让开。
智能体&记忆鲁棒性单元测试。如上图(c)中,绿帽子厨师没动静了,出于离开状态,那么蓝帽子厨师应该自己去取盘子送汤。这个状态需要结合历史记录来检测。
研究人员表示,这套基于《煮糊了》的测试套件,能提供无法通过简单考虑验证奖励获得的信息,因此未来可以作为一个评判人工智能协作能力的基准指标。
传送门
论文地址:
https://arxiv.org/abs/2101.05507
代码地址:
https://github.com/HumanCompatibleAI/human_ai_robustness
参考链接:
https://venturebeat.com/2021/01/15/researchers-propose-using-the-game-overcooked-to-benchmark-collaborative-ai-systems/
JavaScript 内存详解 & 分析指南
这个网站开通后,可以更好帮助大家赚钱啦!
Eclipse官宣,干掉VSCode!
太牛逼了,这家公司重新造轮子!骨骼动画
CreatorH5全平台游戏开发教程PDF下载
卧槽!AI,感受被『分手厨房』支配的恐惧...相关推荐
- AI,来感受被「分手厨房」支配的恐惧吧!
鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 盆友,你感受过被分手厨房,啊不,<煮糊了>(Overcooked)支配的恐惧吗? 其实,别说是你,就是AI们碰上需要多人配合,又 ...
- 『姑苏 · 踏青』:诗情未尽在苏杭
摄于杭州 一.『苏沪杭之行』缘起 这次苏沪杭之行,不是临时起意,而是蓄谋已久. 去年一年的空闲时光,我都花在了备战考研上.备战的过程枯燥乏味,那时候我就已经暗下决心,等到考完之后,无论战果如何,都要进 ...
- 洛谷 2 月月赛 I 『MdOI R4』 (Div2) A ~ D 四题全,也许会有六题,超高质量题解 (Div.1E、F下辈子一定补)【每日亿题2 / 9】
整理的算法模板合集: ACM模板 点我看算法全家桶系列!!! 实际上是一个全新的精炼模板整合计划 目录 A.P7337 『MdOI R4』Fun B.P7338 『MdOI R4』Color C.P7 ...
- 『高级篇』docker之APIGateway(17)
原创文章,欢迎转载.转载请注明:转载自IT人故事会,谢谢! 原文链接地址:『高级篇』docker之APIGateway(17) 这次说最后一个模块APIGateway,他的功能就是将我们客户端的请求统 ...
- 『中秋赏月』程序员用文心大模型带你玩转不一样的中秋
『中秋赏月』文心大模型带你玩转不一样的中秋 中秋 文心大模型使用 安装wenxin_api 利用ERNIE-ViLG文生图模型生成图片 下载生成的图片 使用ERNIE 3.0模型,生成有关中秋的佳句 ...
- [日推荐]『口红IN』女票生气了怎么哄?这里有妙招!
2019独角兽企业重金招聘Python工程师标准>>> 对于妹纸们来说,这个世上没有什么口红解决不了的问题,一支不够?两支!两支不够?来一套! 对于男生来说这句话同理,不开心?送一支 ...
- Revit翻模 | 据说超一半用户下载建模助手是因为『 快速立管 』
大家好,这里是建模助手. 大家都知道,在建模中,立管是怎么都逃不掉的,巨烦人的一环. 烦人到什么地步呢,立一条管要鼠标点击十多次,还要设定管径和起始标高数值. 在没有插件的帮助下,熟练的建模师差不多几 ...
- 猹猹查叉叉『查找专题』
目录 零.基本概念 1.查找表 2.关键字 3.查找方式 4.分类 5.基本操作 6.查找表的效率 7.compare函数 一.线性查找 1.顺序表的线性查找 a.数组的顺序查找 b.设置哨兵位[即从 ...
- [日推荐]『番茄闹钟』让你专注每个25分钟!
时间就是金钱,金钱就像流沙,不知道怎么就流失了.你是否有过这样的感受,工作一天下来却不知道自己干了啥,一天完成一件事效率低下,经常抱怨没时间打电话问候爸妈,没时间运动,没时间-- 一款软件就能轻松改善 ...
最新文章
- 2022-2028年中国改性尼龙行业市场全景评估及产业前景规划报告
- 小脚本,统计一个目录下满足特定条件文件的代码行数
- 【微信小程序】给绑定事件传参数
- python odoo_odoo python 使用缓存
- 【Elasticsearch】Elasticsearch 7 : 动态映射 dynamic
- 初学者,学习vue应该从何下手?
- 查看oracle归档大小,ORACLE RAC按实例统计每天归档日志大小
- HTMO DOM部分---小练习;列表之间移动、日期选择、好友选中、滑动效果、滚动条效果、飞入飞出效果。...
- 网络管理与维护作业13
- android使用的数据,在 Android 应用中使用数据 - Xamarin | Microsoft Docs
- 系统集成项目管理工程师(软考中级)—— 第七章 知识产权 笔记分享
- CSDN中用Markdown如何给文本加下划线(可延长下划线)
- ARN的内存和CPU配置
- 2019年安徽大学ACM/ICPC实验室新生赛
- 几何画板用迭代法作图的技巧
- HTTP和RTSP简介
- pygame动画演示小球碰撞
- 关闭您的磁盘几乎已满提示-Mac OS
- 英语口语学习(03-06)
- csdn查看自己收藏的文章