大数据文摘编辑部出品

用AI攻占了国际象棋和围棋高地之后,DeepMind在第一人称射击游戏(FPS)上也有了新进展。

1997年5月“深蓝”击败国际象棋世界冠军卡斯巴罗夫,有玩家在庆幸,我不下象棋,只下围棋。

2017年5月AlphaGo打败围棋世界冠军柯洁,有玩家庆幸,还好,我不下棋。

2018年6月,OpenAI 人工智能在dota2 5V5模式中以4000分水平击败人类玩家,依旧有玩家庆幸,我不玩RPG(角色扮演)对战,我只玩FPS(第一人称射击)。

如今,FPS也被AI攻陷。

近日,DeepMind的研究人员在本周的《科学》杂志上发表了一篇论文,描述描述了一个完全无监督的自学程序,不仅能够学习如何玩“ Quake III Arena ”(雷神之锤III竞技场,一款第一人称射击游戏),还能设计出胜过人类团队的新颖战略。

国际象棋和围棋最初是用来模拟战争游戏的,但却对战争复盘的不好。因为这类游戏通常涉及一个或多个队友和敌人。而且一个优秀的战争游戏必然是三维展开。

DeepMind使用的AI叫For The Win(FTW),本质是用卷积神经网络直接通过屏幕上进行训练,屏幕数据会被传递到两个LSTM网络或能够学习长期依赖性的网络。这两个LSTM一个是在快速时间尺度上,另一个是在慢速时间尺度上运行。它们通过目标耦合,能够对游戏世界进行预测并通过模拟游戏控制器输出动作。

FTW总共训练了30个游戏角色,为他们提供了一系列队友和对手,并随机选择游戏阶段,以防止他们通过记忆惯性做出选择。每个角色都明确自己的奖励信号,从而拥有自己独特的目标(比如夺取旗帜)。此外,他们利用双层流程(two-tier process )来优化内部奖励,通过这些奖励加强学习,来制定最重要的游戏策略。每个角色都单独玩了大约450,000场比赛,相当于拥有大约四年的经验。

训练过后的FTW在地图,团队名单和团队规模选择方面都可以作出有利的选择。他们学习了类似人类的行为,例如跟随队友,在对手的基地露营,以及在一波攻击中捍卫他们自己的基地。而随着训练的进行,他们还学会避免人类玩家的一些弱点,比如过于关注队友的行为。

在一场有40名人类参加的比赛中,人类和AI在比赛中随机匹配(对手或队友),结果,AI大胜人类玩家,FTW的Elo评级(相当于获胜的概率)为1600,而最好的人类玩家也只有1300,人类玩家平均评级为1050。

伦敦全球大学计算机科学教授,DeepMind科学家Thore Graepel表示,这项工作显示了多智能体培训(multiagent)推动人工智能发展的潜力。这是人机交互和系统相互补充或协同工作的研究的一个重大进步。

AI训练思路

游戏分为两个阵营,两方的大本营在游戏时候开会随机设置在地图的两端。游戏中的玩家可以在游戏地图中“瞎逛”,借助地图中的建筑物、数目以及其他物品与玩家进行互动。

在游戏中,如果一方用激光击败了其他玩家,被击中的玩家丢掉旗帜,回大本营重生。

DeepMind采用的AI玩家会和人类有同样的视角,AI不知道其他玩家的信息,包括位置、状态等。另外这款游戏比其他棋牌游戏更能接近真实的战场。AI玩家从零开始,用强化学习训练,在游戏的开始,真实加入战场的AI角色是随机选择的,这会使得智能体的行为更能接近最初设置的策略目标。

每个智能体都能够为自己制定策略,这意味着不同角色会采用不同的战术,即不同AI玩家有不同的专攻方向。

当然,也会有限制,即在每1000次迭代后,系统会比较策略并评估整个团队在模仿与学习能力。如果一个智能体的获胜机会低于另一个智能体的70%,那么较弱的智能体会复制较强的智能体。同时,强化学习还要求AI通过其他指标的对比进行调整。

AI玩家在一开始就像一张白纸,研究人员给他们的目标不仅是游戏结束时候的得分,还要关注在游戏前期的得分。研究人员指出,如果奖励机制只和游戏结果有关(输/赢/平局),显然限制太少,导致学习效果非常不好,所以需要考虑动态的奖励机制,即根据游戏的点数流来变动。

当初始位置是随机生成时,AI通常击败人类玩家。即使人类已经练习了12个小时,他们仍然能够赢得25%的比赛,平局6%,剩下的是负。

然而,当两名职业游戏测试人员得到一张特别复杂的地图时,这张地图AI并没有见过。重新让AI在这张地图上训练的话,只需要6个小时的训练就能脱颖而出。

这一结果没有在论文说明,而是在向新闻界提供的一份补充文件中作了说明。

目前人们仍然可以在经过精心设计的定位战中击败AI,因为现实生活很少提供这样复盘重来的机会,毕竟淮海战役只能打一次!

相关报道

https://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/deep-mind-gets-software-agents-to-work-together-to-beat-a-multiplayer-video-game

https://venturebeat.com/2019/05/30/deepminds-ai-can-defeat-human-players-in-quake-iii-arenas-capture-the-flag-mode/

Science最新:DeepMind部署自学AI,攻陷FPS“雷神之锤”相关推荐

  1. 教ai玩游戏_简单解释:DeepMind如何教AI玩视频游戏

    教ai玩游戏 by Aman Agarwal 通过阿曼·阿加瓦尔(Aman Agarwal) 简单解释:DeepMind如何教AI玩视频游戏 (Explained Simply: How DeepMi ...

  2. Web端算法部署+流媒体服务器算法部署+Flask+AI健身+Python-web实时检测效果显示

    1. 界面展示: 二.图片检测: 仰卧起坐 :选取的是12,24,26,最大角度改为30-130即可. angle = detector.findAngle(frame, 12, 24, 26) pe ...

  3. 头像秒变像素风,宅男大叔自学AI打造大师级水准,火爆推特

    ↑ 点击蓝字 关注极市平台 来源丨量子位 极市导读 最近,一位日本宅男大叔佐藤做了一个AI生成肖像画的网站AI Gahaku,10天内用户访问量从0暴增到100万,引爆推特.>>就在明天, ...

  4. DeepMind解决医疗AI黑箱问题,诊疗50多种眼疾堪比专家丨论文

    铜灵 郭一璞 发自 凹非寺 量子位 出品 | 公众号 QbitAI  人工智能诊断疾病并不是什么稀罕事,但是,在今天之前,还没有人知道AI在做出诊断时,内心到底是怎么"想"的, ...

  5. 18个月自学AI,2年写就三万字长文,过来人教你如何掌握这几个AI基础概念

    来源:机器之心 本文约30000字,建议阅读10分钟. 这是一篇真正针对初学者的 AI 教程,不只讲概念,还讲概念的底层原理. David Code 有多个身份:他是旅行作家,通晓多国语言,他还是一名 ...

  6. DeepMind用基于AI的元强化学习框架研究多巴胺在学习过程中的作用

    内容来源:ATYUN AI平台 最近,AI已经应用到一系列视频游戏中,如Atari经典的Breakout和Pong.尽管这样的表现令人印象深刻,但人工智能仍然依靠数千小时的游戏时间来达到并超越人类玩家 ...

  7. 腾讯云部署novel ai (stable-diffusion-webui)

    其实前几天就已经部署好了,图已经产出一斤了x凭借记忆写点记录. 因为纯粹是在凭着记忆写,所以肯定会有遗漏的步骤. 感谢腾讯云的打折,让只拎了个轻薄本到学校的自己还可以继续搞点有意思的东西. 目录 1. ...

  8. DeepMind 首席科学家 Oriol Vinyals 最新访谈:通用 AI 的未来是强交互式元学习

    整理:李梅 编辑:陈彩娴 自 2016 年 AlphaGo 在围棋中击败人类以来,DeepMind 的科学家一直致力于探索强大的通用人工智能算法,Oriol Vinyals 就是其中之一. Vinya ...

  9. 离人类更近一步!DeepMind最新Nature论文:AI会“回忆”,掌握调取记忆新姿势

    十三 发自 凹非寺  量子位 报道 | 公众号 QbitAI 每年春节,只要在饭桌上,七大姑八大姨曾对你"殷切关怀"的情景便会历历在目. 对人类来说,记住一些东西并能回忆起来,是件 ...

最新文章

  1. 我在学python-我在大学毕业后学习Linux、python的一些经验
  2. Cloud for Customer的设置加载机制
  3. 一级减速器装配图cad文件_减速器的基本结构,减速箱各组成零件的结构及功用,值得保存...
  4. js中setInterval与setTimeout的区别
  5. switch java 语法_Java_基础语法之switch语句
  6. Spring学习总结(12)——Druid连接池及监控在spring配置
  7. BZOJ2767:[JLOI2010]足彩投注
  8. 使用免费的Spire.Pdf.dll打印无水印的PDF文件
  9. java贪吃蛇代码_java贪吃蛇游戏实现代码
  10. 计算机学数字电子基础知识,什么是数字电路?数字电路基础知识
  11. 解密中国网络游戏业的黑暗骑士:响尾马(下)
  12. 手游天涯明月刀服务器维护到几点,天涯明月刀手游 1月21日停服维护 维护更新详解内容介绍...
  13. CentOS 编译安装 MySQL5.7
  14. 推荐多款好看的报表图表配色方案(转载)
  15. 小米机器人 尘盒配件_小米机器人怎么取出尘盒
  16. Oracle IN 与 DISTINCT
  17. 解决 PR 或 AE 启动不了桌面弹出 Crash 文件
  18. 【二叉树】1758:二叉树
  19. 智能新物种!斐讯京东新品日:不可错过的高颜值科技美物
  20. 优思学院|中质协绿带考试具体是要什么流程才能拿证呢?

热门文章

  1. 精灵标注助手导入xml数据
  2. Visual Studio 2010 SP1 中文升级补丁下载及说明
  3. linux脚本基础详细介绍
  4. 科技云报道:大模型的中场战事,深入垂直行业腹地
  5. 讲解用Pathping分析网络问题
  6. HTML鼠标怎么变成放大镜的,鼠标箭头总变成放大镜样式,怎么恢复?
  7. 禁止mac压缩文件、U盘传输到Linux、Windows下出现.DS_Store等隐藏垃圾文件
  8. ElasticSearch用户管理
  9. mac关闭向日葵远程开机自启
  10. 基于微信小程序带后端ssm接口小区物业管理平台设计