视学算法报道

机器之心编辑部

游戏中的人工智能所面临的技术、挑战和机遇。

人机游戏有着悠久的历史,已经成为验证人工智能关键技术的主流。图灵测试可以说是人类首次进行人机对抗测试,这激发了研究人员设计各类 AI 来挑战职业人类玩家。例如,1989 年研究者开发了国际跳棋程序 Chinook,目标是击败世界冠军,1994 年 Chinook 打败了美国西洋跳棋棋王 Marion Tinsley。在之后的时间里,IBM 的深蓝在 1997 年击败国际象棋大师 Garry Kasparov,开创了国际象棋史上的新纪元。

近年来,我们见证了游戏 AI 的快速发展,从 Atari、AlphaGo、Libratus、OpenAI Five 到 AlphaStar 。这些 AI 通过结合现代技术在某些游戏中击败了职业人类玩家,标志着决策智能领域的快速发展。

AlphaStar(DeepMind 开发的计算机程序) 和 OpenAI Five(美国人工智能研究和 OpenAI 开发)分别在星际争霸和 Dota2 中达到了专业玩家水平。现在看来,目前的技术可以处理非常复杂的不完美信息游戏,特别是在最近大火的王者荣耀等游戏中的突破,它们都遵循了类似 AlphaStar 和 OpenAI Five 的框架。我们不禁会问:人机游戏 AI 的未来趋势或挑战是什么?来自中国科学院自动化研究所以及中国科学院大学的研究者撰文回顾了最近典型的人机游戏 AI,并试图通过对当前技术的深入分析来回答这些问题。

论文地址:https://arxiv.org/pdf/2111.07631.pdf

具体而言,该研究总共调查了四种典型的游戏类型,即围棋棋盘游戏;纸牌游戏(德州扑克 HUNL、斗地主和麻将);第一人称射击类游戏 (FPS)(雷神之锤 III 竞技场);实时战略游戏 (RTS)(星际争霸、Dota2 和王者荣耀) 。上述游戏对应的 AI 包括 AlphaGo、AlphaGo Zero 、AlphaZero、Libratus、DeepStack、DouZero、Suphx、FTW、AlphaStar、OpenAI Five、JueWu 和 Commander。图 1 为一个简短的概要:

本文调查的游戏以及 AI

总体而言:在第 2 节中,该研究描述了本文涵盖的游戏和使用的AI;第 3-6 节分别阐述了棋盘游戏、纸牌游戏、FPS 游戏和 RTS 游戏对应的 AI;在第 7 节总结并比较了各类游戏所使用的不同技术;在第 8 节展示了当前游戏 AI 面临的挑战,这些挑战可能是该领域未来的研究方向。最后,第 9 节对论文进行了总结。

典型的游戏和 AI

下表提取了不同游戏挑战智能决策的关键因素,如表 1 所示:

上表列出了不同游戏的优缺点,我们需要根据不同的游戏类型,分配不同的 AI。因为不同的游戏具有不同的特点,其解决方案也各不相同,因此研究者开发了不同的学习策略来构建 AI 系统。在本文中,AI 被进行不同的分配:AlphaGo、AlphaGo Zero、AlphaZero 用于棋盘游戏;Libratus、DeepStack、DouZero 和 Suphx 分别用于纸牌游戏 HUNL、斗地主和麻将;FTW 用于 FPS 游戏中的雷神之锤 III 竞技场;AlphaStar、Commander、OpenAI Five 和 JueWu 分别用于星际争霸、Dota2 和王者荣耀。

不同游戏对应的 AI

棋盘游戏 AI

AlphaGo 系列由 AlphaGo、AlphaGo Zero 和 AlphaZeo 组成。2015 年问世的 AlphaGo 以 5:0 击败欧洲围棋冠军樊麾,这是软件首次在全尺寸棋盘对职业棋手的比赛中取得这样的成绩。之后,DeepMind 为 AlphaGo Zero 开发了新的训练框架,事先无需专业的人类对抗数据,取得了卓越的表现。AlphaZero,是一种通用强化学习算法。AlphaGo 系列总结如图 2 所示:

AlphaGo 系列框架图

纸牌游戏 AI

纸牌游戏作为典型的不完美信息游戏,长期以来一直是人工智能的挑战。DeepStack 和 Libratus 是在 HUNL 中击败职业扑克玩家的两个典型 AI 系统。它们共享基础技术,即这两者在 CFR 理论上相似。之后,研究人员专注于麻将和斗地主这一新的挑战。由微软亚洲研究院开发的 Suphx 是第一个在麻将中胜过多数顶级人类玩家的人工智能系统。DouZero 专为斗地主设计,这是一个有效的 AI 系统,在 Botzone 排行榜 344 个 AI 智能体中排名第一。纸牌游戏 AI 的简要框架如下图所示:

纸牌游戏 AI 的简要框架

第一人称射击(FPS)游戏 AI

雷神之锤 III 竞技场是一款典型的 3D 多人第一人称视角电子游戏,其中两个对立的团队在室内或室外地图中相互对抗。CTF 设置与当下多人电子游戏有很大不同。更具体地说,CTF 中的智能体无法访问其他玩家的状态,此外,团队中的智能体无法相互通信,这样的环境是学习智能体进行通信和适应零样本生成最优测试平台。零样本意味着智能体进行协作或对抗不是经过训练而来的,可以是人类玩家和任意的 AI 智能体训练而来,仅基于像素和人类等游戏点作为智能体的输入,学习智能体 FTW 框架可以达到人类级性能。游戏 CTF 的 FTW 框架如下图所示:

游戏 CTF 的 FTW 框架

RTS 游戏 AI

RTS(即时战略)游戏作为一种典型的电子游戏,多达数万人相互对战,RTS 通常被作为人机游戏的试验台。此外,RTS 游戏通常环境复杂,比以往游戏更能捕捉现实世界的本质,这种特性使得此类游戏更具适用性。DeepMind 开发的 AlphaStar 使用通用学习算法,在星际争霸的所有三个种族中都达到了大师级别,其性能超过 99.8% 的人类玩家(总数约 90000 名玩家)。Commander 作为轻量级的计算版本,遵循 AlphaStar 相同的训练架构,使用更少的计算量级,并在现场赛事中击败两名特级高手。OpenAI Five 旨在解决 Dota2 游戏,这是第一个在电子竞技游戏中击败世界冠军的 AI 系统。作为与 Dota2 比较相似的电竞游戏,《王者荣耀》面临的挑战最为相似,觉悟成为第一个可以玩完整 RTS 游戏而不限制英雄池的 AI 系统。典型 RTS 游戏的简单 AI 框架如下图所示:

一个典型 RTS 游戏的简单 AI 框架

挑战和未来趋势

尽管计算机游戏已经取得了很大的进步,但当前技术仍然面临着诸多挑战,例如大量依赖计算资源等,这将激发未来的研究。

大模型

如今,大模型,尤其是预训练大模型,正在从自然语言处理发展到计算机图像处理,从单模态到多模态。即使在零样本设置中,这些模型也证明了其在下游任务的巨大潜力,这是探索通用人工智能的一大步。

OpenAI 开发了 GPT-3,它拥有超过 1750 亿个参数,并在各种语言相关任务中表现出良好的性能。然而,游戏中的大模型基本没有,当前复杂游戏的模型比那些参数多的大模型要小得多。如表 2 所示,AlphaStar 和 OpenAI Five 分别只有 1.39 亿和 1.59 亿的参数:

考虑到大模型是对通用人工智能的一个比较好的探索,如何在游戏中为人工智能设计和训练大模型,可能会为那些时序决策领域提供新的解决方案。为了进行这样的尝试,该研究认为至少应该仔细考虑两个问题:

  • 首先,游戏任务与自然语言处理任务非常不同,因此如何明确训练目标是大模型的关键步骤;

  • 其次,由于游戏难易程度不同,如何设计合适的训练机制比较困难。训练方法应该能够处理各种游戏并确保学习不会退化。

低资源 AI

为了在复杂环境中训练专业级 AI,通常需要大量的计算资源。从表 3 得出我们需要大量的资源投入来训练 AI。

我们不禁会问,是否可以在资源有限的情况下训练出专业级的人工智能。一个直观的想法是引入更多的人类知识来辅助学习,强化学习可以说是未来的一个发展方向。另一方面,开发出理论和易于计算的进化策略,将是低资源人工智能系统的关键一步。

评估

目前,对智能体的精确评估成为一个难题。人机游戏通常采用基于获胜概率(对职业人类玩家)的评价标准,如表 4 所示。但是,这种评价比较粗糙,尤其是在有限的非迁移游戏测试下。如何为大多数游戏制定一个系统的评价标准是一个重要而开放的问题。

通过这篇文章,研究者希望初学者能够快速熟悉游戏 AI 这个领域的技术、挑战和机遇,并能启发在路上的研究人员进行更深入的研究。

© THE END

转载请联系机器之心公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

点个在看 paper不断!

AI打王者、星际争霸……你还不懂背后技术?这有一份游戏AI综述相关推荐

  1. DeepMind AI碾压《星际争霸2》人类职业玩家 但它还不完美

    来源 | The Verge 编译 | 网易智能 参与 | 小小 [网易智能讯 1月25日消息]谷歌旗下DeepMind开发的人工智能AIphaStar在<星际争霸2>(Starcraft ...

  2. AlphaStar星际争霸10:1绝杀人类;苹果自动驾驶大裁员 | AI一周热闻

    华为发布5G芯片天罡和巴龙5000 创新奇智完成超4亿人民币A轮和A+轮融资 苹果裁撤自动驾驶项目员工 200 余人 特斯拉揭秘"克隆行为"技术细节 亚马逊推出机器人Scout,进 ...

  3. 基于AI挑战《星际争霸II(StarCraft II)》的Windows版本下载安装详细教程

    1.国内下载需要在战网里才行,所以第一步我们需要先下载战网,网址:Blizzard下載,如下图下载Windows版本(一分钟不到就下好了): 2.双击打开Battle.net-Setup,选择安装语言 ...

  4. 跟随Deepmind使用AI玩《星际争霸2》

    近来人工智能的火爆,deepmind已经开始研究玩<星际争霸2>了,这个游戏比较复杂,是否可以像围棋一样超越人类呢? 要想学习这个,可以到DM的开源网站下载源码: https://gith ...

  5. 股票跌得猝不及防,是因为你还不懂这个技术!

    今日是国庆长假后的第一个交易日,A股迎来当头一棒,盘中超百点的下跌令市场猝不及防,在权重股大跌,题材股重挫之下,市场连续跌破多条均线支撑,吞噬节前一周的反弹.全天看,这里的下跌属于通杀,但市场反弹趋势 ...

  6. 【AI简报第20230210期】 ChatGPT爆火背后、为AIoT和边缘侧AI喂算力的RISC-V

    1. ChatGPT爆火背后:AI芯片迎接算力新挑战 原文: https://www.163.com/dy/article/HT7BHN3C05199NPP.html ChatGPT的出圈走红为AIG ...

  7. 《星际争霸2》引擎技术解析

    就在SIGGRAPH大会刚结束之后,AMD和暴雪在AMD官方网站上放出了<星际争霸II>的官方技术文档,通过游戏引擎技术的展示让星际迷们感受到越来越多的惊喜. 画面优化给CPU带来考验 着 ...

  8. 《星际争霸2》引擎技术解析(转)

    飞扬大大Blog上见着的,留下mark http://www.cnblogs.com/flying_bat/archive/2008/09/02/1282184.html 就在SIGGRAPH大会刚结 ...

  9. DeepMind科学家:AI对战《星际争霸》胜算几何?

    记者 | 周翔 AI科技大本营1月29日消息,在<麻省理工科技评论>与深科技举办的新兴科技峰会上,谷歌DeepMind科学家Oriol Vinyals在会上发表了主题为<AI对战星际 ...

最新文章

  1. leetcode--字符串转换为整数--python
  2. xtrabackup-工作原理
  3. Easyexcel文件下载时,中文名称显示为下划线
  4. jdbc mysql myeclipse_关于JDBC连接MySQL的问题,我一直解决不了(Myeclipse 环境下)
  5. 【boost.asio】不知道ip地址的情况下连接主机的方式
  6. 《快乐大本营》升级改版 此举对芒果超媒整体收益并无太大影响
  7. SpringCloud学习之网关gateway
  8. 中label换行问题_如何巧妙处理 Git 多平台换行符问题(LF or CRLF)
  9. TypeScript学习(八):数组的补充及内置对象说明
  10. 计算机专业知识笔记,事业单位计算机专业知识重点笔记
  11. Python程序设计--第5章 函数设计与使用
  12. 如何编译符合自己路由器的的OpenWrt固件
  13. 即将首发 | 业界首个零售数字化创新白皮书,解锁全链路数字化致胜秘籍
  14. 总资产周转率、资产负债率、销售净利率、资产收益率、净资产利润率、劳动生产率、人均利润率
  15. Maven实战(四)--坐标
  16. asp.net保存图片
  17. SVD 与 LSI教程(5):LSI关键字研究与协同理论
  18. Proxmox VE ZFS 开启Thin Provision(精简配置)
  19. node版本、npm版本随意切换
  20. 【花雕动手做】有趣好玩的音乐可视化系列项目(24)--无限LED镜子灯

热门文章

  1. 谷歌浏览器实现多开,单独cookie
  2. WEB服务器配置安全
  3. 从零开始学习Linux运维,成为IT领域翘楚(六)
  4. WebMatrix之WebMatrix.Data
  5. 电脑html连接电视无信号,康佳液晶电视与电脑连接后无信号输入怎么解决?
  6. 【录用案例】1区SCI仅36天录用,新增多本1-2区SCI,CNKI评职好刊发表案例
  7. 先进先出-FCFS-调度算法-C语言实现
  8. error: ...\Windows Kits\8.1\Include\um\combaseapi.h IUnknown is undefined 问题
  9. 基于文本服务框架的拼音输入法研究与实现
  10. 【高效开发工具系列】Windows 怎么使用 telnet