作者:新智元
链接:https://www.zhihu.com/question/310011363/answer/581431562
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

AlphaStar 实战技巧分析

讲完 AlphaStar 的训练过程,再来分析下实战过程。

像 TLO 和 MaNa 这样的职业星际争霸玩家,平均每分钟可以做数百个操作 (APM)。这远远少于大多数现有的机器人,它们独立控制每个单元,并始终保持数千甚至数万个 APM。

在与 TLO 和 MaNa 的比赛中,AlphaStar 的平均 APM 约为 280,远低于职业选手,不过它的动作可能更精确。

造成 APM 较低的部分原因是 AlphaStar 使用回放开始训练,因此模仿了人类玩游戏的方式。此外,AlphaStar 的反应在观察和行动之间的平均延迟 350ms。

在与 TLO 和 MaNa 对弈过程中,AlphaStar 通过原始界面与星际争霸 2 引擎连接,这就意味着它可以直接在地图上观察自己的属性和对手的可见单位,而无需移动相机。

相比之下,人类玩家必须明确管理 “注意力经济 (economy of attention)”,并决定在哪里对焦相机。

然而,对 AlphaStar 游戏的分析表明,它管理着一种隐性的注意力焦点。平均而言,智能体每分钟 “切换内容” 约 30 次,类似于 MaNa 或 TLO 的操作。

此外,在比赛之后,DeepMind 还开发了 AlphaStar 的第二个版本。和人类玩家一样,这个版本的 AlphaStar 会选择何时何地移动摄像头,它的感知仅限于屏幕上的信息,行动地点也仅限于它的可视区域。

DeepMind 训练了两个新智能体,一个使用 raw interface,另一名必须学会控制摄像头,以对抗 AlphaStar League。

每个智能体最初都是通过从人类数据中进行监督学习,然后按照强化学习过程进行训练的。使用摄像头界面的 AlphaStar 版本几乎和 raw interface 一样强大,在 DeepMind 内部排行榜上超过了 7000 MMR。

在表演赛中,MaNa 用 camera interface 击败了 AlphaStar 的一个原型版本,这个 interface 只训练了 7 天。

这些结果表明,AlphaStar 对 MaNa 和 TLO 的成功实际上是由于优越的宏观和微观战略决策,而不是快速的操作、更快的反应时间或 raw interface。

人类挑战 20 年,AI 攻下星际争霸有五大困难

游戏规则规定,玩家必须选择三种不同的外星 “种族” 中的一种——虫族、神族或人族,它们都有各自的特点和能力(尽管职业玩家往往只专注于一种种族)。每个玩家从一些工作单元开始,收集基本资源来构建更多的单元和结构并创造新技术,这些反过来又允许玩家获取其他资源,建立更复杂的基地和结构,并开发新的能力,可以用来智胜对手。

游戏的难度在于,要想取胜,玩家必须在宏观经济的宏观管理和微观个体的控制之间保持谨慎的平衡。

平衡短期和长期目标以及适应意外情况的需要对往往脆弱和缺乏灵活性的系统提出了巨大的挑战。要想解决这个问题,需要突破 AI 研究的几个挑战,包括:

游戏理论:《星际争霸》是一款像剪刀石头布一样是没有最佳策略的游戏。因此,AI 过程需要不断探索和拓展战略知识的前沿。

不完全信息:不像国际象棋或围棋那样,玩家什么信息都能看到,关键信息对星际玩家是隐藏的,必须通过 “侦察” 来主动发现。

长期规划:像许多现实世界中的问题一样,因果关系不是瞬间产生的。游戏也可以在任何地方花费一个小时完成,这意味着在游戏早期采取的行动可能在很长一段时间内都不会有回报。

实时:不像传统的棋类游戏,玩家在接下来的动作之间交替,《星际争霸》玩家必须随着游戏时间的推移不断地执行动作。

大型活动空间:数百个不同的单元和建筑必须同时被实时控制,从而形成一个可能性组合空间。

正是由于这些巨大的挑战,星际争霸已经成为人工智能研究的 “大挑战”。自 2009 年发布 BroodWar API 以来,《星际争霸》和《星际争霸 2》的竞赛一直在进行,包括 AIIDE 星际争霸 AI 竞赛、CIG 星际争霸竞赛、学生星际争霸 AI 竞赛和《星际争霸 2》AI 阶梯赛。

DeepMind 在 2016 年和 2017 年与暴雪合作发布了一套名为 PySC2 的开源工具,其中包括有史以来最大的一组匿名游戏回放。

现在,经过两年的打造,继 AlphaGo 之后,DeepMind 刚刚问世的 AlphaStar 已经取得了飞速进展。

最后,AlphaStar论文即将发布,更多技术细节请阅读:

新智元:AlphaStar 称霸星际争2!AI 史诗级胜利,DeepMind 再度碾压人类

AlphaStar 实战技巧分析相关推荐

  1. 揪出“凶手”——实战WinDbg分析电脑蓝屏原因

    http://www.appinn.com/blue-screen-search-code/ 蓝屏代码查询器 – 找出蓝屏的元凶 11 文章标签: windows / 系统 / 蓝屏. 蓝屏代码查询器 ...

  2. css揭秘实战技巧 - 形状 [二]

    全目录 本系列文章,主要是围绕css3属性,实现我们常见的各种效果,这些效果都是我们实战开发中经常可以用到的效果: css揭秘实战技巧- 背景与边框 [一] css揭秘实战技巧- 形状 [二] css ...

  3. python如何确定拐点_如何确认均线拐点的实战技巧和理论(图解)

    如何确认均线拐点的实战技巧和理论(图解) 投资是长久的事情,以饱含学习的思维去看待投资,你的投资路才能够越走越远. 一.MA指标使用原理 例如5天以来的投资者持筹成本就是把第1天到第5天的价格加起来除 ...

  4. 7个实战技巧帮你提升前端技术水平!

    项目架构 // 1.封装项目的基础库 优秀的基础库可以保证项目的最低质量下限和更好的可扩展性.通常我们说的基础库包括-组件库.基础 css 库.基础工具库. // 2.层级管理 管理你的请求,建议把你 ...

  5. 《超越对手-大项目售前售后的30种实战技巧》读书心得

    售前的工作,涉及领域和知识面甚多.贫者因书而富,富者因书而贵,贵者因书而守成.读书,不但对人有好处,对工作也有很大的帮助.只是并没有说集成而专一的一类书可以从开始到精通的,但是我们可以深入学习每一个需 ...

  6. IDA PRO 静态反汇编与OllyDbg动态调试实战技巧汇总

    IDA PRO 静态反汇编与OllyDbg动态调试实战技巧汇总 ********************************** 案例一: 使用IDA PRO+OllyDbg+PEview 追踪w ...

  7. 干货!CDN内容分发网络实战技巧

    干货!史上最全的CDN内容分发网络实战技巧 整理自[微学堂]第二十四期课程实录 嘉宾介绍 白金,ChinaUnix 资深版主,曾担任<iptables 高级使用研讨>讲师,精通iptabl ...

  8. Android Bitmap实战技巧

    Android Bitmap实战技巧 http://www.cnblogs.com/punkisnotdead/p/4881771.html 注:本文大量参考谷歌官方文档自http://develop ...

  9. Git实战技巧-比较不同分支之间的差异和代码的改动

    Git实战技巧-比较不同分支之间的差异和代码的改动 1.企业场景 播仔即将结束在传智公司的开发工作,跳槽到黑马公司.项目经理考虑到播仔即将离职,只分配了一个简单的账户密码登录功能,而其他方式的登录功能 ...

最新文章

  1. JAVA8的LocalDateTime使用心得和工具类
  2. 8月最新阿里技术栈架构资料
  3. jvm jinfo 参数_jinfo:JVM运行时配置的命令行浏览
  4. 10.众里寻他千百度- Find命令和文件后缀
  5. cordova插件(github版)
  6. python爬虫实例之一
  7. 程序员必看!java开发金融类项目
  8. html5移动端webscoket实现在线聊天
  9. 我儿子今年15周岁,学习不好,去年上的高职,今年我犹豫是让他继续上,还是学个手艺?...
  10. Android中动态调整ImageView的宽高比
  11. Rime(1):介绍与安装
  12. android pppd流程,一种基于PPPD实现PPP‑Server功能的通信模块及其实现方法与流程...
  13. python找出某个文件夹下某个后缀的文件
  14. c语言智能小车项目的感想,基于51单片机的遥控智能小车实作心得
  15. verilog——74HC85四位数值比较器并扩展为16位数值比较器
  16. 汇纳科技张宏俊:加强布局AI大数据,为实体商业服务
  17. windows11 Vmware16.2 挂起报错Workstation unrecoverable error: (vcpu-0)
  18. Lua Math函数
  19. 使用证据积累进行聚类算法集成
  20. 奇瑞无界Pro正式上市,新车共推出5款车型

热门文章

  1. Jeecgboot报错Failed to configure a DataSource: ‘unl‘ attribute is not specified and no embedded dataso
  2. 如何在WindowsXP中发短信
  3. FastTunnel - 免费好用的内网穿透工具搭建教程
  4. 从补天白帽大会看网络世界那些“挖洞”的人
  5. 【python与数据分析】CH3 python序列结构补充——字符串
  6. 专用微处理器电源监控和看门狗芯片--MAX708
  7. 柜台收取西联汇款经验(网友分享)
  8. 后端工作中遇到的问题总结(一)
  9. 计算机网络覆盖的地理范围分类,计算机网络按地理范围可分为什么
  10. MATLAB 数据分析方法(第2版)1.2 MATLAB基础概述