今年一月份AlphaStar刚登场时写的文章,翻出来给大家扫盲什么是星际争霸,什么是人工智智能。

AlphaStar

北京时间2019年01.24凌晨2:00,DeepMind的伦敦总部,《星际争霸2》游戏人工智能AlphaStar首秀。DeepMind是全球人工智能领军,AlphaGo和AlphaZero的创造者,这里就不多介绍了。星际2作为一款当今世界最复杂的即时战略游戏,含经济运营,兵伐诡道,战争迷雾以及瞬息万变的策略,自2016年起,就被DP当做一个攻克目标。相比之下,围棋棋盘是固定的,双方是摊开了局面战斗;而星际2类似于真实战争,作战双方不知道对方的经济详细情况和所有战略战术—-一句话,战场无法预测,没有套路!

星际2解说 Artosis 与 Rotterda全程解说。首先问了暴雪的游戏总监Tim Morten:“为什么那么热切和DeepMind合作?”

答:“星际2是当今水平最高竞技游戏,也是人工智能研究的里程碑。”

“暴雪作为合作伙伴意味着什么?”

答:“我们团队非常困难地开发了一款特殊版本的星际2,作为工具公开发布,同时也和SP紧密合作。这个特殊版本和普通版不同,但是规则相同,适合SP研究。最大的不同就是,我们在游戏研究中必须大量预先设置比如live surfing,所以我们今天将观看的都是比赛回放录播,你知道,实时比赛必须从选手视角直播。”

Artosis接着问了DP的研究合作领导Oriol Vinyals:“为什么选择星际作为AI研究目标?”

答:“DP的研究任务就是人工智能,所以找一个检验标准很重要,在开展任务之前,用来检验算法和Agent。这是我们研究的第一个电脑游戏,就像围棋那样 。但星际和其它游戏相比它最突出的挑战就是,很明显下一步对我们的AI Agent来说,挑战的等级很高,我在这个图里高光标注了。”

首先是“信息类型”不完美,意思是Agent不知道也无法预测人类选手现在在做什么。不像围棋,如果你不是大师,将容易输掉比赛。正如我展示的,这对我们是个很大的挑战。”

Oriol接着说了过去两年DP做了什么样的研究。他们并不是第一个意识到星际是AI中一个重要研究领域的团队,下面图中可以看到过去15年AI发展历程。2003年即时战略游戏RTS就被视作AI研究方向,2009年就有开源机构研究第一版星际Blood War。过去八年取得不少进展,许多团队开发了Bot和Agent玩游戏,并且玩得不错。他也亲自参与了早期的游戏竞赛AIIDE,甚至被要求作为职业玩家和其他Bot对抗,还因此发现了bug。

PS:2015年已有关于星际Bot的论文 StarCraft Bots and Competitions。

https://www.researchgate.net/publication/304919439_StarCraft_Bots_and_Competitions

AlphaStar早期就公开资源和工具,每个人都能参与。整个团队做了巨大的努力,才开发了能全程完整玩星际的第一个版本。

接下来Rotterda对Oriol的访问,就是今天比赛录像的相关科普了。

比赛都是2018年12月进行的,只有一张1v1地图上:Catalyst LE。神族VS神族。赛制五局三胜。

接着第一个人类玩家Dario Wünsch(TLO )出场,来自暴雪推荐给DP做合作的职业战队Liquid。他是个德国职业虫族玩家。

TLO说了下他和DP合作的起因,并和Oriol讨论过如何让比赛公平。Rotterda也问了我们观众要问的:“作为虫族玩家,比赛中用神族什么感觉?”

答:“我做了大量的赛前准备,玩了100多场神族,不算专业级别,但在星际天梯赛里也算Top 1%水平了。”

今天将播放TLO和AlphaStar之间五场比赛中的两场,人类捍卫尊严的比赛回放正式开始!

TLO vs AlphaStar

第一场

作为星际爱好者,我看不出AI开局和人类玩家有什么不同:造水晶,建筑,probe探路,侦查敌情,前期小骚扰。前五分钟,双方资源人口以及兵力相差不大,AI略为优势。

第五分钟开始,AI开始追猎正面压制TLO的第二基地,双方互秀了一波微操作。但AI的造兵能力这时开始显现,第六分钟兵力已是TLO近乎三倍(28:10)。AI持续优势兵力压制,TLO开始拉上probe抵抗,开局7:06时,TLO打出了gg。

解说员惊诧了,请出DP的研究合作领导David Silver,他说DP是经过几个月研究后才第一次打败人类职业选手。TLO吐槽自己都不知怎么回事,但作为神族的确犯了一些错误。但即使第一场失败,他当时还是非常自信能赢下一场。

APM

解说员 Artosis开始询问APM(Action Per Minute),玩家操作手速–这也是观众的的疑问,万一比赛规则不对等怎么办,毕竟电脑的APM可以每秒无上限啊。David 解释,他们做了公平性处理,让AI模拟人类玩家手速。从下图可以看出,AI的APM中数平均值是低于人类选手的。况且星际并不是靠手速获胜的,而是靠策略。

有的观众抓图说AI的APM有时远超人类,比如下图。

但我仔细看了回放,战斗时双方APM几乎是持平的,而且人类也会高于AI,这一块是相对公平的。

AI游戏视角(战争迷雾)

David 接着解释AI是以什么样的视角来玩游戏的,并不是我们想的地图全开的模式。类似于上帝视角模式,AI会鸟瞰整个地图,但它的所有视觉只限于它的移动单位所能看到的当前视野的合集,其它地区还是被战争迷雾所覆盖。

人类玩家在操作单位并展现其可视区域时,会做其它的区域点击操作,比如资源掌控,兵力生产时会移动玩家的可视区域。DP分析了这些,模拟了人类这些视觉切换操作,最终设置了AI现有的APM。

Oriol说AI不关心当下发生了什么,不像人类有输赢的概念以及心情变化,所以五场比赛对AI来说都是独立的。TLO接着说了他第二场比赛失利的过程,他采取的防御式打法未能奏效。

第三场

这局TLO坚持到了中前期间,比赛中AI用裂光球神乎其神,几乎弹无虚发,非常有效地大量杀伤了TLO的部队。双方在路口拉锯式作战,AI的操作非常强,稍有劣势就后撤,稍有优势就压制,经常有神操作出现。TLO也采取了空投骚扰,小股部队潜入等战术,对战局未产生影响。AI的总人口,资源,兵力,始终都是压制TLO的,14分钟是,AI的兵力几乎是TLO的两倍,胜利天平很明显倾向AI。两分钟后TLO打出gg。

AlphaStar League

DP是如何训练AI的,David 做了解释。DP称此训练过程为AlphaStar联赛,第一步,学习数据来自人类在星际联赛里的比赛数据。用神经网络学习这些数据,然后每一个子状况,新的Agent会fork它,包括之前的Agent,加入到AlphaStar联赛内。

联赛之间的Agent再互相PK,学习。

这样神经网络就会持续升级。

神经网络升级到最终选出某个阶段,某个策略可以打败其它所有策略。

神经网络 继续升级。

过程中加上额外配置Personal Learning Ojbect 个人学习模块,比如某些特殊的操作,生产某些特殊兵种,最终学习得出最优策略。

最后产生五个Agent用于比赛,TLO等于是在和五个不同的顶级选手在打比赛。

AlphaStar学习了大量人类选手各类奇特打法,比如农民快攻,炮台快攻。每场比赛的Agent都是预先设置好的,不会随着比赛动态适应并变化。相当于一个人在一场比赛中用固定战术在和TLO打。AlphaStar总共花了七天学习人类联赛,第一阶段学了三天,学习的是联赛白金选手的比赛。这七天的学习数据量,相当于人类学习200年!

MaNa vs AlphaStar

Oriol分享了DP开发团队的对此站胜利喜悦,他表示团队在短暂庆祝之后将再接再厉。接着顶级玩家MaNa上场,波兰人,真正的神族玩家。

但作为神族选手,他好像也没有占什么优势,先输了两局(没有播出)。DP团队做了个视觉流程图来解释神经网络激活原理,对原理感兴趣的最好去看这一段原视频解说或者DP科普文。

https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

第三局

前期MaNa发展正常,但硬抗AI的兵力压制非常辛苦,双方实力差不多持平。但五分钟后AI的空军出现后,占局就逐渐向AI有利的方向发展了,人类几乎之后被按着在地上摩擦,8:02 MaNa打出gg。

第四局

MaNa这局表现得很强势,但是短兵相接时,AI对追猎的微操作太强了,红血的追猎被不停地瞬移到阵型后方,人类很难对AI的部队造成战斗减员。导致AI兵力越来越多,人类兵力越打越少,12:48,人类gg。

不出所料,MaNa也输了之后的最后一局。

至此人类10:0全军覆没。

看到这我有点纠结,从人类玩家角度,非常沮丧,我还不愿相信AI能在星际这种策略无穷的游戏中获胜;但做为程序员,我又很高兴看到AI技术发展的这一个巨大的里程碑。

这时直播中间插播了一段DP开发团队的采访记录,以及日常开发视频,很有热血感染力。

人类挽回一点颜面

直播最后,加赛一场,DP更改了AI的之前的上帝视角模式,改成游戏玩家视角模式。就是说AI模拟Agent“看到”的视觉范围和人类类似,只是面前这个屏幕大小而已。还特别强调了这个技术还未成熟,处于测试阶段(可能意思是就算输了,人类也别高兴)。

MaNa终于在这局为人类挽回了一点颜面,通过大量偷袭一步步占据优势,最终大获全胜。但比赛中明显看出AI在调兵遣将上出现了很大的失误,很可能因为这是测试版?

我和同是星际爱好者的码农朋友讨论了下。

  1. AI的APM设置可以说公平。

    AI上帝视角对于顶级玩家来说也不算太大优势,因为他们非常关注左下角鸟瞰地图[下图]和游戏中的声音预警。但也有朋友认为最后一场的AI游戏玩家视角,才算真正公平,因为来回切换视角很费时。

  1. 这十盘比赛前期ai都是靠微操作碾压人类,人类由于生理极限不能长期维持亢奋状态,无法撑到发挥人类战略大局观的优势的中后期。

  2. 比赛二位选手都是欧洲玩家,与亚洲玩家比,欧洲玩家大多胜在资源掌控和大局观,欧亚对抗赛中欧洲玩家经常后期翻盘。如果换成亚洲玩家,可能第3点上前期AI不占优势。

  3. 比赛五局中,人类每局都相当于在和不同的Agent打,这也算公平,毕竟职业玩家都有私藏多种杀手锏,相当于一个人用了五种打法。

赛后

DeepMind创始人,AlphaGo之父Demis Hassabis在推特上发文,满是掩饰不住的骄傲:这是游戏人工智能的一个里程碑,第一个干掉人类顶级选手的系统,这展示了我们的牛逼,我们也测试了新的产品原型:游戏玩家视角接口。谢谢选手MaNa,我们将继续努力。星际是个非常复杂的游戏,我很激动,因为AlphaStar背后的技术可以应用于很多场景,比如天气预报以及天气模型等…….相关论文将很快发布

期待

WCS星际争霸2全球总冠军芬兰选手Serral将于2月15日,为了人类尊严与AlphaStar决战。谁胜谁负,我们拭目以待。

所有比赛录像可以下载:https://deepmind.com/research/alphastar-resources/

关于AlphaStar的研究资料:https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

从码农以及星际爱好者视角看AlphaStar完胜人类职业玩家相关推荐

  1. DeepMind AI碾压《星际争霸2》人类职业玩家 但它还不完美

    来源 | The Verge 编译 | 网易智能 参与 | 小小 [网易智能讯 1月25日消息]谷歌旗下DeepMind开发的人工智能AIphaStar在<星际争霸2>(Starcraft ...

  2. 一周AI看点 | 谷歌AI工程师说五年内实现人机对话,能实现吗;NASA开发AI竞赛无人机要挑战人类职业玩家,无需外部定位技术

    本期一周AI看点包括行业热点.投融资.业界观点.技术前沿以及应用等方面. 01 行业 NASA开发AI竞赛无人机,欲挑战人类职业玩家 近日,NASA喷气推进实验室(Jet Propulsion Lab ...

  3. 35岁老码农:老板,你看我还有机会吗?

    35岁的老张是一名老程序员,写了10几年的代码!突然有一天,老板把老张叫到办公室说:"老张啊,这些年你为公司付出了很多,我个人对你非常认可,不过今年公司业务不太好,利润大不如前.养不起这么多 ...

  4. 分页池内存持续增长_鸿蒙内核源码分析(从进程/线程视角看内存)

    这篇文章说说内存,内存的管理是极其复杂的模块,涉及到非常多概念,光地址就有逻辑,线性,物理地址三个,网上文章很多,参差不齐,没有很好基础或实战经验的同学基本得懵掉,本篇最后也有这些概念介绍.系列篇打算 ...

  5. 优秀码农选择对象详细指南,看完记得要实战噢

    2023年了,你是否已到了法定年纪,那么这一篇优秀码农选择对象的详细指南,你一定用得到,看完记得感谢狗哥哦! 目录 一.对于婚姻先来思考这么几条 1. 太快决定结婚? 2. 一方或双方急于结婚? 3. ...

  6. 码农分为两类:看过《数学之美》的与没看过的

    引言 <数学之美>这本书从第一版到目前最新的第三版,累计销量已愈百万册.这本书对于码农们来说,其重要性怎么强调都不为过.就说不管哪个"码农必读书单"吧,<数学之美 ...

  7. Java详解:作为一个码农终于把MySQL日记看懂了

    自我管理 谨言慎行 畅销书<影响力>提到,因为影响力的巨大差异,娱乐明星比科学家收入高几万倍.技术经理管理了N个人,影响力就是N倍,如果言行不端,造成的影响是基层人员的N倍.博主有过一个上 ...

  8. mysql跳过安全_几年了,作为一个码农终于把MySQL日记看懂了!

    一.写作背景 大家都清楚,日志是 MySQL数据库的重要组成部分,记录着数据库运行期间各种状态信息.MySQL日志主要包括错误日志.查询日志.慢查询日志.二进制日志(binlog)和事务日志(redo ...

  9. 小码农也有大梦想!看我如何一步一步攻克面试官,2021最新版!

    写在前面 很多小伙伴留言说让我写一些工作过程中的真实案例,写些啥呢?想来想去,写一篇我在以前公司从零开始到用户超千万的数据库架构升级演变的过程吧. 本文记录了我之前初到一家创业公司,从零开始到用户超千 ...

最新文章

  1. IDEA使用log4j
  2. 苹果新的编程语言 Swift 语言进阶(三)--基本运算和扩展运算
  3. SQL语句在数据库中是如何执行的
  4. 微型计算机基础知识答案,计算机基础知识(答案已填)
  5. python基础题面试_python常见面试题
  6. cairo-clock设置为自动启动后总是自动变为default主题
  7. MIME类型不可小视
  8. 【机器学习课程笔记(吴恩达)】1.2 什么是机器学习?
  9. 配置centos7 IP以及网络问题的排查
  10. 各种一维卷积(Full卷积、Same卷积、Valid卷积、带深度的一维卷积)
  11. 基于JAVA+SpringMVC+Mybatis+MYSQL的汽车维修管理系统
  12. 电脑遇到问题需要重新启动_如何解决电脑风扇转一下就停开不了机的问题-系统城...
  13. 辗转相除法应用之倒C语言实现
  14. Adobe向美国反垄断部门投诉苹果封杀Flash
  15. Msql 主从原理介绍-通俗易懂
  16. 河北安新复合型水稻 国稻种芯·中国水稻节:雄安生态示范区
  17. 22春天津大学《财务会计》在线作业2
  18. 微信小程序:凑单满减计算神器
  19. i2c-tools的使用方法及举例
  20. AutoSAR系列讲解(入门篇)1.1-AutoSAR发展

热门文章

  1. 回顾CGU2016都干了些什么大事!
  2. 如何突破网站对selenium的屏蔽
  3. php monolog 使用,php – 使用Monolog记录整个数组
  4. 安全平台kb-security:Session劫持攻击【六】
  5. 自动内存管理(gc),新的思路
  6. 中国互联网络发展状况统计报告(1997-2022)
  7. 高性能图片压缩 —— libjpeg-turbo 的编译与集成
  8. 天涯岂是无归意,争奈归期未可期--郭襄
  9. 智慧电子班牌系统源码,家校互联APP源码,SaaS云平台源码
  10. 2020笔记本性价比之王_2020吃鸡主流电脑配置推荐4000价位性价比之王