10:1 !

与OpenAI挑战Dota2被人类对手血虐不同,谷歌DeepMind AI成功击败并完胜碾压《星际争霸II》顶级职业选手。

一场里程碑式的完胜碾压!

在昨晚刚刚结束的这场全球瞩目的人机大战中,DeepMind 推出的AI AlphaStar在两个独立的五场系列赛中成功获得了10场胜利,对手是来自Team Liquid俱乐部的人类职业选手TLO和MaNa。

昨晚放出的对战总共11场,其中10场是DeepMind在12月19日举行的一系列测试赛的比赛录像。第11场对战则是现场进行,这也是人类玩家MaNa击败AlphaStar的唯一一场比赛。所有的对战都是1V1的个人赛,而非团队赛。

比赛开打前,TLO自信满满地表示,他肯定能击败AlphaStar。结果是,他输掉了全部五场比赛。

TLO是现役职业选手德国人Dario Wünsch,在2018年WSC Circuit中排名44,在玩家中人气颇高。

另一位对战选手MaNa有“波兰王牌”之称,是一位25岁的职业玩家。MaNa惯用神族,在刚刚结束的IEM科隆站比赛中,MaNa在小组赛中以2:1战胜了韩国选手Jaedong。

在与TLO的对战中,AlphaStar占有一定的优势。首先,比赛使用的是神族,而TLO擅长的是人族。其次,AlphaStar的视野比人类玩家TLO更广,既能看清敌方的动作同时也能掌控自家的情况,实现全局资源调度。AlphaStar每场都采用了独特的策略。

而MaNa作为玩神族的顶尖职业玩家,在输掉5场比赛后,终于抓住了AlphaStar的弱点,艰难赢得一局,为人类选手挽回了一丝颜面。值得一提的是,在最后的现场比赛中,DeepMind限制了AlphaStar的游戏视角,并在没有测试的前提下与MaNa进行比赛。

不难看出,AlphaStar神经网络已经趋于长期优化,但似乎仍然会在一定程度上陷入局部最优,被人类发现固定模式,落入圈套。从 5 个小叮当抱团,到纯追猎部队,都显示出AlphaStar对游戏兵种的理解尚不到位。

《星际争霸2》由暴雪娱乐公司2010年7月27日出品,故事背景设定在一个虚构的科幻世界中,具有丰富的多层次游戏玩法。因为高度复杂性和策略性,这款游戏是人类玩家规模最大最成功的即时策略游戏之一。

AlphaStar是如何训练的

在接受采访时,DeepMind 科学家 Oriol Vinyals和David Silver 表示,AlphaStar首先是模仿学习,团队从许多选手那里获得了很多比赛回放资料,并试图让 AI 通过观察一个人所处的环境,尽可能地模仿某个特定的动作,从而理解星际争霸的基本知识。

这其中所使用到的训练资料不但包括专业选手,也包括业余选手。这是 AlphaStar 成型的第一步。

之后,团队会使用一个称为“Alpha League”的方法。这些 agent 通过强化学习过程与“Alpha League”中的其他竞争对手进行比赛,以尽可能有效地击败所有这些不同的策略。

所谓的Alpha League,是指一个连续的联盟,新的竞争者通过从现有竞争者中进行分支,动态地添加到联盟中。然后每个代理从与其他竞争对手的游戏对战中学习。这种新的训练形式将基于人群的强化学习理念进一步发扬光大,创造了一个不断探索《星际争霸》游戏玩法巨大战略空间的过程,同时确保每个竞争对手都能在最强的战略面前表现出色,并且不会忘记如何击败较早的战略。

随着联赛的发展和新的竞争对手的产生,新的对抗策略出现了,能够击败以前的策略。当一些新的竞争者执行一个仅仅是对以前的策略的改进策略时,另一些人发现了包含全新构建订单、单元组合和微观管理计划的全新策略。

为了鼓励联盟的多样性,每个代理都有自己的学习目标:例如,这个代理的目标应该是打败哪些竞争对手,以及影响代理如何发挥的任何其他内部动机。一个代理可能有打败某个特定竞争对手的目标,而另一个代理可能必须打败整个竞争对手分布,但这是通过构建更多特定的游戏单元来实现的。这些学习目标在培训过程中得到了调整。

为了训练AlphaStar,DeepMind使用谷歌的v3版本的TPU构建了一个高度可伸缩的分布式训练设置,它支持大量代理从数以千计的星际争霸2并行实例中学习。AlphaStar联赛运行了14天,每个代理使用16个TPU。

在训练期间,每个代理都经历了长达200年的星际争霸实时游戏。最终的AlphaStar代理由联盟的Nash分布组成——换句话说,已经发现的最有效的策略组合——运行在单个桌面GPU上。

《星际争霸II》的挑战

无疑,《星际争霸II》是难度系数最高的即时策略游戏之一。

“《星际争霸》游戏是人工智能社区的最高挑战。”DeepMind团队负责人Oriol Vinyals说,《星际争霸》的环境可测试诸多问题,比如规划计算、处理不确定性因素以及空间推理能力等。

在《星际争霸II》游戏中,击败对手是最终目标,但在游戏游戏还需要执行和平衡更多子目标,比如采集矿产资源,建造房屋等。

此外,由于战争迷雾的存在,人工智能玩家无法看到距离己方单位超过一定范围或被障碍物遮挡的场景信息。也就是说,《星际争霸II》是部分可观测,属于不完全信息博弈,反观围棋,整个棋盘是博弈双方都可见的,全部都可观测。

在实际操作中,星际争霸的鼠标可在屏幕任意位置点击、框选,并对框选单位执行复杂操作,而围棋只能在棋盘上没有棋子的线与线交叉的点上放棋子。

一般来说,《星际争霸II》玩家在同一时间可能有300多种行动选择,这对AI来说是巨大的挑战。在《星际争霸II》中玩家只有主视角以及小地图上的有限信息,获取全部的信息要点击小地图或编屏、切屏。即使一个小84X84的屏幕也会产生大约1亿种可能的行动选择。

由于游戏时长可能会长达一小时,导致因果关系不是即时的,这意味着游戏早前的行动可能在很长一段时间内没有反馈。这无疑大大增加了《星际争霸II》的复杂程度。

昨晚这场里程碑式的胜利表明,继AlphaGo之后,DeepMind的AlphaStar已经取得了飞速进展。

与《星际争霸II》这样复杂的游戏对战并取得胜利只是AI能力的一方面,DeepMind认为AlphaStar背后的技术可以用来解决很多其它问题。比如它的神经网络架构能够对很长时间的可能行为进行建模,在很长的数据序列上预测复杂问题,比如天气预报,气候建模、语言理解等。

10:1 !DeepMind 完虐人类顶级选手,AlphaStar攻克星际争霸II相关推荐

  1. 《星际争霸II》AI机器人挑战顶级职业选手,你Pick谁?

    2020年6月21日下午2点,启元"星际指挥官"AI将迎战人类顶级职业选手,这将是全国首次现场直播星际AI与人类顶级职业选手的对战.其智能体训练云部署在滴滴云,利用滴滴云的底层计算 ...

  2. DeepMind刚向星际争霸 II 的玩家们下了战书!你的对手可能是只AI,而你毫不知情...

    大数据文摘出品 欧洲的星际争霸玩家们即日将有机会和Deepmind AI打场比赛了! 出战的AI是由DeepMind和暴雪联合培养的,经过了"特别的训练方式",在星际争霸界 II ...

  3. AI赛车手登上Nature封面,人工智能选手如何狂虐人类顶级玩家?

    高能力的AI在各种游戏中打败人类, 这些消息近年来频频出现. 不管是早年的国际象棋.问答比赛, 还是近年的围棋.星际争霸.刀塔2. 从国际象棋到围棋再到扑克, AI 智能体在许多游戏中都胜过人类. 在 ...

  4. 樱木花道为原型,丰田做了个投篮机器人!完虐人类选手,还创下了吉尼斯世界纪录...

    来源:大数据文摘 本文约1800字,建议阅读5分钟本文介绍了日本丰田公司的研究人员就以樱木花道为原型,设计出了日本职业篮球联赛历史上的第一位机器人球员的事情. "教练,我想打篮球." ...

  5. DeepMind:星际争霸2:强化学习新挑战(论文翻译)

    星际争霸2:强化学习新挑战 原文下载链接:https://deepmind.com/documents/110/sc2le.pdf 整个论文分为: 摘要(Abstract) 1.介绍(Introduc ...

  6. DeepMind:星际争霸2:强化学习新挑战(翻译)

    DeepMind:StarCraftII:A New Challenge for Reinforcement Learning 星际争霸2:强化学习新挑战 原文下载链接:https://deepmin ...

  7. Google DeepMind顾问预言:五年后AI将在《星际争霸》中战胜人类

    在纽芬兰和拉布拉多,正在用人工智能进行<星际争霸>比赛. <星际争霸>的幽灵机器人.(来自:维基共享资源) 接下来的两个星期里,在纪念大学(Memorial Universit ...

  8. AlphaStar星际争霸10:1绝杀人类;苹果自动驾驶大裁员 | AI一周热闻

    华为发布5G芯片天罡和巴龙5000 创新奇智完成超4亿人民币A轮和A+轮融资 苹果裁撤自动驾驶项目员工 200 余人 特斯拉揭秘"克隆行为"技术细节 亚马逊推出机器人Scout,进 ...

  9. DeepMind科学家:AI对战《星际争霸》胜算几何?

    记者 | 周翔 AI科技大本营1月29日消息,在<麻省理工科技评论>与深科技举办的新兴科技峰会上,谷歌DeepMind科学家Oriol Vinyals在会上发表了主题为<AI对战星际 ...

最新文章

  1. RASPBERRY 端口(GPIO)基本测试
  2. 高数第六章知识点框架
  3. Acwing第 36 场周赛【完结】
  4. OpenCV‘s Kalman filter卡尔曼滤波器的实例(附完整代码)
  5. CuteEditor—Html在线编辑器的领航者,超强的asp.net编辑器控件
  6. 面试准备勿重“难”轻“易”
  7. 6-4 链表拼接 (20分)_数据结构之链表
  8. HDU 2063 过山车
  9. tp3.2 隐藏index.php,thinkphp3.2.3隐藏index.php入口文件
  10. qt结合arcgis for qt开发(鼠标点击地图获取坐标,坐标转换)
  11. 黑群晖 DSM 6.2 3617 成功安装教程
  12. 开发者需要什么样的技术社区?
  13. ios 苹果支付(IAP)
  14. 算法提高 盾神与条状项链(静态链表)
  15. [刷题]剑指offer C++语言刷题-多解法尝试
  16. 正确设定idea的java的jre环境和jdk
  17. tplink android管理软件,tplink手机app下载
  18. 算法工程师面试之朴素贝叶斯
  19. 从面试到入职到离职,我在B站工作的30天时光!!!
  20. 无线充电:促进电动汽车普及的重要技术

热门文章

  1. 【博弈论】【第三讲】例题:沙滩博弈
  2. mootools_MooTools或jQuery的性感专辑封面
  3. 超声slam相关资料
  4. webpack是用来做什么的?它的2个作用
  5. Vite+ts全局引入scss与实际使用
  6. python制作mac小软件_python生成mac os app记录-py2app
  7. react-mde版本5.8.0 - 7.4.1踩坑
  8. mathtype导致word闪退问题
  9. deepin系统使用ifconfig -a 输出参数详细介绍
  10. php获取周几,php获取是星期几的几种姿势