Deepmind的人工智能AlphaStar,在2018年12月19日一系列的星海争霸 2(StarCraft II)测试赛中,以5比0打赢世界顶尖职业玩家,Deepmind现释出了训练人工智能的细节。Deepmind提到,游戏一直是测试和评估人工智能效能的重要方法,而即便人工智能游玩Atari、马力欧甚至是Dota 2等游戏已经有很大的进展,人工智能在操作星海争霸 2上,仍然难以克服其复杂度。暴雪娱乐公司的星海争霸 2,被认为是极具挑战的实时战略游戏之一,而且过去即便是让计算机作弊,在游戏规则上动手脚,赋予计算机特殊能力,都难以与专业玩家匹敌。

不过现在,Deepmind的人工智能AlphaStar,已经能以深度神经网络完整游玩星海争霸 2,而且还能碾压世界排名前十的职业玩家。该神经网络透过监督式学习和增强学习,直接以原始游戏数据进行训练。星海争霸 2有许多种玩法,但在电子竞技中,最常见的形式是进行5场1对1的锦标赛,玩家可以选择各有特色的虫族、神族或人类种族。AlphaStar以神族与顶尖人类玩家交手,第一次是与德国顶尖玩家Dario Wünsch(代号TLO)进行对战,AlphaStar以5比0赢得了比赛,Dario Wünsch对人工智能的强度感到惊讶,并表示AlphaStar使用了过去他没想过的策略。第二次则是与世界排名前十强的职业神族玩家Grzegorz Komincz(代号MaNa)进行对战,依然以5比0取得完胜,Grzegorz Komincz表示,AlphaStar在每场游戏都采用不同的策略,并且以非常人性化的方式进行游戏。

Deepmind提到,人工智能要赢得游戏,除了必须谨慎地平衡经济发展,也需要微观的对各单位进行细微控制,要在短期与长期目标之间取得平衡以适应意外状况。星海争霸中没有单一最佳策略,人工智能需要在训练过程,不断探索以及拓展战略知识。而且不像是围棋或是西洋棋公开所有游戏信息,在星海争霸 2的关键玩家信息是隐藏的,必须透过侦查探索发现。另一个困难则是,人工智能需要有长期规画的能力,并非所有因果关系都是实时发生的,整个游戏历程可能长达一个小时才会结束,而这意味着早期采取的行动,或许有很长的一段时间无法获得回报。在星海争霸 2中,人工智能没有太多的思考时间,不像传统棋盘游戏是轮流进行,人工智能与玩家都必须随着游戏时间推移,不断地做出动作。人工智能还需要在大型的动作空间中做出决策,需要实时细微地控制数百个不同的单位和建筑物。由于以上这些困难,星海争霸成为人工智能的大挑战,Deepmind在2016年和2017年跟暴雪娱乐公司合作,释出了PySC2工具集,其包括至今最大的匿名游戏回放(Replay)集,Deepmind利用这些基础,并搭配先进的工程技术和算法开发出AlphaStar。

AlphaStar的行为由深度神经网络生成,该神经网络接受原始游戏接口的输入数据,并输出一系列游戏内指令。AlphaStar还使用了一种先进的多代理学习算法,这个神经网络最初是由暴雪释出,能让AlphaStar模拟星海争霸天梯排位系统上的玩家对战,学习使用宏观与微观策略。AlphaStar使用这个初始代理人在95%的比赛中,击败了游戏内建的菁英级人工智能,相当于天梯中黄金等级的人类玩家。而这些被应用在多代理人增强学习的过程中,Deepmind创建了一系列连续的战队,战队互相对战,类似于人类玩家在天梯上对战的情况。这种新形式的训练方法,采用了基于人数的增强学习概念,创造不断探索玩法的巨大战略空间。

Deepmind提到,随着战队的进步,能够发展出击败早期策略的反制策略,甚至是全新战术以及微观管理计划,像是一开始人工智能喜爱使用神族的光炮或暗黑圣堂武士进行快攻,但这种充满风险的策略在训练过程被放弃,取而代之的是优先扩大基地,生产更多任务人强化经济实力,或是牺牲两个先知单位,破坏对手的工人以压制其经济发展。这个策略发展的过程,跟玩家发现新策略的方式相似。AlphaStar在手速上并没有作弊,星海争霸职业玩家平均每分钟动作(APM)可达数百个,现有机器人的APM约在数千到数万间,但是AlphaStar的平均APM约为280,明显的低于职业玩家,Deepmind表示,AlphaStar动作数更低表示每个动作都更加准确,平均观察并执行动作的延迟约在350毫秒。信息来源:www.cafes.org.tw/info.asp

Deepmind顺练了人工智能14天成为星海2最强玩家相关推荐

  1. DeepMind难以盈利,人工智能该走向何处去?

    2019-08-30 16:05:23 来源 | <连线>杂志 作者 | GARY MARCUS 编译 | 科技行者 谷歌母公司Alphabet旗下的DeepMind过去一年损失总额达5. ...

  2. 单卡30秒预测未来10天全球天气,大模型“风乌”效果超DeepMind,来自上海人工智能实验室...

    允中 发自 凹非寺 量子位 | 公众号 QbitAI 预测未来10天全球天气,仅需30秒. 这一成果来自全球中期天气预报大模型"风乌",这也是全球气象有效预报时间首次突破10天,并 ...

  3. 简单且有创意的python作品_适合练手的 14 个Python 小项目,趣味十足!

    掌握一门技术,迅速提升能力,最好方法是通过实践项目,最好是完整且有趣的.分享一本,我认为非常不错的书籍,<Python Playground>,这本书每个章节就是一个完整的小项目. ​​​ ...

  4. 2014年江西事业单位招聘考试(综合基础知识+计算机基础知识),2014江西事业单位考试 综合基础知识每日一练(3.14)...

    1.大学生孙某隔壁寝室的同学韩某.姜某到孙某寝室强烈要求孙某打开电视观看足球比赛,孙某只好照办.由于质量问题,电视机突然爆炸,孙某.韩某和姜某三人均受重伤.关于三人遭受的损害,下列说法正确的是( ). ...

  5. 适合练手的 14 个Python 小项目,趣味十足!

    掌握一门技术,迅速提升能力,最好方法是通过实践项目,最好是完整且有趣的.分享一本,我认为非常不错的书籍,<Python Playground>,这本书每个章节就是一个完整的小项目. 第一章 ...

  6. 人工智能的学习能历史之变强,但对未来又会发生什么事?

    对多数人来说,人工智能(AI)这个词会让人立刻联想到末日般的画面.毕竟在电影中,我们早看过当人类发展超出掌控时的不变下场.只要有人打造出能真正思考的机器──有感知能力的「觉醒」机种──那么人类就玩完了 ...

  7. TensorFlow人工智能引擎入门教程之十 最强网络 RSNN深度残差网络 平均准确率96-99%

    摘要: 这一章节我们讲一下 RSNN深度残差网络 ,他准确率非常好,比CNN还要高.而且非常新 出现在2015 residual network http://blog.csdn.net/sunbai ...

  8. 揭秘星际2人工智能AlphaStar:DeepMind科学家回应一切

    来源:机器之心 25 日凌晨,人工智能 AlphaStar 与职业玩家 MaNa 进行了一场史无前例的「人机大战」:虽然之前在内部比赛中 AI 十战十胜,但现场比赛中,MaNa 机智地戏耍了对手,为人 ...

  9. 2019年中国人工智能产业研究报告

    人工智能丨研究报告 来源丨艾瑞咨询 核心摘要: "商业落地"已成为人工智能发展到当前阶段鲜明的主题词,过去人工智能技术驱动阶段重在AI算法模型比拼,如今更要依赖商业场景洞察.专家团 ...

最新文章

  1. KVC/KVO 使用细节和调用顺序
  2. 今年618我要Pick有很吓人技术GPU TURBO的手机,你呢?
  3. Qt消息机制与window程序消息的对比分析
  4. windows mysql memcached_Memcached在Windows下的安装
  5. java学习(55):定义一个抽象类的继承
  6. 小程序 长按api_微信小程序API相关知识科普
  7. mysql 5.7日志配置_mysql-5.7日志设置
  8. [转]关于Win32 Console的计时器
  9. Exchange 2010安装必要条件
  10. VB中.frm .frx .vbp .vbw .scc有什么作用
  11. python获取上周一的日期
  12. cv2批量修改图片大小
  13. 用7z命令压缩文件夹
  14. WEB APP、HYBRID APP与NATIVE APP 差异分析
  15. 这可能是你们都在找的:React 纯原生纯hook多标签微前端
  16. 队列等待之enq: TX - row lock contention
  17. 换一种思维方式之罗浩的《降级论》
  18. 在一个人陷入困境时,最需要的是别人的关心与帮助
  19. C 懒虫小鑫 SDUT
  20. k8s之pod资源管理

热门文章

  1. 034_jdbc-mysql-C3P0
  2. php图片等比例压缩,php实现图片上传并等比例压缩
  3. python英文文献_python英文文献
  4. activexobject对象不能创建_【设计模式】建造者模式:你创建对象的方式有它丝滑吗?...
  5. java随机生成10个不重复的数字,随机生成10个不重复的0-100的数字(实例讲解)
  6. application.properties/yml文件读取
  7. javascript常用的事件
  8. android 4.4从图库选择图片,安卓6.0,从系统图库选择照片,裁剪,并显示的问题。...
  9. dev里timeedit控件如何赋值_抽奖程序里的字节跳动模式和时长控制,让抽奖更有仪式感!...
  10. Docker的镜像使用