Deepmind的人工智能AlphaStar,在2018年12月19日一系列的星海争霸 2(StarCraft II)测试赛中,以5比0打赢世界顶尖职业玩家,Deepmind现释出了训练人工智能的细节。Deepmind提到,游戏一直是测试和评估人工智能效能的重要方法,而即便人工智能游玩Atari、马力欧甚至是Dota 2等游戏已经有很大的进展,人工智能在操作星海争霸 2上,仍然难以克服其复杂度。暴雪娱乐公司的星海争霸 2,被认为是极具挑战的实时战略游戏之一,而且过去即便是让计算机作弊,在游戏规则上动手脚,赋予计算机特殊能力,都难以与专业玩家匹敌。

不过现在,Deepmind的人工智能AlphaStar,已经能以深度神经网络完整游玩星海争霸 2,而且还能碾压世界排名前十的职业玩家。该神经网络透过监督式学习和增强学习,直接以原始游戏数据进行训练。星海争霸 2有许多种玩法,但在电子竞技中,最常见的形式是进行5场1对1的锦标赛,玩家可以选择各有特色的虫族、神族或人类种族。AlphaStar以神族与顶尖人类玩家交手,第一次是与德国顶尖玩家Dario Wünsch(代号TLO)进行对战,AlphaStar以5比0赢得了比赛,Dario Wünsch对人工智能的强度感到惊讶,并表示AlphaStar使用了过去他没想过的策略。第二次则是与世界排名前十强的职业神族玩家Grzegorz Komincz(代号MaNa)进行对战,依然以5比0取得完胜,Grzegorz Komincz表示,AlphaStar在每场游戏都采用不同的策略,并且以非常人性化的方式进行游戏。

Deepmind提到,人工智能要赢得游戏,除了必须谨慎地平衡经济发展,也需要微观的对各单位进行细微控制,要在短期与长期目标之间取得平衡以适应意外状况。星海争霸中没有单一最佳策略,人工智能需要在训练过程,不断探索以及拓展战略知识。而且不像是围棋或是西洋棋公开所有游戏信息,在星海争霸 2的关键玩家信息是隐藏的,必须透过侦查探索发现。另一个困难则是,人工智能需要有长期规画的能力,并非所有因果关系都是实时发生的,整个游戏历程可能长达一个小时才会结束,而这意味着早期采取的行动,或许有很长的一段时间无法获得回报。在星海争霸 2中,人工智能没有太多的思考时间,不像传统棋盘游戏是轮流进行,人工智能与玩家都必须随着游戏时间推移,不断地做出动作。人工智能还需要在大型的动作空间中做出决策,需要实时细微地控制数百个不同的单位和建筑物。由于以上这些困难,星海争霸成为人工智能的大挑战,Deepmind在2016年和2017年跟暴雪娱乐公司合作,释出了PySC2工具集,其包括至今最大的匿名游戏回放(Replay)集,Deepmind利用这些基础,并搭配先进的工程技术和算法开发出AlphaStar。

AlphaStar的行为由深度神经网络生成,该神经网络接受原始游戏接口的输入数据,并输出一系列游戏内指令。AlphaStar还使用了一种先进的多代理学习算法,这个神经网络最初是由暴雪释出,能让AlphaStar模拟星海争霸天梯排位系统上的玩家对战,学习使用宏观与微观策略。AlphaStar使用这个初始代理人在95%的比赛中,击败了游戏内建的菁英级人工智能,相当于天梯中黄金等级的人类玩家。而这些被应用在多代理人增强学习的过程中,Deepmind创建了一系列连续的战队,战队互相对战,类似于人类玩家在天梯上对战的情况。这种新形式的训练方法,采用了基于人数的增强学习概念,创造不断探索玩法的巨大战略空间。

Deepmind提到,随着战队的进步,能够发展出击败早期策略的反制策略,甚至是全新战术以及微观管理计划,像是一开始人工智能喜爱使用神族的光炮或暗黑圣堂武士进行快攻,但这种充满风险的策略在训练过程被放弃,取而代之的是优先扩大基地,生产更多任务人强化经济实力,或是牺牲两个先知单位,破坏对手的工人以压制其经济发展。这个策略发展的过程,跟玩家发现新策略的方式相似。AlphaStar在手速上并没有作弊,星海争霸职业玩家平均每分钟动作(APM)可达数百个,现有机器人的APM约在数千到数万间,但是AlphaStar的平均APM约为280,明显的低于职业玩家,Deepmind表示,AlphaStar动作数更低表示每个动作都更加准确,平均观察并执行动作的延迟约在350毫秒。信息来源:www.cafes.org.tw/info.asp

Deepmind顺练了人工智能14天成为星海2最强玩家相关推荐

  1. DeepMind难以盈利,人工智能该走向何处去?

    2019-08-30 16:05:23 来源 | <连线>杂志 作者 | GARY MARCUS 编译 | 科技行者 谷歌母公司Alphabet旗下的DeepMind过去一年损失总额达5. ...

  2. 单卡30秒预测未来10天全球天气,大模型“风乌”效果超DeepMind,来自上海人工智能实验室...

    允中 发自 凹非寺 量子位 | 公众号 QbitAI 预测未来10天全球天气,仅需30秒. 这一成果来自全球中期天气预报大模型"风乌",这也是全球气象有效预报时间首次突破10天,并 ...

  3. 简单且有创意的python作品_适合练手的 14 个Python 小项目,趣味十足!

    掌握一门技术,迅速提升能力,最好方法是通过实践项目,最好是完整且有趣的.分享一本,我认为非常不错的书籍,<Python Playground>,这本书每个章节就是一个完整的小项目. ​​​ ...

  4. 2014年江西事业单位招聘考试(综合基础知识+计算机基础知识),2014江西事业单位考试 综合基础知识每日一练(3.14)...

    1.大学生孙某隔壁寝室的同学韩某.姜某到孙某寝室强烈要求孙某打开电视观看足球比赛,孙某只好照办.由于质量问题,电视机突然爆炸,孙某.韩某和姜某三人均受重伤.关于三人遭受的损害,下列说法正确的是( ). ...

  5. 适合练手的 14 个Python 小项目,趣味十足!

    掌握一门技术,迅速提升能力,最好方法是通过实践项目,最好是完整且有趣的.分享一本,我认为非常不错的书籍,<Python Playground>,这本书每个章节就是一个完整的小项目. 第一章 ...

  6. 人工智能的学习能历史之变强,但对未来又会发生什么事?

    对多数人来说,人工智能(AI)这个词会让人立刻联想到末日般的画面.毕竟在电影中,我们早看过当人类发展超出掌控时的不变下场.只要有人打造出能真正思考的机器──有感知能力的「觉醒」机种──那么人类就玩完了 ...

  7. TensorFlow人工智能引擎入门教程之十 最强网络 RSNN深度残差网络 平均准确率96-99%

    摘要: 这一章节我们讲一下 RSNN深度残差网络 ,他准确率非常好,比CNN还要高.而且非常新 出现在2015 residual network http://blog.csdn.net/sunbai ...

  8. 揭秘星际2人工智能AlphaStar:DeepMind科学家回应一切

    来源:机器之心 25 日凌晨,人工智能 AlphaStar 与职业玩家 MaNa 进行了一场史无前例的「人机大战」:虽然之前在内部比赛中 AI 十战十胜,但现场比赛中,MaNa 机智地戏耍了对手,为人 ...

  9. 2019年中国人工智能产业研究报告

    人工智能丨研究报告 来源丨艾瑞咨询 核心摘要: "商业落地"已成为人工智能发展到当前阶段鲜明的主题词,过去人工智能技术驱动阶段重在AI算法模型比拼,如今更要依赖商业场景洞察.专家团 ...

最新文章

  1. BS-XX-026 基于SpringBoot 实现个人理财系统
  2. gtid mysql failover_Keepalived + MySQLfailover + GTIDs 高可用
  3. 【datawhale 】打卡 task 01--深度学习
  4. C++ Primer 5th笔记(chap 16 模板和泛型编程)类型无关和模板编译
  5. CSS的display:table-cell:多行文字的垂直居中水平居中
  6. 利用FindWindow和SendMessage进程通信
  7. axios中POST请求变成OPTIONS处理
  8. 像postman上传文件_90%的测试工程师是这样使用Postman做接口测试的……
  9. 使用引用的方式交换数据的数值
  10. Pair智能标注神器,全面升级,更加智能
  11. java web 统计_Java web网站访问量的统计
  12. 使用多个tomcat如何修改端口号
  13. linux恢复硬盘工具,linux硬盘数据恢复工具
  14. ofo 列入被执行人;摩拜 LV 跨界合作;iPhone X 遭黑客攻击 | 极客头条
  15. C#并发编程实例讲解-概述(01)
  16. 串口硬盘如何应用于并口硬盘计算机,并口硬盘和串口硬盘如何一起用
  17. java网上购物系统_Java Web 应用教程——网上购物系统的实现
  18. fw150us的linux驱动下载,迅捷FW150US1.0/2.0无线网卡驱动
  19. 砥砺前行 智领未来 | 美格智能2022年半年度经营管理会议顺利召开
  20. ios-webkit-debug-proxy 说明

热门文章

  1. python分布式日志收集系统_Go实现海量日志收集系统(一)
  2. ViewPager+Fragment懒加载
  3. androidannotations
  4. Android多媒体开发:照相机
  5. 黑马28期Android全套视频无加密完整版
  6. mysql 左连接 例子_mysql左连接自连接例子
  7. 怎么实现事务_你可能知道事务的四大特性,但是不一定知道“事务的实现原理”...
  8. 温度自动调节 c语言编写,室内温度自动调节控制系统课程设计(26页)-原创力文档...
  9. php逗号为什么比点号快,[PHP]
  10. as安装过程中gradle_重新认识AndroidStudio和Gradle,这些都是我们应该知道的