作者:问耕
来源:量子位(QbitAI)

Team OG,Dota2世界冠军战队。

在人工智能OpenAI Five面前,OG不堪一击。五个人类组成的战队,此前全程毫无悬念地以0:2败下阵来,两局加在一起,OG只推掉了两座外塔。

不过,这还不是AI的巅峰。

现在OpenAI又训练出了一个全新的AI,名叫Rerun。面对碾压OG的OpenAI Five,Rerun的胜率达到了……呃……98%。

听到这个消息,一位推特网友发图明志。

主要依靠自学,就能在Dota2这么复杂的游戏中称雄,人工智能是怎么做到的?今天,有关于此的答案揭晓。

没错,OpenAI不单发布了Rerun,还把自己三年多来对于Dota2项目的研究,通过一篇论文,正式公布出来。

在这篇论文中,OpenAI解释了整套系统的原理、架构、计算量、参数等等诸多方面的内容。OpenAI指出通过增加batch size和总训练时间等方法,扩展了计算规模,进而表明当今的强化学习技术可以在复杂的电子竞技游戏中,达到超越人类的水平。

这些研究,可以进一步应用于各种两个对手持续的零和博弈中。

(可能是阅读之后)OG战队发推:“Wow!这篇论文看起来太棒了!”

此情此景,有网友无深情的感叹道:Wow!OG战队夸了一篇论文好看?真是活久见……

这篇论文到底说了什么?

我们总结了几个要点。

1

Dota2比下围棋更复杂

与棋类对弈相比,电子竞技游戏要更复杂。

攻克这一难题的关键是,把现有的强化学习系统规模,扩展到前所未有的水平,这耗费了数千块GPU和好几个月的时间。OpenAI为此构建了一个分布式的训练系统。

训练中的一个挑战是,环境和代码会不断变化。为了在每次更改后无需从头开始,OpenAI开发了一套工具,可以在不损失性能的情况下恢复训练,这套工具称为:surgery。

每局Dota2比赛时长大约45分钟,每秒钟会生成30帧的游戏画面。OpenAI Five每4帧做出一个动作。国际象棋一局下约80步,围棋下一局约150步,作为对比,Dota2打一局,AI需要“下”大概20000步。

而且由于战争迷雾的存在,Dota2中对战的双方,只能看到全盘游戏中的局部情况,其他部分的信息都是隐藏状态。

与下围棋的AlphaGo相比,打Dota2的AI系统,batch size要大50-150倍,模型大20倍,训练时间长25倍。

2

AI如何学会打Dota2

人类玩Dota2通过键盘鼠标等,实时作出决定。刚才提到,OpenAI Five每4帧做出一个动作,这被称为一个timestep。每个timestep期间,OpenAI会接收血量、位置等数据。

同样的信息,人类和OpenAI Five接收的方式完全不同。

人工智能系统发出动作指令时,大概可以想成这个样子。

AI背后是一套神经网络。policy (π) 被定义为从观察数据到动作概率分布的函数,这是一个有1.59亿个参数的RNN神经网络。这个网络主要由一个单层、4096-unit的LSTM构成。

结构如下图所示:

LSTM贡献了这个模型中84%的参数。

选手们的训练,使用的是扩展版的近端策略优化(PPO)方法,这也是OpenAI现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。

在训练策略的过程中,OpenAI Five没有用到人类游戏数据,而是通过自我博弈。在围棋、象棋等问题上,也应用了类似的方式训练。

其中,80%的战斗中对手是使用了最新参数的分身,而20%的对手是老参数的分身。每经过10次迭代之后,新训练出的分身就被标为老前辈。如果当前正训练的AI击败了新秀或者老前辈,系统就会根据学习率更新参数。

按照OpenAI CTO此前的说法,击败OG前OpenAI Five已经练习了相当于45000年Dota。AI每天的训练量相当于人类打180年游戏。

3

计算量和超参数

训练这么复杂的AI系统,肯定要耗费大量的资源。

OpenAI预估了用于优化的GPU消耗量,最后的结论,OpenAI Five的GPU计算用量在770±50~820±50 PFlops/s·days左右,而今天新提到的、更强的Rerun,在随后两个月的训练中,GPU计算量消耗大概是150 ± 5 PFlops/s·days。

再说一下,OpenAI公布的只是用于优化的计算量,只是训练中所有开销的一小部分,大约占30%。

此前,OpenAI也曾透露过OpenAI Five的日常训练,需要256块P100 GPU和12.8万个CPU核心。

至于整个神经网络的超参数,在论文中,OpenAI表示在训练Rerun的时候,已经根据经验进一步简化了超参数。最后,他们只更改了四个关键的超参数:

• Learning Rate
• Entropy penalty coefficient
• Team Spirit
• GAE time horizon

当然,OpenAI也表示这些超参数还有进一步的优化空间。

4

并不全是自学

最后,还有一点需要强调。

OpenAI在论文中明确指出,AI系统在学习Dota2的过程中,并非完全依靠强化学习自学,启示也使用了一些人类的知识。这跟后来的AlphaGo Zero有所区别。

有一些游戏机制是脚本编写好的程序。比方,英雄购买装备和学习技能的顺序,信使的控制等等。OpenAI在论文中表示,使用这些脚本有一些历史原因,也有成本和时间方面的考虑。不过论文也指出,这些最终也可以通过自学完成。

论文全文

在这篇名为Dota 2 with Large Scale Deep Reinforcement Learning的论文中,OpenAI公布了更多的详细信息,如果你感兴趣,下面是传送门:

https://cdn.openai.com/dota-2.pdf

对战回顾

最后,我们回顾一下OpenAI Five连下两局击败OG的比赛全程吧。

第一局

AI(天辉):火枪、飞机、冰女、死亡先知、斯温

人类(夜魇):小牛、巫医、毒龙、隐刺、影魔

选完阵容,OpenAI Five认为自己有67.6%的胜率。

刚刚开局,OpenAI Five拿下一血,而人类军团也很快杀掉了AI方的冰女。之后,双方前期在人头数上一直不相上下。AI一直在经济上保持总体领先,但最富有的英雄,却一直是人类的大哥影魔。

这也能看出双方策略上的明显区别:OG是3核心+2辅助的传统人类打法,而AI的5个英雄经济分配相对平均,比较“大锅饭”。

经过几番激烈的推进和团战,游戏进行到19分钟左右,AI对自身胜率的预测已经超过了90%。自信心爆棚的AI一鼓作气攻上了人类的高地。

OG紧接着选择了分路推进,几位解说推测,这是为了尽可能分散AI,防止它们抱团推进,然而并没有奏效太长时间。

然而,坚持到38分钟,人类方的小牛刚刚买活,AI的最后一波总攻已经推掉了人类的基地。

OpenAI Five赢下第一局。现场,也是一片掌声。

这场比赛中,AI展现了清奇的思路:出门装就选择两个大药,后续的装备也更倾向于买补给品,而不是提高自身属性。

另外,我们前边提到的“大锅饭”政策,以及在比赛前期就频繁买活,都和人类职业选手的习惯大不相同。

第二局

AI(天辉):冰女、飞机、斯温、巫医、毒龙

人类(夜魇):火枪、小牛、死亡先知、小鱼人、莱恩

选完英雄,AI对自身胜率的预测是60.8%,略低于上一局的阵容。

比赛前两分钟,双方都在一片祥和中各自带线,然而没想到,人类中单Topson很快就送出了一血。

之后,人类代表们以惊人的速度溃败。

5分钟时,AI的信心就已经大幅上升,预测自己有80%的胜率;7分钟,AI推掉了上路一塔;10分钟,AI就已经领先人类4000金币,多推了两座塔,还为自己预估了95%的胜率。

11分钟,AI已经攻上了OG的高地。

仅仅21分钟,OG的基地被推掉,OpenAI Five轻松拿下第二局。直到比赛结束,OG拿下人头还是个位数,被AI打成了46:6。

虽然这一局赢得异常轻松,不过对局过程中还是能看出AI在细节上有一些不足。

比如说面对在复杂树林中绕来绕去的人类,AI就无能为力。今天的比赛中,Ceb就靠绕树林救了自己一命。

RECOMMEND

             

  AI社群  

AI感兴趣的小伙伴,

网易智能12个不同垂直领域社群等你加入
添加智能菌微信:kaiwu_club

和我们一起探讨AI的故事~

Dota2冠军OG如何被AI碾压?OpenAI累积三年的完整论文终于放出相关推荐

  1. Dota2世界冠军OG被AI碾压,全程人类只推掉两座外塔 | 广东省智能创新协会

    人工智能OpenAI在当地时间4月13日于美国旧金山迎战去年Ti8冠军OG战队,这是OpenAI在去年8月战胜<Dota2>半职业战队,再次尝试挑战职业团队,是AI与人类冠军的终极决战. ...

  2. 明日决战!TI8冠军OG与OpenAI人机大战现场探营

    问耕 发自 凹非寺 量子位 出品 | 公众号 QbitAI 明天(周日凌晨)2:30,也就是今天半夜,又有一场人机大战重头戏即将上演. 旧金山湾区,将迎来Dota 2巅峰人机大战. OpenAI称其为 ...

  3. 2:0!Dota2世界冠军OG被OpenAI碾压,全程人类只推掉两座外塔

    夏乙 晓查 假装发自 旧金山 量子位 出品 | 公众号 QbitAI 2:0! AI向Dota界卷土重来,一下子把Dota 2世界冠军打得落花流水,在刚刚结束的三局两胜比赛中轻松获胜. 两局比赛加在一 ...

  4. OpenAI 宣布将对战 DOTA2 世界冠军 OG,最终决战!

    雷锋网(公众号:雷锋网) AI 科技评论按,OPenAI 26 日宣布,在美国时间 4 月 13 日上午 11:30(北京时间 3 月 14 日凌晨 2:30),OPenAI 将挑战第八届 DoTa2 ...

  5. OpenAI 宣布将对战 DOTA2 世界冠军 OG,最终决战! 1

    雷锋网(公众号:雷锋网) AI 科技评论按,OPenAI 26 日宣布,在美国时间 4 月 13 日上午 11:30(北京时间 3 月 14 日凌晨 2:30),OPenAI 将挑战第八届 DoTa2 ...

  6. DeepMind《星际争霸2》AI碾压人类遭Gary Marcus猛怼:通用智能就是空谈

    来源:新智元 本文3635字,建议阅读10分钟. 本文介绍了Marcus对AI碾压人类以及未来通用智能研究意义的质疑. 针对DeepMind前几日发布的<星际争霸2>智能体AlphaSta ...

  7. AI说人“画” | Heart Broken, 游戏中被AI碾压的我们都中了哪些套路?

    hello大家好我是vicky,今天呢咱们来说说AI玩游戏的事儿(准确来说,是游戏中的人类是如何被AI碾压的)-- 不久前alphago赢了围棋,openai又赢了dota,太拽了简直!虽然我本人除了 ...

  8. 微软全球AI总监:Azure AI是OpenAI技术商业化变现唯一、排他性合作方

    作者 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 导读:7 月 24 日下午,微软在北京举行了媒体交流会.会上,微软全球副总裁,人工智能平台负责人 Eric Boyd 介绍了 Az ...

  9. 微软:Azure AI是OpenAI技术商业化变现唯一、排他性合作方

    作者 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 导读:7 月 24 日下午,微软在北京举行了媒体交流会.会上,微软全球副总裁,人工智能平台负责人 Eric Boyd 介绍了 Az ...

最新文章

  1. 解决flask中文乱码的问题
  2. H5实例教学--微信内嵌视频1(案例浅析)
  3. python自动抓取指定信息_使用python自动转发抓取的网页信息
  4. vs 2012 控制台自动关闭
  5. Centos 能ping通域名和公网ip但是网站不能够打开,服务器拒绝了请求。打开80端口解决。...
  6. 物理竞赛得奖学计算机,物理竞赛林紫琪带你探索清华学堂计算机科学实验班”(姚班)...
  7. deno mysql_从 Node 到 Deno
  8. 10_官方例子程序01
  9. 麒麟V10系统密码策略修改
  10. unity 摄像头跟着鼠标移动_lwj_unity_模拟第一人称摄像机前后左右移动、摄像机随鼠标移动旋转、鼠标点击添加物体...
  11. 一种新的UI测试方法:视觉感知测试
  12. Kubeadm创建集群
  13. Eclipse新建Android项目报错解决方案详细汇总
  14. 删除导航窗格多余的图标,如Onedrive、3D对象
  15. Python将小写字母转化为大写字母
  16. jpeglib使用指南
  17. 西北乱跑娃 -- html header优化信息
  18. 如何黑别人的电脑??
  19. 8.20PHP所学知识总结
  20. C语言顺序栈实现代码

热门文章

  1. java版冒险岛_CMS072 冒险岛ONLINE 国服072版本 JAVA 服务端 - 下载 - 搜珍网
  2. dblink 怎么用
  3. Import Package
  4. 企业官网小程序有什么作用
  5. vue 样式标签使用 scoped
  6. MATLAB中的zigzag,ZIGZAG扫描的MATLAB实现
  7. jpg转换成dwf的方式
  8. OCP-1Z0-051 第120题 NATURAL JOIN自然连接
  9. vue3.x +Cesium Cesium 鼠标交互,鼠标点击拾取对象等(五)
  10. ArcGIS中计算点与线之间距离的两种方法