夏乙 中奇 假装发自 温哥华
量子位 新浪科技 联合报道

刚刚,中国网友全村的希望LGD惜败温哥华;

两天前,AI全村的希望OpenAI Five更是在二连败之后,提前为TI之旅画上了句号。

月初轻松击败7000分半职业五人组,17天过后却输给职业战队,还被越洋围观的群众骂成小学生。这个AI DOTA2选手的经历,可以说大起大落。

两天的比赛,也给中国网友们留下了众多疑问:

为什么大哥和酱油打法差不多?
为什么劣势下出现那么多奇葩操作?
为什么无脑冲塔、随意插眼、空放大招?
那些坏毛病是跟人类对手学的吗?
AI竟然学会发轮盘语音嘲讽人类了?
崩盘了为何还不GG?

为了弄清楚这些问题,量子位和新浪科技查阅了现有的各种资料,还联系到直接深度参与了这个项目的OpenAI研究员David Farhi,来答疑解惑。

接下来,更全面深入地了解一下这个AI吧。

疯狂推进模式已成过去

8月6日那一场人机大战中,AI抱团推塔杀人之凶猛,给围观群众都留下了深刻印象。

但是,这种疯狂推进的打法在前两天的比赛中没有出现,而且,可能,再也回不来了。

究其根本原因,应该是游戏规则的变化。

OpenAI在赛后总结中提到,他们在TI8上玩的版本,更接近选手们眼中真正的DOTA:打破了每个英雄一只无敌信使的配置,改成了人类比赛中通用的每队一只普通信使

我们在之前的报道中也提到过,去掉这个限制是在上周六,AI随后训练了4天就去比赛了。

 OpenAI Five的进化历程

当然,4天对AI来说并不短。按照OpenAI之前公布的配置,AI训练用了256块P100 GPU和12.8万个CPU核心,每天的训练量相当于打了180年游戏。4天,就是人间720年。

可是信使裁员80%还丧失了特异功能,确实让AI有点不适应。

OpenAI Five之前的疯狂推进打法,会靠着信使源源不断运来的补给,维持割草一般的推塔节奏。

没有了5只无敌信使,这样的打法就行不通了。在每方一只信使的比赛里,如果还要运输之前那么多补给,是要排队的。于是,英雄被打到残血就只能回家泡温泉养伤

Farhi透露,现在AI在训练环境中自我对战,平均每局要打上将近50分钟,比以前慢了不少。

前两天的比赛也表明,想要和人类职业选手抗衡,AI需要适应这个设置,培养新的战术和节奏。

不跟人类学习



 rOtk

这两天,AI的操作收获了各路网友的吐槽:
“是不是昨天跟w33学的?”
“是不是刚才被rOtk教坏了?”
甚至有网友想要故意带坏AI。

不好意思,要让大家失望了。

Farhi解释说,很多人在这一点上都误会了,OpenAI Five根本不跟人类学习。

训练AI、让它去和人类战斗的过程,实际上是这样的:

先在庞大的计算机集群上,让AI自己跟自己反复对战,告诉它赢得比赛、做出某些好操作就能获得奖励,让它从结果中学习。要和人类对战的时候,OpenAI就从自我对局环境中导出最新版的AI来用。

但是,他们不会把与人类对战的数据输入到AI的学习系统中去。

所以说,我们在比赛中看到的那些进步,和那些诡异操作,都是AI在自我对战过程中摸索出来的,想要靠示范带坏AI,目前还做不到。

这种单纯的训练环境,也带来一个副作用,那就是网友们吐槽的“AI被打出bug来了”。

被打蠢只因训练太简单

“打出bug”一般都出现在后期劣势阶段。其实,AI这两天在战斗的前20分钟里,打得都算不错。

究其根本原因,在于AI在训练中完全没见过这么强大的对手:训练环境里陪AI玩游戏的,都是它自己的复制版或旧版。

能入围TI的那种高手,AI在训练时从来没遇到过,这么大的劣势,AI也几乎没经历过。

为了让AI接受更艰苦的训练,OpenAI研究员们其实也试着提升难度,比如说,他们会强行为其中一方创造优势,让某些英雄开局就是4级。这种设置,类似于围棋的让子。

但是现在看来,“让子”所带来的难度提升,还是不太够。

说不定,等OpenAI把人类的经验也引入到AI训练中,会再带来一波提升。不过,这个工程量浩大优先级不高的想法,还没有提上日程。

自暴自弃?

那些愚蠢的操作,是不是真的意味着一陷入空前危机,AI就出bug了?

倒也不是。

想要完全理解AI的动机,搞清楚它在想什么,现在还很难,不过,熟悉OpenAI Five的研究员们做出了不少猜测。

他们认为,这些奇葩操作并不是bug,反而可能正是AI在想办法翻盘

Farhi谈到了这样一种推测,AI在训练时遇到的对手除了水平不够高之外,还有一个特点:几乎不失误。(emmm…我们看到的奇葩操作,对AI来说都不算失误)

人类在劣势中坚持补刀抢人头,大多数情况下根本不能缩小和对手的差距,但是,如果对手失误,翻盘的机会就来了。可是对于AI来说,它自己几乎不会失误,它练习时的对手也一样。于是,在AI的世界里就没有“你失误我翻盘”的概念

因此,AI为了翻盘,会做出种种超越常规的操作,看在人类眼里是自暴自弃,其实人家AI觉得,这样起码不是必败无疑啊!

当然,也说不定是在AI拖延时间:多扛一会儿再输,奖励会少被扣掉一点嘛。

1号位5号位?AI通通不分

收获吐槽能量最多的,除了“打出bug”可能就要数AI战队的大锅饭政策了。

人类战队中,总有1-5号位的角色区分,大哥负责带着队伍走向胜利,辅助负责到处插眼。上图显示的是AI对战中国TI冠军联队时双方财产状况,从中也能看出,人类战队里不同的角色,贫富差距巨大。

而AI在经济上就相对平均得多,打法上也看不出什么分工。

原因很简单,AI队伍中的5个智能体,真的是5个一模一样的LSTM神经网络,没有角色的区分。它们甚至会尽量让所有英雄保持差不多的升级节奏。

但是,AI也没有对所有英雄一视同仁。在让AI选阵容的时候,己方和敌方已经选了什么英雄会影响到它的选择,AI也觉得队伍里的英雄在技能、属性上有所差异更好。

AI会不会自己在训练中逐渐发现有的英雄注定是酱油呢?这只能等OpenAI慢慢公布了。

人类的玩法,AI并不买账

虽说OpenAI没有强制为智能体划分核心和酱油英雄,但其实在OpenAI Five里,有不少硬编码的部分。

比如买装备。什么时候该买什么装备,人类是给AI设定了规则的,买眼(守卫)这件事,就是人类强制AI完成的。

AI塔下插眼、自家野区乱插眼、甚至在家里插眼,可能就是对这个硬编码的抗争。

Farhi讲过这样一种猜测:工程师强制AI买眼,可是AI想用那个物品栏买别的东西……于是,它们就只好把眼随机扔一个地方。

除了强制AI买眼,工程师们还对该升级什么技能什么时候买活信使怎么运输物品等等都做了硬编码。这些方面,都是神经网络自学不太成功的地方。

比如说买活这件事。OpenAI团队曾经放权给神经网络,让它自己决定要不要买活。结果,AI完全放弃了这个操作,它认为什么时候买活都不划算。于是,人类越俎代庖地设定了规则。

不过这些规则,也不见得会持续存在下去。OpenAI用来打DOTA的模型一直在迭代,比如现在的OpenAI Five,就去掉了去年1v1版本专门针对卡兵设置的奖励。

Farhi说,他们又想出了一种方法,打算继续尝试让AI自己学买活。

翻盘无望为何不GG?

硬编码的不止这些游戏操作,还有网友们喜闻乐见的“AI用聊天轮盘发了个消息”。

又让大家失望了,发消息这件事,也不是AI自己学的。

那……到翻盘无望塔下乱逛的时候,发个GG也是可以的吧?的确可以,不过,OpenAI在TI8上没有给AI这个权利。

原因很简单,投降的依据当然是胜率,可是这两天出场的AI有个bug,自信心有点爆棚,胜率预测实在是不太靠谱。

这个bug,OpenAI正在慢慢修复中。

传送门

两场比赛过去,我们意犹未尽,十分期待OpenAI卷土重来,也很想亲手和它打一局。

好消息是,卷土重来可能不用等明年上海见。Farhi说,他们再努力几周或者几个月,就打算找职业战队再打一场。

坏消息是,把OpenAI Five放到Steam创意工坊上造福大众这件事,还没有提上日程,还要再提升提升。

最后,两篇文章、两段视频,回顾比赛精彩瞬间:

Day 1 比赛回顾和专访分析

精彩瞬间集锦:

Day 2 比赛回顾

精彩瞬间集锦:

加入社群

量子位AI社群19群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

遇劣势变蠢、发语音嘲讽人类……OpenAI这些奇葩DOTA操作跟谁学的?相关推荐

  1. 马云:我看到很多人去学MBA 但回来时都变蠢了

     马云:我看到很多人去学MBA 但回来时都变蠢了 2017年03月24日 11:22 每日经济新闻 微博 微信 空间 分享 653 马云最新演讲:我看到很多人去学MBA 但回来时都变蠢了 每经记者 ...

  2. 485有时候从机接收指令没反应_原来微信发语音不好听,是你没掌握这2个技巧!快去试试吧...

    阅读本文前,请您先点击上面的蓝色字体"房产亨",再点击"关注",这样您就可以免费收到最新内容了.每天都有分享,完全是免费订阅,请放心关注. 微信是使用人数最多的 ...

  3. 微信朋友圈也可以发语音你们造吗?

    在微信朋友圈发照片太矫情,小视频又耗流量,只发文字又太单调,何不发段语音来呼朋唤友呢?你是说朋友圈发语音?这是真的吗?sure,开发者已经利用微信JS-SDK接口实现了,扫描下方的二维码 然后开始录音 ...

  4. 苹果手机怎么发语音短信?

    说到语音,大家最熟悉的就是用微信发语音了,但是微信发语音的前提是必须是好友, 对于企业来说,使用范围还是受限,其实比微信语音应用范围广的就是语音短信,通过语音通知的新式,只要用户手机能正常接听,就能收 ...

  5. 微信朋友圈点赞如何设计测试用例,微信发语音消息,购物车,支付页面如何设计软件测试用例?

    做过软件测试或者面试过的人应该了解这个问题你肯定被问过,属于面试必问? 就算没遇到,预测你以后面试肯定会遇到,希望你能想到想到我分享的思路. 那么如何轻松优雅的回答这个题目,我给大家分享一个万能公式, ...

  6. 微信打字的隐藏鸿蒙系统,为什么有些人微信聊天只打字不发语音?

    我就是这种人,简单从我的角度分析一下. 1,同样一个意思.文字比语音意思更容易表达清楚,"阅读"时间更短.对于接收方体验更好. 2,大家都碰到过60秒语音.对于接收方有多痛苦不言而 ...

  7. 今天才发现!微信这样发语音才好听,学会快去尝试下吧

    微信是一款全民性的社交工具,大家每天都会使用微信聊天,而微信聊天又分为文字和语音两种方式. 不知道大家发现没有,微信语音和自己平时说话的声音并不一样,甚至觉得语音里面的声音难听. 今天笔者分享的就是, ...

  8. 微信发语音,会被上司和客户骂?老外都知道这事儿了

    互联网时代的世界是平的,国内发生的事儿外国人也在讨论.尤其是在跟网络技术有关的话题里,老外对咱们的情况也挺关心.最近一些经常在北上广深往返做事的老外,就讨论起了这么一个议题:在中国的职场上,当你用微信 ...

  9. 微信为什么不支持android4,安卓手机微信为啥不能发语音

    微信已经成为大家交流必不可少的聊天工具,但是,有时候会出现微信语音发不了的情况,这是怎么回事呢?该怎么解决呢?下文小编就为大家带来微信不能发语音的解决方法,一起去了解下吧. 微信语音发不了解决方法: ...

最新文章

  1. linux mate桌面主题下载_MATE-Desktop 1.11 发布下载,Linux 桌面
  2. python概率密度函数_Python中概率密度函数的快速卷积
  3. android 关掉屏幕旋转,防止在Android中屏幕旋转时解除对话框
  4. ChartControl控件绘制折线图
  5. 在scrapy爬虫框架xpath中extract()方法的使用
  6. 新型智能优化算法——海鸥优化算法(基于Matlab代码实现)
  7. mysql bin_mysql-bin是什么文件?
  8. ALEVEL经济ESSAY题写作技巧
  9. scsi接口服务器硬盘转速,服务器硬盘接口SCSI结构、特点详解
  10. 关于8583报文详解
  11. PHP的环境安装基本的配置
  12. redis安装和启动
  13. Windows10 内存占用过高怎么办并且持续增长,怎么办?
  14. 巡检报告实例-Python脚本生成
  15. C语言简单实现文件传输
  16. 我手中的电子书书目清单(开始提供BT下载)
  17. HTTP断点续传原理 状态码206 Partial Content
  18. 供应链金融智能合约整理
  19. Android开发 - 实时心率控件图
  20. 大数运算之100的阶乘(C语言实现)

热门文章

  1. 准备好跟机器人正面交锋了吗?
  2. TOP 1%的软件工程师和其他 99%有什么不同?
  3. 有个码龄10年的程序员跟我说:“他编程从来不用鼠标”,我说:
  4. oppoJava面试题,java开发个人博客教程
  5. JAVA day09 内部类(成员内部类,静态内部类,局部内部类,匿名内部类)
  6. redis mysql windows_Redis+Mysql模式和内存+硬盘模式的异同
  7. 给mysql salve从库复制授权_MySQL主从复制
  8. Compiled from Servlet.java (version 1.7 : 51.0 查看Servlet源码
  9. 改变维度_一个人的各种维度,哪些是可以改变的?
  10. python 卡方分箱算法_特征工程 - 分箱