文章目录

  • 绝悟难在哪里?
  • 绝悟怎么做到的呢?
    • 绝悟系统设计
    • 绝悟算法设计
  • 绝悟训练细节概要

【论文阅读】Mastering Complex Control in MOBA Games with Deep Reinforcement Learning

  这个算法运用强化学习框架,在多人在线战术竞技游戏(MOBA)中1v1击败职业选手。

绝悟难在哪里?

  谷歌DeepMind早在2015年用深度Q网络就攻破了Ataria游戏,在2016年更是基于监督学习和强化学习自我博弈训练AlphaGo攻破了人类最后一道防线围棋。而这次腾讯AILab提出来的算法在1v1的MOBA中战胜人类顶级职业选手,也是在像即时策略游戏这种高度复杂的控制游戏中的一个突破吧。

  为了对比围棋和MOBA 1v1有啥不同,其论文在动作空间状态空间、以及收集的人类数据游戏本身特性方面做了对比,如表1所示:

  在MOBA中智能体还得学会规划运营攻击防御连招等等。这一系列的问题需要智能体在长期的序贯决策过程中必须学会精确的动作控制响应。

  并且在王者荣耀中你控制的英雄会有不同的技能属性不同的攻击属性不同的控制对象智能体要有不同的玩法,这就需要你的算法具备充分的鲁棒性。

  最后说一下,这里腾讯做的是1v1,这将比5v5更难获得监督的数据资源,因为大家玩王者荣耀好像都是玩的5v5的吧。

绝悟怎么做到的呢?

设计了多模态的编码输入、关联动作的解耦、探索剪枝机制和攻击注意机制。

  所作出的贡献如下:

  • 设计了一个大规模、Off-Policy训练方法。
  • 设计了一个神经网络用于MOBA动作控制,也就是设计了一个属于MOBA控制的神经网络。
  • 神经网络的优化目标是一个多标签的proximal policy algorithm(PPO)目标。输入给神经网络的特征必须具备支持动作解耦的特性,注意力机制用于目标选择,LSTM网络学连招,并且把PPO改进了,改成了dual-clip PPO来确保其收敛。
  • 最终的结果就是用不同类型的英雄可以在王者荣耀中击败职业选手。

绝悟系统设计

  动作空间太大方差会比较大,腾讯设计了一个scalable and loosely-coupled(高可扩展低耦合)结构,主要由四块组成:Reinforcement Learning (RL) Learner (强化学习智能体), Artificial Intelligence Server(人工智能服务器), Dispatch Module(调度模块) and Memory Pool(记忆库)。

  在AI服务器里面智能体与环境进行交互,分发模块简单地收集、压缩、传输数据。

   AI server generates episodes via self-play with mirrored policies (Silver et al. 2017). The opponent policy sampling is similar to (Bansal et al. 2017). Based on the features extracted from game state, hero action is predicted using Boltzman exploration (Cesa-Bianchiet al. 2017), i.e., sampling based on softmax distribution

   为了加快每回合的推理速度,它们采用了FeatherCNN2^{2}2。官方介绍如下:

   FeatherCNN is a state-of-the-art inference engine for mobile devices: https://github.com/Tencent/FeatherCNN。

  分发模块就从AI服务器里面拿数据,组成奖励、特征、和动作概率送给记忆库。之后用于训练。 The gradients in the RL learners are averaged through the ring allreduce algorithm (Sergeev and Balso 2018)。智能体使用分享内存而不用Socket与记忆库通信,减少IO开销,提速。

绝悟算法设计

  • target attention mechanism机制用于帮助神经网络选择目标。
  • LSTM用于帮助AI学习连招造成有效的高伤害。
  • 控制端输出解耦,形成了一个多标签PPO优化目标
  • 一种game-knowledge-based的剪枝算法action mask被设计出来用于交互过程中更好地探索。
  • dual-clipped PPO算法用于保证收敛。

  这里动作解耦这一块感觉还是可以,感兴趣的可以阅读原文,仔细揣摩,看个热闹的到这就可以了,基本思想以及算法大概框架也差不多了。

绝悟训练细节概要

  • a total number of 600,000 CPU cores encapsulated in Dockers。
  • 1,064 Nvidia GPUs (a mixture of Tesla P40 and V100)。
  • 1600 vector features containing observable unit attributions and game information, and 2 channels of image features read from gamecore (the obstacle channel and the hero position channel).
  • we have experiences collected per day per hero is about 500 years human data in the 1v1 mode of Honor of Kings.
  • We use generalized advantage estimation (GAE) (Schulman et al. 2015) for reward calculation

  文章中还有更多细节,这里我也不一一抠了,以后要是这篇文章代码开源了(官方说要开源),有空了再说吧,我复习考试去了,哭了。

  看完的感觉就是,没有预期想象感觉中的那样精妙绝伦,那种感觉还是保留在AlphaZero那。但是这个多目标PPO优化感觉还可以。具体的训练细节没扣,准备考试了去了,哭了。

原论文链接:https://arxiv.org/abs/1912.09729

我的微信公众号名称:深度学习与先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

腾讯 “绝悟”论文披露技术细节。相关推荐

  1. 打王者荣耀还不过瘾,腾讯绝悟AI这次还拿下了足球世界冠军

    本文转载自 腾讯科技 12月30日,腾讯宣布其人工智能球队摘得首届谷歌足球Kaggle竞赛冠军.该冠军球队来自腾讯AI Lab研发的绝悟WeKick版本,凭借1785.8的总分在与全球顶级技术团队的竞 ...

  2. 腾讯绝悟AI完全体限时开放体验,研究登上国际顶会与顶刊

    感谢阅读腾讯AI Lab微信号第112篇文章.本文将介绍绝悟 AI 完全体升级版本的技术方法,也欢迎读者到王者荣耀 app 亲身体验其技术实力. 腾讯 AI Lab 宣布与王者荣耀联合研发的策略协作型 ...

  3. 不服 SOLO:腾讯绝悟 AI 击败王者荣耀顶尖职业玩家

    公众号关注 "GitHubDaily" 设为 "星标",带你了解圈内新鲜事! 本文转自机器之心 腾讯王者荣耀人工智能「绝悟」的论文终于发表了.在研究测试中,AI ...

  4. 血条加载!百度地图上线复苏指数;Quora推出问答机器人;腾讯绝悟成功用于医疗诊断;使用chatGPT生成推文;GitHub AI项目精选 | ShowMeAI资讯日报

  5. 腾讯AI足球队夺冠Kaggle竞赛,绝悟AI强化学习框架通用性凸显

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 导读]今日,腾讯宣布其人工智能球队摘得首届谷歌足球Kaggle竞赛冠军.该冠军球队来自 ...

  6. 腾讯AI足球队夺冠Kaggle竞赛,绝悟强化学习方案迁移至足球队

    12月30日,腾讯宣布其人工智能球队摘得首届谷歌足球Kaggle竞赛冠军.该冠军球队来自腾讯AI Lab研发的绝悟WeKick版本,凭借1785.8的总分在与全球顶级技术团队的竞技中以显著优势胜出. ...

  7. 腾讯AI单挑碾压王者荣耀职业玩家:人类15场只能赢1局,坚持不到8分钟 | “绝悟”技术细节披露...

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 最新消息,腾讯又围绕王者荣耀AI"绝悟"发表了新论文,已经被AI顶会AAAI 2020收录. 这是继今年8月份绝悟在5 ...

  8. 腾讯AI单挑王者荣耀职业玩家,“绝悟”技术细节首次披露!

    围棋被攻克之后,多人在线战术竞技游戏(MOBA)已经成为测试检验前沿人工智能的动作决策和预测能力的重要平台.基于腾讯天美工作室开发的热门 MOBA 类手游<王者荣耀>,腾讯 AI Lab ...

  9. 绝悟之后再超神,腾讯30篇论文入选AI顶会ACL

    作者 | 马超 责编 | Carol 出品| AI科技大本营(ID:rgznai100) 封图 | CSDN 付费下载于东方 IC 近日,国际计算语言学协会年会ACL在官网(https://www.a ...

  10. 7 Papers | 腾讯王者荣耀绝悟AI;ICLR高分论文Reformer

    点击上方"深度学习技术前沿",选择"星标"公众号 资源干货,第一时间送达 本周 7 Papers 包含多篇 AAAI 2020.ICLR 2020 入选论文,如 ...

最新文章

  1. torch_geometric 笔记:nn.ChebNet
  2. 消息队列中点对点与发布订阅区别
  3. mysql 存储xml类型_(MariaDB)MySQL数据类型详解和存储机制
  4. 从401航班事故调查看项目总结
  5. CUDA Study Notes
  6. ORACEL使用脚本来修改表结构
  7. .NetCore中的程序通过Docker在CentOS中部署
  8. 中华黑豹计算机病毒,关于中华黑豹病毒...-爱毒霸交流论坛
  9. 设备报废鉴定怎么做?
  10. bat 批量修改文件名后缀
  11. win7无线热点_台式机无线网卡 简介以及指南
  12. 六度人脉,每一个擦肩而过都有可能和你有关系
  13. ecshop修改模板可输出php代码,修改ecshop模板体会
  14. CVPR2022论文集锦 | CVPR2022最新论文 | CVPR2022审稿结果 | CVPR2022录取结果
  15. No executable file specified.Use the “file“ or “exec-file“ command.
  16. 2004数学二真题总结
  17. 2014年放假安排:除夕非法定假日
  18. C/C++ 搜索缝隙并插入ShellCode
  19. Linux内核模块it87出错
  20. 同步异步与阻塞非阻塞的区别 (不定时更新)

热门文章

  1. ruby中文文档下载
  2. Pickpocketing.Mifare.pdf
  3. Linux Web基础
  4. loopback-detection(环路检测)
  5. VMware:未能将管道连接到虚拟机, 所有的管道范例都在使用中
  6. 计算机网络物理层之数字传输系统
  7. MP(Multi-Link PPP)原理和实验
  8. Kubernetes详解(十一)——标签与标签选择器
  9. .NET 判断进程是否存在
  10. 科大讯飞发布会,我看到的人工智能