铜灵 编译整理 
量子位 出品 | 公众号 QbitAI

今天,《星际争霸2》(后称星际2)深度强化学习(DRL)智能体Reaver开源了,引来大量Reddit用户围观。

来自塔尔图大学的Roman Ring介绍说,这种模块化的框架主要用于训练星际2的各种任务,提供比大多数开源解决方案更快的单机环境并行化能力。

Reaver可适应多种环境,除了用于星际2的SC2LE外,还支持其他强化学习任务上常用的Gym、Atari和Mujoco。它用简单的Keras模型来定义神经网络,配置和共享配置也非常方便。

最重要的是,Reaver的训练规模亲民到爆炸。在普通的4核CPU的笔记本电脑上,每秒采样率可以达到5K,10秒内就能学会那个立杆子的游戏CartPole-0。

在电脑配置为Intel i5-7300HQ CPU (4 核) 和 GTX 1050 GPU 的笔记本情况下,Reaver 30分钟攻克了星际2 的MoveToBeacon游戏,成绩与DeepMind不分伯仲。

功能介绍

Reaver主要有6大特点:

可扩展

Reaver同时适用于初学者和老手。对业余编程爱好者,Reaver提供了必要工具,修改智能体(例如超参数)后就能训练。

老手可直接利用Reaver模块化架构和性能优化过的代码库,其中的智能体、模型和环境都是解耦的,可随意搭配,可扩展性强。

性能

Reaver利用无锁数据结构共享内存,将星际2的采样速率提升了2倍(通常能实现100倍的加速),瓶颈在GPU输入/输出pipeline。

可配置

Reaver中所有配置都能通过gin-config配置框架处理,并且能够将所有超参数、环境参数和模型定义轻松共享成.gin格式文件。

实现智能体

作者采用两种经典DRL算法进行实现:

优势actor-critic算法(A2C)

近端策略优化(PPO)

支持多种环境

  • PySC2(用所有迷你游戏测试过)

  • OpenAI Gym(用CartPole-v0测试过)

  • Atari(用PongNoFrameskip-v0测试过)

  • Mujoco (用InvertedPendulum-v2和HalfCheetah-v2测试过)

其他强化学习特点

  • GAE算法加持

  • 奖励剪裁

  • 梯度标准剪裁

  • 利用归一化方法

  • 基线引导

  • 独立基线网络

结果展示

Reaver具体实战的表现如何?研究人员在不同地图上,对A2C架构的Reaver、DeepMind的SC2LE和ReDRL进行基准测评,同时,还给出了人类GrandMaster级的专业人员在这些任务上的成绩。

其中,DeepMind的结果均来自此前发布论文中的最佳结果。

Reaver(A2C)是训练reaver.agents.A2C智能体得到的,通过训练—test模块进行100次迭代,计算总奖励值得到这个结果。图中括号值代表是平均值、标准差,方括号中为最小和最大值。

传送门

Reddit讨论贴:

https://www.reddit.com/r/MachineLearning/comments/a0jm84/p_reaver_starcraft_ii_deep_reinforcement_learning/

具体的安装说明,可移步GitHub:

https://github.com/inoryy/reaver-pysc2

此外,如果你的电脑配置了Google Colab,还可以在线使用Reaver,地址:

https://colab.research.google.com/drive/1DvyCUdymqgjk85FB5DrTtAwTFbI494x7

年度评选申请

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

星际2新智能体开源:单机并行能力强,适应环境广,个人可训练相关推荐

  1. 北京智源大会 | 启元AI战胜中国星际冠军,智能体激发人类探索未知

    6月21日,北京智源大会特色活动--启元星际AI顶级职业选手挑战赛在北京举行,启元AI"星际指挥官"以两个2:0的成绩击败了<星际争霸I/II>全国冠军黄慧明(TooD ...

  2. 谷歌新智能体Dreamer将亮相NeurIPS 2019,数据效率比前身PlaNet快8个小时

    来源:雷锋网 在具有挑战性的环境中,一些人工智能系统通过利用过去经验所提供的世界表象来实现目标.研究人员将这些应用推广到新的情况,使它们能够在以前从未遇到过的环境中完成任务. 事实证明,强化学习--一 ...

  3. DeepMind新智能体架构Unicorn:持续学习能力胜过多个基准智能体

    安妮 编译自 arXiv 量子位 出品 | 公众号 QbitAI 出于未知原因,DeepMind为自己研究起的名字总饱含诗意,在学术界中显得尤为画风清奇. 比如"彩虹"?,比如&q ...

  4. 怎么调用获取被创建的预制体_Uber 开源 Plato:扩展性极强的开发测试会话 AI 平台,可实现多智能体并行训练...

    雷锋网 AI 科技评论按:在过去的几十年中,智能会话系统已经发生了显著的变化,从关键字识别交互式语音应答(IVR)系统到跨平台智能个人助理,都在慢慢成为日常生活中不可或缺的一部分.在这样的背景环境下, ...

  5. 面向星际争霸:DeepMind 提出多智能体强化学习新方法

    不久前 DeepMind 强化学习团队负责人.AlphaGo 项目负责人现身 Reddit 问答,其中一个问题是「围棋和星际争霸 2 哪个更难?潜在技术障碍是什么?」近日,DeepMind 发表论文, ...

  6. 上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练

    机器之心专栏 作者:上海交大和UCL多智能体强化学习研究团队 基于种群的多智能体深度强化学习(PB-MARL)方法在星际争霸.王者荣耀等游戏AI上已经得到成功验证,MALib 则是首个专门面向 PB- ...

  7. 论坛报名 | 从捉迷藏、星际争霸到新一代人工智能:多智能体深度强化学习的理论与实践...

    与6位图灵奖得主和100多位专家 共同探讨人工智能的下一个十年 长按图片或点击阅读原文,内行盛会,首次免费注册 2020年6月21-24日,第二届北京智源大会(官网:https://2020.baai ...

  8. 强化学习教父Richard Sutton新论文探索决策智能体的通用模型:寻找跨学科共性...

    来源:机器之心 本文约5200字,建议阅读10+分钟 论文虽然有些难懂,但或许是一个新的研究方向. 强化学习和决策多学科会议(Multi-Disciplinary Conference on Rein ...

  9. Deepmind“好奇心”强化学习新突破!改变奖励机制,让智能体不再“兜圈子”

    来源:Google AI 作者:Nikolay Savinov, Timothy Lillicrap, 编译:大明 [新智元导读]Google.Deepmind和苏黎世联邦理工学院的研究人员提出&qu ...

最新文章

  1. ORA-12519: TNS: 没有找到适用的服务处理
  2. http / 关于长连接和短链接的理解
  3. 【Lucene】Lucene的使用和优化
  4. HEU 2036 Paths on a Grid
  5. 请设计一个栈,实现十进制数转任意进制数。
  6. python自动爬取更新电影网站_python爬取电影网站信息
  7. jquery异步调用post的一些注意事项
  8. 背景裁剪图片html,HTML5基础加强css样式篇(文本裁剪,背景裁剪:background-origin,background-position,background-clip)(三十七)...
  9. 从零基础入门Tensorflow2.0 ----三、6. 实战tf.constant
  10. 耐驰测试仪上的软件,Proteus
  11. xposed+justTrustme使用与分析
  12. web应用程序;web服务器;访问网站过程;Tomcat;发布网站;http;Maven;servlet;MVC
  13. GGSN - SCP 业务控制点
  14. 计算机电源插座安装,弱电箱的插座要怎么安装 弱电箱安装插座安装方法介绍【详解】...
  15. npm ERR! nested aliases not supported 报错原因
  16. 为何戴绿帽的总是悲催老实人?
  17. winhex文件有写保护怎么修改也改变了该怎么办
  18. lat_mem_rd 内存延迟测试工具原理,lmbench编译时llseek链接不到问题解决
  19. 【素描基础】大师素描及素描抽象明…
  20. nfc java_NFC 开发

热门文章

  1. 移动应用开发者在区块链中怎么赚钱?
  2. oracle转mysql总结,原理+实战+视频+源码
  3. python及环境安装_一、什么是python及开发环境安装
  4. ubuntu linux网关不通,Ubuntu 8.04不能上网等问题的解决
  5. 两条信号之间加电容_信号完整性SI读书笔记之一
  6. mysql数据库分析结果与结论_mysql数据库show processlist结果分析
  7. 了解FPS屏幕刷新率
  8. 如何理解nextTick函数
  9. C语言描述信息的结构体,(c语言)游戏中由人物各种信息组成的结构体
  10. r语言ggplot2一夜多图_跟着Nature microbiology学画图~R语言ggplot2画直方图