铜灵 发自 凹非寺
量子位 出品 | 公众号 QbitAI

想搞强化学习,但算力门槛让不少人望而却步。

想想DeepMind训练的通用棋类AI AlphaZero,碾压一票同类选手,但堆砌了实验室里5064个TPU的算力。谷歌财大气粗,但小实验室就无法复制了。

没有那么大算力,也可以进行强化学习。

这一次,“专注强化学习一百年”的DeepMind又出手了,推出了一个小规模的强化学习环境,适合算力有限的实验室。

这个强化学习环境名为Spriteworld的强化学习环境,由二维简单形状组成的环境,可以进行简单移动。

DeepMind表示,别看这个场景简单,但能为多个物体场景中提供尽可能多的灵活性,同时保留尽可能简单的界面。

一经发出,DeepMind推特就收获了400赞,网友大呼:Fascinating(太吸引人了)~

精灵世界

Spriteworld(精灵世界)是一个基于Python的强化学习环境,里面各种不同的形状都是一个精灵,可以在整个界面中自由移动。

这是一个多维度环境,形状的位置大小颜色角度速度都可以不断变化,自由调节。

这个世界里没有物理引擎,所以默认情况下,里面的“精灵”们会互相重叠,但不会交互或是碰撞。

研究人员演示了环境中可操作的3种任务,比如这个目标寻找任务,智能体需要将目标精灵,也就是绿色正方形方块带到环境中心。

比如聚类任务,智能体需要根据自身的颜色排列成簇。

在排列任务中,智能体必须依据其自身颜色将目标精灵放置到目标位置,其中颜色与位置有一定的关联关系。

DeepMind表示,可以通过动作空间引入各个精灵之间的交互,并且动作空间中的每个时间步可以同步给所有精灵。

举个例子,比如DiscreteEmbodied动作空间实现了一种基本的物理形式,一个智能体可以携带其他智能体。

DeepMind强化学习资源集合

如果你想要研究强化学习,那么DeepMind一定是你不可错过的领路人。

这个“专注强化学习一百年”的研究机构,已经开放了大量的强化学习研究资源。

开源强化学习框架多巴胺(Dopamine),基于基于TensorFlow,代码紧凑,简洁可复现。

博客:

代码:

开源强化学习库松露(TRFL),模块化,强调灵活度:如果把造智能体想象成搭积木,许多关键的、常用的木块都在这里集合了。

并且库里面的组件,虽然来源各不相同,但都经过严密测试,因而相对可靠;并且只要一个API,对开发者比较友好。

GitHub地址:

开源强化学习研究环境Control Suite,设计了一组有着标准化结构、可解释奖励的连续控制任务,还为强化学习Agent提供一组性能测试指标。

这些任务基于MoJoCo物理引擎,所用的语言是Python。DeepMind在GitHub上放出的源代码中,就包含基于MoJoCo的Python强化学习环境,以及为MoJoCo提供Python绑定的软件库。

论文:

代码:

开源分布式强化学习架构IMPALA,让一个Agent学会多种技能。

IMPALA的灵感来自于热门的A3C架构,后者使用多个分布式actor来学习agent的参数。在类似这样的模型中,每个actor都使用策略参数的一个副本,在环境中操作。

代码:

开源强化学习训练环境Google Research Football,智能体可以在这个宛若FIFA的世界里自由踢球,学到更多踢球技巧。

用足球进行强化学习训练,对AI来说更有挑战性,不仅要能控球,还得搞懂传球、角球这些概念,知道什么时候会犯规吃红牌黄牌,同时训练出足够机智的策略。

论文:

代码:

传送门

Github地址:

推特介绍:

作者系网易新闻·网易号“各有态度”签约作者

活动推荐 | AI计算领域技术盛会

2019人工智能计算大会将于8月27日-28日在北京举办,旨在围绕人工智能的产业需求研讨AI计算,促进AI技术创新、合作发展与人才培养。

门票原价1099元,量子位用户专享福利,识别下图即可限时免费报名。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

DeepMind开源强化学习环境,灵活可配置,计算资源有限的小型实验室也能用相关推荐

  1. Docker实操3——配置强化学习环境镜像

    手动配置一遍docker中的强化环境 一.安装基本操作 1.1 查看基础信息 1.2 国内换源 1.3 安装nvidia-docker 二.docker基本操作 三.例子:强化学习库的docker环境 ...

  2. PyTorch强化学习实战(1)——强化学习环境配置与PyTorch基础

    PyTorch强化学习实战(1)--强化学习环境配置与PyTorch基础 0. 前言 1. 搭建 PyTorch 环境 2. OpenAI Gym简介与安装 3. 模拟 Atari 环境 4. 模拟 ...

  3. Google发布“多巴胺”开源强化学习框架,三大特性全满足

     编译整理 | Just 编辑 | 阿司匹林 出品 | AI科技大本营  强化学习是一种非常重要 AI 技术,它能使用奖励(或惩罚)来驱动智能体(agents)朝着特定目标前进,比如它训练的 A ...

  4. DeepMind用强化学习探索大脑多巴胺对学习的作用

    AI系统已经掌握了多种电子游戏,如雅达利经典的"突出重围"(Breakout)和"乒乓球"(Pong)游戏.但尽管AI在玩游戏方便的表现令人印象深刻,它们仍然是 ...

  5. 强化学习环境库 Gym 发布首个社区发布版,全面兼容 Python 3.9

    作者:肖智清 来源:AI科技大本营 强化学习环境库Gym于2021年8月中旬迎来了首个社区志愿者维护的发布版Gym 0.19.该版本全面兼容Python 3.9,增加了多个新特性. 强化学习环境库的事 ...

  6. DeepMind提出强化学习新算法,教智能体从零学控制

    来源:人工智能和大数据 摘要:3月2日,DeepMind发表博客文章,提出一种称为SAC-X(计划辅助控制)的新学习范式,旨在解决让AI以最少的先验知识,从头开始学习复杂控制问题的挑战. 这在真实环境 ...

  7. 打造一个投资组合管理的金融强化学习环境

    原创文章第120篇,专注"个人成长与财富自由.世界运作的逻辑, AI量化投资". 今天继续金融强化学习环境. 网上的金融学习环境不少,但都太过于"业余",或者离 ...

  8. 星际争霸2 AI 强化学习环境部署

    星际争霸2 AI 强化学习环境部署 PySC2是DeepMind开发的星际争霸Ⅱ学习环境(SC2LE)的Python组件. 它封装Blizzard Entertainment的星际争霸Ⅱ机器学习API ...

  9. 强化学习环境全库安装(从mujoco到spinningup)

    强化学习环境全库安装 从mujoco200到spinningup (上篇) 前言 一: 安装Mujoco200物理引擎 二. 创建conda虚拟环境 1:选择python版本 2.创建conda虚拟环 ...

最新文章

  1. select,epoll,poll比较
  2. 棋盘游戏的人工智能(二)------剪支
  3. mysql报错:This version of MySQL doesn’t yet support ‘LIMIT IN/ALL/ANY/SOME 解决方法
  4. 深入SpringBoot:自定义Endpoint
  5. numpy输出到屏幕时有逗号和没逗号的原因
  6. Shell(6)——if语句
  7. Spring 事务提交回滚源码解析
  8. @ConfigurationProperties + @EnableConfigurationProperties
  9. 花花酱leetcode 题目-二分搜索
  10. iOS之NSURLConnection详解(2)
  11. java课程设计报告_JAVA课程设计报告_完整版.doc
  12. python部署阿里云_python部署到阿里云
  13. Lenovo ServerGuide 10.4
  14. [电子电路基础] 如何区分LED发光二极管引脚的正负极
  15. wps如何保存最终状态_wps word 最后一次保存者 wps最后一次保存者
  16. 【故障】nginx间隙性出现502 错误
  17. 【转】Quartz概述及入门实例
  18. 在ubuntu上显示 电脑 、垃圾桶、文件夹等图标
  19. es拼音分词 大帅哥_SpringBoot集成Elasticsearch 进阶,实现中文、拼音分词,繁简体转换...
  20. 做完近视手术应该注意什么?近视术后护理攻略请你收下

热门文章

  1. HDU 5769 Substring
  2. 1、Angular2 Component 组件
  3. 构造 HDOJ 5400 Arithmetic Sequence
  4. Linux服务器信息检测Shell脚本
  5. JS、Flash 实现复制功能 (浏览器兼容)
  6. 中国大陆开源镜像站汇总
  7. 关于cocos2d的下载和安装
  8. Appium自动化测试-配置待测Android应用
  9. Jenkins执行脚本,提示“sudo: no tty present and no askpass program specified”解决方法
  10. 菜单消失_减肥的你,哪些食物应该从你的菜单消失?