DeepMind开源强化学习环境,灵活可配置,计算资源有限的小型实验室也能用
铜灵 发自 凹非寺
量子位 出品 | 公众号 QbitAI
想搞强化学习,但算力门槛让不少人望而却步。
想想DeepMind训练的通用棋类AI AlphaZero,碾压一票同类选手,但堆砌了实验室里5064个TPU的算力。谷歌财大气粗,但小实验室就无法复制了。
没有那么大算力,也可以进行强化学习。
这一次,“专注强化学习一百年”的DeepMind又出手了,推出了一个小规模的强化学习环境,适合算力有限的实验室。
这个强化学习环境名为Spriteworld的强化学习环境,由二维简单形状组成的环境,可以进行简单移动。
DeepMind表示,别看这个场景简单,但能为多个物体场景中提供尽可能多的灵活性,同时保留尽可能简单的界面。
一经发出,DeepMind推特就收获了400赞,网友大呼:Fascinating(太吸引人了)~
精灵世界
Spriteworld(精灵世界)是一个基于Python的强化学习环境,里面各种不同的形状都是一个精灵,可以在整个界面中自由移动。
这是一个多维度环境,形状的位置、大小、颜色、角度和速度都可以不断变化,自由调节。
这个世界里没有物理引擎,所以默认情况下,里面的“精灵”们会互相重叠,但不会交互或是碰撞。
研究人员演示了环境中可操作的3种任务,比如这个目标寻找任务,智能体需要将目标精灵,也就是绿色正方形方块带到环境中心。
比如聚类任务,智能体需要根据自身的颜色排列成簇。
在排列任务中,智能体必须依据其自身颜色将目标精灵放置到目标位置,其中颜色与位置有一定的关联关系。
DeepMind表示,可以通过动作空间引入各个精灵之间的交互,并且动作空间中的每个时间步可以同步给所有精灵。
举个例子,比如DiscreteEmbodied动作空间实现了一种基本的物理形式,一个智能体可以携带其他智能体。
DeepMind强化学习资源集合
如果你想要研究强化学习,那么DeepMind一定是你不可错过的领路人。
这个“专注强化学习一百年”的研究机构,已经开放了大量的强化学习研究资源。
开源强化学习框架多巴胺(Dopamine),基于基于TensorFlow,代码紧凑,简洁可复现。
博客:
代码:
开源强化学习库松露(TRFL),模块化,强调灵活度:如果把造智能体想象成搭积木,许多关键的、常用的木块都在这里集合了。
并且库里面的组件,虽然来源各不相同,但都经过严密测试,因而相对可靠;并且只要一个API,对开发者比较友好。
GitHub地址:
开源强化学习研究环境Control Suite,设计了一组有着标准化结构、可解释奖励的连续控制任务,还为强化学习Agent提供一组性能测试指标。
这些任务基于MoJoCo物理引擎,所用的语言是Python。DeepMind在GitHub上放出的源代码中,就包含基于MoJoCo的Python强化学习环境,以及为MoJoCo提供Python绑定的软件库。
论文:
代码:
开源分布式强化学习架构IMPALA,让一个Agent学会多种技能。
IMPALA的灵感来自于热门的A3C架构,后者使用多个分布式actor来学习agent的参数。在类似这样的模型中,每个actor都使用策略参数的一个副本,在环境中操作。
代码:
开源强化学习训练环境Google Research Football,智能体可以在这个宛若FIFA的世界里自由踢球,学到更多踢球技巧。
用足球进行强化学习训练,对AI来说更有挑战性,不仅要能控球,还得搞懂传球、角球这些概念,知道什么时候会犯规吃红牌黄牌,同时训练出足够机智的策略。
论文:
代码:
传送门
Github地址:
推特介绍:
作者系网易新闻·网易号“各有态度”签约作者
— 完 —
活动推荐 | AI计算领域技术盛会
2019人工智能计算大会将于8月27日-28日在北京举办,旨在围绕人工智能的产业需求研讨AI计算,促进AI技术创新、合作发展与人才培养。
门票原价1099元,量子位用户专享福利,识别下图即可限时免费报名。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「好看」吧 !
DeepMind开源强化学习环境,灵活可配置,计算资源有限的小型实验室也能用相关推荐
- Docker实操3——配置强化学习环境镜像
手动配置一遍docker中的强化环境 一.安装基本操作 1.1 查看基础信息 1.2 国内换源 1.3 安装nvidia-docker 二.docker基本操作 三.例子:强化学习库的docker环境 ...
- PyTorch强化学习实战(1)——强化学习环境配置与PyTorch基础
PyTorch强化学习实战(1)--强化学习环境配置与PyTorch基础 0. 前言 1. 搭建 PyTorch 环境 2. OpenAI Gym简介与安装 3. 模拟 Atari 环境 4. 模拟 ...
- Google发布“多巴胺”开源强化学习框架,三大特性全满足
编译整理 | Just 编辑 | 阿司匹林 出品 | AI科技大本营 强化学习是一种非常重要 AI 技术,它能使用奖励(或惩罚)来驱动智能体(agents)朝着特定目标前进,比如它训练的 A ...
- DeepMind用强化学习探索大脑多巴胺对学习的作用
AI系统已经掌握了多种电子游戏,如雅达利经典的"突出重围"(Breakout)和"乒乓球"(Pong)游戏.但尽管AI在玩游戏方便的表现令人印象深刻,它们仍然是 ...
- 强化学习环境库 Gym 发布首个社区发布版,全面兼容 Python 3.9
作者:肖智清 来源:AI科技大本营 强化学习环境库Gym于2021年8月中旬迎来了首个社区志愿者维护的发布版Gym 0.19.该版本全面兼容Python 3.9,增加了多个新特性. 强化学习环境库的事 ...
- DeepMind提出强化学习新算法,教智能体从零学控制
来源:人工智能和大数据 摘要:3月2日,DeepMind发表博客文章,提出一种称为SAC-X(计划辅助控制)的新学习范式,旨在解决让AI以最少的先验知识,从头开始学习复杂控制问题的挑战. 这在真实环境 ...
- 打造一个投资组合管理的金融强化学习环境
原创文章第120篇,专注"个人成长与财富自由.世界运作的逻辑, AI量化投资". 今天继续金融强化学习环境. 网上的金融学习环境不少,但都太过于"业余",或者离 ...
- 星际争霸2 AI 强化学习环境部署
星际争霸2 AI 强化学习环境部署 PySC2是DeepMind开发的星际争霸Ⅱ学习环境(SC2LE)的Python组件. 它封装Blizzard Entertainment的星际争霸Ⅱ机器学习API ...
- 强化学习环境全库安装(从mujoco到spinningup)
强化学习环境全库安装 从mujoco200到spinningup (上篇) 前言 一: 安装Mujoco200物理引擎 二. 创建conda虚拟环境 1:选择python版本 2.创建conda虚拟环 ...
最新文章
- select,epoll,poll比较
- 棋盘游戏的人工智能(二)------剪支
- mysql报错:This version of MySQL doesn’t yet support ‘LIMIT IN/ALL/ANY/SOME 解决方法
- 深入SpringBoot:自定义Endpoint
- numpy输出到屏幕时有逗号和没逗号的原因
- Shell(6)——if语句
- Spring 事务提交回滚源码解析
- @ConfigurationProperties + @EnableConfigurationProperties
- 花花酱leetcode 题目-二分搜索
- iOS之NSURLConnection详解(2)
- java课程设计报告_JAVA课程设计报告_完整版.doc
- python部署阿里云_python部署到阿里云
- Lenovo ServerGuide 10.4
- [电子电路基础] 如何区分LED发光二极管引脚的正负极
- wps如何保存最终状态_wps word 最后一次保存者 wps最后一次保存者
- 【故障】nginx间隙性出现502 错误
- 【转】Quartz概述及入门实例
- 在ubuntu上显示 电脑 、垃圾桶、文件夹等图标
- es拼音分词 大帅哥_SpringBoot集成Elasticsearch 进阶,实现中文、拼音分词,繁简体转换...
- 做完近视手术应该注意什么?近视术后护理攻略请你收下
热门文章
- HDU 5769 Substring
- 1、Angular2 Component 组件
- 构造 HDOJ 5400 Arithmetic Sequence
- Linux服务器信息检测Shell脚本
- JS、Flash 实现复制功能 (浏览器兼容)
- 中国大陆开源镜像站汇总
- 关于cocos2d的下载和安装
- Appium自动化测试-配置待测Android应用
- Jenkins执行脚本,提示“sudo: no tty present and no askpass program specified”解决方法
- 菜单消失_减肥的你,哪些食物应该从你的菜单消失?