深度强化学习中实验环境-开源平台框架汇总
本文汇总了常用的验证强化学习算法的开源环境平台。
当我们设计了一个强化学习算法之后,我们如何来验证算法的好坏呢?就像数据集一样,我们需要一个公认的平台来衡量这个算法。这样的一个平台,最基本的需要有仿真和渲染。
OpenAI Gym and Universe
业界最出名的莫过于Gym
和Universe
了。OpenAI Gym
用于评估和比较强化学习算法的好坏。它的接口支持在任何框架下的算法,像TensorFlow
, Theano
, Keras
这些都可以。
Gym
库收集、解决了很多环境的测试过程中的问题,能够很好地使得你的强化学习算法得到很好地Work
。并且含有游戏界面,能够帮助你去写通用性更强的算法。业界现在主流的就是这个环境,如果有还没有了解过的,需要配置的同学,可以参考我之前写的一篇详细的安装使用教程:强化学习环境-Gym安装到使用入门
在各大顶会上经常会看到用于连续控制物理引擎的MuJoCo
但这个收费的。
RoboSchool
作为MuJoCo
实现的替代品,OpenAI
开发了基于Bullet
物理引擎的Roboschool
。它提供了OpenAI Gym
形式的接口用于模拟机器人控制。目前包含了12个环境。其中除了传统的类似MuJoCo
的场景,还有交互控制,及多智能体控制场景。
- GitHub链接:https://github.com/openai/roboschool
- 官网链接:https://openai.com/blog/roboschool/
Gym
中还有用于机械臂的抓取和灵巧手的机械手、机械臂环境Robotics
:
- GitHub链接:https://github.com/openai/gym
- 官网链接:http://gym.openai.com/
OpenAI Universe
相当于是OpenAI Gym
的一个扩展,它所能提供的环境更加的复杂,有即时战略游戏的味道,对决策时间有一定的要求。
Universe
的发布也算是业界福音,任何程序都可以被转换成一个Gym
的环境。Universe
通过自动启动程序在一个VNC
远程桌上进行工作,所以它不需要对程序内部、源码或者bot API
的特别访问。环境被打包Docker
镜像,安装使用将更加方便。
- GitHub链接:https://github.com/openai/universe
- 官网链接:https://openai.com/blog/universe/
DeepMind Lab
DeepMind Lab
是一个第一人称3D
游戏平台,它以丰富的科幻视觉来呈现场景。可用的操作能让智能体环顾四周,并以3D
的形式移动。示例任务包括收集水果、走迷宫、穿越危险的通道且要避免从悬崖上坠落、使用发射台在平台间移动、玩激光笔、以及快速学习并记住随机生成的环境。DeepMind Lab
已经成为DeepMind
内部的一个主要研究平台,DeepMind Lab
同时拥有更丰富的视觉效果和更自然的物理效果。
- 官网链接:https://deepmind.com/research/publications/deepmind-lab
- GitHub链接:https://github.com/deepmind/lab
Project Malmo
Malmo
由微软剑桥研究员Katja Hofmann
带领开发,是Microsoft
基于Minecraft
(我的世界)开发的一个人工智能实验和研究平台。这个平台也还用于第一届协同AI挑战赛。
Malmo
是用于多智能体强化学习算法的开源平台,要求智能体之间相互合作,将协同AI做到极致。并且研究人员还可以加速《我的世界》中的时钟,加快试验速度。
- GitHub链接:https://github.com/crowdAI/marLo
- 协同AI挑战赛官网:https://www.microsoft.com/en-us/research/academic-program/collaborative-ai-challenge/
ViZDoom
ViZDoom
提供了用AI玩毁灭战士游戏的环境(一人称射击类游戏)。它提供的是一个多智能体竞争博弈的一个环境,用于测试算法的好坏。
- GitHub链接:https://github.com/mwydmuch/ViZDoom
我的微信公众号名称:深度学习先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究深度学习、强化学习、机器博弈等相关内容!期待您的关注,欢迎一起学习交流进步!
深度强化学习中实验环境-开源平台框架汇总相关推荐
- 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...
No.26 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
- 深度强化学习中的好奇心
本文为 AI 研习社编译的技术博客,原标题 : Curiosity in Deep Reinforcement Learning 作者 | Michael Klear 翻译 | 凝决2018 校对 | ...
- 深度强化学习中的episode、epoch、batch-size、iteration
深度强化学习中的episode.epoch.batch-size.iteration batch_size iteration epoch episode batch_size 即批大小,如果把全部数 ...
- 深度强化学习中的泛化
Overfitting in Supervised Learning 机器学习是一门学科,其中给定了一些训练数据\环境,我们希望找到一个优化目标的模型,但其目的是在训练期间从未见过的数据上表现出色.通 ...
- 深度强化学习中Double DQN算法(Q-Learning+CNN)的讲解及在Asterix游戏上的实战(超详细 附源码)
需要源码和环境搭建请点赞关注收藏后评论区留下QQ~~~ 一.核心思想 针对DQN中出现的高估问题,有人提出深度双Q网络算法(DDQN),该算法是将强化学习中的双Q学习应用于DQN中.在强化学习中,双Q ...
- 深度强化学习中带有阴影的曲线是怎么画的?
记录学习一下: 1.强化学习论文里的训练曲线是用什么画的?如何计算相关变量 - 深度强化学习实验室 2. 论文中画带标准差阴影的曲线图:seaborn.lineplot()_条件反射104的博客-CS ...
- 深度强化学习中利用Q-Learngin和期望Sarsa算法确定机器人最优策略实战(超详细 附源码)
需要源码和环境搭建请点赞关注收藏后评论区留下QQ~~~ 一.Q-Learning算法 Q-Learning算法中动作值函数Q的更新方向是最优动作值函数q,而与Agent所遵循的行为策略无关,在评估动作 ...
- 深度强化学习系列之(13): 深度强化学习实验中应该使用多少个随机种子?
How Many Random Seeds Should I Use? Statistical Power Analysis in (Deep) Reinforcement Learning Expe ...
- 八千字长文深度解读,迁移学习在强化学习中的应用及最新进展
点击我爱计算机视觉标星,更快获取CVML新技术 本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载. 机器之心原创 作者:Luo Sainan 编辑:H4O 迁移学习通 ...
- 深度强化学习基础(一):RL中的基本概念
目录 强化学习是什么? 强化学习能做什么? 关键概念和术语 概率论 术语 AI如何控制agent 策略学习--学习policy函数 价值学习--学习最优动作价值函数 总结 强化学习是什么? 强化学习 ...
最新文章
- ORACLE 多表关联 UPDATE 语句
- 【不积跬步,无以致千里】linux下如何查看自己的外网IP
- recyclerview 横向卡片效果_UI设计中卡片式应如何设计
- Xmind 中附件的存放位置
- 爱尚QQ网修改QQ在线机型源码
- C#选择文件、选择文件夹、打开文件(OpenDialog,FolderBrowserDialog)
- 雅虎邮箱 找回密码_如何恢复被遗忘的Yahoo! 密码
- 转载:wps怎么制作半圆形时间轴? wps彩色时间轴的制作方法
- PHP 5.6,7.0,7.1,7.2 和 HHVM 运行效率比较
- Java项目:超市进销存管理系统(java+SpringBoot+Html+Layui+echarts+mysql)
- vue项目运行出现66% buil 98% after emitting CopyPlugin
- WH-1000XM3蓝牙连接笔记本电脑
- xshell 7 免费版安装
- (01)ORB-SLAM2源码无死角解析-(57) 闭环线程→计算Sim3:理论推导(2)求解R,使用四元数
- 5g时代php发展趋势,5g时代还有多久到来
- 企业办公最强“扫雷”秘籍,低代码避坑有一套
- ibm服务器做系统按f几,台式机华硕主板u盘启动按f几(启动u盘的快捷键介绍)...
- 大数据常见错误解决方案
- while(--i) 和 while(i--) 区别
- day12-基本搜索