本文汇总了常用的验证强化学习算法的开源环境平台。

  当我们设计了一个强化学习算法之后,我们如何来验证算法的好坏呢?就像数据集一样,我们需要一个公认的平台来衡量这个算法。这样的一个平台,最基本的需要有仿真和渲染。

OpenAI Gym and Universe

  业界最出名的莫过于GymUniverse了。OpenAI Gym用于评估和比较强化学习算法的好坏。它的接口支持在任何框架下的算法,像TensorFlow, Theano, Keras这些都可以。

  Gym库收集、解决了很多环境的测试过程中的问题,能够很好地使得你的强化学习算法得到很好地Work。并且含有游戏界面,能够帮助你去写通用性更强的算法。业界现在主流的就是这个环境,如果有还没有了解过的,需要配置的同学,可以参考我之前写的一篇详细的安装使用教程:强化学习环境-Gym安装到使用入门

  在各大顶会上经常会看到用于连续控制物理引擎的MuJoCo但这个收费的。

RoboSchool

  作为MuJoCo实现的替代品,OpenAI开发了基于Bullet物理引擎的Roboschool 。它提供了OpenAI Gym形式的接口用于模拟机器人控制。目前包含了12个环境。其中除了传统的类似MuJoCo的场景,还有交互控制,及多智能体控制场景。

  • GitHub链接:https://github.com/openai/roboschool
  • 官网链接:https://openai.com/blog/roboschool/

  Gym中还有用于机械臂的抓取和灵巧手的机械手、机械臂环境Robotics:

  • GitHub链接:https://github.com/openai/gym
  • 官网链接:http://gym.openai.com/

  OpenAI Universe相当于是OpenAI Gym的一个扩展,它所能提供的环境更加的复杂,有即时战略游戏的味道,对决策时间有一定的要求。

  Universe的发布也算是业界福音,任何程序都可以被转换成一个Gym的环境。Universe 通过自动启动程序在一个VNC远程桌上进行工作,所以它不需要对程序内部、源码或者bot API的特别访问。环境被打包Docker镜像,安装使用将更加方便。

  • GitHub链接:https://github.com/openai/universe
  • 官网链接:https://openai.com/blog/universe/

DeepMind Lab

  DeepMind Lab是一个第一人称3D游戏平台,它以丰富的科幻视觉来呈现场景。可用的操作能让智能体环顾四周,并以3D的形式移动。示例任务包括收集水果、走迷宫、穿越危险的通道且要避免从悬崖上坠落、使用发射台在平台间移动、玩激光笔、以及快速学习并记住随机生成的环境。DeepMind Lab已经成为DeepMind内部的一个主要研究平台,DeepMind Lab同时拥有更丰富的视觉效果和更自然的物理效果。

  • 官网链接:https://deepmind.com/research/publications/deepmind-lab
  • GitHub链接:https://github.com/deepmind/lab

Project Malmo

  Malmo由微软剑桥研究员Katja Hofmann带领开发,是Microsoft基于Minecraft(我的世界)开发的一个人工智能实验和研究平台。这个平台也还用于第一届协同AI挑战赛

  Malmo是用于多智能体强化学习算法的开源平台,要求智能体之间相互合作,将协同AI做到极致。并且研究人员还可以加速《我的世界》中的时钟,加快试验速度。

  • GitHub链接:https://github.com/crowdAI/marLo
  • 协同AI挑战赛官网:https://www.microsoft.com/en-us/research/academic-program/collaborative-ai-challenge/

ViZDoom

  ViZDoom提供了用AI玩毁灭战士游戏的环境(一人称射击类游戏)。它提供的是一个多智能体竞争博弈的一个环境,用于测试算法的好坏。

  • GitHub链接:https://github.com/mwydmuch/ViZDoom

我的微信公众号名称:深度学习先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究深度学习、强化学习、机器博弈等相关内容!期待您的关注,欢迎一起学习交流进步!

深度强化学习中实验环境-开源平台框架汇总相关推荐

  1. 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...

    No.26 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  2. 深度强化学习中的好奇心

    本文为 AI 研习社编译的技术博客,原标题 : Curiosity in Deep Reinforcement Learning 作者 | Michael Klear 翻译 | 凝决2018 校对 | ...

  3. 深度强化学习中的episode、epoch、batch-size、iteration

    深度强化学习中的episode.epoch.batch-size.iteration batch_size iteration epoch episode batch_size 即批大小,如果把全部数 ...

  4. 深度强化学习中的泛化

    Overfitting in Supervised Learning 机器学习是一门学科,其中给定了一些训练数据\环境,我们希望找到一个优化目标的模型,但其目的是在训练期间从未见过的数据上表现出色.通 ...

  5. 深度强化学习中Double DQN算法(Q-Learning+CNN)的讲解及在Asterix游戏上的实战(超详细 附源码)

    需要源码和环境搭建请点赞关注收藏后评论区留下QQ~~~ 一.核心思想 针对DQN中出现的高估问题,有人提出深度双Q网络算法(DDQN),该算法是将强化学习中的双Q学习应用于DQN中.在强化学习中,双Q ...

  6. 深度强化学习中带有阴影的曲线是怎么画的?

    记录学习一下: 1.强化学习论文里的训练曲线是用什么画的?如何计算相关变量 - 深度强化学习实验室 2. 论文中画带标准差阴影的曲线图:seaborn.lineplot()_条件反射104的博客-CS ...

  7. 深度强化学习中利用Q-Learngin和期望Sarsa算法确定机器人最优策略实战(超详细 附源码)

    需要源码和环境搭建请点赞关注收藏后评论区留下QQ~~~ 一.Q-Learning算法 Q-Learning算法中动作值函数Q的更新方向是最优动作值函数q,而与Agent所遵循的行为策略无关,在评估动作 ...

  8. 深度强化学习系列之(13): 深度强化学习实验中应该使用多少个随机种子?

    How Many Random Seeds Should I Use? Statistical Power Analysis in (Deep) Reinforcement Learning Expe ...

  9. 八千字长文深度解读,迁移学习在强化学习中的应用及最新进展

    点击我爱计算机视觉标星,更快获取CVML新技术 本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载. 机器之心原创 作者:Luo Sainan 编辑:H4O 迁移学习通 ...

  10. 深度强化学习基础(一):RL中的基本概念

    目录 强化学习是什么? 强化学习能做什么? 关键概念和术语 概率论 术语 AI如何控制agent 策略学习--学习policy函数​ 价值学习--学习最优动作价值函数 总结 强化学习是什么? 强化学习 ...

最新文章

  1. ORACLE 多表关联 UPDATE 语句
  2. 【不积跬步,无以致千里】linux下如何查看自己的外网IP
  3. recyclerview 横向卡片效果_UI设计中卡片式应如何设计
  4. Xmind 中附件的存放位置
  5. 爱尚QQ网修改QQ在线机型源码
  6. C#选择文件、选择文件夹、打开文件(OpenDialog,FolderBrowserDialog)
  7. 雅虎邮箱 找回密码_如何恢复被遗忘的Yahoo! 密码
  8. 转载:wps怎么制作半圆形时间轴? wps彩色时间轴的制作方法
  9. PHP 5.6,7.0,7.1,7.2 和 HHVM 运行效率比较
  10. Java项目:超市进销存管理系统(java+SpringBoot+Html+Layui+echarts+mysql)
  11. vue项目运行出现66% buil 98% after emitting CopyPlugin
  12. WH-1000XM3蓝牙连接笔记本电脑
  13. xshell 7 免费版安装
  14. (01)ORB-SLAM2源码无死角解析-(57) 闭环线程→计算Sim3:理论推导(2)求解R,使用四元数
  15. 5g时代php发展趋势,5g时代还有多久到来
  16. 企业办公最强“扫雷”秘籍,低代码避坑有一套
  17. ibm服务器做系统按f几,台式机华硕主板u盘启动按f几(启动u盘的快捷键介绍)...
  18. 大数据常见错误解决方案
  19. while(--i) 和 while(i--) 区别
  20. day12-基本搜索

热门文章

  1. C# 获取项目程序路径的10种方法
  2. 今天是有纪念意义的一天--中国13亿人口日
  3. web安全day9:5个实验实实在在学习windows域部署
  4. Linux安装Python3详解
  5. keepalived详解(三)——keepalived与Nginx配合实战
  6. Unity项目中的资源管理
  7. stringstream 使用方法
  8. SchoolTool:先进的学院管理和信息系统
  9. cisco dce dte
  10. Unity 怎么把app改成中文名