Spinning up是openAI的一个入门RL学习项目,涵盖了从基础概念到各个baseline算法。
在此记录一下学习过程。

Spining Up 需要python3, OpenAI Gym,和Open MPI

目前Spining up 只支持在linux的OSX上,先按照官方的教程走一遍流程。

安装python

通过anaconda安装python

anaconda

选择对应文件下载安装anaconda即可,

通过conda创建环境

conda create -n spinningup python=3.6 #创建名为spinningup的环境,

激活环境

conda activate spinningup

安装openmpi

sudo apt-get update && sudo apt-get install libopenmpi-dev

安装OpenMPI是为了实现RL并行 (采样和网络更新等)

安装spinningup

git clone https://github.com/openai/spinningup.git
cd spinningup
pip install -e .

也可以通过手动下载, 使用命令python setup.py install 也可以进行安装。如果网络不好的话

spinningup的地址在:spinningup github

把下载好的压缩包文件放到某目录下(比如主文件夹下)

再安装即可

接下来在测试环境

python -m spinup.run ppo --hid "[32,32]" --env LunarLander-v2 --exp_name installtest --gamma 0.999

可以进行训练说明环境已经搭建好了

可以看到stopIter是79大概意思是要迭代79轮

然而训练了49轮就结束了。。

看return的效果似乎并不是很好

python -m spinup.run test_policy data/installtest/installtest_s0

可以看一下训练的效果、

可以看出效果还不是很好,

通过

python -m spinup.run plot data/installtest/installtest_s0

可以生成训练的曲线

安装mujoco

同样,到https://github.com/openai/mujoco-py 下载code

根据github下面官方说明进行安装

mujoco还需要许可证才能运行

目前mujuco免费,在 https://www.roboti.us/license.html下载,并将对应的ID填入。

最后安装与gym相关联的包

pip install gym[mujoco,robotics]

进行测试

python -m spinup.run ppo --hid "[32,32]" --env Walker2d-v2 --exp_name mujocotest

强化学习入门项目 Spinning up OpenAI (1) installation相关推荐

  1. 强化学习入门项目 Spinning up OpenAI (2) 基本使用

    Spinning up包含下列算法 VPG TRPO PPO DDPG TD3 SAC 以上算法均应用了MLP的actor-critics,适用于fully-observed, non-image-b ...

  2. 强化学习入门项目spinning up(1)安装

    文章目录 0.前言 1.安装python 2.安装 OpenMPI 3.安装 Spinning up 4.检查安装成功与否 5.安装 MuJoCo(可选) 0.前言 好久之前就看到很多人推荐学习spi ...

  3. 多智能体强化学习入门

    参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈 推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...

  4. 强化学习入门这一篇就够了!!!万字长文

    强化学习 强化学习入门这一篇就够了万字长文带你明明白白学习强化学习... 强化学习入门这一篇就够了 强化学习 前言 一.概率统计知识回顾 1.1 随机变量和观测值 1.2 概率密度函数 1.3 期望 ...

  5. 强化学习入门知识与经典项目分析1.3

    Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...

  6. 用深度强化学习玩atari游戏_(一)深度强化学习·入门从游戏开始

    1.在开始正式进入学习之前,有几个概念需要澄清,这样有利于我们对后续的学习有一个大致的框架感 监督型学习与无监督型学习 深度强化学习的范畴 监督型学习是基于已有的带有分类标签的数据集合,来拟合神经网络 ...

  7. 【强化学习入门】梯度赌博机算法中,偏好函数更新:梯度上升公式是精确梯度上升的随机近似的证明

    本文证明强化学习入门问题:K摇臂赌博机的梯度赌博机算法中,偏好函数更新公式:Ht+1(At)=Ht(At)+α(Rt−Rt‾)(1−πt(At))H_{t+1}(A_t) = H_t(A_t) + \ ...

  8. 【ziuno】强化学习入门—超级马里奥

    强化学习入门-超级马里奥 对象抽取:马里奥.金币.板栗仔(蘑菇怪) 术语 智能体-Agent:马里奥 状态(S或s)-State:当前游戏画面 动作(A或a)-Action:智能体(马里奥)的,左.右 ...

  9. 强化学习入门8—深入理解DDPG

    文章目录 Deep Deterministic Policy Gradient 简介 网络结构 算法流程 小结 本文是强化学习入门系列的第八篇,前面我们讲Actor-Critic时提到了DDPG.DD ...

最新文章

  1. 手画:mvc三层框架生图
  2. 城科会刘朝晖:从互联网大脑模型看城市大脑
  3. 在C#中,变量名前的@符号是什么意思? [重复]
  4. linux 设置变量在脚本之外可用,linux – 在ssh上运行脚本时,环境变量不可用
  5. 计算机网络作业6,计算机网络作业 6
  6. Python学习笔记之While循环(二)
  7. linux vim编辑
  8. Django Rest framework的限流实现流程
  9. 使用LIstView和自定义Adapter完成列表信息显示
  10. ASP.NET中Request.InputStream使用
  11. 在python中使用csv读写CSV
  12. linux fedora14 u盘运行,用U盘安装FEDORA14后必须从U盘启动,从硬盘无法启动
  13. 计算机播放qq音乐没声音怎么办,Win7电脑中QQ音乐听不了怎么办?
  14. 学习笔记15-L298N
  15. 【Java前端】CSS(一)[字体,文本属性,调试工具]
  16. 程序员值得关注的微信公众号
  17. matlab读取TXT文件数据,二进制文件数据
  18. MCD12Q1数据处理教程——基于HEG、ArcGIS和ENVI
  19. PNAS:人类大脑性别间差异研究—基于结构、功能及转录组多模态分析
  20. 1、蓝牙核心技术了解(蓝牙协议、架构、硬件和软件笔记)

热门文章

  1. 推荐一本书:《Visual C++程序开发范例宝典》——你可以找到你想要的实例
  2. python智能抠图
  3. php实现addon安装卸载,插件Addon文件
  4. 华为策略路由原理与实验
  5. 电脑重置后需要清除tpm吗
  6. vue-router.esm.js?3423:2065 Uncaught (in promise) NavigationDuplicated: Avoided redundant navig错误解析
  7. 计算机二级考试准考证打印指南 计算机二级考试准考证打印入口
  8. 公历农历显示节日节气星期等万年历
  9. 牛客网视频总结5(二叉树)
  10. 解决 WKWebView goback执行无效的bug