文章目录

  • 0.前言
  • 1.安装python
  • 2.安装 OpenMPI
  • 3.安装 Spinning up
  • 4.检查安装成功与否
  • 5.安装 MuJoCo(可选)

0.前言


好久之前就看到很多人推荐学习spinning up,无奈自己电脑只有win系统。最近终于在实验室的新机器上装好了双系统,于是最近打算进行spinning up的系列学习。

整个项目包括以下内容:

  • 对 RL 术语、算法种类和基础理论的简短介绍。
  • 一篇关于如何成长为 RL 研究角色的文章。
  • 按主题组织的重要论文的精选列表。
  • 一个有据可查的代码库,包含关键算法的简短、独立的实现,以及一些作为热身的练习。

本篇文章主要记录spinning up的安装过程。

差点忘记分享spinning up的链接了。
中文文档链接:https://spinningup.qiwihui.com/zh_CN/latest/index.html
英文文档链接:https://spinningup.openai.com/en/latest/index.html
github地址:https://github.com/openai/spinningup

安装的过程主要是下图的五个部分。

1.安装python

这部分我们按照文档说明安装,首先我们需要有anaconda,这个python包管理软件我相信大家都熟悉,就不多说了。

通过下方命令创建名为spinningup的一个新环境

conda create -n spinningup python=3.6



要在刚创建的环境中使用Python,可以通过下面的命令激活环境:

conda activate spinningup

2.安装 OpenMPI

OpenMPI作用:为了实现RL并行 (采样和网络更新等)

sudo apt-get update && sudo apt-get install libopenmpi-dev

3.安装 Spinning up

git clone https://github.com/openai/spinningup.git
cd spinningup
pip install -e .


有可能你会遇到下面的报错:

也就是mpi4py安装失败
参考:https://blog.csdn.net/CAIYUNFREEDOM/article/details/121750296
使用conda install mpi4py对其单独安装

然后再次执行一遍

pip install -e .


可以看到没有报错了。

4.检查安装成功与否

python -m spinup.run ppo --hid "[32,32]" --env LunarLander-v2 --exp_name installtest --gamma 0.999


训练过程:

训练完毕:

训练结束后,观看有关训练过的策略的视频:

python -m spinup.run test_policy data/installtest/installtest_s0


绘制训练曲线:

python -m spinup.run plot data/installtest/installtest_s0

5.安装 MuJoCo(可选)

这里先不安装,如果想要安装可以参考官方文档进行。

强化学习入门项目spinning up(1)安装相关推荐

  1. 强化学习入门项目 Spinning up OpenAI (1) installation

    Spinning up是openAI的一个入门RL学习项目,涵盖了从基础概念到各个baseline算法. 在此记录一下学习过程. Spining Up 需要python3, OpenAI Gym,和O ...

  2. 强化学习入门项目 Spinning up OpenAI (2) 基本使用

    Spinning up包含下列算法 VPG TRPO PPO DDPG TD3 SAC 以上算法均应用了MLP的actor-critics,适用于fully-observed, non-image-b ...

  3. 强化学习入门知识与经典项目分析1.3

    Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...

  4. 用深度强化学习玩atari游戏_(一)深度强化学习·入门从游戏开始

    1.在开始正式进入学习之前,有几个概念需要澄清,这样有利于我们对后续的学习有一个大致的框架感 监督型学习与无监督型学习 深度强化学习的范畴 监督型学习是基于已有的带有分类标签的数据集合,来拟合神经网络 ...

  5. 【强化学习入门】梯度赌博机算法中,偏好函数更新:梯度上升公式是精确梯度上升的随机近似的证明

    本文证明强化学习入门问题:K摇臂赌博机的梯度赌博机算法中,偏好函数更新公式:Ht+1(At)=Ht(At)+α(Rt−Rt‾)(1−πt(At))H_{t+1}(A_t) = H_t(A_t) + \ ...

  6. 多智能体强化学习入门

    参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈 推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...

  7. 强化学习入门这一篇就够了!!!万字长文

    强化学习 强化学习入门这一篇就够了万字长文带你明明白白学习强化学习... 强化学习入门这一篇就够了 强化学习 前言 一.概率统计知识回顾 1.1 随机变量和观测值 1.2 概率密度函数 1.3 期望 ...

  8. 【ziuno】强化学习入门—超级马里奥

    强化学习入门-超级马里奥 对象抽取:马里奥.金币.板栗仔(蘑菇怪) 术语 智能体-Agent:马里奥 状态(S或s)-State:当前游戏画面 动作(A或a)-Action:智能体(马里奥)的,左.右 ...

  9. 强化学习入门8—深入理解DDPG

    文章目录 Deep Deterministic Policy Gradient 简介 网络结构 算法流程 小结 本文是强化学习入门系列的第八篇,前面我们讲Actor-Critic时提到了DDPG.DD ...

最新文章

  1. entity framework 6 我写了一个公用数据类
  2. 基于jQuery 2.0的源代码分析
  3. java 更新ui_你怎么解决Android开发中更新UI报错的异常吗-百度经验
  4. java中flush 函数,Java DataOutputStream.flush()类型
  5. 梦幻西游物价稳定的服务器,梦幻西游:三界功绩对服务器点卡比例的影响,鬼区比例比火区高...
  6. rocketMq发送事务消息
  7. 【英语学习】【Level 07】U05 Best Destination L5 Top choice
  8. 华三 h3c路由协议BGP对等体组、反射器、路由选路综合实验
  9. java加解密之DES多种使用方式
  10. 鸿蒙电脑系统连不上打印机,电脑与打印机脱机怎么连接
  11. 彻底删除卸载2345安全卫士及2345浏览器
  12. Java 练习之回合制游戏,练习接口,随机,数组,可变参数
  13. 【持续更新中······】 各种模板+神奇黑科技
  14. c++ 小游戏 NO 9 最后主函数
  15. linux下的打包命令
  16. 【栈的应用】括号的分数
  17. ChatGPT修bug横扫全场,准确率达78%!程序员要开心了
  18. Java静态类的使用
  19. chinapay java_Chinapay应用技术部Java编码规范.docx
  20. SCI英文论文编辑技巧和应注意事项

热门文章

  1. proteus软件闪退与许可证到期问题解决办法
  2. 这四十年来的香港歌坛在唱些什么,“南中国听歌最多”的数据分析师带你一探究竟...
  3. svg 地图_一秒带你制作出全国各省市区县地图
  4. 微信开发上传视频到服务器,微信小程序中实现上传视频的开发代码
  5. CHAOS;HEAD 简体中文汉化补丁版 攻略(0.9版)
  6. GTC 2020:开发者谈NS版《巫师3》移植
  7. /usr/bin/env: ‘node’: Input/output error
  8. C++一本通题库1008
  9. 邓白氏码查询不能用_邓白氏编码查询有哪些意义?
  10. Foxmail:完美配置QQ邮箱、163邮箱、Google邮箱