强化学习入门项目spinning up(1)安装
文章目录
- 0.前言
- 1.安装python
- 2.安装 OpenMPI
- 3.安装 Spinning up
- 4.检查安装成功与否
- 5.安装 MuJoCo(可选)
0.前言
好久之前就看到很多人推荐学习spinning up,无奈自己电脑只有win系统。最近终于在实验室的新机器上装好了双系统,于是最近打算进行spinning up的系列学习。
整个项目包括以下内容:
- 对 RL 术语、算法种类和基础理论的简短介绍。
- 一篇关于如何成长为 RL 研究角色的文章。
- 按主题组织的重要论文的精选列表。
- 一个有据可查的代码库,包含关键算法的简短、独立的实现,以及一些作为热身的练习。
本篇文章主要记录spinning up的安装过程。
差点忘记分享spinning up的链接了。
中文文档链接:https://spinningup.qiwihui.com/zh_CN/latest/index.html
英文文档链接:https://spinningup.openai.com/en/latest/index.html
github地址:https://github.com/openai/spinningup
安装的过程主要是下图的五个部分。
1.安装python
这部分我们按照文档说明安装,首先我们需要有anaconda,这个python包管理软件我相信大家都熟悉,就不多说了。
通过下方命令创建名为spinningup的一个新环境
conda create -n spinningup python=3.6
要在刚创建的环境中使用Python,可以通过下面的命令激活环境:
conda activate spinningup
2.安装 OpenMPI
OpenMPI作用:为了实现RL并行 (采样和网络更新等)
sudo apt-get update && sudo apt-get install libopenmpi-dev
3.安装 Spinning up
git clone https://github.com/openai/spinningup.git
cd spinningup
pip install -e .
有可能你会遇到下面的报错:
也就是mpi4py安装失败
参考:https://blog.csdn.net/CAIYUNFREEDOM/article/details/121750296
使用conda install mpi4py
对其单独安装
然后再次执行一遍
pip install -e .
可以看到没有报错了。
4.检查安装成功与否
python -m spinup.run ppo --hid "[32,32]" --env LunarLander-v2 --exp_name installtest --gamma 0.999
训练过程:
训练完毕:
训练结束后,观看有关训练过的策略的视频:
python -m spinup.run test_policy data/installtest/installtest_s0
绘制训练曲线:
python -m spinup.run plot data/installtest/installtest_s0
5.安装 MuJoCo(可选)
这里先不安装,如果想要安装可以参考官方文档进行。
强化学习入门项目spinning up(1)安装相关推荐
- 强化学习入门项目 Spinning up OpenAI (1) installation
Spinning up是openAI的一个入门RL学习项目,涵盖了从基础概念到各个baseline算法. 在此记录一下学习过程. Spining Up 需要python3, OpenAI Gym,和O ...
- 强化学习入门项目 Spinning up OpenAI (2) 基本使用
Spinning up包含下列算法 VPG TRPO PPO DDPG TD3 SAC 以上算法均应用了MLP的actor-critics,适用于fully-observed, non-image-b ...
- 强化学习入门知识与经典项目分析1.3
Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...
- 用深度强化学习玩atari游戏_(一)深度强化学习·入门从游戏开始
1.在开始正式进入学习之前,有几个概念需要澄清,这样有利于我们对后续的学习有一个大致的框架感 监督型学习与无监督型学习 深度强化学习的范畴 监督型学习是基于已有的带有分类标签的数据集合,来拟合神经网络 ...
- 【强化学习入门】梯度赌博机算法中,偏好函数更新:梯度上升公式是精确梯度上升的随机近似的证明
本文证明强化学习入门问题:K摇臂赌博机的梯度赌博机算法中,偏好函数更新公式:Ht+1(At)=Ht(At)+α(Rt−Rt‾)(1−πt(At))H_{t+1}(A_t) = H_t(A_t) + \ ...
- 多智能体强化学习入门
参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈 推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...
- 强化学习入门这一篇就够了!!!万字长文
强化学习 强化学习入门这一篇就够了万字长文带你明明白白学习强化学习... 强化学习入门这一篇就够了 强化学习 前言 一.概率统计知识回顾 1.1 随机变量和观测值 1.2 概率密度函数 1.3 期望 ...
- 【ziuno】强化学习入门—超级马里奥
强化学习入门-超级马里奥 对象抽取:马里奥.金币.板栗仔(蘑菇怪) 术语 智能体-Agent:马里奥 状态(S或s)-State:当前游戏画面 动作(A或a)-Action:智能体(马里奥)的,左.右 ...
- 强化学习入门8—深入理解DDPG
文章目录 Deep Deterministic Policy Gradient 简介 网络结构 算法流程 小结 本文是强化学习入门系列的第八篇,前面我们讲Actor-Critic时提到了DDPG.DD ...
最新文章
- entity framework 6 我写了一个公用数据类
- 基于jQuery 2.0的源代码分析
- java 更新ui_你怎么解决Android开发中更新UI报错的异常吗-百度经验
- java中flush 函数,Java DataOutputStream.flush()类型
- 梦幻西游物价稳定的服务器,梦幻西游:三界功绩对服务器点卡比例的影响,鬼区比例比火区高...
- rocketMq发送事务消息
- 【英语学习】【Level 07】U05 Best Destination L5 Top choice
- 华三 h3c路由协议BGP对等体组、反射器、路由选路综合实验
- java加解密之DES多种使用方式
- 鸿蒙电脑系统连不上打印机,电脑与打印机脱机怎么连接
- 彻底删除卸载2345安全卫士及2345浏览器
- Java 练习之回合制游戏,练习接口,随机,数组,可变参数
- 【持续更新中······】 各种模板+神奇黑科技
- c++ 小游戏 NO 9 最后主函数
- linux下的打包命令
- 【栈的应用】括号的分数
- ChatGPT修bug横扫全场,准确率达78%!程序员要开心了
- Java静态类的使用
- chinapay java_Chinapay应用技术部Java编码规范.docx
- SCI英文论文编辑技巧和应注意事项
热门文章
- proteus软件闪退与许可证到期问题解决办法
- 这四十年来的香港歌坛在唱些什么,“南中国听歌最多”的数据分析师带你一探究竟...
- svg 地图_一秒带你制作出全国各省市区县地图
- 微信开发上传视频到服务器,微信小程序中实现上传视频的开发代码
- CHAOS;HEAD 简体中文汉化补丁版 攻略(0.9版)
- GTC 2020:开发者谈NS版《巫师3》移植
- /usr/bin/env: ‘node’: Input/output error
- C++一本通题库1008
- 邓白氏码查询不能用_邓白氏编码查询有哪些意义?
- Foxmail:完美配置QQ邮箱、163邮箱、Google邮箱