强化学习入门项目 Spinning up OpenAI (1) installation
Spinning up是openAI的一个入门RL学习项目,涵盖了从基础概念到各个baseline算法。
在此记录一下学习过程。
Spining Up 需要python3, OpenAI Gym,和Open MPI
目前Spining up 只支持在linux的OSX上,先按照官方的教程走一遍流程。
安装python
通过anaconda安装python
anaconda
选择对应文件下载安装anaconda即可,
通过conda创建环境
conda create -n spinningup python=3.6 #创建名为spinningup的环境,
激活环境
conda activate spinningup
安装openmpi
sudo apt-get update && sudo apt-get install libopenmpi-dev
安装OpenMPI是为了实现RL并行 (采样和网络更新等)
安装spinningup
git clone https://github.com/openai/spinningup.git
cd spinningup
pip install -e .
也可以通过手动下载, 使用命令python setup.py install 也可以进行安装。如果网络不好的话
spinningup的地址在:spinningup github
把下载好的压缩包文件放到某目录下(比如主文件夹下)
再安装即可
接下来在测试环境
python -m spinup.run ppo --hid "[32,32]" --env LunarLander-v2 --exp_name installtest --gamma 0.999
可以进行训练说明环境已经搭建好了
可以看到stopIter是79大概意思是要迭代79轮
然而训练了49轮就结束了。。
看return的效果似乎并不是很好
python -m spinup.run test_policy data/installtest/installtest_s0
可以看一下训练的效果、
可以看出效果还不是很好,
通过
python -m spinup.run plot data/installtest/installtest_s0
可以生成训练的曲线
安装mujoco
同样,到https://github.com/openai/mujoco-py 下载code
根据github下面官方说明进行安装
mujoco还需要许可证才能运行
目前mujuco免费,在 https://www.roboti.us/license.html下载,并将对应的ID填入。
最后安装与gym相关联的包
pip install gym[mujoco,robotics]
进行测试
python -m spinup.run ppo --hid "[32,32]" --env Walker2d-v2 --exp_name mujocotest
强化学习入门项目 Spinning up OpenAI (1) installation相关推荐
- 强化学习入门项目 Spinning up OpenAI (2) 基本使用
Spinning up包含下列算法 VPG TRPO PPO DDPG TD3 SAC 以上算法均应用了MLP的actor-critics,适用于fully-observed, non-image-b ...
- 强化学习入门项目spinning up(1)安装
文章目录 0.前言 1.安装python 2.安装 OpenMPI 3.安装 Spinning up 4.检查安装成功与否 5.安装 MuJoCo(可选) 0.前言 好久之前就看到很多人推荐学习spi ...
- 多智能体强化学习入门
参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈 推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...
- 强化学习入门这一篇就够了!!!万字长文
强化学习 强化学习入门这一篇就够了万字长文带你明明白白学习强化学习... 强化学习入门这一篇就够了 强化学习 前言 一.概率统计知识回顾 1.1 随机变量和观测值 1.2 概率密度函数 1.3 期望 ...
- 强化学习入门知识与经典项目分析1.3
Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...
- 用深度强化学习玩atari游戏_(一)深度强化学习·入门从游戏开始
1.在开始正式进入学习之前,有几个概念需要澄清,这样有利于我们对后续的学习有一个大致的框架感 监督型学习与无监督型学习 深度强化学习的范畴 监督型学习是基于已有的带有分类标签的数据集合,来拟合神经网络 ...
- 【强化学习入门】梯度赌博机算法中,偏好函数更新:梯度上升公式是精确梯度上升的随机近似的证明
本文证明强化学习入门问题:K摇臂赌博机的梯度赌博机算法中,偏好函数更新公式:Ht+1(At)=Ht(At)+α(Rt−Rt‾)(1−πt(At))H_{t+1}(A_t) = H_t(A_t) + \ ...
- 【ziuno】强化学习入门—超级马里奥
强化学习入门-超级马里奥 对象抽取:马里奥.金币.板栗仔(蘑菇怪) 术语 智能体-Agent:马里奥 状态(S或s)-State:当前游戏画面 动作(A或a)-Action:智能体(马里奥)的,左.右 ...
- 强化学习入门8—深入理解DDPG
文章目录 Deep Deterministic Policy Gradient 简介 网络结构 算法流程 小结 本文是强化学习入门系列的第八篇,前面我们讲Actor-Critic时提到了DDPG.DD ...
最新文章
- 手画:mvc三层框架生图
- 城科会刘朝晖:从互联网大脑模型看城市大脑
- 在C#中,变量名前的@符号是什么意思? [重复]
- linux 设置变量在脚本之外可用,linux – 在ssh上运行脚本时,环境变量不可用
- 计算机网络作业6,计算机网络作业 6
- Python学习笔记之While循环(二)
- linux vim编辑
- Django Rest framework的限流实现流程
- 使用LIstView和自定义Adapter完成列表信息显示
- ASP.NET中Request.InputStream使用
- 在python中使用csv读写CSV
- linux fedora14 u盘运行,用U盘安装FEDORA14后必须从U盘启动,从硬盘无法启动
- 计算机播放qq音乐没声音怎么办,Win7电脑中QQ音乐听不了怎么办?
- 学习笔记15-L298N
- 【Java前端】CSS(一)[字体,文本属性,调试工具]
- 程序员值得关注的微信公众号
- matlab读取TXT文件数据,二进制文件数据
- MCD12Q1数据处理教程——基于HEG、ArcGIS和ENVI
- PNAS:人类大脑性别间差异研究—基于结构、功能及转录组多模态分析
- 1、蓝牙核心技术了解(蓝牙协议、架构、硬件和软件笔记)
热门文章
- 推荐一本书:《Visual C++程序开发范例宝典》——你可以找到你想要的实例
- python智能抠图
- php实现addon安装卸载,插件Addon文件
- 华为策略路由原理与实验
- 电脑重置后需要清除tpm吗
- vue-router.esm.js?3423:2065 Uncaught (in promise) NavigationDuplicated: Avoided redundant navig错误解析
- 计算机二级考试准考证打印指南 计算机二级考试准考证打印入口
- 公历农历显示节日节气星期等万年历
- 牛客网视频总结5(二叉树)
- 解决 WKWebView goback执行无效的bug