安装gym库_强化学习Gym库学习实践(一）

最近看了一篇研究方向相关的文章，介绍了一种DQN的应用，感觉还挺新鲜的。想着把这篇文章复现出来，就开始学习强化学习的相关知识，作为一名小白，这一路走的可是真的十分艰难（我太菜了啊！）

看了莫烦Python的教程介绍，了解到有一个用于构造强化学习环境的库叫做gym，我就跑去学习了，还处于慢慢摸索中吧，一点一点来，把学习过程记录在这里。

这篇文章主要会记录以下两点：

Gym库的官网，在我电脑上是gym支持windows10了，安装很简单，就是pip3 install gym/gym[all]，后者gym[all]我也是后来知道的，就是更加完整的gym库，但是前者就够用了
Gym库中几个最重要的基类的源代码的介绍

一、Gym库的"Hello World"

现在开始介绍Gym库，它的官网上的文档说明在这：

https://gym.openai.com/docs/gym.openai.com

这段代码被称为gym库的Hello World，但是说实话，作为小白的我看到这些是懵逼的。尤其是这句：

env=gym.make('CartPole-v0')

这行代码是生成了一个已经在gym中注册的环境，这个环境名叫做CartPole，这个环境的代码在这里:

https://github.com/openai/gym/blob/master/gym/envs/classic_control/cartpole.pygithub.com

在知乎上有一位前辈写了一个格子世界环境，github上有源代码，对这个CartPole的源代码进行了注释，他的文章链接和github代码链接在这里，感谢他：

Orion Nebula：强化学习快速上手：编写自定义通用gym环境类+主流开源强化学习框架调用zhuanlan.zhihu.com

https://github.com/gxnk/reinforcement-learning-code/blob/master/%E7%AC%AC%E4%B8%80%E8%AE%B2%20%20gym%20%E5%AD%A6%E4%B9%A0%E5%8F%8A%E4%BA%8C%E6%AC%A1%E5%BC%80%E5%8F%91/cartpole_notes.pygithub.com

这个环境是gym库中写好的一个Env类，就是环境的基类。此处插播小白必备，如果你跟我一样不熟悉Python的类与继承的语法，这边请：

Python 面向对象 | 菜鸟教程www.runoob.com

我们都知道强化学习中最基本的模型是马尔可夫过程，其中最核心的过程就是智能体与环境的交互，所以在实现强化学习算法时的第一步就是构造环境，这也是gym库的最大优势：

我们只需要继承基类，重写其中的方法就可以。

二、环境基类Env源代码介绍

Env基类的代码在这里：

https://github.com/openai/gym/blob/0cd9266d986d470ed9c0dd87a41cd680b65cfe1c/gym/core.pygithub.com

现在我就把源码读一遍，然后把重要的部分放到这里来：

它介绍说这是主要的一个类，它可以覆盖拥有任意动态特性的环境，这些环境可以是完全观测的（MDP），也可以是部分观测的。(POMDP）

主要的5个方法，也是我们构建环境时要重写的几个方法

环境基类中的几个可以设置的属性，主要是前两个吧，动作空间action_space与状态空间observation_space，这个还需要了解另一个重要的基类Spaces的源代码，后面会做介绍。第三个是reward_range，默认是[负无穷，正无穷]，需要的话再修改。

前者是在需要可视化的时候用到的元组数据，需要选择render中的模式，后面看了render的源代码我会再补充过来。然后spec我不知道是什么。

第二个就是在所有的子类中都要去设定的，default值的None

几个函数的说明

因为我的使用过程中不太会涉及到可视化的内容，所以我这里只讲Env类中最直接相关的三个方法：Reset() Step() 与 _init_()

Reset() 是初始化函数，在每一个训练episode之后都要对环境进行初始化，功能很简单，就是回到初始状态

reset方法的说明

Step() 是用来描述智能体与环境的交互过程的函数，也是我们在编写自己的环境的时候重点要重写的。用大白话讲就是我们要在这里定义我们的环境里的游戏规则

Step方法的说明

此方法的输入是智能体可以产生的动作，输出是四个，分别是：

Observation:智能体观测到的当前环境的状态

Reward: 由上一个动作产生的奖励值

done：一个指示位，表示这一训练周期是否结束，True or False

info：包含一些其余信息，结构是字典

最后一行的raise是我新学到的知识，可以看这篇博客，目的是防止step方法在继承的子类中未被声明却被调用。

https://blog.csdn.net/grey_csdn/article/details/77074707blog.csdn.net

_Init_() 环境的初始化函数

我在源代码里第一次看到初始化函数是在这里

Wrapper子类的说明

原谅我的水平不够，我只能理解到Wrapper的作用是一种包装，可以在不改动源代码的情况下重写某些方法来改变环境的属性，也就是改变强化学习的游戏规则。

简单的理解就是要在初始化函数中声明动作空间，状态空间，奖励值范围，元组数据（如果需要）。

Subclass GoalEnv()

Gym库还提供了一种环境子类叫做GoalEnv

在这个子类中，会有一个desired_goal的变量，大概理解就是一种目的性很强的强化学习吧，有需要的各位可以去看看。

三、空间基类Space源代码介绍

另外一个很重要的基类就是Space类

在这里在介绍两个常用的子类： Discrete类与 Box类

简单理解的话Discrete类是一个一维离散空间

Box类是一个多维空间，不同维度的上下界可以是不同的，如下图所示：

关于空间的这部分之后后面还要补充，把几个基本的方法的功能介绍一下，今天累了就先写到这里。两个基本方法有：

Sample()

Contains()

在编写自己的环境的时候只要 from gym import spaces就可以使用Box 和 Discrete啦，因为他们都在spaces这个文件夹下：

openai/gymgithub.com

下一篇文章里我会先学习gym库中的官方环境和前辈们写的环境，然后尝试编写自己的一个无线网络资源调度问题的强化学习环境。

四、感谢各位前辈

感谢各位知乎的前辈们的文章对我的帮助，他们的文章是我学习路上不可或缺的助力（都是大佬，太强了，膜拜！）

强化学习知识大讲堂

天津包子馅儿：强化学习实战第一讲 gym学习及二次开发zhuanlan.zhihu.com

叶强：强化学习实践二理解gym的建模思想zhuanlan.zhihu.com

沫凡大神的系列教程

https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/morvanzhou.github.io