写一个强化学习训练的gym环境

需求

要用强化学习(Reinforcement Learning)算法解决问题，需要百千万次的训练，真实环境一般不允许这么多次训练（时间太长、试错代价太大），需要开发仿真环境。OpenAI的gym环境是目前的标准，遵守其API写一个自定义的环境可以被各种强化学习算法无码调用。

gym API要求

分析gym的代码和文档，可以看出，一个环境至少应该包含动作空间(action space)、状态空间(observation space)定义，以及reset()、step()、render()、close()方法，代码结构如下：

from typing import Optional
import gym
from gym import spacesclass MyEnv(gym.Env):def __init__(self):self.observation_space = spaces.Box(-np.inf, np.inf, shape=(5,), dtype=np.float32)#5个浮点数状态空间self.action_space = spaces.Discrete(3)#0,1,2三个动作空间def step(self, action):passdef reset(self,*,seed: Optional[int] = None,return_info: bool = False,options: Optional[dict] = None):passdef render(self, mode="human"):return Nonedef close(self):pass

环境的测试

自定义环境写好后，首先应该用预设数据进行测试，看结果是否符合预期，排出完bug之后，再交给RL算法去训练。

修改最多的地方就是奖励机制(reward)了，与领域问题密切相关，比如我的环境是仿真加热过程，温度每增加1℃得1分对么？实际温升的成本与温度之间不是线性关系，是指数函数，我感觉环境的学问90%都在奖励机制的设计上了。

注册为gym环境

我照着知乎这篇文章做的，分三步：

第一步：将我们自己的环境文件（我创建的文件名为myenv.py)拷贝到你的gym安装目录/gym/gym/envs/classic_control文件夹中。（拷贝在这个文件夹中因为要使用rendering模块。当然，也有其他办法。该方法不唯一）

第二步：打开该文件夹（第一步中的文件夹）下的__init__.py文件，在文件末尾加入语句：

from gym.envs.classic_control.myenv import MyEnv

第三步：进入文件夹你的gym安装目录/gym/gym/envs，打开该文件夹下的__init__.py文件，添加代码：

register(
id='MyEnv-v0',
entry_point='gym.envs.classic_control:GridEnv',
max_episode_steps=200,
reward_threshold=100.0,
)

在RL算法上训练

RL算法很多，实现就更五花八门了，推荐github上面星比较多的，我用的cleanrl，理念是一个算法一个独立文件搞定，B站上有作者介绍PPO的视频。把ppo.py文件中的env-name参数替换为MyEnv后就可以跑起来了，默认env-nums是4个，我改成了20个。

跑了4个小时，训练基本收敛了，满分应该是72.33分左右

仿真速度

当你的仿真算法复杂时，速度恐怕不乐观，要训练1M次十天半个月的等不起，这时候就要优化仿真代码的速度，并考虑多环境并发训练了。

在我的仿真逻辑中，大计算量在蒸汽的物性参数计算上，而这个计算是在一定温度范围内才需要做的，加一些判断避免不必要的计算可以提高计算速度。

cleanrl默认用的是SyncVectorEnv(单进程内顺序调用环境)，可以修改为AsyncVectorEnv，然后每个环境都会在独立的子进程中运行，再以通讯的方式与智能体进行交互。我试了20报错，spawn页面太小无法完成操作，修改D盘虚拟内存后，试10时似乎错误少了，改为8不报错了，可能是系统资源受限了吧，这回速度快了。