强化学习（一）——专业术语及OpenAI Gym介绍

1. 专业术语
- 1.1 Agent（智能体）
- 1.2 Environment（环境）
- 1.3 State *s*（状态）
- 1.4 Action *a*（动作）
- 1.5 Reward *r*（奖励）
- 1.6 Policy *π*（策略函数）
- 1.7 State transition *p*(*s*’ |*s*, *a*)（状态转移函数）
- 1.8 Return *U*（回报）
- 1.8 Action-value function（动作价值函数）
- 1.9 Optimal action-value function（最优动作价值函数）
- 1.10 State-value function（状态价值函数）
2. OpenAI Gym
- 2.1 安装
- 2.2 简单使用

1. 专业术语

1.1 Agent（智能体）

强化学习的控制对象。

1.2 Environment（环境）

与智能体交互的对象。

1.3 State s（状态）

智能体所处状态。

1.4 Action a（动作）

智能体所能执行的操作。

1.5 Reward r（奖励）

智能体执行动作后获得奖励。

1.6 Policy π（策略函数）

动作的抽样函数。

1.7 State transition p(s’ |s, a)（状态转移函数）

Agent执行动作后获得的新状态。

1.8 Return U（回报）

未来的累计折扣奖励：Ut=Rt+γRt+1+γ2Rt+2+⋅⋅⋅U_t = R_t+\gamma R_{t+1}+ \gamma ^2R_{t+2} + ··· Ut=Rt+γRt+1+γ2Rt+2+⋅⋅⋅

1.8 Action-value function（动作价值函数）

Qπ(st,at)=E[Ut∣at,st]Q_π(s_t,a_t)=E[U_t|a_t,s_t] Qπ(st,at)=E[Ut∣at,st]

1.9 Optimal action-value function（最优动作价值函数）

Qπ∗(st,at)=max⁡πQπ(st,at)Q_π^*(s_t,a_t)=\displaystyle\max_{π}Q_π(s_t,a_t) Qπ∗(st,at)=πmaxQπ(st,at)

1.10 State-value function（状态价值函数）

Vπ(st)=EA[Qπ(st,A)]V_π(s_t)=E_A[Q_π(s_t,A)] Vπ(st)=EA[Qπ(st,A)]

2. OpenAI Gym

2.1 安装

conda create -n gym python=3.6.0
pip install gym matplotlib -i  https://pypi.tuna.tsinghua.edu.cn/simple

2.2 简单使用

import gym
import timeenv = gym.make("CartPole-v0")state = env.reset()for epoch in range(100):env.render()time.sleep(1)action = env.action_space.sample()state,reward,done,info = env.step(action)if done:print("Finish!")break
env.close()

本文为参考B站学习视频书写的笔记！

by CyrusMay 2022 03 28

青春是挽不回的水
转眼消失在指尖
——————五月天（疯狂世界）——————

强化学习（一）——专业术语及OpenAI Gym介绍相关推荐

Ubuntu下常用强化学习实验环境搭建(MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2)
原文地址:http://blog.csdn.net/jinzhuojun/article/details/77144590 和其它的机器学习方向一样,强化学习(Reinforcement Learni ...
常用增强学习实验环境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2)
常用增强学习实验环境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2) 标签: 强化学习OpenAI GymMuJoCoStarCra ...
【强化学习探索01】Win10 下gym安装
一.序言⾸先, gym 是 OpenAI 开发的通⽤强化学习算法测试平台, 背后有⼤神 Pieter Abbeel. Sergey Levine 等⼈率领的强⼤团队的⽀持.其次, 学会了gym的基本 ...
强化学习：MuJoCo、mujoco_py、gym的安装
目录 Obtain License Linux 系统安装 mujoco200和mujoco_py 一.安装 MuJoCo 二.安装 mujoco_py 三.安装 gym Mac OSX 系统安装 mu ...
强化学习入门项目 Spinning up OpenAI (1) installation
Spinning up是openAI的一个入门RL学习项目,涵盖了从基础概念到各个baseline算法. 在此记录一下学习过程. Spining Up 需要python3, OpenAI Gym,和O ...
《网络游戏核心技术与实战》学习笔记——专业术语
最近想寻求技术层面上的一些突破,首先选择了在网络这一块儿,因为这一块儿是每一个游戏开发者都必须经历且理解的非常重要的一个技术,战术层面上来说就是兵家必争之地. 在网络这一块儿,我以前的一个主程大佬给我 ...
【强化学习】grid_mdp创建自己的gym环境
一.参考资料强化学习实战第一讲 gym学习及二次开发 [深入浅出强化学习原理入门]grid_mdp.py运行几个问题的解决方法] reinforcement-learning-code源代码二. ...
强化学习笔记 - 00 - 术语和数学符号
基本概念 Agent - 本体.学习者.决策者. Environment - 环境.本体外部的一切. - 状态(state).一个表示环境的数据. - 所有状态集合.环境中所有的可能状态. - ...
OpenAI Gym介绍
上篇博客介绍了OpenAI Gym.OpenAI Gym与强化学习以及OpenAI Gym的安装,接下来运行一个demo体验一下OpenAI Gym这个平台,以CartPole(倒立摆)为例,在工作目 ...

强化学习（一）——专业术语及OpenAI Gym介绍

强化学习（一）——专业术语及OpenAI Gym介绍

1. 专业术语

1.1 Agent（智能体）

1.2 Environment（环境）

1.3 State s（状态）

1.4 Action a（动作）

1.5 Reward r（奖励）

1.6 Policy π（策略函数）

1.7 State transition p(s’ |s, a)（状态转移函数）

1.8 Return U（回报）

1.8 Action-value function（动作价值函数）

1.9 Optimal action-value function（最优动作价值函数）

1.10 State-value function（状态价值函数）

2. OpenAI Gym

2.1 安装

2.2 简单使用

强化学习（一）——专业术语及OpenAI Gym介绍相关推荐

最新文章

热门文章