强化学习(一)——专业术语及OpenAI Gym介绍

  • 1. 专业术语
    • 1.1 Agent(智能体)
    • 1.2 Environment(环境)
    • 1.3 State *s*(状态)
    • 1.4 Action *a*(动作)
    • 1.5 Reward *r*(奖励)
    • 1.6 Policy *π*(策略函数)
    • 1.7 State transition *p*(*s*’ |*s*, *a*)(状态转移函数)
    • 1.8 Return *U*(回报)
    • 1.8 Action-value function(动作价值函数)
    • 1.9 Optimal action-value function(最优动作价值函数)
    • 1.10 State-value function(状态价值函数)
  • 2. OpenAI Gym
    • 2.1 安装
    • 2.2 简单使用

1. 专业术语

1.1 Agent(智能体)

强化学习的控制对象。

1.2 Environment(环境)

与智能体交互的对象。

1.3 State s(状态)

智能体所处状态。

1.4 Action a(动作)

智能体所能执行的操作。

1.5 Reward r(奖励)

智能体执行动作后获得奖励。

1.6 Policy π(策略函数)

动作的抽样函数。

1.7 State transition p(s’ |s, a)(状态转移函数)

Agent执行动作后获得的新状态。

1.8 Return U(回报)

未来的累计折扣奖励:Ut=Rt+γRt+1+γ2Rt+2+⋅⋅⋅U_t = R_t+\gamma R_{t+1}+ \gamma ^2R_{t+2} + ··· Ut​=Rt​+γRt+1​+γ2Rt+2​+⋅⋅⋅

1.8 Action-value function(动作价值函数)

Qπ(st,at)=E[Ut∣at,st]Q_π(s_t,a_t)=E[U_t|a_t,s_t] Qπ​(st​,at​)=E[Ut​∣at​,st​]

1.9 Optimal action-value function(最优动作价值函数)

Qπ∗(st,at)=max⁡πQπ(st,at)Q_π^*(s_t,a_t)=\displaystyle\max_{π}Q_π(s_t,a_t) Qπ∗​(st​,at​)=πmax​Qπ​(st​,at​)

1.10 State-value function(状态价值函数)

Vπ(st)=EA[Qπ(st,A)]V_π(s_t)=E_A[Q_π(s_t,A)] Vπ​(st​)=EA​[Qπ​(st​,A)]

2. OpenAI Gym

2.1 安装

conda create -n gym python=3.6.0
pip install gym matplotlib -i  https://pypi.tuna.tsinghua.edu.cn/simple

2.2 简单使用

import gym
import timeenv = gym.make("CartPole-v0")state = env.reset()for epoch in range(100):env.render()time.sleep(1)action = env.action_space.sample()state,reward,done,info = env.step(action)if done:print("Finish!")break
env.close()

本文为参考B站学习视频书写的笔记!

by CyrusMay 2022 03 28

青春是挽不回的水
转眼消失在指尖
——————五月天(疯狂世界)——————

强化学习(一)——专业术语及OpenAI Gym介绍相关推荐

  1. Ubuntu下常用强化学习实验环境搭建(MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2)

    原文地址:http://blog.csdn.net/jinzhuojun/article/details/77144590 和其它的机器学习方向一样,强化学习(Reinforcement Learni ...

  2. 常用增强学习实验环境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2)

    常用增强学习实验环境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2) 标签: 强化学习OpenAI GymMuJoCoStarCra ...

  3. 【强化学习探索01】Win10 下gym安装

    一.序言 ⾸先, gym 是 OpenAI 开发的通⽤强化学习算法测试平台, 背后有⼤神 Pieter Abbeel. Sergey Levine 等⼈率领的强⼤团队的⽀持.其次, 学会了gym的基本 ...

  4. 强化学习:MuJoCo、mujoco_py、gym的安装

    目录 Obtain License Linux 系统安装 mujoco200和mujoco_py 一.安装 MuJoCo 二.安装 mujoco_py 三.安装 gym Mac OSX 系统安装 mu ...

  5. 强化学习入门项目 Spinning up OpenAI (1) installation

    Spinning up是openAI的一个入门RL学习项目,涵盖了从基础概念到各个baseline算法. 在此记录一下学习过程. Spining Up 需要python3, OpenAI Gym,和O ...

  6. 《网络游戏核心技术与实战》学习笔记——专业术语

    最近想寻求技术层面上的一些突破,首先选择了在网络这一块儿,因为这一块儿是每一个游戏开发者都必须经历且理解的非常重要的一个技术,战术层面上来说就是兵家必争之地. 在网络这一块儿,我以前的一个主程大佬给我 ...

  7. 【强化学习】grid_mdp创建自己的gym环境

    一.参考资料 强化学习实战 第一讲 gym学习及二次开发 [深入浅出强化学习原理入门]grid_mdp.py运行几个问题的解决方法] reinforcement-learning-code源代码 二. ...

  8. 强化学习笔记 - 00 - 术语和数学符号

    基本概念 Agent - 本体.学习者.决策者. Environment - 环境.本体外部的一切.  - 状态(state).一个表示环境的数据.  - 所有状态集合.环境中所有的可能状态.  - ...

  9. OpenAI Gym介绍

    上篇博客介绍了OpenAI Gym.OpenAI Gym与强化学习以及OpenAI Gym的安装,接下来运行一个demo体验一下OpenAI Gym这个平台,以CartPole(倒立摆)为例,在工作目 ...

最新文章

  1. 基于OpenCV的多位数检测器
  2. 网元查看一个无厘头的core dump问题定位
  3. RT-Thread智能车培训计划-2021
  4. ES 在数据量很大的情况下(数十亿级别)如何提高查询效率?
  5. mysql oracle查询速度慢_oracle查看执行最慢与查询次数最多的sql语句
  6. matlab mod()rem()
  7. BOOST_TEST_FOREACH宏相关的测试程序
  8. 统计信息在数据库中的作用_统计在行业中的作用
  9. Mac Apache 开启对php支持
  10. 中国首富们三十而立的年纪都在干什么
  11. 0编译器详解_详解Java枚举类型(Enum)中的方法
  12. VMware虚拟机的网络设置
  13. 在vpp中做nat实验
  14. 360全景地图 android,Android-谷歌VR展示360度全景图
  15. NFA到DFA的子集构造法
  16. php excel 进度,在php中生成Excel文件时显示进度条
  17. Element UI, Ant Design Vue
  18. [SHOI2008]小约翰的游戏 题解
  19. ARM9嵌入式Linux开发-内存与IO操作
  20. Android使用CameraX打开相机拍照简单使用

热门文章

  1. spring boot实战(第十篇)Spring boot Bean加载源码分析
  2. Spring Cloud构建微服务架构(一)服务注册与发现
  3. map:map是否为空?元素数量?删除元素?
  4. property field java_Java 中 field 和 variable 区别及相关术语解释
  5. 柴油发电机并机母线之间母联的设置分析
  6. 2018年全国及31省市数据中心相关政策汇总及解读「全」
  7. python列表、集合、字典、元祖用途_Python-函数作用域和集合列表字典元祖
  8. Py之albumentations:albumentations库函数的简介、安装、使用方法之详细攻略
  9. Algorithm之OP:OP之GA遗传算法思路理解相关配图资料
  10. ML与math:机器学习与高等数学基础概念、代码实现、案例应用之详细攻略——基础篇