基本概念

Agent - 本体。学习者、决策者。
Environment - 环境。本体外部的一切。
 - 状态(state)。一个表示环境的数据。
 - 所有状态集合。环境中所有的可能状态。
 - 行动(action)。本体可以做的动作。
 - 所有行动集合。本体可以做的所有动作。
- 状态的行动集合。本体在状态下,可以做的所有动作。
 - 奖赏(reward)。本体在一个行动后,获得的奖赏。
 - 所有奖赏集合。本体可以获得的所有奖赏。

 - 第t步的状态(state)。 from 0
- 第t步的行动(select action)。 from 0
 - 第t步的奖赏(reward)。 from 1
 - 第t步的长期回报(return)。 from 0。 强化学习的目标1:追求最大回报

可以看出,当时,只考虑当前的奖赏。当时,未来的奖赏没有损失。
 - 第t步的n步回报(n-step return)。一个回报的近似算法。

 - 第t步的回报( - return)。一个回报的近似算法。可以说是的优化。


策略

 - 策略(policy)。强化学习的目标2:找到最优策略
策略规定了状态时,应该选择的行动

 - 策略在状态下,选择的行动。
 - 最优策略(optimal policy)。
 - 随机策略在状态下,选择的行动的概率。

 - 在状态下,选择行动的奖赏。
 - 在状态下,选择行动,变成(状态)的奖赏。
 - (状态、行动)的前提下,变成(状态、奖赏)的概率。
 - (状态、行动)的前提下,变成(状态)的概率。
 - 状态价值。使用策略,(状态的)长期奖赏
 - 行动价值。使用策略,(状态,行动的)长期奖赏
 - 最佳状态价值。
 - 最佳行动价值。
的集合。
的集合。

由上面的公式可以看出:可以由或者决定。

强化学习的目标3:找到最优价值函数或者


近似计算

强化学习的目标4:找到最优近似价值函数或者
强化学习的目标5:找到求解
 - importance sampling ratio for time t to time k - 1。
 - 状态被访问的步骤序号。
 - 近似价值函数的权重向量。
 - 近似价值函数的特征函数。是一个将状态转化成计算向量的方法。这个结果和组成近似价值函数。
 - 近似状态价值函数。

 - 近似行动价值函数。

 - 第t步资格迹向量(eligibility trace rate)。可以理解为近似价值函数微分的优化值。

 - 学习步长。∈(0,1)
 - 未来回报的折扣率(discount rate)。∈[0,1]
 - -return中的比例参数。∈[0,1]
h(horizon)- 水平线h表示on-line当时可以模拟的数据步骤。


老O虎O机问题

 - 行动 a 的真实奖赏(true value)。这个是(实际中)不可知的。期望计算的结果收敛(converge)与它。
 - 在第t步之前,行动a被选择的次数。
 - 行动 a 在第t步前(不包括第t步)的实际平均奖赏。

 - 对于行动a的学习到的倾向(reference)。
 - 在-贪婪策略中,采用随机行动的概率[0,1)。


通用数学符号

 - 定义上的等价关系。
 - 的期望值。
 - 变量值为x的概率。
 - v渐近g。
 - v约等于g。
 - 实数集合。
 - n个元素的实数向量。
 - 在所有的行动中,求最大值
 - 求当F(c)为最大值时,参数c的值。


术语

episodic tasks - 情节性任务。指(强化学习的问题)会在有限步骤下结束。
continuing tasks - 连续性任务。指(强化学习的问题)有无限步骤。
episode - 情节。指从起始状态(或者当前状态)到结束的所有步骤。
tabular method - 列表方法。指使用了数组或者表格存储每个状态(或者状态-行动)的信息(比如:其价值)。

planning method - 计划性方法。需要一个模型,在模型里,可以获得状态价值。比如: 动态规划。
learning method - 学习性方法。不需要模型,通过模拟(或者体验),来计算状态价值。比如:蒙特卡洛方法,时序差分方法。

on-policy method - on-policy方法。评估的策略和优化的策略是同一个。
off-policy method - off-policy方法。评估的策略和优化的策略不是同一个。意味着优化策略使用来自外部的样本数据。
target policy - 目标策略。off-policy方法中需要优化的策略。
behavior policy - 行为策略。off-policy方法中提供样本数据的策略。
importance sampling - 行为策略的样本数据。
importance sampling rate - 由于目标策略和行为策略不同,导致样本数据在使用上的加权值。
ordinary importance sampling - 无偏见的计算策略价值的方法。
weighted importance sampling - 有偏见的计算策略价值的方法。
MSE(mean square error) - 平均平方误差。
MDP(markov decision process) - 马尔科夫决策过程
The forward view - We decide how to update each state by looking forward to future rewards and states.
例如:

The backward or mechanistic view - Each update depends on the current TD error combined with eligibility traces of past events.
例如:

强化学习笔记 - 00 - 术语和数学符号相关推荐

  1. 强化学习笔记:多臂老虎机问题(7)--Gradient Bandit Algorithm

    目录 0. 前言 1. 算法原理 2. Python仿真 2.1 函数改造 2.2 softmax() 2.3 改造后的k_armed_bandit_one_run() 2.4 对比仿真 2.5 一点 ...

  2. 强化学习笔记:PPO 【近端策略优化(Proximal Policy Optimization)】

    1 前言 我们回顾一下policy network: 强化学习笔记:Policy-based Approach_UQI-LIUWJ的博客-CSDN博客 它先去跟环境互动,搜集很多的 路径τ.根据它搜集 ...

  3. 强化学习笔记:多臂老虎机问题(2)--Python仿真

    目录 0. 前言 1. k_armed_bandit function 2. The first trial 2.1 Optimal selection ratio along the time 2. ...

  4. 【相机标定与三维重建原理及实现】学习笔记1——相机模型数学推导详解

    目录 前言 一.小孔成像模型 二.坐标系的变换 1.世界坐标系到相机坐标系的变换(刚体变换)[xw^→xc^\boldsymbol {\hat{x_{w}}}\rightarrow \boldsymb ...

  5. 强化学习笔记:多臂老虎机问题(4)--跟踪非平稳环境

    目录 0. 前言 1. 问题描述 2. 练习1 3. 练习2 3.1 k_armed_bandit_one_run()接口扩张 3.2 Comparison in stationary environ ...

  6. 强化学习笔记(4)之蒙特卡洛法

    强化学习笔记(4)之蒙特卡洛法 标签(空格分隔): 未分类 文章目录 强化学习笔记(4)之蒙特卡洛法 起源 蒙特卡洛法与动态规划法在强化学习中的区别 首次访问与每次访问 增量计算均值 强化学习中的探索 ...

  7. 强化学习笔记(一)马尔可夫决策过程

    强化学习笔记(一)马尔可夫决策过程 参考资料 正文 Q1: R t R_{t} Rt​, G t G_{t} Gt​, V ( S t ) V(S_{t}) V(St​)都有奖励或收获的含义,它们有什 ...

  8. 深度强化学习笔记之PPO实现细节(2)

    深度强化学习笔记之PPO实现细节(2) 本文主要参考于Coding PPO from Scratch with PyTorch系列,但本文并不会像该系列一样手把手讲解全部的实现细节,只是记录一下自己在 ...

  9. 强化学习笔记:策略评估--贝尔曼方程求解示例

    目录 1. 前言 2. MDP模型 3. 求解贝尔曼方程 1. 前言 策略评估(Policy Evaluation),简单来说,就是针对某个既定的策略求其状态值函数和动作值函数.求得了状态值函数和动作 ...

最新文章

  1. 深入理解javascript原型和闭包
  2. matlab数据处理 书,matlab数据处理记录
  3. java class 文件分析_大概优秀的java程序员都要会分析class文件吧
  4. 训练日志 2019.8.23
  5. 面试容易问的 JavaScript 知识点,你知道几个?
  6. windows过滤中设备绑定的内核API之一
  7. Machine Learning ——Homework 8
  8. 自动化测试报告 html模板,自动化测试报告模板.docx
  9. android interpolator 插值器
  10. 定义平行四边形类,继承四边形类,增加判断是否为平行四边形的函数
  11. HTML figcaption 标签
  12. 教你免费使用论文检索网,轻松下载
  13. python爬虫 豆瓣影评的爬取cookies实现自动登录账号
  14. 阿里mysql迁移mongodb_快速掌握 MongoDB 数据库
  15. 什么是集成成像(Integral Image)
  16. eBay领军计划嘉湖专场顺利落幕,万企孵化专项行动启幕在即!
  17. 华南师范大学计算机课网址,华南师范大学网络课程 首页
  18. MySQL多表查询练习2
  19. OPENWRT 插件ipk单独编译-无需编译整个固件
  20. 查询oracle表空间是否满了,查看Oracle表空间大小的方法

热门文章

  1. python自动发送带附件的邮件(163邮箱,亲测可用)
  2. Excel的某列拼成逗号分隔的字符串
  3. 使用设计模式防止破窗理论
  4. 一分钟快速搭建单机版rocketmq
  5. vs2019配置opencv4.6.0
  6. tun/tap 驱动
  7. 对spring cloud的个人理解
  8. Android My12306项目(一)
  9. msp432上运行linux,MSP432实现printf 输出
  10. 有符号数和无符号数详解