深度强化学习基础（一）：RL中的基本概念

强化学习是什么？

强化学习能做什么？

关键概念和术语

概率论

术语

AI如何控制agent

策略学习--学习policy函数

价值学习--学习最优动作价值函数

总结

强化学习是什么？

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习能做什么？

计算机利用强化学习在模拟器中控制机器人。

用于复杂的战略游戏（围棋和Dota）。

关键概念和术语

强化学习的最主要特征是智能体和环境。环境是智能体生活并与之交互的世界。在交互的每一步，智能体会看到（可能是部分的）对世界状态的观察，然后决定要采取的行动。当智能体对其进行操作时，环境会发生变化，但也可能会自行发生变化。

智能体还感知来自环境的奖励信号，一个告诉它当前世界状态好坏的数字。的目标是最大化其累积奖励，称为回报。

概率论

随机变量：未知的量，值取决于未知的量，值取决于一个随机事件的结果。概率密度函数：随机变量在某个确定的取值点附近的可能性。期望

随机抽样

术语

状态 $s$ ：对世界状态的完整描述。

观察 $o$ ：状态的部分描述，可能会省略信息。

在深度强化学习中，我们几乎总是用实值向量、矩阵或高阶张量来表示状态和观察结果。例如，视觉观察可以由其像素值的 RGB 矩阵表示；机器人的状态可以用它的关节角度和速度来表示。

动作 $a$ ：给定环境中所有有效动作的集合。策略 $\pi$ :智能体用来决定采取什么行动的规则。可是确定性的，表示为 $\mu$ ：

$a_{t}=\mu (s_{t}),$

或者可能是随机的，表示为 $\pi$ ：

$a_{t\sim \pi (\cdot|s_{t} )}$

给定状态 $s$ 做出的动作

上图中，agent的动作是随机的（随机抽样得到的），根据policy函数输出的概率来做动作。

奖励 $R$ ：取决于世界的当前状态，刚刚采取的行动，以及世界的下一个状态。

$r_{t}=R(s_{t},a_{t},s_{t+1})^{}$

状态转移：可以是随机的，随机性来自环境（世界）。

agent（智慧体）与环境（世界）交互：

强化学习的随机性：

1、动作的随机性。

动作是根据policy函数 $\pi$ 随机抽样得到的，利用policy函数控制agent，给定当前状态s，agent动作a是按照policy函数 $\pi$ 输出的概率来随机抽样。

2、状态转移的随机性

假定agent做出某一动作，环境就要生成下一个状态 ${S}'$ ， ${S}'$ 具有随机性，环境用状态转移函数 $p$ 算出概率，然后用概率来随机抽样得到下一个状态 ${S}'$ 。

轨迹：一系列状态和动作，

$\tau =(s_{0},a_{0},s_{1},a_{1},...)$

回报：未来的累计奖励。把t时刻的return记为 $U_{t}$ ,

$U_{t}=R_{t}+R_{t+1}+R_{t+2}+R_{t+3}+...$

问题：奖励 ${\color{Red} {\color{Red} }}{\color{Red} }R_{t}$ 和 $R_{t+1 }$ 一样重要吗？

${\color{Red} {\color{Red} }}{\color{Red} }R_{t}$ > $R_{t+1 }$ ,t时刻的奖励要比t+1时刻的奖励重要，因为未来具有不确定性。即 $R_{t+1 }$ 的权重比 ${\color{Red} {\color{Red} }}{\color{Red} }R_{t}$

的权重小。

折扣回报： $U_{t}=R_{t}+\gamma R_{t+1}+\gamma ^{^{2}}R_{t+2}+\gamma ^{3}R_{t+3}+...$

折扣率 $\gamma$ ：0到1之间，折扣率为超参数，需要自己调，折扣率对强化学习的效果有一定的影响。

回报的随机性： $U_{t}=R_{t}+\gamma R_{t+1}+\gamma ^{^{2}}R_{t+2}+\gamma ^{3}R_{t+3}+...$

假如游戏结束，所有的奖励都观测到了，均为数值，用r表示，若t时刻还没结束，奖励为随机变量没有观测到，用R表示，由于 $U_{t}$ 依赖于R，所以 $U_{t}$ 为随机变量。

随机性的两个来源：

1、动作随机。

policy函数 $\pi$ 用s作为输入，输出一个概率分布，动作a从概率分布中随机抽样得到。

2、下一个状态的随机。

给定当前动作a和状态s，下一个状态 ${s}'$ 是随机的，状态转移函数 $p$ 输出个概率分布，环境从概率分布中随机抽样得到新的状态 ${s}'$ 。

对于任意 $i\geq t$ ，奖励 $R_{i}$ 取决于 $S_{i}$ 和 $A_{i }$ 。

给定 $S_{t}$ ，return $U_{t}$ 的依赖于未来所有的动作 $A_{t},A_{t+1},A_{t+2},...$ 和状态 $S_{t+1},S_{t+2},...$ 。

动作价值函数：

由于 $U_{t}$ 为随机变量，为了评估当前形势，可以对 $U_{t}$ 求期望，将里面的随机性利用积分积掉得到的为实数。

例如：抛硬币之前不知道结果，假设正面计1，反面计0，已知两种结果概率为0.5，则期望为1*0.5+0*0.5=0.5。

期望如何求，把 $U_{t}$ 当做未来所有的动作 $A_{t},A_{t+1},A_{t+2},...$ 和状态 $S_{t},S_{t+1},S_{t+2},...$ 的函数，未来的动作A和状态S都有随机性，动作A的概率密度函数是policy函数 $\pi$ ，状态S的概率密度函数是状态转移函数 $p$ ，除了 $S_{t}=s_{t}$ ， $A_{t}=a_{t}$ ，其余动作和状态都被积掉了。

动作价值函数 $Q_{\pi}(s_{t},a_{t})$ 直观意义：用policy函数 $\pi$ 在状态 $s_{t}$ 下做动作 $a_{_{t }}$ 是好还是坏。给动作打分。

不同的policy函数 $\pi$ 就会有不同的 $Q_{\pi}(s_{t},a_{t})$ ，即不同策略，价值不同。

最优动作价值函数：

取使 $Q_{\pi}(s_{t},a_{t})$ 最大化的 $\pi$ ，此时最优动作价值函数 $Q^{^{*}}(s_{t},a_{t})$ 与policy函数 $\pi$ 无关。

$Q^{^{*}}(s_{t},a_{t})$ 直观意义：对动作a做评价。例如：下围棋时，将棋子放在某个位置的胜算有多大。

状态价值函数：

状态价值函数 $V_{\pi }(s_{t})$ 是动作价值函数 $Q_{_{\pi }}(s_{t},A)$ 的期望，把动作A作为随机变量， $A\sim \pi (\cdot |s_{t})$ ,A的概率密度函数为 $\pi$ ，关于A求期望把A消掉，此时 $V_{\pi }(s_{t})$ 只跟 $\pi$ 和 $s_{t}$ 有关。

$V_{\pi }(s_{t})$ 直观意义：可以告诉我们当前局势好不好。

AI如何控制agent

策略学习--学习policy函数 $\pi (a|s)$

利用policy函数 $\pi (a|s)$ 控制agent做动作，每观测一个状态 $s_{t}$ ，就把 $s_{t}$ 作为 $\pi (a|s)$ 函数的输入， $\pi (a|s)$ 函数会输出每一个动作的概率，用这些概率做随机抽样得到 $a_{_{t }}$ ，agent执行动作 $a_{_{t }}$ 。

价值学习--学习最优动作价值函数 $Q^{*}(s,a)$

agent可以根据 $Q^{*}(s,a)$ 函数来做动作， $Q^{*}(s,a)$ 函数告诉我们，当状态处在 $s_{t}$ ，那么做动作是好还是坏，每观测到一个 $s_{t}$ ，将 $s_{t}$ 作为 $Q^{*}(s,a)$ 函数的输入，让 $Q^{*}(s,a)$ 函数对每一个动作都做一个评价，这样就知道每一个动作的Q值，选Q值最大（因为Q值是对未来奖励和的期望）的动作作为 $a_{_{t }}$ 。

总结

强化学习的目的就是学习policy函数 $\pi (a|s)$ 和最优动作价值函数 $Q^{*}(s,a)$