强化学习(一) - 基础认知

强化学习 - 基础认知

强化学习是想让一个智能体(agent)在不同的环境状态(state)下，学会选择那个使得奖赏(reward)最大的动作(action)。

Agent在 t 时刻，通过观测环境得到自己所在的 状态(state)，接下来agent根据 策略(policy) 进行决策后，做出一个 动作(action)。这个action就会使得agent在 环境(environment) 中转移到一个新的状态，并且在转移时获得一个 即时奖励(reward) 值，这样agent又可以在新state中重新选择动作。
这样就可以累积很多reward值（ R 0 , R 1 , . . . , R t , . . . , R T ）（R_0,R_1,...,R_t,...,R_T）（R0,R1,...,Rt,...,RT）。agent的目标是希望在达到终点的时候获得的累积reward最大。

policy

policy指的是agent选择动作的策略，agent就是根据这个策略来选择动作的。这里的策略不是指在某个具体的state下如何选择动作，而是从全局的角度。
我们可以把policy看成一个关于状态s的函数f。这个函数的输入是状态s，输出则是一个动作。

在强化学习中，我们的目标就是要学习出policy，用这个policy来选择动作可以使得我们最终获得的累积reward最大。

Reward

agent在 t 时刻执行一个动作之后可以获得一个 R t R_t Rt，它表明在这一步agent做得怎么样。从 0 , 1 , . . . , t − 1 , t 0,1,...,t−1,t 0,1,...,t−1,t 执行的一系列动作可以得到 R 0 , R 1 , . . . , R t − 1 , R t R_0,R_1,...,R_{t−1},R_t R0,R1,...,Rt−1,Rt。agent的目的就是要使得这些 R R R累积起来最大。即是奖励最大化。

environment model

如果我们知道环境的一切，我们就说这个环境是已知的，即model based。也就是说，在这种情况下，agent知道选择一个动作后，它的状态转移概率是怎样的，获得奖赏是怎样的。这些都知道的话，我们就可以使用 动态规划的方法(DP) 来解决问题。

但是在现实生活中，我们是很难知道状态之间的转移概率。这种情况称为model free。所以我们无法直接使用动态规划的方法来解决这种问题。

exploration and exploitation（探索与利用）

上面讲了，在强化学习中，我们的目标就是为了累积奖赏最大化。那么在每次选择动作时，agent会选择在过去经历中它认为奖赏最大的动作去执行。
但是有一个问题是，虽然有些动作一开始的奖赏很小。但是也许在这个动作的后面会有奖赏很大的时候呢？如果agent只是选取当前它认为奖赏最大的动作，那么它有可能陷入了局部最优。 所以，agent需要去探索。探索那些奖赏比较小的动作，也许它后面的奖赏会很大。

当然，探索也不能一直去探索，因为可能你只有有限的时间，不能把时间一直放在探索上面。所以看起来这是一对矛盾体。如何平衡它们是一个很重要的事情。

参考：
强化学习简介
周志华《Machine Learning》学习笔记（17）–强化学习