强化学习系列(1) 基本概念

第一节强化学习的基本概念

1. 背景介绍

强化学习（Reinforce Learning）又称增强学习，再励学习。是一个多学科交叉的概念。它也是机器学习的一个重要分支，主要用来解决连续决策的问题。强化学习可以在复杂的，不确定的环境中学习如何实现我们设定的目标。强化学习的应用场景非常广泛，几乎包括了所有需要做一系列决策的问题，比如控制机器人的电机让它执行特定任务，给商品定价或者库存管理、玩视频游戏或棋牌游戏等。也可以应用到有序列的输出的问题，因为它可以针对一系列变化的环境状态，输出一系列对应得动作。强化学习不像无监督学习那样完全没有学习目标，也不像监督学习那样有非常明确的绝对正确的目标（Label）,强化学习的目标一般是变化的，不明确的，甚至可能不存在绝对正确的标签。
强化学习已经有几十年的历史，但是直到最近几年深度学习技术的突破，强化学习才有了比较大的进展。例如，Google DeepMind 将深度学习技术与强化学习结合，提出了DQN(Deep Q-Network, 深度Q网络)，该网络可以自动玩Atari 2006系列的游戏，并取得超越人类顶级玩家的水平。最著名的莫过于DeepMind的AlphaGo, 它结合了策略网络（Policy Network）、估值网络（Value Network）与蒙卡洛搜索树（Monte Carlo Tree Search）,实现了具有超高水平的围棋对战程序，几乎战胜了所有的人类高手。由此可见深度强化学习的威力。

Figure 1-1 Reinforcement Learning is a Multidisciplinary concept

2.强化学习可以解决哪些问题
强化学习不仅能够应用到非线性控制，如下棋，机器人动作学习等方向，还可以应用到其他领域，如视频游戏，人机对话，无人驾驶，机器翻译，文本序列预测等。用一句话来概括就是：强化学习能解决智能决策问题。更确切的说是序贯决策问题，即需要连续不断地做出决策，才能实现最终目标的问题。如经典的二级摆问题，它需要在每个状态下都有一个只能决策（应该施加给台车什么方向，多大的力），以便使得整个系统逐渐收敛到目标点，即两个竖摆直的状态。AlphaGo则需要根据当前棋局状态做出该下哪个子的决策，以便赢得比赛。因此强化学习是用来解决序贯决策（连续决策问题）。

3.强化学习如何解决问题以及一些相关概念
强化学习不同于有监督学习和无监督学习，它不关心输入长什么样子，只关心当前输入下应该采用什么样的动作才能实现最终目标。当前采用什么动作与最终目标有关。也就是说当前采用什么动作，可以是的整个任务序列达到最优。如何使整个任务序列达到最优呢？这就需要智能体不断地与环境交互，不断尝试，因为智能体刚开始也不知道在当前状态下哪个动作有利于实现目标。智能体通过执行动作与环境进行交互，环境会返回给智能体一个当前回报，智能体则根据当前的回报评估所采取的动作：有利于实现目标的动作被保留，不利于实现目标的动作被摒弃。
具体来说，强化学习是指智能体（Agent）以不断试错的方式进行学习，通过与环境交互获得的奖励来指导行为，最终的目标是使得智能体能够获得最大奖励。简单来说就是智能体在与环境不断交互的过程中，逐渐提高自己的决策能力的过程。
基本概念：强化学习中有5个主要的基本概念，智能体（Agent）, 行为（Action）,环境状态（State）, 回报（Reward）, 策略（Policy）。
学习过程：首先（Env）环境会给智能体一个初始状态（State）,智能体在接收到此状态后会作出一个动作（Action）,该动作将会对环境产生一定的影响（好的影响或者不好的影响），环境会根据该动作的好坏给予一个奖励（Reward）,并更新自己的状态。再将状态反馈给智能体，以此类推，直到学习结束。

Figure 1-2 The learning process of reinforcement learning
4.强化学习的目的是什么
获得最大回报（Reward）是强化学习中最重要的目标，它是一个标量反馈信号，或者说是一个实数值，表示Agent在当前t时刻做的有多好。给一支香蕉和不给香蕉就可以认为是reward，假设定义为{1,0}，而强化学习算法的目标或者说优化函数就是最大化累计回报(maximise cumulative reward)，对于序列化决策问题，强化学习就是选择一些action使得将来回报最大；对于训练猴子问题，强化学习目的就是通过让猴子知道只有骑车到达目的地才能得到最多香蕉；对于走迷宫问题，就是让机器人学习出一条路径，按照这条路径走才能最快出迷宫。
总之，不管什么强化学习算法，本质目的就是maximisation of expected cumulative reward，好比机器学习或者深度学习算法，本质目的就是优化某个损失函数而已，而最大化累计回报也可以认为是函数，但是不能认为是损失函数(损失函数是要值下降的)。

5.强化学习算法分类
1）根据强化学习算法是否依赖模型可以分为基于模型的强化学习算法和无模型的强化学习算法。基于模型的强化学习算法利用与环境交互得到的数据学习系统或者环境模型，再基于模型进行序贯决策。无模型的强化学习算法则是直接利用与环境交互获得的数据改善自身的行为。
2）根据策略的更新和学习方法，强化学习算法可以分为基于值函数的强化学习算法、基于直接策略搜索的强化学习算法以及AC的方法。基于值函数的强化学习方法是指学习值函数，最终的策略根据值函数贪婪得到。基于直接策略搜索的强化学习算法，一般是将策略参数化，学习实现目标的最优参数。基于AC的方法则是联合使用值函数和直接策略搜索。
3）根据环境返回的回报函数是否已知强化学习算法可以分为正向强化学习算法和逆向强化学习算法。回报函数指定的强化学习算法称为正向强化学习。但是很多时候回报无法人为指定，如无人机的特效表演，这时可以通过机器学习的方法由函数自己学习出来回报。