强化学习常用算法总结

本文为2020年6月参加的百度PaddlePaddle强化学习训练营总结

1. 表格型方法：Sarsa和Q-Learning算法

State-action-reward-state’-action’，简称Sarsa，是为了建立和优化状态-动作(state-action)的价值Q表格所建立的方法。首先初始化Q表格，根据当前的状态和动作与环境进行交互后，得到奖励reward以及下一步的状态和动作后，对Q表格进行更新；并不断重复这个过程。
Q表格更新公式为：

另外，为了保证每一步的探索性，Sarsa在执行下一步时采用e-greedy算法，即根据一定的概率估计来选择下一步的action。Sarsa的这种更新Q表格方式称为“on-policy”方式，即先做出下一步的动作再回头开更新Q值。

与之对应的是“off-policy”方式，即在更新Q表格时，无需知道下一步的动作，而是假设下一步的动作可以取到最大的Q值。基于这种“off-policy”的方法称为Q-Learning算法，其更新Q表格的数学表达式为：

2. 基于神经网络方法：DQN算法

Deep Q-Learning，简称DQN算法是为了解决传统的表格型方法在大规模强化学习任务时遇到的执行效率低，存储量低等问题而提出的算法，它的基本思想是采用神经网络的方式来近似代替Q表格。DQN本质上还是Q-Learning算法，同样为了更好的与环境进行交互，采用e-greedy算法。
DQN的创新在于：

经验回放(experience replay)：使用经验池存在多条s,a,r,s’信息，并随机选择一批数据作为输入到神经网络进行训练。经验回放保证了样本的关联性和利用效率问题，即对于某一条信息它有多次机会可以进入网络进行训练。
Q目标固定(fixed-Q-target)：复制一个和原来一样的Q网络，用来训练目标Q。Q目标固定主要为了解决训练过程的稳定性问题。

3. 策略梯度方法：Policy-Gradient算法

策略梯度方法是指在优化神经网络的过程中，对于策略π(s,a)的期望回报，所有的轨迹获得的回报R与对应的轨迹发生概率p的加权和，当N足够大时，可通过采样N个Episode求平均的方式近似表达，即：

4. 在连续动作空间上求解：DDPG算法

Deep Deterministic Policy Gradient，简称DDPG算法，是结合DQN算法与Actor-Critic提出的求解针对连续动作空间上的学习任务的算法。
DDPG算法实现的流程：