论文笔记 General Advantage Estimation（GAE）

论文笔记GAE

1 引言
2 GAE
3 置信域值函数更新
4 实验

GAE 全称General Advantage Estimation，是一种平衡优势函数估计中的偏差和方差的方法。论文地址https://arxiv.org/abs/1506.02438

1 引言

策略梯度法存在的两个方面问题：
样本利用率，由于样本利用率低需要大量采样；
算法稳定性，需要让算法在变化的数据分布中稳定提升；
值函数也是为了解决信用分配问题，能够在延迟奖励到来之前判断动作的好坏。
策略梯度法与AC法的区别：
使用全部奖励来估计策略梯度，尽管无偏但是方差大；Actor-Critic方法使用值函数来估计奖励，能够降低偏差但是方差较大。
方差、偏差的影响：
高方差需要更多的样本来训练，偏差会导致不收敛或收敛结果较差。
本文两个贡献：

提出GAE来平衡偏差和方差；
提出值函数置信域方法；

2 GAE

策略梯度估计方法有如下多种，使用优势函数的方法方差最小。

gamma-just是指期望为如下表达式：

定义状态值函数V的TD error：

定义k步估计的优势函数：

当k越大，方差越大，偏差越小。
GAE定义为lambda指数下降权重调整的Ak求和

当lambda=0时，相当于TD-error；当lambda=1时，相当于A∞。

GAE(γ, 1) 是 γ-just 不管 V是否准确 , 但是因为求和项较多具有高方差。
GAE(γ, 0) 是 γ-just 只在 V = V π,γ （最有值函数）时，否则会引入偏差，但是方差更小。
当 0 < λ < 1 就是平衡方差与偏差的过程。

GAE策略梯度更新公式：

3 置信域值函数更新

置信域方法的好处是防止过拟合最近一批数据。
使用共轭梯度法求解

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200328002213720.png

4 实验

算法伪代码：

如果先更新值函数会引入新的偏差，文章的解释是：如果先满足了贝尔曼方程，TD-error为0，策略梯度也为0。

部分实验结果如下，能看出gamma一般取0.99、0.999，lambda一般取0.95-1

问题
为什么使用状态值函数而不是动作值函数？
答：状态值函数输入维度更少，训练更方便；本文的方法能够平衡偏差和方差，如果使用动作值函数Q会让我们得到高偏差。