论文笔记GAE

  • 1 引言
  • 2 GAE
  • 3 置信域值函数更新
  • 4 实验

GAE 全称General Advantage Estimation,是一种平衡优势函数估计中的偏差和方差的方法。论文地址https://arxiv.org/abs/1506.02438

1 引言

  • 策略梯度法存在的两个方面问题
    样本利用率,由于样本利用率低需要大量采样;
    算法稳定性,需要让算法在变化的数据分布中稳定提升;

  • 值函数也是为了解决信用分配问题,能够在延迟奖励到来之前判断动作的好坏。

  • 策略梯度法与AC法的区别:
    使用全部奖励来估计策略梯度,尽管无偏但是方差大;Actor-Critic方法使用值函数来估计奖励,能够降低偏差但是方差较大。

  • 方差、偏差的影响:
    高方差需要更多的样本来训练,偏差会导致不收敛或收敛结果较差。

  • 本文两个贡献:

  1. 提出GAE来平衡偏差和方差;
  2. 提出值函数置信域方法;

2 GAE

策略梯度估计方法有如下多种,使用优势函数的方法方差最小。

gamma-just是指期望为如下表达式:

定义状态值函数V的TD error:

定义k步估计的优势函数:

当k越大,方差越大,偏差越小。
GAE定义为lambda指数下降权重调整的Ak求和

当lambda=0时,相当于TD-error;当lambda=1时,相当于A∞。

GAE(γ, 1) 是 γ-just 不管 V是否准确 , 但是因为求和项较多具有高方差。
GAE(γ, 0) 是 γ-just 只在 V = V π,γ (最有值函数)时,否则会引入偏差,但是方差更小。
当 0 < λ < 1 就是平衡方差与偏差的过程。

GAE策略梯度更新公式:

3 置信域值函数更新

置信域方法的好处是防止过拟合最近一批数据。
使用共轭梯度法求解

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200328002213720.png

4 实验

算法伪代码:

如果先更新值函数会引入新的偏差,文章的解释是:如果先满足了贝尔曼方程,TD-error为0,策略梯度也为0。

部分实验结果如下,能看出gamma一般取0.99、0.999,lambda一般取0.95-1

问题
为什么使用状态值函数而不是动作值函数?
答:状态值函数输入维度更少,训练更方便;本文的方法能够平衡偏差和方差,如果使用动作值函数Q会让我们得到高偏差。

论文笔记 General Advantage Estimation(GAE)相关推荐

  1. 3d object是什么文件_[单目3D目标检测论文笔记] 3D Bounding Box Estimation

    本文是3D Bounding Box Estimation Using Deep Learning and Geometry的论文笔记及个人理解.这篇文章是单目图像3d目标检测的一个经典工作之一.其目 ...

  2. 论文笔记(三):PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes

    PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes 文章概括 摘要 1. ...

  3. 论文笔记,物体六自由度位姿估计,DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion

    论文笔记,物体六自由度位姿估计,DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion 链接 摘要 1,引言 2,模型 2.1 ...

  4. 论文笔记 |【CVPR2021】Uformer: A General U-Shaped Transformer for Image Restoration

    论文笔记 |[CVPR2021]Uformer: A General U-Shaped Transformer for Image Restoration 文章目录 论文笔记 |[CVPR2021]U ...

  5. 论文笔记(二十)VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data

    VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data 文章概括 摘要 1. ...

  6. Unsupervised Monocular Depth Estimation With Left-Right Consistency 论文笔记

    文 | 陈十三 公众号首发 | 一只在路上的哈士奇 公众号ID | super_Mrchen 关注可了解更多.问题或建议,请公众号留言 0x00 补充知识 1.视差:左右双目图像中,两个匹配块中心像素 ...

  7. 论文笔记--Efficient Estimation of Word Representations in Vector Space

    论文笔记--Efficient Estimation of Word Representations in Vector Space 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 NNLM ...

  8. 《From Big to Small:Multi-Scale Local Planar Guidance for Monocular Depth Estimation》论文笔记

    参考代码:bts 1. 概述 导读:从2D图像中估计出深度信息是多解的,对此文章提出了在解码器的多个stage上加上隐式约束,从而引导解码器中适应深度估计特征的生成,从而产生更佳的深度估计结果.其中的 ...

  9. 论文笔记【A Comprehensive Study of Deep Video Action Recognition】

    论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...

  10. ORB-SLAM3 论文笔记

    ORB-SLAM3 论文笔记 这篇博客 ORB-SLAM3系统 相机模型的抽象(Camera Model) 重定位的问题 图片矫正的问题 视觉惯性SLAM的工作原理 相关公式 IMU初始化 跟踪和建图 ...

最新文章

  1. Java8的集合:HashMap的实现原理
  2. java中 如何用if_不在Java中使用if语句
  3. Rust即将发布1.0版本,Go持续获得关注:如何在新生语言之间做出抉择
  4. android消除app卡顿,为什么你的app会出现卡顿?Android开发:关于性能需要考虑的...
  5. 如何在Android模拟器上安装和卸载APK程序包
  6. Hadoop MapReduce概念学习系列之mr程序详谈(二十三)
  7. [Unity3d]u3d中定时器的使用
  8. 图解“红黑树”原理,一看就明白!
  9. mysql读取和写入的峰值_计算MySQL的内存峰值公式
  10. [设计模式] ------ 简单工厂模式
  11. 花书+吴恩达深度学习(十一)卷积神经网络 CNN 之池化层
  12. 如何制定个人理财计划_如何根据经济状况做个人投资理财计划?
  13. 陕西师大计算机考研专业考408嘛,2021考研计算机408考试趋势分析
  14. 小米游戏本bios更新_小米游戏本 | 笔记本Air 13.3″ 四核 | 笔记本Air 12.5″ | 笔记本Pro 15.6″BIOS设置...
  15. 200以后最小质数:
  16. 【洛谷P4315】月下毛景树 树链剖分03
  17. %f 与 %lf的区别
  18. C# asp.net 连接 Sql Server数据库 Timeout expired. 错误,怎么办?
  19. 基于UE4 的AirSim虚拟仿真
  20. 苹果ipa签名工具免越狱下载_iOS 13.5.5 beta 越狱来了,支持手机版越狱

热门文章

  1. Linux-网络管理
  2. 分析 PPTV 视频真实播放地址全过程(Java版)
  3. python 12345构成不重复的三位数
  4. 2.安装Clouda框架
  5. js 限制鼠标移动范围
  6. 火端搜索V2.1原始程序
  7. 前端js获取文件名、后缀,截取文件名后缀
  8. 用Python物理建模的第一本书终于来啦
  9. chm 文件的阅读、制作和反编译
  10. Oracle v$SQLAREA