论文笔记 General Advantage Estimation(GAE)
论文笔记GAE
- 1 引言
- 2 GAE
- 3 置信域值函数更新
- 4 实验
GAE 全称General Advantage Estimation,是一种平衡优势函数估计中的偏差和方差的方法。论文地址https://arxiv.org/abs/1506.02438
1 引言
策略梯度法存在的两个方面问题:
样本利用率,由于样本利用率低需要大量采样;
算法稳定性,需要让算法在变化的数据分布中稳定提升;值函数也是为了解决信用分配问题,能够在延迟奖励到来之前判断动作的好坏。
策略梯度法与AC法的区别:
使用全部奖励来估计策略梯度,尽管无偏但是方差大;Actor-Critic方法使用值函数来估计奖励,能够降低偏差但是方差较大。方差、偏差的影响:
高方差需要更多的样本来训练,偏差会导致不收敛或收敛结果较差。本文两个贡献:
- 提出GAE来平衡偏差和方差;
- 提出值函数置信域方法;
2 GAE
策略梯度估计方法有如下多种,使用优势函数的方法方差最小。
gamma-just是指期望为如下表达式:
定义状态值函数V的TD error:
定义k步估计的优势函数:
当k越大,方差越大,偏差越小。
GAE定义为lambda指数下降权重调整的Ak求和
当lambda=0时,相当于TD-error;当lambda=1时,相当于A∞。
GAE(γ, 1) 是 γ-just 不管 V是否准确 , 但是因为求和项较多具有高方差。
GAE(γ, 0) 是 γ-just 只在 V = V π,γ (最有值函数)时,否则会引入偏差,但是方差更小。
当 0 < λ < 1 就是平衡方差与偏差的过程。
GAE策略梯度更新公式:
3 置信域值函数更新
置信域方法的好处是防止过拟合最近一批数据。
使用共轭梯度法求解
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200328002213720.png
4 实验
算法伪代码:
如果先更新值函数会引入新的偏差,文章的解释是:如果先满足了贝尔曼方程,TD-error为0,策略梯度也为0。
部分实验结果如下,能看出gamma一般取0.99、0.999,lambda一般取0.95-1
问题
为什么使用状态值函数而不是动作值函数?
答:状态值函数输入维度更少,训练更方便;本文的方法能够平衡偏差和方差,如果使用动作值函数Q会让我们得到高偏差。
论文笔记 General Advantage Estimation(GAE)相关推荐
- 3d object是什么文件_[单目3D目标检测论文笔记] 3D Bounding Box Estimation
本文是3D Bounding Box Estimation Using Deep Learning and Geometry的论文笔记及个人理解.这篇文章是单目图像3d目标检测的一个经典工作之一.其目 ...
- 论文笔记(三):PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes
PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes 文章概括 摘要 1. ...
- 论文笔记,物体六自由度位姿估计,DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion
论文笔记,物体六自由度位姿估计,DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion 链接 摘要 1,引言 2,模型 2.1 ...
- 论文笔记 |【CVPR2021】Uformer: A General U-Shaped Transformer for Image Restoration
论文笔记 |[CVPR2021]Uformer: A General U-Shaped Transformer for Image Restoration 文章目录 论文笔记 |[CVPR2021]U ...
- 论文笔记(二十)VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data
VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data 文章概括 摘要 1. ...
- Unsupervised Monocular Depth Estimation With Left-Right Consistency 论文笔记
文 | 陈十三 公众号首发 | 一只在路上的哈士奇 公众号ID | super_Mrchen 关注可了解更多.问题或建议,请公众号留言 0x00 补充知识 1.视差:左右双目图像中,两个匹配块中心像素 ...
- 论文笔记--Efficient Estimation of Word Representations in Vector Space
论文笔记--Efficient Estimation of Word Representations in Vector Space 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 NNLM ...
- 《From Big to Small:Multi-Scale Local Planar Guidance for Monocular Depth Estimation》论文笔记
参考代码:bts 1. 概述 导读:从2D图像中估计出深度信息是多解的,对此文章提出了在解码器的多个stage上加上隐式约束,从而引导解码器中适应深度估计特征的生成,从而产生更佳的深度估计结果.其中的 ...
- 论文笔记【A Comprehensive Study of Deep Video Action Recognition】
论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...
- ORB-SLAM3 论文笔记
ORB-SLAM3 论文笔记 这篇博客 ORB-SLAM3系统 相机模型的抽象(Camera Model) 重定位的问题 图片矫正的问题 视觉惯性SLAM的工作原理 相关公式 IMU初始化 跟踪和建图 ...
最新文章
- Java8的集合:HashMap的实现原理
- java中 如何用if_不在Java中使用if语句
- Rust即将发布1.0版本,Go持续获得关注:如何在新生语言之间做出抉择
- android消除app卡顿,为什么你的app会出现卡顿?Android开发:关于性能需要考虑的...
- 如何在Android模拟器上安装和卸载APK程序包
- Hadoop MapReduce概念学习系列之mr程序详谈(二十三)
- [Unity3d]u3d中定时器的使用
- 图解“红黑树”原理,一看就明白!
- mysql读取和写入的峰值_计算MySQL的内存峰值公式
- [设计模式] ------ 简单工厂模式
- 花书+吴恩达深度学习(十一)卷积神经网络 CNN 之池化层
- 如何制定个人理财计划_如何根据经济状况做个人投资理财计划?
- 陕西师大计算机考研专业考408嘛,2021考研计算机408考试趋势分析
- 小米游戏本bios更新_小米游戏本 | 笔记本Air 13.3″ 四核 | 笔记本Air 12.5″ | 笔记本Pro 15.6″BIOS设置...
- 200以后最小质数:
- 【洛谷P4315】月下毛景树 树链剖分03
- %f 与 %lf的区别
- C# asp.net 连接 Sql Server数据库 Timeout expired. 错误,怎么办?
- 基于UE4 的AirSim虚拟仿真
- 苹果ipa签名工具免越狱下载_iOS 13.5.5 beta 越狱来了,支持手机版越狱