Policy Evaluation之Doubly Robust论文讲解
● 每周一言
不用担心自己有多努力,因为每个人身边总会有个人比你更努力。
导语
前一篇文章已经铺垫好了增强学习评估的概念,几乎所有对强化学习策略评估的方法都是基于重要性采样展开。其中最经典的方法,莫过于ICML2011上出现的Doubly Robust estimation了。那么,Doubly Robust estimation具体是如何评估RL的?又有什么优势?
Doubly Robust
paper link: http://www.icml-2011.org/papers/554_icmlpaper.pdf
Doubly Robust (DR, or doubly protected) estimation,其实早在上世纪后期就已经提出,在ICML2011这篇论文发表以前,DR estimation被广泛运用于推论统计学,以及在线广告投放中评估新特征的影响。
那么,在增强学习中,DR是如何运用的?论文在第二节 Problem Definition and Approach 中,给我们描述了问题场景:在有限的动作空间A中,按照某一个策略π可以采取一连串的动作,每一个动作a都能得到一个奖励回报ra。
并定义了要解决的问题是什么:对于策略评估而言,在上面描述的场景中,reward奖励的分布以及策略π都是未知的,那么到底如何评估策略?
在DR之前,Policy Evaluation有两种主流方法。第一种就是上一节我们讲到的 Direct Method (DM)。
下图原文中的红圈是关于上下文x(可以理解为当前所处状态)和动作a的奖励回报函数,蓝圈则是融入了策略函数π的奖励回报函数。注意,以后所有头上带尖号的字母都代表估计值。可以看出,关于策略π的DM评估值V,取的是所有模拟样本动作所得到的奖励回报的平均值。直观理解,就是每次动作后的价值奖励期望,其中S是样本空间。
诚然,如paper所言,如果奖励回报函数估计的比较准,接近于无偏估计,那么策略评估值理应接近真实值。但是,DM只学习了上下文、动作与奖励回报的关系,却并未考虑策略π输出的动作分布,这就导致了从样本空间S中按照上述公式计算出来的评估值很可能是有偏的(biased)。
举个极端的例子,假设样本空间S一共就两个样本,一个是执行动作a得到了8分,另一个是执行动作b得到了2分。按照DM做Policy Evaluation,评估值是 (8 + 2) / 2 = 5 分。现在,假设我们从上帝视角知道了策略函数π执行动作a和b的概率分别是0.8和0.2,那么真实的评估值应该是 0.8 * 8 + 0.2 * 2 = 6.8,DM评估的偏差为 6.8 - 5 = 1.8。
很明显,在这个例子中,如果是按照策略函数π进行的模拟采样,而且样本量足够,同样也会接近真实值。但是,现实情况的抽样往往总是不那么充分,而且样本也是有限的。
在这样有限的条件下,有没有好一点的办法来解决这个偏差?有,就是论文中提到的第二种方法 Inverse Propensity Score (IPS)。下图原文中,p是上下文、历史观测值与动作的转换函数,函数I(·)用于筛选当前策略π做出的动作。仔细看看,这个公式其实就是用了上节讲的重要性采样的思想,头上带尖号的p函数就是重要性权重。
只要p函数估计准确,换言之策略π所出的动作接近真实的动作分布,那么IPS的估计值就是无偏的(unbiased)。shift in action proportions是IPS方法的精髓,转换动作分布的作用其实就是使奖励价值计算更加准确。
那么,所有问题都解决了吗?不是的。我们发现,估计的p值是评估函数的分母,这会有什么问题?不妨试想一下,如果真实值很小,在p值估计过程中,微小的波动是不是就会导致估计值V的较大波动?数学意义上讲,就是论文中所说的大方差,a much larger variance。
我们不妨总结一下上述两种方法:DM估计是有偏的,但是方差较小;IPS估计是无偏的,但是方差较大。
铺垫到这,文章自然而然引出了DR估计。DR结合了DM和IPS两种评估方法,一方面获得了二者各自的优势,另一方面又削弱了二者分别的劣势。
根据上图原文中的公式,通俗理解DR的思想就是:在DM的基础上,利用IPS思想,增量计算策略评估值。 红线部分指出了DR的命名由来,只要DM和IPS其中之一的函数估计准确,DR就是有效的;如果二者的函数估计都准确,DR这个评估方法就是Doubly Robust(双重鲁棒)的了。
论文中用了两节来专门分析偏差(bias)和方差(variance),由于篇幅关系,小斗就不在此继续讲解。对证明推导感兴趣的读者,可以点开原文链接进一步阅读。
限于理解能力有限,本文有讲解谬误之处还请留言交流指出。以上便是对Doubly Robust论文的讲解,敬请期待下节内容。
结语
感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白!
Policy Evaluation之Doubly Robust论文讲解相关推荐
- 因果推断笔记——DR :Doubly Robust学习笔记(二十)
文章目录 0 观测数据的估计方法 0.1 Matching 0.2 Propensity Score Based Methods 0.2.1 PSM 0.2.2 IPW 0.2.3 Doubly Ro ...
- Policy Evaluation收敛性、炼丹与数学家
完美的学习算法 昨天和同学在群里讨论DRL里bad case的问题.突然有同学提出观点:"bad case其实并不存在,因为一些算法已经理论证明了具有唯一极值点,再加上一些平滑技巧指导优化器 ...
- 强化学习总结(1-2)——model-base(policy evaluation;policy control)
文章目录 强化学习总结(1-4) 马尔科夫决策过程 policy evaluation policy control policy iteration value iteration 两种方法的区别 ...
- COMA(一): Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解
Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解 论文链接:https://papers.nips.c ...
- 方面级情感分析综述论文论文+讲解+复现(ABSA)
2022最新方面级别情感分析论文综述: A Survey on Aspect-Based Sentiment Analysis:Tasks, Methods, and Challenges 其中关于A ...
- Open-Vocabulary Object Detection Using Captions论文讲解
文章目录 一.论文前言 二.提出原因 三.论文的核心 四.论文讲解 4.1 论文流程 4.2 OVD与之前相关的setting 4.3 结果对比 一.论文前言 目标检测是人工智能最突出的应用之一,也是 ...
- COMA(二):Counterfactual Multi-Agent Policy Gradients 论文讲解
Counterfactual Multi-Agent Policy Gradients 论文链接:https://arxiv.org/pdf/1705.08926.pdf 1. 问题提出(解决了什么问 ...
- DeepLab v3+为啥可以封神?(论文讲解含超详细注解+中英文对照+配图)
开始前,博主请求大家一定要看注解,博主的努力全在注解里,有帮助的记得一键三连呀! Encoder-Decoder with Atrous Separable Convolution for Seman ...
- 大白话之One Pixel Attack for Fooling Deep Neural Networks论文讲解
目录 1 引言 2 算法原理 2.1 第一印象 2.2 初步设想 2.3 在此之前 2.4 承上:what is differential evolution(差分进化) 3 总结 附录 1 引言 使 ...
最新文章
- Javascript中的自执行匿名函数
- Java NIO系列教程(一) Java NIO 概述
- python简单项目-Python小项目:快速开发出一个简单的学生管理系统
- .Net 自定义应用程序配置
- ios swift ios8 模糊
- 自己建服务器 语音盒子_如何自己搭建一个服务器?
- thinkphp中的AJAX返回ajaxReturn()
- 在linux上cuda9.0 cudnn7.* 安装python3.6 tensorflow 1.5.1
- 决策树之 GBDT 算法 - 回归部分
- mysql npe问题_MySQL为Null会导致5个问题,个个致命!
- 45套精美的 ( Android, iPhone, iPad ) 手机界面设计素材和线框图设计工具
- 汉字为什么能流传至今_《汉字为什么是方块字(节选)》阅读附答案
- 安卓apk反编译教程
- 2019年淘客怎么做推广之大淘客都必须知道的联盟发展方向和玩法
- 【翻译】关于ADXL345连接指南
- Arcgis中图像裁剪
- Decorator装饰者【C++实现】
- 如何彻底修复DNS污染呢?
- 期货中的正向交易与反向交易
- [轉]运用项目管理WBS方法成功创建网店