● 每周一言

不用担心自己有多努力,因为每个人身边总会有个人比你更努力。

导语

前一篇文章已经铺垫好了增强学习评估的概念,几乎所有对强化学习策略评估的方法都是基于重要性采样展开。其中最经典的方法,莫过于ICML2011上出现的Doubly Robust estimation了。那么,Doubly Robust estimation具体是如何评估RL的?又有什么优势?

Doubly Robust

paper link: http://www.icml-2011.org/papers/554_icmlpaper.pdf

Doubly Robust (DR, or doubly protected) estimation,其实早在上世纪后期就已经提出,在ICML2011这篇论文发表以前,DR estimation被广泛运用于推论统计学,以及在线广告投放中评估新特征的影响。

那么,在增强学习中,DR是如何运用的?论文在第二节 Problem Definition and Approach 中,给我们描述了问题场景:在有限的动作空间A中,按照某一个策略π可以采取一连串的动作,每一个动作a都能得到一个奖励回报ra。

并定义了要解决的问题是什么:对于策略评估而言,在上面描述的场景中,reward奖励的分布以及策略π都是未知的,那么到底如何评估策略?

在DR之前,Policy Evaluation有两种主流方法。第一种就是上一节我们讲到的 Direct Method (DM)

下图原文中的红圈是关于上下文x(可以理解为当前所处状态)和动作a的奖励回报函数,蓝圈则是融入了策略函数π的奖励回报函数。注意,以后所有头上带尖号的字母都代表估计值。可以看出,关于策略π的DM评估值V,取的是所有模拟样本动作所得到的奖励回报的平均值。直观理解,就是每次动作后的价值奖励期望,其中S是样本空间。

诚然,如paper所言,如果奖励回报函数估计的比较准,接近于无偏估计,那么策略评估值理应接近真实值。但是,DM只学习了上下文、动作与奖励回报的关系,却并未考虑策略π输出的动作分布,这就导致了从样本空间S中按照上述公式计算出来的评估值很可能是有偏的(biased)。

举个极端的例子,假设样本空间S一共就两个样本,一个是执行动作a得到了8分,另一个是执行动作b得到了2分。按照DM做Policy Evaluation,评估值是 (8 + 2) / 2 = 5 分。现在,假设我们从上帝视角知道了策略函数π执行动作a和b的概率分别是0.8和0.2,那么真实的评估值应该是 0.8 * 8 + 0.2 * 2 = 6.8,DM评估的偏差为 6.8 - 5 = 1.8。

很明显,在这个例子中,如果是按照策略函数π进行的模拟采样,而且样本量足够,同样也会接近真实值。但是,现实情况的抽样往往总是不那么充分,而且样本也是有限的。

在这样有限的条件下,有没有好一点的办法来解决这个偏差?有,就是论文中提到的第二种方法 Inverse Propensity Score (IPS)。下图原文中,p是上下文、历史观测值与动作的转换函数,函数I(·)用于筛选当前策略π做出的动作。仔细看看,这个公式其实就是用了上节讲的重要性采样的思想,头上带尖号的p函数就是重要性权重。

只要p函数估计准确,换言之策略π所出的动作接近真实的动作分布,那么IPS的估计值就是无偏的(unbiased)。shift in action proportions是IPS方法的精髓,转换动作分布的作用其实就是使奖励价值计算更加准确。

那么,所有问题都解决了吗?不是的。我们发现,估计的p值是评估函数的分母,这会有什么问题?不妨试想一下,如果真实值很小,在p值估计过程中,微小的波动是不是就会导致估计值V的较大波动?数学意义上讲,就是论文中所说的大方差,a much larger variance

我们不妨总结一下上述两种方法:DM估计是有偏的,但是方差较小;IPS估计是无偏的,但是方差较大。

铺垫到这,文章自然而然引出了DR估计。DR结合了DM和IPS两种评估方法,一方面获得了二者各自的优势,另一方面又削弱了二者分别的劣势。

根据上图原文中的公式,通俗理解DR的思想就是:在DM的基础上,利用IPS思想,增量计算策略评估值。 红线部分指出了DR的命名由来,只要DM和IPS其中之一的函数估计准确,DR就是有效的;如果二者的函数估计都准确,DR这个评估方法就是Doubly Robust(双重鲁棒)的了。

论文中用了两节来专门分析偏差(bias)和方差(variance),由于篇幅关系,小斗就不在此继续讲解。对证明推导感兴趣的读者,可以点开原文链接进一步阅读。

限于理解能力有限,本文有讲解谬误之处还请留言交流指出。以上便是对Doubly Robust论文的讲解,敬请期待下节内容。

结语

感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白

Policy Evaluation之Doubly Robust论文讲解相关推荐

  1. 因果推断笔记——DR :Doubly Robust学习笔记(二十)

    文章目录 0 观测数据的估计方法 0.1 Matching 0.2 Propensity Score Based Methods 0.2.1 PSM 0.2.2 IPW 0.2.3 Doubly Ro ...

  2. Policy Evaluation收敛性、炼丹与数学家

    完美的学习算法 昨天和同学在群里讨论DRL里bad case的问题.突然有同学提出观点:"bad case其实并不存在,因为一些算法已经理论证明了具有唯一极值点,再加上一些平滑技巧指导优化器 ...

  3. 强化学习总结(1-2)——model-base(policy evaluation;policy control)

    文章目录 强化学习总结(1-4) 马尔科夫决策过程 policy evaluation policy control policy iteration value iteration 两种方法的区别 ...

  4. COMA(一): Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解

    Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解 论文链接:https://papers.nips.c ...

  5. 方面级情感分析综述论文论文+讲解+复现(ABSA)

    2022最新方面级别情感分析论文综述: A Survey on Aspect-Based Sentiment Analysis:Tasks, Methods, and Challenges 其中关于A ...

  6. Open-Vocabulary Object Detection Using Captions论文讲解

    文章目录 一.论文前言 二.提出原因 三.论文的核心 四.论文讲解 4.1 论文流程 4.2 OVD与之前相关的setting 4.3 结果对比 一.论文前言 目标检测是人工智能最突出的应用之一,也是 ...

  7. COMA(二):Counterfactual Multi-Agent Policy Gradients 论文讲解

    Counterfactual Multi-Agent Policy Gradients 论文链接:https://arxiv.org/pdf/1705.08926.pdf 1. 问题提出(解决了什么问 ...

  8. DeepLab v3+为啥可以封神?(论文讲解含超详细注解+中英文对照+配图)

    开始前,博主请求大家一定要看注解,博主的努力全在注解里,有帮助的记得一键三连呀! Encoder-Decoder with Atrous Separable Convolution for Seman ...

  9. 大白话之One Pixel Attack for Fooling Deep Neural Networks论文讲解

    目录 1 引言 2 算法原理 2.1 第一印象 2.2 初步设想 2.3 在此之前 2.4 承上:what is differential evolution(差分进化) 3 总结 附录 1 引言 使 ...

最新文章

  1. Javascript中的自执行匿名函数
  2. Java NIO系列教程(一) Java NIO 概述
  3. python简单项目-Python小项目:快速开发出一个简单的学生管理系统
  4. .Net 自定义应用程序配置
  5. ios swift ios8 模糊
  6. 自己建服务器 语音盒子_如何自己搭建一个服务器?
  7. thinkphp中的AJAX返回ajaxReturn()
  8. 在linux上cuda9.0 cudnn7.* 安装python3.6 tensorflow 1.5.1
  9. 决策树之 GBDT 算法 - 回归部分
  10. mysql npe问题_MySQL为Null会导致5个问题,个个致命!
  11. 45套精美的 ( Android, iPhone, iPad ) 手机界面设计素材和线框图设计工具
  12. 汉字为什么能流传至今_《汉字为什么是方块字(节选)》阅读附答案
  13. 安卓apk反编译教程
  14. 2019年淘客怎么做推广之大淘客都必须知道的联盟发展方向和玩法
  15. 【翻译】关于ADXL345连接指南
  16. Arcgis中图像裁剪
  17. Decorator装饰者【C++实现】
  18. 如何彻底修复DNS污染呢?
  19. 期货中的正向交易与反向交易
  20. [轉]运用项目管理WBS方法成功创建网店

热门文章

  1. 华为设备三层交换机与路由器对接上网
  2. docker 问题集
  3. 阿里云服务器的公网ipv6地址申请与配置
  4. GNN(图神经网络)在反欺诈领域的落地
  5. uniapp添加蒙版的时候怎么禁止页面滚动
  6. torch.bmm 函数
  7. 怎样查看ie浏览器的版本号
  8. VB 对数据库access的模糊查询代码
  9. 数据的聚合与分组运算
  10. 台式计算机打字标准手法,怎样才能练好标准的打字方法?电脑键盘打字指法教学...