● 每周一言

不用担心自己有多努力，因为每个人身边总会有个人比你更努力。

导语

前一篇文章已经铺垫好了增强学习评估的概念，几乎所有对强化学习策略评估的方法都是基于重要性采样展开。其中最经典的方法，莫过于ICML2011上出现的Doubly Robust estimation了。那么，Doubly Robust estimation具体是如何评估RL的？又有什么优势？

Doubly Robust

paper link: http://www.icml-2011.org/papers/554_icmlpaper.pdf

Doubly Robust (DR, or doubly protected) estimation，其实早在上世纪后期就已经提出，在ICML2011这篇论文发表以前，DR estimation被广泛运用于推论统计学，以及在线广告投放中评估新特征的影响。

那么，在增强学习中，DR是如何运用的？论文在第二节 Problem Definition and Approach 中，给我们描述了问题场景：在有限的动作空间A中，按照某一个策略π可以采取一连串的动作，每一个动作a都能得到一个奖励回报ra。

并定义了要解决的问题是什么：对于策略评估而言，在上面描述的场景中，reward奖励的分布以及策略π都是未知的，那么到底如何评估策略？

在DR之前，Policy Evaluation有两种主流方法。第一种就是上一节我们讲到的 Direct Method (DM)。

下图原文中的红圈是关于上下文x（可以理解为当前所处状态）和动作a的奖励回报函数，蓝圈则是融入了策略函数π的奖励回报函数。注意，以后所有头上带尖号的字母都代表估计值。可以看出，关于策略π的DM评估值V，取的是所有模拟样本动作所得到的奖励回报的平均值。直观理解，就是每次动作后的价值奖励期望，其中S是样本空间。

诚然，如paper所言，如果奖励回报函数估计的比较准，接近于无偏估计，那么策略评估值理应接近真实值。但是，DM只学习了上下文、动作与奖励回报的关系，却并未考虑策略π输出的动作分布，这就导致了从样本空间S中按照上述公式计算出来的评估值很可能是有偏的（biased）。

举个极端的例子，假设样本空间S一共就两个样本，一个是执行动作a得到了8分，另一个是执行动作b得到了2分。按照DM做Policy Evaluation，评估值是 (8 + 2) / 2 = 5 分。现在，假设我们从上帝视角知道了策略函数π执行动作a和b的概率分别是0.8和0.2，那么真实的评估值应该是 0.8 * 8 + 0.2 * 2 = 6.8，DM评估的偏差为 6.8 - 5 = 1.8。

很明显，在这个例子中，如果是按照策略函数π进行的模拟采样，而且样本量足够，同样也会接近真实值。但是，现实情况的抽样往往总是不那么充分，而且样本也是有限的。

在这样有限的条件下，有没有好一点的办法来解决这个偏差？有，就是论文中提到的第二种方法 Inverse Propensity Score (IPS)。下图原文中，p是上下文、历史观测值与动作的转换函数，函数I(·)用于筛选当前策略π做出的动作。仔细看看，这个公式其实就是用了上节讲的重要性采样的思想，头上带尖号的p函数就是重要性权重。

只要p函数估计准确，换言之策略π所出的动作接近真实的动作分布，那么IPS的估计值就是无偏的（unbiased）。shift in action proportions是IPS方法的精髓，转换动作分布的作用其实就是使奖励价值计算更加准确。

那么，所有问题都解决了吗？不是的。我们发现，估计的p值是评估函数的分母，这会有什么问题？不妨试想一下，如果真实值很小，在p值估计过程中，微小的波动是不是就会导致估计值V的较大波动？数学意义上讲，就是论文中所说的大方差，a much larger variance。

我们不妨总结一下上述两种方法：DM估计是有偏的，但是方差较小；IPS估计是无偏的，但是方差较大。

铺垫到这，文章自然而然引出了DR估计。DR结合了DM和IPS两种评估方法，一方面获得了二者各自的优势，另一方面又削弱了二者分别的劣势。

根据上图原文中的公式，通俗理解DR的思想就是：在DM的基础上，利用IPS思想，增量计算策略评估值。 红线部分指出了DR的命名由来，只要DM和IPS其中之一的函数估计准确，DR就是有效的；如果二者的函数估计都准确，DR这个评估方法就是Doubly Robust（双重鲁棒）的了。

论文中用了两节来专门分析偏差（bias）和方差（variance），由于篇幅关系，小斗就不在此继续讲解。对证明推导感兴趣的读者，可以点开原文链接进一步阅读。

限于理解能力有限，本文有讲解谬误之处还请留言交流指出。以上便是对Doubly Robust论文的讲解，敬请期待下节内容。

结语

感谢各位的耐心阅读，后续文章于每周日奉上，敬请期待。欢迎大家关注小斗公众号 对半独白！

Policy Evaluation之Doubly Robust论文讲解相关推荐

因果推断笔记——DR ：Doubly Robust学习笔记（二十）
文章目录 0 观测数据的估计方法 0.1 Matching 0.2 Propensity Score Based Methods 0.2.1 PSM 0.2.2 IPW 0.2.3 Doubly Ro ...
Policy Evaluation收敛性、炼丹与数学家
完美的学习算法昨天和同学在群里讨论DRL里bad case的问题.突然有同学提出观点:"bad case其实并不存在,因为一些算法已经理论证明了具有唯一极值点,再加上一些平滑技巧指导优化器 ...
强化学习总结(1-2)——model-base(policy evaluation；policy control)
文章目录强化学习总结(1-4) 马尔科夫决策过程 policy evaluation policy control policy iteration value iteration 两种方法的区别 ...
COMA(一)： Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解
Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解论文链接:https://papers.nips.c ...
方面级情感分析综述论文论文+讲解+复现(ABSA)
2022最新方面级别情感分析论文综述: A Survey on Aspect-Based Sentiment Analysis:Tasks, Methods, and Challenges 其中关于A ...
Open-Vocabulary Object Detection Using Captions论文讲解
文章目录一.论文前言二.提出原因三.论文的核心四.论文讲解 4.1 论文流程 4.2 OVD与之前相关的setting 4.3 结果对比一.论文前言目标检测是人工智能最突出的应用之一,也是 ...
COMA（二）：Counterfactual Multi-Agent Policy Gradients 论文讲解
Counterfactual Multi-Agent Policy Gradients 论文链接:https://arxiv.org/pdf/1705.08926.pdf 1. 问题提出(解决了什么问 ...
DeepLab v3+为啥可以封神？（论文讲解含超详细注解+中英文对照+配图）
开始前,博主请求大家一定要看注解,博主的努力全在注解里,有帮助的记得一键三连呀! Encoder-Decoder with Atrous Separable Convolution for Seman ...
大白话之One Pixel Attack for Fooling Deep Neural Networks论文讲解
目录 1 引言 2 算法原理 2.1 第一印象 2.2 初步设想 2.3 在此之前 2.4 承上:what is differential evolution(差分进化) 3 总结附录 1 引言使 ...

Policy Evaluation之Doubly Robust论文讲解

● 每周一言

导语

Doubly Robust

结语

Policy Evaluation之Doubly Robust论文讲解相关推荐

最新文章

热门文章