《因果学习周刊》第7期：因果学习中的离线策略评估

No.07

智源社区

因果学习组

因

果

学

习

研究

观点

资源

活动

关于周刊

因果学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写了第7期《因果学习周刊》。

本期周刊主要关注因果学习中的离线策略评估(Policy Evaluation)问题。离线策略评估问题主要针对于某项策略给出其预期的作用，其中涉及到了反事实的问题，也是因果学习中的一类重要问题，对于推荐策略、定价策略等实际应用有着很大的作用，具有很高的应用价值与现实意义。本期周刊我们回顾了近期使用因果学习方法来进行离线策略评估的一些方法，希望对于相关领域的研究者可以有一些帮助。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动因果学习社群的分享、学习和交流活动。可以扫描文末的二维码加入因果学习社区群。

本期贡献者：刘家硕

论文推荐

标题：ICML17 & CMU | Optimal and Adaptive Off-policy Evaluation in Contextual Bandits了解详情

简介：我们研究了在上下文老虎机(Contextual Bandit Model)下的线下策略评估问题——利用另一种策略收集的数据估计目标策略的价值。我们考虑了一般的(不可知的)问题设定，而没有假设奖励模型是一致的，并建立了均方误差(MSE)的极大极小下界。通过逆倾向评分(IPS)和双鲁棒(DR)估计可以使这个边界变为常数。这突出了不可知情境设定的难度，与多臂老虎机和使用一致奖励模式的上下文老虎机相比，在这种问题设定下逆倾向评分是次优的。本文中我们提出SWITCH估计方法,可以使用现有的奖励模型(不一定是一致的)来实现相比于逆倾向评分和双鲁棒估计更好的Bias-Variance Tradeoff。我们证明了该方法均方误差的上界，并在多个数据集上展现了该方法的优越性。

论文地址：https://arxiv.org/pdf/1612.01205.pdf

推荐理由：本文研究了更加一般性的Contextual Bandit Model下的策略评估问题，并提出了显著更好的方法来实现更加准确的评估，对于Policy Evaluation领域的发展做出了贡献。

标题：ICML20 & Cornell | Doubly robust off-policy evaluation with shrinkage了解详情

简介：本文提出了一种新的框架来对Contextual Bandits中的线下策略进行估计。我们的方法是基于渐近最优双鲁棒估计方法，但我们缩小了重要性权重以最小化均方误差的上界，从而在有限样本中实现更好的偏置-方差权衡。我们利用这个基于优化的框架得到了三个估计模型: (a)一个权重截断的估计器，(b)一个新的权重收缩估计器，以及 (c) 首个基于收缩的对于组合决策集的估计量。在标准和组合问题上的大量实验表明，我们的估计器具有高度的自适应性与有效性。

论文地址：https://arxiv.org/pdf/1907.09623.pdf

推荐理由：本文提出了一个优化框架来进行更加准确的Policy Evaluation，其中利用weight shrinkage来解决传统importance weighting方差较大的问题，值得参考。

标题：RecSys20 & Tokyo Institute of Technology | Doubly Robust Estimator for Ranking Metrics with Post-Click Conversions了解详情

简介：点击转换是Web服务中一种重要的反馈形式，因为它直接有助于最终的收入，与模糊的点击相比，它可以准确地捕捉用户对物品的偏好。然而，由于点击和未点击数据之间的选择性偏差，在学习或评估推荐人时，直接使用点击转换可能会导致严重的偏差。在本研究中，我们解决了带有偏差点击转换的算法推荐的离线评估问题。解决这种偏差的一个可能的解决方案是使用逆倾向评分估计器，因为它可以提供一个在选择性偏差下的无偏评估。然而，众所周知，这种估计器会受到方差和不稳定性问题的影响，这在推荐设置中可能会很严重，因为反馈通常是高度稀疏的。为了解决之前无偏估计器的这些局限性，我们提出了一种双鲁棒估计器，用于估计给定推荐器真实排名性能。该估计器对真实排名无偏，改进了现有无偏估计器的方差和估计误差的尾界。最后，为了评估所提出的估计器的经验有效性，我们使用半合成和两个公开的真实数据集进行实证评估。结果表明，与现有的基线指标相比，提出的指标显示了更好的模型评估绩效，特别是在严重的选择偏差的情况下。

论文地址：https://usaito.github.io/files/RecSys2020_DRMetric.pdf

推荐理由：本文研究了推荐系统中带有选择性偏差下的策略评估问题，实现了更好的算法效果，具有参考价值。

标题：AISTATS20 & Flatiron Health ｜ Balanced off-policy evaluation in general action spaces了解详情

简介：在Contextual Bandits的离线策略评估中，重要性抽样权重的估计通常会导致不平衡，即价券后的状态-决策对的期望分布与实际分布不匹配。在本文中，我们提出了平衡的离线策略评估算法，一个估计权重并减小不平衡性的通用方法。我们将这些权重的估计归结为了一个与决策类型无关的而分类问题，并证明了最小化分类器的风险恰恰意味着最小化期望的反事实分布的不平衡性。进一步的，这与离线策略评估的误差联系起来，使得可以方便的调整超参数。我们的试验结果证明了本方法提升了基于加权的离线策略评估性能，包括离散与连续的决策空间下。

论文地址：https://arxiv.org/pdf/1906.03694.pdf

推荐理由：本文关注了加权前后的平衡性问题，并与分类问题建立了联系，具有参考价值。

标题：KDD & 阿里｜Markdowns in E-Commerce Fresh Retail: A Counterfactual Prediction and Multi-Period Optimization Approach了解详情

简介：几十年来，传统行业一直在研究零售降价，而如今，电子商务新鲜零售带来了更多的挑战。由于易逝品的货架期有限，价格变动的机会也有限，因此很难在一个反事实的价格下预测产品的销售情况，从而很难确定最优的折扣价格来控制库存，实现未来收益最大化。传统的机器学习方法具有较高的可预测性，但不能很好地揭示销售与价格之间的关系。传统的经济模型具有较高的可解释性，但预测精度较低。在本文中，我们利用大量的观察性交易数据，提出一种新的数据驱动和可解释的减价定价方法，包括反事实预测和多期价格优化。首先，我们建立了一个半参数结构模型来学习个体价格弹性并预测反事实需求。该半参数模型既利用了非参数机器学习模型的可预测性，又利用了经济模型的可解释性。其次，我们提出了一个多周期动态定价算法，以使易逝品在有限的销售周期内的总利润最大化。与传统的使用确定性需求的方法不同，由于反事实需求的不确定性在预测过程中不可避免地具有随机性，我们对其进行了建模。在随机模型的基础上，利用马尔可夫决策过程推导出一种序贯定价策略，并设计了一种两阶段求解算法。该算法是非常有效的。它将时间复杂度从指数级降低到多项式级。实验结果表明，本文提出的定价算法具有一定的优越性，并将该框架成功地应用于知名电商生鲜零售场景盒马生鲜中。

论文地址：https://arxiv.org/pdf/2105.08313.pdf

推荐理由：本文从实际应用的角度出发，建立了半参数结构模型来进行更好的降价与定价，具有较高的实用价值，值得推荐。

标题：NeurIPS21 & Netflix｜Control Variates for Slate Off-Policy Evaluation了解详情

简介：我们研究了在多维决策下，利用批量Contextual Bandit数据进行离线策略评估的问题。该问题在推荐系统和用户界面优化中十分常见，并且由于其具有组合大小的决策空间，这个问题尤其具有挑战性。Swaminathan等人假设了条件平均奖励对于决策具有可加性，并据此提出了伪逆估计器(Pseudoinverse (PI) Estimator)。使用控制变量，我们考虑了一大类无偏评估方法，其中包括了伪逆估计器以及他的自归一化变种。通过对该类方法进行优化，我们获得了新的评估，其在伪逆与自归一化伪逆估计值上都具有更优的误差保证。模拟实验与真实实验均说明了本方法的有效性。

论文地址：https://arxiv.org/pdf/2106.07914.pdf

推荐理由：本文研究了具有挑战性的多维决策下的离线策略评估问题，并提出了新的方法来实现更好的评估效果。

标题：NeurIPS21 & Cornell｜Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation了解详情

简介：离线策略评估(OPE)的目的是利用不同策略生成的数据估计不同策略的性能。由于其在实践中的巨大潜在影响，这一领域收到了越来越多的关注。然而，现实世界中没有能够评估OPE的公共数据集，这使得其实验研究不切实际且不可复现。为了实现现实和可复现的OPE研究，我们提出了Open Bandit Dataset，这是一个在大型时尚电子商务平台ZOZOTOWN上收集的公开的数据集。我们的数据集是首个包含多种收集策略的数据集，这些数据集是通过在同一个平台上运行不同的策略收集的。这使得第一次可以对不同的OPE估计器进行实验比较。我们还开发了名为Open Bandit Pipeline的Python软件，以简化和标准化OPE算法的实现。我们的开放数据和软件将有助于公平和透明的OPE研究，并帮助社区确定富有成效的研究方向。我们使用我们的数据集和软件为现有的OPE估计器提供广泛的基准测试实验。这些结果为未来的OPE研究提供了必要的挑战和新的途径。

论文地址：https://arxiv.org/pdf/2008.07146.pdf

推荐理由：本文为离线策略评估领域的研究提供了公开的基准数据集，用以支撑不同算法的比较，对于本领域的发展具有极大的推动作用，相关的研究者可以密切关注这篇文章以及相应的数据集。

标题：ICML21 & Cornell｜Optimal Off-Policy Evaluation from Multiple Logging Policies了解详情

简介：我们研究了多种采集策略(Logging Policy)下的离线策略评估问题。每个策略生成一个固定大小的数据集，即分层抽样。以前的工作指出，在这种设置下，不同重要性的抽样估计的方差的顺序是实例依赖的，这带来了一个选择重要性权重的困境。在本文中，我们提出寻找多种采集策略下对于每个实例方差最小的离线策略评估器。特别地，我们建立了分层抽样下的效率界，并提出了一个在给定一致的q-估计时达到该界的估计器。为了防止q-函数的错误说明，我们也提供了一种方法来选择一个假设类中的控制变量来最小化方差。大量的实验证明了我们的方法的有效性。

论文地址：https://arxiv.org/pdf/2010.11002.pdf

推荐理由：本文设计了方法来解决多种采集策略下的离线策略评估问题，具有一定的参考价值。

活动预告

青源 LIVE 第 37 期丨卡内基梅隆大学张坤：因果与学习

由智源社区举办的「青源 LIVE 第 37 期丨卡内基梅隆大学张坤：因果与学习」将于12月16日（周四）19:00-20:00举办，卡内基梅隆大学张坤老师进行主旨报告。

报告简介：主要讨论以下问题：我们为何在意因果关系？因果关系和因果思维有何用处？如何从观测数据中学习因果关系？如何自动从数据中发现有因果意义的隐变量以及它们之间的因果关系？如何自动的实现迁移学习？迁移学习一定需要因果表述么？还有哪些机器学习任务会受益于因果思维？

报名预约：可直接扫描上图中二维码报名，也可以访问该网址报名：https://event.baai.ac.cn/activities/218

智源LIVE 第 7 期 | 何洋波：因果学习和推断的一种局部方法

由智源社区举办的「智源LIVE 第 7 期 | 何洋波：因果学习和推断的一种局部方法」将于12月17日（周五）14:00-15:00举办，北京大学何洋波老师进行主旨报告。

报告简介：因果结构学习和因果效应推断是因果研究的两类核心问题。在因果研究领域，有两套有明显差异的分析框架。一个为Neyman-Rubin的虚拟事实（或潜在结果）框架，另一个是Judea Pearl等发展的因果图框架。潜在结果框架善于在潜在和现实变量分布的精细设定下进行因果统计推断。而因果图模型框架下，变量的因果结构和分布之间建立了深刻的联系，基于数据学习因果结构和进行因果效应推断的方法和工具也得到了发展。报告将首先介绍因果发现和推断的基本概念和方法，简单比较两种框架。然后介绍基于图模型框架下的因果关系发现和因果效应估计的局部方法。该局部方法首先利用观察数据学习处理变量的局部结构，然后基于局部图准则，选择恰当的条件集对目标变量和处理变量进行少量独立性检验或回归分析，进而判断处理变量和目标变量之间的因果关系、估计处理变量对目标变量的总因果效应和直接因果效应。

报名预约：可直接扫描上图中二维码报名，也可以访问该网址报名：https://event.baai.ac.cn/activities/219

如果你正在从事或关注因果学习研究、实现与应用，欢迎加入“智源社区-因果学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入因果学习兴趣群。备注：“姓名+单位+因果”才会验证进群哦。

《因果学习周刊》第7期：因果学习中的离线策略评估相关推荐

深度学习算法(第5期)----深度学习中的优化器选择
欢迎关注微信公众号"智能算法" – 原文链接(阅读体验更佳): 深度学习算法(第5期)----深度学习中的优化器选择上一期,我们一起学习了TensorFlow在训练深度网络的时候 ...
深度学习三人行(第5期)----深度学习中的优化器选择
上一期,我们一起学习了TensorFlow在训练深度网络的时候怎么解决梯度消失或梯度爆炸的问题,以及怎么尽可能的减少训练时间. 深度学习三人行(第4期)---- TF训练DNN之进阶这期我们继续学习 ...
《因果学习周刊》第9期：因果学习中的工具变量
No.09 智源社区因果学习组因果学习研究观点资源活动关于周刊因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
《强化学习周刊》第23期：NeurIPS 2021强化学习的最新研究与应用
No.23 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于NeurIPS 20 ...
深度学习算法(第37期)----如何用强化学习玩游戏？
上期我们一起学习了强化学习中的时间差分学习和近似Q学习的相关知识, 今天我们一起用毕生所学来训练一个玩游戏的AI智能体. 由于我们将使用 Atari 环境,我们必须首先安装 OpenAI gym 的 ...
深度学习三人行(第8期)----卷积神经网络通俗原理
上一期,我们一起学习了深度学习中如何避免过拟合, 深度学习三人行(第7期)----深度学习之避免过拟合(正则化) 接下来我们一起学习下网红网络之卷积神经网络(CNN),我们多多交流,共同进步.本期主要 ...
深度学习三人行(第10期)----CNN经典网络之LeNet-5和AlexNet
上一期,我们一起学习了深度学习卷积神经网络中的代码实现,内存计算以及池化层的原理等, 深度学习三人行(第9期)----卷积神经网络实战进阶(附代码) 接下来我们一起学习下关于CNN中比较经典的网络Le ...
强化学习之基础入门_强化学习基础
强化学习之基础入门 Reinforcement learning is probably one of the most relatable scientific approaches that re ...
《因果学习周刊》第10期：ICLR2022中最新Causal Discovery相关论文介绍
No.10 智源社区因果学习组因果学习研究观点资源活动关于周刊因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

《因果学习周刊》第7期：因果学习中的离线策略评估

《因果学习周刊》第7期：因果学习中的离线策略评估相关推荐

最新文章

热门文章