An Experimental Comparison of Click Position-Bias Models (WSDM08)

作者:一元,公众号:炼丹笔记

这是一篇经典的文章,引用800+,虽然有些老了,但里面的诸多假设仍然值得细细品味。

搜索引擎点击日志提供了宝贵的相关信息来源,但这些信息是有偏的。

有偏的一个主要来源是呈现顺序:点击的概率受文档在结果页面中的位置的影响。本文着重于解释这种偏差,建模点击概率如何依赖于位置。我们提出了四个关于位置偏差产生的假设。

我们进行了大量的数据收集工作,扰乱了一个主要搜索引擎的排名,看看点击量是如何受到影响的。然后,我们探讨四个假设中哪一个最能解释实践中位置的影响,并将其与简单的logistic回归模型进行比较。

简单的位置模型并不能很好地解释这些数据,有些用户不分青红皂白地点击排名1的商品,或者注意力在排名上出现简单的衰减。“cascade”模型,用户从上到下查看结果,并在看到有价值的文档后立即离开,这是我们对早期排名中位置偏差的最佳解释。

我们将位置标记为i->{ 1,2,....,N}, 我们对位置不做任何的假设,它们可能是线性排序的,在网格中,交错排列或以其他方式排列的。

我们的经验观测来自于一个标准的Top-10排序,我们诸多模型中的一个假设用户倾向于按从1-10的顺序观测结果。

1. Baseline假设:在位置i点击文档的概率与在位置j点击文档的概率相同

Position Bias最简单的解释是none。用户查看所有结果并考虑每个结果的优点,然后决定单击哪个结果。在我们的基线假设中,在位置i点击文档的概率与在位置j点击文档的概率相同

在我们的实验中, j=i+1 , 位置上可能的最小改变,所以我们的baseline模型是非常强的预测。

基线假设似乎与过去的研究不一致,过去的研究表明,排名第1或接近排名1的结果更有可能被点击,更有可能在眼睛跟踪下查看。衰减的点击曲线可以与基线一致,如果搜索引擎用衰减的对文档进行排序,那么我们将看到更低的rank的点击更少。然而,基线假设与衰减的rd注意曲线并不一致。

2. 混合假设:一些用户由于文档出现在rank i中而以概率bj盲目点击

这个概率模型是新的,我们将看到很难根据我们的经验观察来拟合这个模型。然而,在不假设概率混合模型的情况下使用相关的方法,取得了显著的成功。Agichtein等人通过从该查询的点击分布中减去背景点击分布,纠正了位置偏差。然后,点击次数超过预期的搜索结果是相关的,而点击次数少于预期(否定)的搜索结果是无关的。

3. 检验假设

通过眼球追踪研究,我们有直接的证据表明,用户不太可能看排名较低的结果。这就提出了另一个假设:每个排名都有一定的被检验概率。这可以被建模为一个项xi,它是在位置i被检测的概率,如果要被点击,结果必须被检查而且是相关的:

4. 级联模型

我们提出了一个新的模型来解释position效应,该模型假设通过排序进行线性遍历,并且不检查点击之后的文档

本文灵感来自于Joachims等人的工作,该工作假设通过排名进行线性遍历,以点击结果结束。一个典型的模型是上面的Click > Skip。在该模型中,排名i的单击文档被认为比跳过的文档更受欢迎。在第j列。如果点击i,则跳过第j列的文档,

为了观测一次点击,用户必须决定点击和跳过rank。

为了验证我们关于点击是如何产生的假设,我们进行了一个对照实验,在这个实验中,我们改变了文档显示的rank,并观察了点击概率的变化。这是在一小部分用户上实验的,因为他们在主要的搜索引擎中执行搜索。所有翻转都是在排名前10的rank中的翻转,所以有9种类型的翻转,我们对其编号

我们通过随机抽样收集了大量这样的实验,然后采用两种方式进行过滤。我们忽略了任何在前十名列表上方有广告或其他元素的实验。这意味着我们对前10名观看行为的分析主要集中在用户首先看到的是排名第一的情况。因此,我们不对广告和其他元素进行建模.

方框中间显示了较高概率的中位数,因此我们将bin较低概率的中位数显示为“.”,以便进行比较。方框图完整地显示了数据集,但存在一些问题。大多数观察都在最左边的箱子里。在最右边的bin中,我们实际上看到了中位点击概率在上部位置的下降(这是因为任何大于90%的概率都是异常值,因此在上部和下部位置都不太可能观察到)。

上图显示了日志空间中的相同数据。概率p的对数几率为对数log(p/(1-p))。这样做的效果是扩展了较低的概率,因此我们可以更清楚地看到数据的形状。误差条形图再次显示下、中、上四分位数(如方框图)。下图则显示了相同的图,但是对于每种类型的翻转是分开的。注意,我们的数据集包含大量零点击的观测数据,我们在实验和对数优势图中对这些数据进行了不同的处理。在实验中,我们保持零并使用平滑,后面会阐述。在对数优势图中,我们通过在x轴或y轴上的零点击观察移除任何数据点。零不能按原样显示,因为零的对数几率是负无穷大。此外,如果通过平滑或添加epsilon来包含它们,它们往往会使绘图的可读性降低,并减少关于非零数据点的信息。

存在四种可能的情况,

  • 只点击A;
  • 只点击B;
  • 两个都点击;
  • 两个都不点;

评估中的一个难点在于,我们的许多模型都独立地预测A和B的点击概率,这意味着我们分配了非零的概率,即两个结果在呈现时都被点击。

而在级联模型中,不可能同时观察到A和B的点击。我们的解决方案是对所有4个事件进行评估,但决不能同时观察到A和B的点击。我们表明,这并不妨碍独立A-B模型。

我们通过下面的式子计算观测到的AB序列的点击概率:

1.Baseline模型:

基于未调整的AB概率预测BA的点击概率;

2.Mixture模型:

3.Examination模型:

4.级联模型

  • 级联模型是最好的模型,优于logistic模型。Examination模型几乎没有对Baseline进行任何调整。我们还通过使用测试集BA计数作为我们的预测来计算“最佳可能”交叉熵。
  • 在rank较小的时候,cascade模型表现特别好,在rank4以及之后,cascade模型表现的一般。

我们认为这意味着在较低的级别上存在少量的presentation偏差,并且由于点击很少,所以存在大量的可变性。

我们10万多个观测类型的数据集中,cascade是迄今为止最成功的模型。这是值得注意的,因为它不使用训练数据,并适用于无参数点击观察。也就是说,它在较低rankk(大于4)级别上表现糟糕。尽管它并不比其他模型差多少,而且没有一个模型的性能明显优于基线。很明显,级联模型最适合解释rank为1或rank为1附近的翻转。

我们描述了一些简单的模型:“Mixture”下的点击是相关或随机的,而“Examination”下的点击是相关和examination的。然而,这些模型并不符合我们的数据。我们可以在没有点击的情况下找到任何级别的文档,这是反对随机点击假设的证明。

我们可以在(例如)rank 3中找到点击概率大于0.9的文档,这是反对检验假设的证明。因此,这两个模型的实现都存在约束问题。作为替代,我们提出了一个简单的LR模型,表现良好。即使我们允许AND或OR模型的权重有更多的极值,并且修正了任何越界的预测,他们的表现并不比LR模型好。

级联模型在早期排名中的出色表现基线模型在较低排名中的不败表现,提出了两种结果查看模式。为了比较相邻配对的点击水平,基于我们的结果的建议是,如果配对处于最ranks,则简单地应用级联模型来校正呈现偏差,并且以未校正的形式使用来自其他ranks的点击。

显然可以改进我们的模型,增加更多的参数。例如,cascade模型包含一个关于继续的假设,即如果用户不单击,他们将继续排名(continue down the ranking.)。这显然不是真的,有些用户会放弃结果列表而不点击,也不查看所有结果。事实上,当用户浏览页面时,我们可能会发现,由于点击一个特别好的结果,我们会失去许多用户;如果点击一个特别坏的结果,我们会失去许多用户,因为放弃。然后,一旦用户点击,当前的层叠模型就假设他们不在了,因此我们永远无法观察到在同一个列表上的多次点击。如果我们给点击用户一些返回结果列表的概率,那么在级联模型下,可以允许多次点击的情况,这显然是真实发生的。

参考文献:

  1. An Experimental Comparison of Click Position-Bias Models
  2. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.112.1288&rep=rep1&type=pdf
更多干货,请关注微信公众号:炼丹笔记

搜索推荐炼丹笔记:点击位置偏差的经验比较相关推荐

  1. 搜索推荐炼丹笔记:酒店搜索位置偏差的边际重要性

    Handling Position Bias For Unbiased Learning To Rank In Hotels Search(ArXiv2020) 作者:一毛,公众号:炼丹笔记 背景 对 ...

  2. 搜索推荐炼丹笔记:位置偏差里的惊喜

    PAL: A Position-bias Aware Learning Framework for CTR Prediction in Live Recommender Systems (RecSys ...

  3. 搜索推荐炼丹笔记:Transformer在搜索推荐中的应用

    作者:九羽,公众号:炼丹笔记 BERT等Transformer模型在自然语言处理领域大放异彩之后,将Transformer应用在各个领域变成了一种潮流,包括之前文章中介绍的Image Transfor ...

  4. 搜索推荐炼丹笔记:CVR预估中的延迟反馈问题

    CVR预估中的延迟反馈问题 一元@炼丹笔记 问题描述 在很多推荐搜索的建模中,我们经常会使用D+1天的数据作为label,从1~D天的数据中的进行特征抽取等工作,和我们时间序列问题建模类似,但和很多其 ...

  5. 搜索推荐炼丹笔记:评论是怎么影响推荐的?

    原来有这个算法,让点评体验如此好! 作者:十方,公众号:炼丹笔记 十方周末出去找吃的,一定会打开点评,去选择评分高的餐厅.虽然十方很少写评价,但是十方在选择餐厅的时候,一定会选择评分高且评论基本都是正 ...

  6. 搜索推荐炼丹笔记:融合GNN、图谱、多模态的推荐

    作者:十方,公众号:炼丹笔记 说到推荐系统,就不得不面对数据稀疏和冷启动问题,怎么解决呢?美团这篇论文<Multi-Modal Knowledge Graphs for Recommender ...

  7. 搜索推荐炼丹笔记:单网络内部集成学习

    Intra-Ensemble in Neural Networks 作者:一元,公众号:炼丹笔记 背景 提高模型效果一直是机器学习(包括深度学习)中的关键问题.然而,独立神经网络在层数较多的情况下,往 ...

  8. 推荐搜索炼丹笔记:MiNet阿里跨域点击率CTR预估

    作者:一元,公众号:炼丹笔记 MiNet: Mixed Interest Network for Cross-Domain Click-Through Rate Prediction(CIKM20) ...

  9. 推荐搜索炼丹笔记:SIM 用户行为序列点击率预估模型

    作者:十方,公众号:炼丹笔记 Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click- ...

最新文章

  1. Python基础17-模块与包基础02、常用模块之time、random
  2. ​ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?...
  3. Jenkins插件之VShpere Cloud
  4. Ant Design 4.0 进行时!
  5. 网页脚本基本java语法_JSP 基础语法
  6. Android开发二 什么是Android
  7. 先验概率与后验概率、贝叶斯区别与联系
  8. 计算机网络:九大命令!解决网络故障新思路
  9. WiFi密码都不会破译​还想考清华?​
  10. 80×60长40米的地笼_石家庄Q345矩形方管 220*80*8方管 华东地区
  11. 使用Iterator 或for-each注意:java.util.ConcurrentModificationException
  12. 无人驾驶入门(基本流程)
  13. 【筛法】第十万零二个素数
  14. 汇编程序:找出最小值
  15. 2015中国大学排行榜100强新鲜出炉(校友会版)-[转]
  16. DDOS误判怎么预防
  17. [5211]:Mutiple
  18. linux数据库删除命令大全,linux删除数据库命令
  19. 博弈论--取石子游戏
  20. chrome浏览器强制采用https加密链接

热门文章

  1. vue.js官方文档 PDF
  2. Ucenter社区服务搭建
  3. jQ html5拖放
  4. ASP.NET Core的配置(2):配置模型详解
  5. .net程序部署(mono方式)
  6. Perl 中的正则表达式
  7. IIS5.1错误,启动时WEB服务提示:服务器没有及时响应启动或控制请求 之终极解决方案。...
  8. Oxite移植到ASP.NET MVC2 BETA 笔记(关于Html.RenderPartialFromSkin)
  9. 2021常用单细胞数据库整理汇总
  10. 学习笔记:二叉搜索树的验证