搜索推荐炼丹笔记:点击位置偏差的经验比较
An Experimental Comparison of Click Position-Bias Models (WSDM08)
这是一篇经典的文章,引用800+,虽然有些老了,但里面的诸多假设仍然值得细细品味。
搜索引擎点击日志提供了宝贵的相关信息来源,但这些信息是有偏的。
有偏的一个主要来源是呈现顺序:点击的概率受文档在结果页面中的位置的影响。本文着重于解释这种偏差,建模点击概率如何依赖于位置。我们提出了四个关于位置偏差产生的假设。
我们进行了大量的数据收集工作,扰乱了一个主要搜索引擎的排名,看看点击量是如何受到影响的。然后,我们探讨四个假设中哪一个最能解释实践中位置的影响,并将其与简单的logistic回归模型进行比较。
简单的位置模型并不能很好地解释这些数据,有些用户不分青红皂白地点击排名1的商品,或者注意力在排名上出现简单的衰减。“cascade”模型,用户从上到下查看结果,并在看到有价值的文档后立即离开,这是我们对早期排名中位置偏差的最佳解释。
我们将位置标记为i->{ 1,2,....,N}, 我们对位置不做任何的假设,它们可能是线性排序的,在网格中,交错排列或以其他方式排列的。
我们的经验观测来自于一个标准的Top-10排序,我们诸多模型中的一个假设用户倾向于按从1-10的顺序观测结果。
1. Baseline假设:在位置i点击文档的概率与在位置j点击文档的概率相同
Position Bias最简单的解释是none。用户查看所有结果并考虑每个结果的优点,然后决定单击哪个结果。在我们的基线假设中,在位置i点击文档的概率与在位置j点击文档的概率相同;
在我们的实验中, j=i+1 , 位置上可能的最小改变,所以我们的baseline模型是非常强的预测。
基线假设似乎与过去的研究不一致,过去的研究表明,排名第1或接近排名1的结果更有可能被点击,更有可能在眼睛跟踪下查看。衰减的点击曲线可以与基线一致,如果搜索引擎用衰减的对文档进行排序,那么我们将看到更低的rank的点击更少。然而,基线假设与衰减的rd注意曲线并不一致。
2. 混合假设:一些用户由于文档出现在rank i中而以概率bj盲目点击
这个概率模型是新的,我们将看到很难根据我们的经验观察来拟合这个模型。然而,在不假设概率混合模型的情况下使用相关的方法,取得了显著的成功。Agichtein等人通过从该查询的点击分布中减去背景点击分布,纠正了位置偏差。然后,点击次数超过预期的搜索结果是相关的,而点击次数少于预期(否定)的搜索结果是无关的。
3. 检验假设
通过眼球追踪研究,我们有直接的证据表明,用户不太可能看排名较低的结果。这就提出了另一个假设:每个排名都有一定的被检验概率。这可以被建模为一个项xi,它是在位置i被检测的概率,如果要被点击,结果必须被检查而且是相关的:
4. 级联模型
我们提出了一个新的模型来解释position效应,该模型假设通过排序进行线性遍历,并且不检查点击之后的文档。
本文灵感来自于Joachims等人的工作,该工作假设通过排名进行线性遍历,以点击结果结束。一个典型的模型是上面的Click > Skip。在该模型中,排名i的单击文档被认为比跳过的文档更受欢迎。在第j列。如果点击i,则跳过第j列的文档,
为了观测一次点击,用户必须决定点击和跳过rank。
为了验证我们关于点击是如何产生的假设,我们进行了一个对照实验,在这个实验中,我们改变了文档显示的rank,并观察了点击概率的变化。这是在一小部分用户上实验的,因为他们在主要的搜索引擎中执行搜索。所有翻转都是在排名前10的rank中的翻转,所以有9种类型的翻转,我们对其编号
我们通过随机抽样收集了大量这样的实验,然后采用两种方式进行过滤。我们忽略了任何在前十名列表上方有广告或其他元素的实验。这意味着我们对前10名观看行为的分析主要集中在用户首先看到的是排名第一的情况。因此,我们不对广告和其他元素进行建模.
方框中间显示了较高概率的中位数,因此我们将bin较低概率的中位数显示为“.”,以便进行比较。方框图完整地显示了数据集,但存在一些问题。大多数观察都在最左边的箱子里。在最右边的bin中,我们实际上看到了中位点击概率在上部位置的下降(这是因为任何大于90%的概率都是异常值,因此在上部和下部位置都不太可能观察到)。
上图显示了日志空间中的相同数据。概率p的对数几率为对数log(p/(1-p))。这样做的效果是扩展了较低的概率,因此我们可以更清楚地看到数据的形状。误差条形图再次显示下、中、上四分位数(如方框图)。下图则显示了相同的图,但是对于每种类型的翻转是分开的。注意,我们的数据集包含大量零点击的观测数据,我们在实验和对数优势图中对这些数据进行了不同的处理。在实验中,我们保持零并使用平滑,后面会阐述。在对数优势图中,我们通过在x轴或y轴上的零点击观察移除任何数据点。零不能按原样显示,因为零的对数几率是负无穷大。此外,如果通过平滑或添加epsilon来包含它们,它们往往会使绘图的可读性降低,并减少关于非零数据点的信息。
存在四种可能的情况,
- 只点击A;
- 只点击B;
- 两个都点击;
- 两个都不点;
评估中的一个难点在于,我们的许多模型都独立地预测A和B的点击概率,这意味着我们分配了非零的概率,即两个结果在呈现时都被点击。
而在级联模型中,不可能同时观察到A和B的点击。我们的解决方案是对所有4个事件进行评估,但决不能同时观察到A和B的点击。我们表明,这并不妨碍独立A-B模型。
我们通过下面的式子计算观测到的AB序列的点击概率:
1.Baseline模型:
基于未调整的AB概率预测BA的点击概率;
2.Mixture模型:
3.Examination模型:
4.级联模型
- 级联模型是最好的模型,优于logistic模型。Examination模型几乎没有对Baseline进行任何调整。我们还通过使用测试集BA计数作为我们的预测来计算“最佳可能”交叉熵。
- 在rank较小的时候,cascade模型表现特别好,在rank4以及之后,cascade模型表现的一般。
我们认为这意味着在较低的级别上存在少量的presentation偏差,并且由于点击很少,所以存在大量的可变性。
我们10万多个观测类型的数据集中,cascade是迄今为止最成功的模型。这是值得注意的,因为它不使用训练数据,并适用于无参数点击观察。也就是说,它在较低rankk(大于4)级别上表现糟糕。尽管它并不比其他模型差多少,而且没有一个模型的性能明显优于基线。很明显,级联模型最适合解释rank为1或rank为1附近的翻转。
我们描述了一些简单的模型:“Mixture”下的点击是相关或随机的,而“Examination”下的点击是相关和examination的。然而,这些模型并不符合我们的数据。我们可以在没有点击的情况下找到任何级别的文档,这是反对随机点击假设的证明。
我们可以在(例如)rank 3中找到点击概率大于0.9的文档,这是反对检验假设的证明。因此,这两个模型的实现都存在约束问题。作为替代,我们提出了一个简单的LR模型,表现良好。即使我们允许AND或OR模型的权重有更多的极值,并且修正了任何越界的预测,他们的表现并不比LR模型好。
级联模型在早期排名中的出色表现,基线模型在较低排名中的不败表现,提出了两种结果查看模式。为了比较相邻配对的点击水平,基于我们的结果的建议是,如果配对处于最ranks,则简单地应用级联模型来校正呈现偏差,并且以未校正的形式使用来自其他ranks的点击。
显然可以改进我们的模型,增加更多的参数。例如,cascade模型包含一个关于继续的假设,即如果用户不单击,他们将继续排名(continue down the ranking.)。这显然不是真的,有些用户会放弃结果列表而不点击,也不查看所有结果。事实上,当用户浏览页面时,我们可能会发现,由于点击一个特别好的结果,我们会失去许多用户;如果点击一个特别坏的结果,我们会失去许多用户,因为放弃。然后,一旦用户点击,当前的层叠模型就假设他们不在了,因此我们永远无法观察到在同一个列表上的多次点击。如果我们给点击用户一些返回结果列表的概率,那么在级联模型下,可以允许多次点击的情况,这显然是真实发生的。
参考文献:
- An Experimental Comparison of Click Position-Bias Models
- https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.112.1288&rep=rep1&type=pdf
搜索推荐炼丹笔记:点击位置偏差的经验比较相关推荐
- 搜索推荐炼丹笔记:酒店搜索位置偏差的边际重要性
Handling Position Bias For Unbiased Learning To Rank In Hotels Search(ArXiv2020) 作者:一毛,公众号:炼丹笔记 背景 对 ...
- 搜索推荐炼丹笔记:位置偏差里的惊喜
PAL: A Position-bias Aware Learning Framework for CTR Prediction in Live Recommender Systems (RecSys ...
- 搜索推荐炼丹笔记:Transformer在搜索推荐中的应用
作者:九羽,公众号:炼丹笔记 BERT等Transformer模型在自然语言处理领域大放异彩之后,将Transformer应用在各个领域变成了一种潮流,包括之前文章中介绍的Image Transfor ...
- 搜索推荐炼丹笔记:CVR预估中的延迟反馈问题
CVR预估中的延迟反馈问题 一元@炼丹笔记 问题描述 在很多推荐搜索的建模中,我们经常会使用D+1天的数据作为label,从1~D天的数据中的进行特征抽取等工作,和我们时间序列问题建模类似,但和很多其 ...
- 搜索推荐炼丹笔记:评论是怎么影响推荐的?
原来有这个算法,让点评体验如此好! 作者:十方,公众号:炼丹笔记 十方周末出去找吃的,一定会打开点评,去选择评分高的餐厅.虽然十方很少写评价,但是十方在选择餐厅的时候,一定会选择评分高且评论基本都是正 ...
- 搜索推荐炼丹笔记:融合GNN、图谱、多模态的推荐
作者:十方,公众号:炼丹笔记 说到推荐系统,就不得不面对数据稀疏和冷启动问题,怎么解决呢?美团这篇论文<Multi-Modal Knowledge Graphs for Recommender ...
- 搜索推荐炼丹笔记:单网络内部集成学习
Intra-Ensemble in Neural Networks 作者:一元,公众号:炼丹笔记 背景 提高模型效果一直是机器学习(包括深度学习)中的关键问题.然而,独立神经网络在层数较多的情况下,往 ...
- 推荐搜索炼丹笔记:MiNet阿里跨域点击率CTR预估
作者:一元,公众号:炼丹笔记 MiNet: Mixed Interest Network for Cross-Domain Click-Through Rate Prediction(CIKM20) ...
- 推荐搜索炼丹笔记:SIM 用户行为序列点击率预估模型
作者:十方,公众号:炼丹笔记 Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click- ...
最新文章
- Python基础17-模块与包基础02、常用模块之time、random
- ​ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?...
- Jenkins插件之VShpere Cloud
- Ant Design 4.0 进行时!
- 网页脚本基本java语法_JSP 基础语法
- Android开发二 什么是Android
- 先验概率与后验概率、贝叶斯区别与联系
- 计算机网络:九大命令!解决网络故障新思路
- WiFi密码都不会破译​还想考清华?​
- 80×60长40米的地笼_石家庄Q345矩形方管 220*80*8方管 华东地区
- 使用Iterator 或for-each注意:java.util.ConcurrentModificationException
- 无人驾驶入门(基本流程)
- 【筛法】第十万零二个素数
- 汇编程序:找出最小值
- 2015中国大学排行榜100强新鲜出炉(校友会版)-[转]
- DDOS误判怎么预防
- [5211]:Mutiple
- linux数据库删除命令大全,linux删除数据库命令
- 博弈论--取石子游戏
- chrome浏览器强制采用https加密链接