1 简介

转化率(CVR)预估是电商搜索、推荐和广告最关键任务之一。商业系统通常需要以在线学习的方式更新模型,以跟上不断变化的数据分布。但是,成交转化通常不会在用户单击商品后立即发生。这可能会导致label不准确,我们称之为延迟反馈问题。

也就是说,对于一个点击行为,可能在当时没有出现转化现象,但是在随后的12h,24h小时内发生了转化,那么这个样本数据就会标记为负。通过延迟反馈修订,就是将此类的样本数据标记为正。

在以前的研究中,延迟反馈问题是通过长时间等待正例样本来解决的;或者通过在到达样本时先消费负例样本,然后在之后真正转化时再插入正例样本来解决。

2 业内相关方法

Delayed Feedback问题为CVR模型在线学习引入了一个难题:一方面,我们需要等待足够长的时间,以便观察信息可以大致反映出真实的成交转化(label corretness);另一方面,我们也倾向于更新的预测模型(model-freshness)。

DFM[2]是解决延迟反馈问题的早期研究之一,提出的延迟反馈模型通过预估CVR和延迟时间分布的联合概率进行优化。这种在观测转化上的优化结果可能会偏离(biased from)真实的转化分布。为了在延迟反馈问题中实现无偏的CVR预估,最近的研究探索了通过重要性采样(importance sampling)[1]来优化真实转化分布期望的方法。

FNW(Fake Negative Weighted)[3]提出以下采样方式:每个到达的样本首先被标记为负例,然后在真正转化时进行校正。然而,在修正之前,每个假负例可能会对模型产生副作用。如果数据分布频繁更改,则会增加这种副作用。例如,在促销活动开始时,用户点击次数可能会急剧增加,而大多数转化是在一定时间之后发生的。这种不堪重负的假负例可能会损害预测模型。

FSIW(Feedback Shift Importance Weighting)[4]不是盲目地将每个传入的样板标记为负例,而是在一定的时间间隔内等待真实的成交转化。但是,即使随后发生成交转化事件,FSIW也不允许数据校正。我们认为正例对于延迟反馈预测很重要,因为正例总是比负例稀少。此外,由于等待时间过长,FSIW可能缺乏模型新鲜度。因此,要么近乎实时地更新模型,要么等待足够长的时间进行转换,都无法解决流式CVR预测中的延迟反馈问题。

对于CVR模型在线学习,提出了Elapsed-Time Sampling Delayed Feedback Model(ES-DFM),该模型对observed conversion分布和ground true conversion分布之间的关系进行建模。引入动态采样分布(elapsed-time sampling),可以通过降低假负例的权重和提升真正例的权重来帮助模型纠正样本偏差。

关于CVR建模中延迟反馈问题相关推荐

  1. RS Meet DL(76)-CVR预估中的延迟反馈问题建模

    1.背景介绍 在展示广告场景中,有多种多样的计费方式,如按每次展示计费CPM.按每次点击计费CPC.以及按每次转化计费CPA.但不论何种计费方式,在实时竞价的场景下,供给方(媒体)对于广告的排序基本都 ...

  2. 搜索推荐炼丹笔记:CVR预估中的延迟反馈问题

    CVR预估中的延迟反馈问题 一元@炼丹笔记 问题描述 在很多推荐搜索的建模中,我们经常会使用D+1天的数据作为label,从1~D天的数据中的进行特征抽取等工作,和我们时间序列问题建模类似,但和很多其 ...

  3. KDD 2021 | 一种使用真负样本的在线延迟反馈建模

    ▐  摘要 电商场景的多目标模型预估,包括加购率,转化率,进店,时长等等.在展示广告领域,多目标体现了广告主对自己真实诉求的表达,因此,多目标模型既是技术项目,也有强烈的业务属性.广告排序系统,从上到 ...

  4. 延迟反馈带来的样本偏差如何处理

    在广告系统中,转化率预估是个非常常见的任务,但是转化行为的发生时间往往发生在点击行为后很久,这样就产生了一个很严重的问题.转化率模型需要不断更新,但是产生点击的数据又不能及时用于转化率预估,也就是我们 ...

  5. CIKM 2022|FwSeqBlock: 一种在序列建模中增强行为表征的方法

    ©作者 | 钱浩 单位 | 北邮 GAMMA Lab 研究方向 | 图神经网络 论文标题: Uncovering the Structural Fairness in Graph Contrastiv ...

  6. Maltab在数学建模中的应用(第二版)——读书笔记上

    Maltab在数学建模中的应用(第二版)--读书笔记上 1.MATLAB与数据文件的交互 1.1数据拟合 1.2数据拟合实例 1.3数据可视化 1.4层次分析法 2.规划问题的MATLAB求解(多约束 ...

  7. 袁新生《LINGO和Excel在数学建模中的应用》

    内容介绍 本书深入浅出地介绍了LINGO的基础知识.用LINGO语言描述现实问题的方法和用Excel处理数据的方法,重点是这两种软件在解决各种优化问题以及在数学建模中的应用,通过丰富的实例介绍了把实际 ...

  8. 卓金武《MATLAB在数学建模中的应用》 第2版

    内容介绍 本书的作者都具有实际的数学建模参赛经历和竞赛指导经验.书中内容完全是根据数学建模竞赛的需要而编排的,涵盖了绝大部分数学建模问题的matlab求解方法.本书内容分上下两篇.上篇介绍数学建模中常 ...

  9. 风控建模中的样本偏差与拒绝推断

    风控业务背景 幸存者偏差(Survivorship Bias)是一个广泛存在的逻辑谬误.我们在进行统计的时候,可能会忽略样本的随机性和全面性,用局部样本代替了总体样本,对总体的描述出现偏差,从而得出错 ...

  10. 决策树python建模中的坑 :ValueError: Expected 2D array, got 1D array instead:

    决策树python建模中的坑 代码 #coding=utf-8 from sklearn.feature_extraction import DictVectorizerimport csvfrom ...

最新文章

  1. HaaS 物联网极客大赛来了!奖金丰厚等你来!
  2. 如此理解面向对象编程
  3. 消息(6)——WCF,构建简单的WCF服务,MTOM编码
  4. poj 1724 有限制的最短距离(优先队列+链表)
  5. 遥感学习教学课件分享
  6. maven集成SSM项目,Tomcat部署运行——SSM整合框架搭建
  7. windows电脑记事本怎么自由排序?
  8. 安全电子签章密码技术规范_《密码法》中的“密码”,你真的了解吗?
  9. Ubuntu 20.04 LTS 修改IP地址
  10. 使用谷歌学术镜像查找英文论文、英文论文阅读
  11. 如何计算平台的可用性?
  12. marvell raid linux,佳能 RAID Console 驱动程序下载-更新佳能软件(磁盘阵列控制器)
  13. 路由器映射,端口映射?
  14. 解决docker容器中使用composer,无法解析安装包
  15. 电脑鸿蒙系统怎么连接无线网络,三星笔记本电脑怎么连接无线网wifi
  16. ABP VNext学习日记5
  17. 基于已知点云地图的NDT的激光SLAM定位
  18. loadrunner如何确定预期TPS
  19. 数字后端基本概念介绍Tie cell
  20. (附源码)SSM兴澜幼儿园管理系统JAVA计算机毕业设计项目

热门文章

  1. sql 遇到多个重复列名报错:Ambiguous column reference ***
  2. elasticsearch实现搜索拼音然后高亮内容
  3. Hibernate 第一个程序的问题Unknown entity(新手必看)
  4. PUN☀️八、拓展网络同步:RPCs 和 Properties
  5. NLP算法-词性标注
  6. 当无边框窗口被子窗口遮挡导致难以调节窗口大小时,可通过处理 NCHITTEST 消息重新支持调节窗口大小
  7. win10如何删除输入法_win10如何添加和删除输入法_win10系统添加和删除输入法的图文教程...
  8. 『转』VC 开机自动启动程序代码
  9. DNA分子结构3D模型
  10. 《海马记忆训练》摘录