在广告系统中,转化率预估是个非常常见的任务,但是转化行为的发生时间往往发生在点击行为后很久,这样就产生了一个很严重的问题.转化率模型需要不断更新,但是产生点击的数据又不能及时用于转化率预估,也就是我们常说的延迟反馈问题.以前的方法往往预留一个时间窗口,超过这个窗口的样本会当作负样本,如果该样本后续又发生了转化,那又会多一条正样本注入模型,这样就会带来样本偏差.所以这篇论文<Real Negatives Matter: Continuous Training with Real Negatives for Delayed Feedback Modeling>给出了解决方案.

延迟反馈建模

转化率预估本质就是个二分类问题,每个样本会被打上{0,1}的标签,但是由于延迟反馈问题,如下图所示,在等待窗口中发生转化的都被标为正确的样本,但是超出这个窗口后就有被标为负样本但实际是正样本的风险.一个非常navie的想法就是扩大等待窗口.但是在广告系统中数据分布是在动态变化的,扩大等待窗口会导致模型学习不够充分.

下图左表示的是以前的方法,假的负例在转化发生后又会复制一份,作为正例输入到模型中,右图中我们可以看到本文提出的方法会复制真实负例和正例,从而保证样本分布一致.

本文提出的延迟反馈建模方法叫DEFER,q(x)是有偏差的观测分布(由于延迟反馈,模型训练的数据分布),p(x)是无偏差的观测分布,如果不做任何处理,就是假定q(x)约等于p(x),会带来偏差,为了降低偏差同时保障模型实时性,论文复制了正样本和真实负样本.

构建样本的细节在于,给每个样本制定一个等待窗口w1,在这个窗口发生转化就表示它是正样本,否则就是假负样本或者真实副样本,对于这些假负样本如果后面发生转化,那这些样本依然会标上正样本放到模型训练,对于那些真实负样本,依然会复制一份放到模型进行训练,复制的操作带来了更多转化的确定性信息.

因为复制操作,q(x) = p(x),且:

条件概率q(y = 0| x)就可以写为:

p_dp(x) = p(x,y=1,z>w1|x)是x被当作假负的概率.q(y=1|x)可以写为:

由此我们可以得到loss function为:

由上公式,因为p(y=1|x)和p(y=0|x)是不可能得到的,所以用模型预估f替换,并且还需要训练一个模型f_dp预估x是假负例的概率,最终loss function为, [.]是stop gradient操作:

本文还提出了一个多任务离线训练的方法提升泛化能力,设定不同的窗口大小w1~wN,如下所示:

loss函数如下所示:

参考文献

延迟反馈带来的样本偏差如何处理

延迟反馈带来的样本偏差如何处理相关推荐

  1. KDD 2021 | 一种使用真负样本的在线延迟反馈建模

    ▐  摘要 电商场景的多目标模型预估,包括加购率,转化率,进店,时长等等.在展示广告领域,多目标体现了广告主对自己真实诉求的表达,因此,多目标模型既是技术项目,也有强烈的业务属性.广告排序系统,从上到 ...

  2. 搜索推荐炼丹笔记:CVR预估中的延迟反馈问题

    CVR预估中的延迟反馈问题 一元@炼丹笔记 问题描述 在很多推荐搜索的建模中,我们经常会使用D+1天的数据作为label,从1~D天的数据中的进行特征抽取等工作,和我们时间序列问题建模类似,但和很多其 ...

  3. RS Meet DL(76)-CVR预估中的延迟反馈问题建模

    1.背景介绍 在展示广告场景中,有多种多样的计费方式,如按每次展示计费CPM.按每次点击计费CPC.以及按每次转化计费CPA.但不论何种计费方式,在实时竞价的场景下,供给方(媒体)对于广告的排序基本都 ...

  4. KDD2021 放榜,6 篇论文带你了解阿里妈妈AI技术

    关于 KDD ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是国际数据挖掘领域的顶级会议,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机协会推荐为A类会议. ...

  5. 关于游戏交互界面设计的几点思考

    接口数据流 玩家所体验的游戏世界其实是在他们的脑海中的,而玩家融入进游戏所通过的界面,就是交互界面.交互界面的设计目标就是让玩家「感到」他能够自如地控制自己的体验. 上图是一个简单的映射图,我修改了一 ...

  6. 如何处理因为支付成功后因延迟回调而订单被取消

    工作中遇到的问题记录 如何处理因为支付成功后因延迟回调而订单被取消 如何处理因为支付成功后因延迟回调而订单被取消 这个问题的出现背景也是因为第三方结算平台延迟反馈而造成用户错以为没有支付而取消订单或者 ...

  7. 如何解决游戏延迟,增强用户体验? 几种可行方案分享

    数字出版业的进步已经改变了游戏产业的面貌,正如他们也改变了音乐.视频.报纸和图书出版一样.据统计,到2019年全球的游戏产业总产值将达到10.7亿美元. 因此,对于所有这些发生在数字出版时代的巨变,网 ...

  8. 音视频低延迟应用的四个技术实践

    低延时是音视频领域最常遇到的关键诉求,如何设计解决方案以满足低延时的应用场景至关重要,本文将基于低延时的解决方案和实例进行讲解,分享一些应用的实践,帮助开发者更快地将解决方案应用到产品中.内容来自即构 ...

  9. 基于优化反馈的组合在线学习

    点击上方蓝字关注我们 基于优化反馈的组合在线学习 孔芳1, 杨悦然1, 陈卫2, 李帅1 1 上海交通大学约翰·霍普克罗夫特计算机科学中心,上海 200240 2 微软亚洲研究院,北京 100080 ...

最新文章

  1. java 性能检测工具 检测死锁等
  2. 天猫精灵可以当电脑音响吗_天猫精灵推出便携式投影仪,小到可以装进口袋,试试效果...
  3. .NET大型Web站点StackOverflow架构分析
  4. CentOS 7安装Keepalived
  5. 【机器学习】机器学习项目流程
  6. zabbix中文配置指南
  7. 网络编程多人聊天c语言,socket网络编程--简单的多人聊天
  8. flutter系列之flutter工程如何与android混编
  9. 《职场动物进化手册》笔记整理
  10. 解决opencart配置Gmail邮箱收不到来信
  11. 灰色预测残差修正 matlab,基于残差修正灰色预测模型的长期电力负荷预测方法与流程...
  12. 小小突击队服务器维护多久,《小小突击队》08月06日更新公告
  13. excel表格如何换行
  14. 故障码(DTC)状态解析
  15. Java的三大体系架构
  16. Linux集中日志服务器rsyslog
  17. 远程实习的实习证明上会注明是远程实习么?
  18. 解决无法直接打开EXCEL文件的问题
  19. Paragon Camptune X for Mac(Mac磁盘分区工具)
  20. cocos2dx 实现水波纹效果

热门文章

  1. 【java】java开发中的23种设计模式详解
  2. Hibernate中常用对象、方法、属性的理解
  3. divmod数字处理函数
  4. ASP.NET MVC 学习之路-4
  5. ASP.NET中实现页面间的参数传递 QueryString\Application\Session\Cookie
  6. [转]JS中判断鼠标按键判断
  7. python 共享内存变量_浅谈python多进程共享变量Value的使用tips
  8. 跟着这篇柳叶刀的文章来学会重复测量方差分析
  9. JavaWeb(一)——web服务器、Tomcat安装和配置
  10. JavaSE(十二)——AWT