CVR预估中的延迟反馈问题

一元@炼丹笔记

问题描述

在很多推荐搜索的建模中,我们经常会使用D+1天的数据作为label,从1~D天的数据中的进行特征抽取等工作,和我们时间序列问题建模类似,但和很多其他的时间序列问题建模不一样的地方在于,我们的label不一定可靠,比如在传统的时间序列回归中,D+1天的销量是多少就是多少,我们没有太多的犹豫,因为不大会有其他的情况。但是在电商的问题中,就存在下面这种情况:

D+1天未购买可能并不一定是真正意义上的未购买,而可能是加入购物车或者意愿清单了, 只是没有在当天下单, 而是过了一天在D+2天的时候下了单, 而这样的标签如果我们直接默认其为负样本就会有较大的问题,因为它并不是真正意义上的负样本,只是反馈延迟了。

这在搜索推荐系统中,我们称之为延迟反馈的问题。

问题严峻性

看到这么个描述,我们似乎有了一个直观的理解,但是可能并不会过于重视,我们直观感受是,是的,但是可能比例不会很高吧,有必要重视吗?下面我们看一组数据:在Criteo公司早期,

  • 有35%的商品会在点击后一个小时内得到转化;
  • 有50%的商品会在点击后24h内得到转化;
  • 有13%的商品会在点击后2周之后才得到转化。

这么看来问题还是十分严峻的,那么如何解决该问题呢?

Modelling Delayed Feedback in Display Ad

eCPM

这个问题较早在2014文章Modelling Delayed Feedback in Display Advertising中被提出,当时神经网络等还没那么流行,但是解决的思路非常值得借鉴?在广告推荐中,有一个指标价值是非常大的,eCPM=CPA∗P(conversion,click)=CPA∗P(click)∗P(conversion|click),

  • CPA: Cost per conversion, 广告商愿意为每个转化支付的金额, 如果eCPM高的话,意味着我们可能获得更多的钱。

从上面这点可以看出,我们希望能很好地预估某个广告的转化概率(最终转化即可,对应到下文P(C=1|X=x).

问题建模

变量定义

我们先定义五个变量,

假设

问题表示

损失函数 & 问题求解

损失函数:

问题求解:

我们的优化问题中,有两个变量和,论文中提出了两种求解方案,基于EM算法的求解以及基于梯度下降的策略。

小结

本文针对转化回传的延迟问题提出了一种新的建模方式,不把还没观察到转化样本直接当做负样本处理,而是考虑其距离当前点击发生的时间长短给予模型不同权重的梯度,在建模的时候考虑延迟转化的时间信息,实验的结果也验证了该方案的有效性。当然直观的看本文的方案,我们也可以看到本文的几点不足,我们假设发生转化的延迟时间为指数分布,这种假设可能还不够宽泛;能否替换为其他的更好的函数值得考虑。

搜索推荐炼丹笔记:CVR预估中的延迟反馈问题相关推荐

  1. RS Meet DL(76)-CVR预估中的延迟反馈问题建模

    1.背景介绍 在展示广告场景中,有多种多样的计费方式,如按每次展示计费CPM.按每次点击计费CPC.以及按每次转化计费CPA.但不论何种计费方式,在实时竞价的场景下,供给方(媒体)对于广告的排序基本都 ...

  2. 搜索推荐炼丹笔记:Transformer在搜索推荐中的应用

    作者:九羽,公众号:炼丹笔记 BERT等Transformer模型在自然语言处理领域大放异彩之后,将Transformer应用在各个领域变成了一种潮流,包括之前文章中介绍的Image Transfor ...

  3. 搜索推荐炼丹笔记:酒店搜索位置偏差的边际重要性

    Handling Position Bias For Unbiased Learning To Rank In Hotels Search(ArXiv2020) 作者:一毛,公众号:炼丹笔记 背景 对 ...

  4. 搜索推荐炼丹笔记:评论是怎么影响推荐的?

    原来有这个算法,让点评体验如此好! 作者:十方,公众号:炼丹笔记 十方周末出去找吃的,一定会打开点评,去选择评分高的餐厅.虽然十方很少写评价,但是十方在选择餐厅的时候,一定会选择评分高且评论基本都是正 ...

  5. 搜索推荐炼丹笔记:位置偏差里的惊喜

    PAL: A Position-bias Aware Learning Framework for CTR Prediction in Live Recommender Systems (RecSys ...

  6. 搜索推荐炼丹笔记:融合GNN、图谱、多模态的推荐

    作者:十方,公众号:炼丹笔记 说到推荐系统,就不得不面对数据稀疏和冷启动问题,怎么解决呢?美团这篇论文<Multi-Modal Knowledge Graphs for Recommender ...

  7. 搜索推荐炼丹笔记:单网络内部集成学习

    Intra-Ensemble in Neural Networks 作者:一元,公众号:炼丹笔记 背景 提高模型效果一直是机器学习(包括深度学习)中的关键问题.然而,独立神经网络在层数较多的情况下,往 ...

  8. 搜索推荐炼丹笔记:点击位置偏差的经验比较

    An Experimental Comparison of Click Position-Bias Models (WSDM08) 作者:一元,公众号:炼丹笔记 这是一篇经典的文章,引用800+,虽然 ...

  9. 【万字干获】阿里妈妈搜索推荐广告预估模型2021思考与实践

    省时查报告-专业.及时.全面的行研报告库 省时查方案-专业.及时.全面的营销策划方案库 知识图谱在美团推荐场景中的应用实践 搜索场景下的智能实体推荐 机器学习在B站推荐系统中的应用实践 小红书推荐系统 ...

最新文章

  1. 【论文速读】城市自动驾驶应用的概率语义地图
  2. 用手动创建新的script标签的方式,实现JavaScript脚本的异步加载
  3. jquery一些基本函数
  4. java 二分搜索获得大于目标数的第一位_程序员数据结构算法编程,二分查找搜索算法的原理与应用介绍!...
  5. c语言作业的分析,C语言作业分析.doc
  6. elman神经网络_西瓜书第五章——神经网络
  7. 对GCN,Transformer, XLNet, ALBERT, CRF等技术仍然一知半解?再不学习就OUT了!
  8. 2003系统安全配置
  9. python 列表自动排序_Python学习小技巧之列表项排序的示例代码分享
  10. js检测微信浏览器_JavaScript判断是否是微信浏览器
  11. 新浪微博注册(elenium Python 自动化)
  12. 基于Python的信用评分卡建模分析
  13. linux终端打英文间隔太大,解决vs code 内置终端,字体间隔过大问题。(linux centos7成功)...
  14. QT选择目录等常用文件/文件夹操作
  15. 接口与抽象类的区别,为什么要用接口,抽象类不香吗?
  16. Windows 源码编译 nginx (加入nginx-http-flv-module)
  17. JAVA关于集合类小程序--模拟新浪用户注册
  18. PPT 如何取消幻灯片自动播放
  19. 手机耗电统计app_Android O 新特性:精确统计 APP 电量消耗
  20. 《卷积网络》深度卷积网络实例

热门文章

  1. 背水一战 Windows 10 (30) - 控件(文本类): AutoSuggestBox
  2. Excel找出两列相同部分
  3. 简单tarjan》一道裸题(BZOJ1051)(easy)
  4. javascript改变样式(cssFloat,styleFloat)
  5. obj.toSource()
  6. Cognos8.3权限体系[转]
  7. mysql事务未提交读_mysql事务之未提交读Read uncommitted(仅学习)
  8. python末位1的位置_用Python黑了整个学院学姐的电话和QQ,爬虫牛皮!兄弟们耗子尾之!...
  9. jsp中不能正常显示图片+不能正常显示bootstrap字体图标
  10. vbs修改office设置_E002 Ruby 写入数据 【 =gt; Office 】