https://zhuanlan.zhihu.com/p/35046241

278 人赞同了该文章

从最近的比赛学习CTR/CVR

最近在玩kaggle的talking data的比赛,适逢IJCAI2018的比赛也是CTR问题,故将最近学习的东西整理下分享,欢迎大家拍砖。

CTR预估就是这样的任务:给定用户或某唯一标识,给定一个商品(Product),给定了一定的环境,来看用户会不会买这个商品,买商品的概率有多高;或者说给用户推荐一个电影,用户会不会看这个电影,看的概率有多高。形式化的表示就是建模P(click|content)给定上下文,建模点击/购买/下载/使用的概率。

CTR是很多电商,社交,信息流涉及到盈利的非常关键的技术,各家都非常重视,CTR微小的提升,带来的就是可观的盈利。

CTR问题为什么是一个值得拿出来研究的问题,是因为问题的特殊性。

  • 存在高维度的稀疏特征

比如从用户的维度看,大的电商其用户有上亿,商品种类也繁多,这样简单的独热编码就带来了上亿维的特征

  • 很多离散性质的特征

比如其行为发生时间,行为发生的渠道/页面位置等

一般来讲,对于CTR问题解决方向有两个,一是通过精巧的特征工程结合简单的模型(LR),这需要非常之高的专家知识和特征工程能力。二是弱化特征工程,通过模型的复杂性来自动发现建模,比较有代表的是Facebook的GBDT+LR,FM,FFM,DNN等方法。深度学习风潮兴起之后,很多基于NN的方法,如谷歌的deep and wide, Deep FM, FNN等方法也取得了不错的效果。

参考 ,wzhe06同学搜集的论文列表

除了非常厉害的特征工程助你取胜之外,下面有一些经典的论文和方法讲解。当然这只是一般套路,针对具体的数据需要你有自己的理解,活用方法和创新才能立于不败之地。

0.FM/FFM

FM和FFM是台大的童鞋们在Netflix的比赛中把名声打响,后来在CTR中一直有不错的效果,FM和FFM的设计,隐含了很多矩阵分解,以及深度学习中embedding的思想,可以说这种压缩降维表示的思想在高维稀疏数据中都有不错的效果,这篇博客对其原理有讲解。不过我在实践中发现,libffm对于talking data这种数据量巨大,极不平衡的情况下没法收敛,具体的原因还在排查。

1.FTRL

Ad Click Prediction a View from the Trenches

这篇论文是非常经典的FTRL方法,在taiking data的kernel上有Giba大佬的分享 giba-darragh-ftrl-rerevisited,
FTRL还解决了在线学习的问题,在线学习是算法实用化非常关键的一点。中文博客在这里有对原理的讲解, 感兴趣的同学可以看一看。

2.Practical Lessons from Predicting Clicks on Ads at Facebook

这篇文章也非常有名,是把GBDT的叶子结点送给LR,通过模型自动发现学习组合特征。在业界和竞赛上都有不错的效果,中文博客如下三篇对这个讲解不错,Xgboost使用简单的

new_feature= xgb.predict(d_test, *pred_leaf*=True)

就可以拿到GBDT的叶子结点特征,非常方便

3.一些NN方法

NN的方法直觉思路是,通过embedding得到向量空间的表示,然后拿到表示后通过NN模型复杂的非线性完成分类。

在talking data一开始的时候,我在kernel写了个NN一把梭的baseline,后来有几个大佬在这上面做了一些优化,看起来比较简单。

下面是一些比较经典的论文,这些论文很多在去年的腾讯计算广告计算大赛中第一名都有所使用,并且取得了单模型就能排到第三的很好的成绩,所以深度学习不容小觑。

  • Deep Neural Networks for YouTube Recommendations

youtebe使用DNN做推荐

  • Wide & Deep Learning for Recommender Systems

Deep & wide

  • FNN:
  • PNN:
  • DeepFM: A Factorization-Machine based Neural Network for CTR Prediction:

下面是一些过往比赛的整理:

kaggle:outbrain click prediction

kaggle:Display Advertising Challenge

kaggle Click-ThroughRate Prediction

腾讯社交广告大赛

天池优惠券使用预测

这里有一个完整的CTR的解决方法,,kaggle的数据集,比较适合学习,讲解地非常详细。

转载于:https://www.cnblogs.com/DjangoBlog/p/10860933.html

从最近的比赛学习CTR/CVR相关推荐

  1. 推荐系统CTR(CVR)预估模型(多任务学习)之ESMM

     esmm模型是阿里妈妈基础算法团队发表在SIGIR 18上的一篇论文,用来做转化率预估.  整篇论文非常简单,创新点也很通俗易懂,转化率预估目前主要存在两个难点:1.sample selection ...

  2. [阿里]基于多任务学习的CVR预估模型ESM2

    今天介绍的文章名称是<Conversion Rate Prediction via Post-Click Behaviour Modeling> 论文下载地址为:https://arxiv ...

  3. 从FM推演各深度学习CTR预估模型

    本文的PDF版本.代码实现和数据可以在我的github取到. 1.引言 点击率(click-through rate, CTR)是互联网公司进行流量分配的核心依据之一.比如互联网广告平台,为了精细化权 ...

  4. python机器学习案例系列教程——CTR/CVR中的FM、FFM算法

    全栈工程师开发手册 (作者:栾鹏) python教程全解 FM问题来源 CTR/CVR预测时,用户的性别.职业.教育水平.品类偏好,商品的品类等,经过One-Hot编码转换后都会导致样本数据的稀疏性. ...

  5. 谷歌、阿里们的杀手锏:三大领域,十大深度学习CTR模型演化图谱

    作者 | 王喆 来源 | 转载自知乎专栏王喆的机器学习笔记 今天我们一起回顾一下近3年来的所有主流深度学习CTR模型,也是我工作之余的知识总结,希望能帮大家梳理推荐系统.计算广告领域在深度学习方面的前 ...

  6. 谷歌、阿里们的杀手锏:3大领域,10大深度学习CTR模型演化图谱(附论文)

    来源:知乎 作者:王喆 本文约4000字,建议阅读8分钟. 本文为你介绍近3年来的所有主流深度学习CTR模型. 今天我们一起回顾一下近3年来的所有主流深度学习CTR模型,也是我工作之余的知识总结,希望 ...

  7. 深度学习CTR预估模型凭什么成为互联网增长的关键?

    本文是王喆在InfoQ开设的原创技术专栏"深度学习CTR预估模型实践"的第一篇文章(以下"深度学习CTR预估模型实践"简称"深度CTR模型" ...

  8. 深度学习CTR模型最全演化图谱 [王喆观点]

    毕业于清华大学计算机系的王喆学长回顾了近3年来的所有主流深度学习CTR (click through rate) 模型,并梳理推荐系统.计算广告领域在深度学习方面的前沿进展.内容来源:https:// ...

  9. 主流深度学习CTR模型

    随着微软的Deep Crossing,Google的Wide&Deep,以及FNN,PNN等一大批优秀的深度学习CTR预估模型在2016年被提出,计算广告和推荐系统领域全面进入了深度学习时代, ...

最新文章

  1. 2020 诺贝尔奖「第一棒」:英美三位科学家摘得桂冠!
  2. 编写一个方法,数出从0到n中数字2出现了几次?
  3. Power Shell03 在PowerShell 3.0重新启动计算机指令
  4. 用例子说明MVC 设计模式(以Objective-C 实现)
  5. Dropzone.js实现文件拖拽上传
  6. 聊一聊IAR的workspace文件组织
  7. 「pip」常用pip镜像地址
  8. 新手关于如何看编程经典书的一些疑惑?
  9. nodejs python jedi_Jenkins管道:选择nodejs版本(+ python版本)
  10. java 不指定大小接收
  11. 三度其一——数量场的梯度
  12. css文本溢出 so easy~
  13. 计时器ajax,使用AJAX请求计时器
  14. MyCat之全局表和ER表
  15. 高数_关于e两个重要的积分公式
  16. 数字频率计c语言程序,数字频率计中C语言编程的研究
  17. 全站仪坐标计算机公式,全站仪使用方法及坐标计算,详细讲解!建议收藏!
  18. matlab生成的fig文件名字修改
  19. gerrit常见问题及解决方法
  20. 鸡兔同笼python程序怎么写_梦见鸡_周公解梦梦到鸡是什么意思_做梦梦见鸡好不好_周公解梦官网...

热门文章

  1. 烟台大学ACM OJ之手机后四位尾号问题
  2. 亚马逊云科技中国峰会,一起探路未来
  3. 计算机社团未来发展规划,社团未来发展规划.doc
  4. 以下可用作c语言中的字符常量是,C语言-第3章简单的C程序设计 练习题.doc
  5. A*寻路算法讲解+源码DEMO演示
  6. thinkphp(2)
  7. 618前夜:听8年电商操盘手的“数据运营技巧”
  8. AD硬件电路模块设计——看门狗电路
  9. 神经网络笔记1-三层BP神经网络
  10. 51单片机auxr寄存器_AT89S51存储器的结构