©PaperWeekly 原创 · 作者|Zhang

学校|上海交通大学硕士生

研究方向|深度学习、自然语言处理

背景介绍

Click Through Rate (CTR) Prediction 是一项非常重要的工业任务,例如计算广告中、推荐系统中的应用。计算广告中需要根据 CTR 的预估来进行竞价,有的推荐系统则基于 CTR 进行排序。

CTR 预测即给定一个用户/物品(广告)对,预测用户点击该物品的概率。其中输入的特征往往包括连续特征(年龄)和枚举特征(性别、地区),即 continuous field 和 categorical field。其中枚举特征还分为单一取值的特征(如性别)和多取值的特征(如购买记录)。

一般先用 one-hot 或 multi-hot encoding 的方式编码枚举特征,之后在很多模型中都会通过 embedding layer 再将它映射成 dense feature。最后根据这些处理过的 feature 来预测用户点击该物品的概率。

模型发展史

传统的模型有:LR [1]、FM [2]、FTRL [3]、GBDT+LR [4]、FFM [5]、PL-LSM [6] 等。

2.1 2016年

最简单的基于 deep learning 的模型设计,例如 Deep Learning over Multi-field Categorical Data (DNN) 直接将 dense feature的concatenation 作为输入,在其上叠加多层的神经网络直接预测 CTR。

该文提出 FM supported 和 sampling based NN 两种具体实现方式,分别通过  FM、基于负采样的 DAE/RBM 预训练得到 embedding 的初始化值,以及通过使用 RBM contrastive divergence 预训练来初始化上层的神经网络参数;最后通过 fine-tune 的方式训练最终模型。

不同于上述模型完全依赖神经网络(如果不考虑预训练的作用)来学习不同 feature 之间的交互关系,另一类模型既显式地建模 feature 之间的低阶交互关系,又同时借助神经网络来建模高阶交互关系。

比如 Product-based Neural Networks for User Response Prediction (PNN) 中在不同的 feature 之间通过内积、外积的方式计算二阶交互特征,最后将原始的一阶和交互的二阶特征相加输入神经网络。

Wide & Deep Learning for Recommender Systems (Wide&Deep) 中的 wide model 使用一阶 feature 和通过手动设计 cross product transformation 得到的二阶 feature,通过 linear model 进行预测。

deep model 则直接从一阶 feature 出发叠加神经网络;最终将 Wide&Deep 两个模型 joint learning 训练。

2.2 2017年

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction (DeepFM) 中结合使用了 FM 和 DNN,其中 DNN 的输入共享使用了 FM 中的 latent vector,最终结合两部分的 feature 进行最终预测。

Deep & Cross Network for Ad Click Predictions (Deep&Cross)中从 embedding layer 出发并行地搭建一个 cross network、一个 DNN,最终合并两个分支的 feature 进行最终预测。

其中 cross network 显式地建模了高阶(对应 cross network 的层数,不同于其他模型设计中只有二阶的显式交互设计)的 feature 交互。

Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks (AFM) 在 FM 的基础上,通过 attention 的机制给不同的二阶交互项加上权重、以及对 latent vector 的 Hadamard product 的不同 bit 进行加权求和:

其中 attention score










根据














的 Hadamard product 来计算。

Neural Factorization Machines for Sparse Predictive Analytics (NFM) 中首次完全融合了 FM 和 DNN,将 FM 中原有的 latent vector 内积项:

替换为通过 Bi-Interaction Layer(如下图)+NN 建模的 feature 交互特征。

2.3 2018年

FwFM: Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising (FwFM) 中同样考虑了不同二阶交互特征对于最终预测的贡献度不同,因此在 FM 的二阶交互项中加入了权重系数,相比 FFM 减少了大量参数:

xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems (xDeepFM) 中同样显式地建模了高阶的 feature 交互,进一步改进了 Cross Network,提出 Compressed Interaction Network,模型表达能力更强。

并且将 Cross Network 中 bit-wise 的交互方式(意味着同一个 feature embedding 的不同 bit 之间也会进行交互)改为 vector-wise 的交互方式。模型整体结构和 DeepFM 相同,将 FM 的部分替换为 CIN。

Deep Interest Network for Click-Through Rate Prediction (DIN) 在对 user behavior 的 feature(用户历史行为)处理中,区别于传统的 average pooling 或 concatenation 的方式,考虑到了每个 behavior 的参考价值与具体的待预测目标有关。

因此通过 attention 的方式进行了加权求和来建模 user interest:

Deep Interest Evolution Network for Click-Through Rate Prediction (DIEN) 进一步关注了 user interest 随时间变化的特点。模型主要包括一个 interest extractor layer、一个 interest evolving layer,都是基于 GRU 的结构,在 user behavior 的时间序列上学习。

其中 interest evolving layer 的输入为 interest extractor layer 中对应时间步的隐藏层







,并且由







和待预测物体的特征







计算得出 attention 来作为 update gate 的权重。

2.4 2019年

Deep Session Interest Network for Click-Through Rate Prediction (DSIN) 中则关注到用户的历史行为、用户兴趣的时间序列可分为不同的 session,session 内的行为比较 homogeneous,而不同 session 间则更heterogeneous。

因此对 user behavior 的建模包括了 session division、session interest extractor (multi-head self-attention)、session interest interaction (Bi-LSTM)、session interest activation (attention)。

FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction (FiBiNET) 中提出了基于  Squeeze-and-Excitation 的 feature importance 计算方法以及 bilinear 的 feature 交互方法。

其中关于 bilinear interaction,新提出了杂交 Hadamard product 和 inner Product 的表达方式,例如:

最终得出的二阶交互特征替换 FM 模型中的二阶交互项。

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks (AutoInt) 中用 multi-head self attention network with residual connection 来建模 feature 交互。

2.5 2020年

FLEN: Leveraging Field for Scalable CTR Prediction (FLEN) 中提出了一种参数少、计算量小、适合工业化应用的模型,其中 feature 交互的部分结合了 intra/inter feature 的交互。最终用 field-wise bi-interaction module 得到的二阶特征 +DNN 学到的特征进行预测。

A Sparse Deep Factorization Machine for Efficient CTR prediction (Sparse DeepFwFM)  在 DeepFwFM 的基础上进行了 structural pruning,大大减少模型参数以符合线上运行的需求,并且使模型的 ensemble 成为可能。

研究方向

feature interaction 的方式

  • 只包含低阶(二阶)的特征交互,比如 FM、AFM、FFM、FwFM。

  • 完全依赖深度学习来建模高阶的交互特征,比如 DNN、AutoInt。

  • 结合显式的低阶特征交互建模和基于深度学习的高阶特征建模,比如 PNN、Wide&Deep、DeepFM、Deep&Cross、NFM、xDeepFM、FiBiNET、FLEN。其中 Deep&Cross 和 xDeepFM 显式建模了高于二阶的交互特征。

依据用户的历史行为以及待估计的对象研究用户的兴趣,比如 DIN、DIEN、DSIN。

简化模型、工业应用,比如 FwFM、FLEN、Sparse DeepFwFM。

其他还有推荐系统中基于 CTR 的模型,例如 RippleNet [7],利用了用户和物品由点击历史构成的 graph 以及 knowledge graph,将用户兴趣在合并的  graph 上“传播”,类似于基于物体的协同过滤方法。

效果比较

主要根据 AUC 和 logloss 来比较。在 Criteo 数据集上测试的模型较多,根据 paper 各自汇报的结果,在 Criteo 上表现最好的是 Sparse DeepFwFM,其次是 xDeepFM、DeepFM。根据 FLEN 自己在 Avazu 数据集上汇报的结果,FLEN 的优于 xDeepFM。

参考文献

[1] Richardson, Matthew ; Dominowska, Ewa ; Ragno, Robert. Predicting clicks: estimating the click-through rate for new ads.

[2] Rendle, Steffen ; Gantner, Zeno ; Freudenthaler, Christoph ; Schmidt-Thieme, Lars. Fast context-aware recommendations with factorization machines.

[3] Mcmahan, H ; Holt, Gary ; Sculley, D ; Young, Michael ; Ebner, Dietmar ; Grady, Julian ; Nie, Lan ; Phillips, Todd ; Davydov, Eugene ; Golovin, Daniel ; Chikkerur, Sharat ; Liu, Dan ; Wattenberg, Martin ; Hrafnkelsson, Arnar ; Boulos, Tom ; Kubica, Jeremy. Ad click prediction: a view from the trenches.

[4] He, Xinran ; Pan, Junfeng ; Jin, Ou ; Xu, Tianbing ; Liu, Bo ; Xu, Tao ; Shi, Yanxin ; Atallah, Antoine ; Herbrich, Ralf ; Bowers, Stuart ; Candela, Joaquin. Practical Lessons from Predicting Clicks on Ads at Facebook.

[5] Juan, Yuchin ; Zhuang, Yong ; Chin, Wei-Sheng ; Lin, Chih-Jen. Field-aware Factorization Machines for CTR Prediction.

[6] Gai, Kun ; Zhu, Xiaoqiang ; Li, Han ; Liu, Kai ; Wang, Zhe. Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction.

[7] Wang, Hongwei ; Zhang, Fuzheng ; Wang, Jialin ; Zhao, Miao ; Li, Wenjie ;Xie, Xing ; Guo, Minyi. RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems.

点击以下标题查看更多往期内容:

  • 变分推断(Variational Inference)最新进展简述

  • 变分自编码器VAE:原来是这么一回事

  • 图神经网络三剑客:GCN、GAT与GraphSAGE

  • 如何快速理解马尔科夫链蒙特卡洛法?

  • 深度学习预训练模型可解释性概览

  • ICLR 2020:从去噪自编码器到生成模型

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

浅谈 CTR 预估模型发展史相关推荐

  1. 前深度学习时代CTR预估模型的演化之路:从LR到FFM\n

    本文是王喆在 AI 前线 开设的原创技术专栏"深度学习 CTR 预估模型实践"的第二篇文章(以下"深度学习 CTR 预估模型实践"简称"深度 CTR ...

  2. 深度CTR预估模型的演化之路2019最新进展

    作者 | 锅逗逗 来源 | 深度传送门(ID: deep_deliver) 导读:本文主要介绍深度CTR经典预估模型的演化之路以及在2019工业界的最新进展. 介绍 在计算广告和推荐系统中,点击率(C ...

  3. 深度学习CTR预估模型凭什么成为互联网增长的关键?

    本文是王喆在InfoQ开设的原创技术专栏"深度学习CTR预估模型实践"的第一篇文章(以下"深度学习CTR预估模型实践"简称"深度CTR模型" ...

  4. 前深度学习时代CTR预估模型的演化之路 [王喆观点]

    毕业于清华大学计算机系的王喆学长梳理从传统机器学习时代到深度学习时代所有经典CTR(click through rate)模型的演化关系和模型特点.内容来源:https://zhuanlan.zhih ...

  5. 深度长文 | 从FM推演各深度CTR预估模型(附开源代码)

    作者丨龙心尘 & 寒小阳 研究方向丨机器学习,数据挖掘 题记:多年以后,当资深算法专家们看着无缝对接用户需求的广告收入节节攀升时,他们可能会想起自己之前痛苦推导 FM 与深度学习公式的某个夜晚 ...

  6. 从FM推演各深度学习CTR预估模型

    本文的PDF版本.代码实现和数据可以在我的github取到. 1.引言 点击率(click-through rate, CTR)是互联网公司进行流量分配的核心依据之一.比如互联网广告平台,为了精细化权 ...

  7. 深度CTR预估模型中的特征自动组合机制演化简史

    文 | 杨旭东 源 | 知乎 众所周知,深度学习在计算机视觉.语音识别.自然语言处理等领域最先取得突破并成为主流方法.但是,深度学习为什么是在这些领域而不是其他领域最先成功呢?我想一个原因就是图像.语 ...

  8. 万字长文梳理CTR预估模型发展过程与关系图谱

    " 本文主要是对CTR预估中的常见模型进行梳理与总结,并分成模块进行概述.每个模型都会从「模型结构」.「优势」.「不足」三个方面进行探讨,在最后对所有模型之间的关系进行比较与总结" ...

  9. 从FM推演各深度CTR预估模型(附代码)

    作者: 龙心尘 && 寒小阳 时间:2018年7月 出处:https://blog.csdn.net/longxinchen_ml/article/details/81031736 h ...

最新文章

  1. mysql怎么执行任务_Mysql怎么定时执行任务
  2. java的逻辑结构_Java的逻辑结构
  3. JZOJ__Day 2:【NOIP普及模拟】和谐数
  4. 【Linux】一步一步学Linux——egrep命令(50)
  5. jdk1.8以前不建议使用其自带的Base64来加解密
  6. Dapr微服务应用开发系列2:Hello World与SDK初接触
  7. stl vector 函数_vector :: pop_back()函数以及C ++ STL中的示例
  8. IE9 表格错位bug
  9. Understanding Growth
  10. 《C语言程序设计:问题与求解方法》——2.15节算术表达式
  11. EcShop二次开发学习方法和Ecshop二次开发必备基础
  12. 【谷粒学院】通过对象存储OSS上传图片
  13. (C)输入一个字符串(串长不超过60),删除字符串中所有的空格符
  14. 写一个python函数 用cuda加速
  15. math_基本初等函数图型(幂函数/指数/对数/三角/反三角)
  16. Android 手机红外遥控器实现(转)
  17. 20160131-basic-linux-command
  18. QQ拼音输入法的人机交互
  19. excel报表管理系统mysql_教育扶贫数据库管理系统下载安装|教育扶贫数据库管理系统(mysql收集excel表格)官方版下载_v1.0_9号软件下载...
  20. 市场调研-全球与中国沥青铺路材料市场现状及未来发展趋势

热门文章

  1. js锚点定位_overflow属性详解,利用CSS实现锚点定位
  2. springboot 控制台输出错误信息_高级码农Spring Boot实战进阶之过滤器、拦截器的使用...
  3. SPListItem.Update() 与 SPListItem.SystemUpdate()区别
  4. 工具类--日期工具类
  5. KVM总结-KVM性能优化之网络性能优化
  6. [luogu2148 SDOI2009] ED (博弈论)
  7. 04需求工程软件建模与分析阅读笔记之四
  8. NOI模拟题4 Problem C: 填格子(board)
  9. OpenCV学习笔记(一) 环境配置
  10. Win7远程桌面不能连接的解决方案