描述 (Description)

对于广告点击率预估的是一个热点问题,很多从事计算广告的公司都有自己的点击率预估系统,其中知识点涉及从相对简单的logistic regression到最近google提出的Wide & Deep Learning.如何稳定可控地改进点击率预估系统,对于数据,架构,算法这三方面在不同的时间点要做什么事情是我这次想要分享的主题.基于过去在meidav(现360商业产品事业部),阿里妈妈的工作经验,回顾一个成熟的点击率预估系统是如何从最初的单纯的ETL+LR的形式逐步演变为包括模型在线训练,自动baddit,自动大规模特征探索的有强大现金流收益的在线系统.不仅仅告诉参会人员系统演化的结果,也介绍在演化的几个关键节点上基于当时情况因素选择那个技术方向的思考过程,相当于结合机器学习和深度学习的知识体系和最近2年的发展,以业内几个比较知名的应用场景为线索,以几个关键节点(千人千面的上下线,双11的逐年演化)为例子, 对于基于广告和推荐的流量变现系统做一个梳理,介绍大规模机器学习,分布式最优化的相关知识点,为参会者在面对在具体业务中遇到机器学习,深度学习相关问题如何做选型提供一份历史案例的参考.最后,面对现在IoT技术逐步扩散的趋势, 介绍目前根据移动设备+人脸识别进行受众锚定的技术以及基于这个技术上将户外显示屏广告(幕墙,灯箱,商场内显示屏)接入到竞价广告系统中并和APP一起建立O2O营销平台的工作.
主要会介绍下面的知识点

  • GBDT+FTRL融合模型
    这个技术最早是由Facebook在2014文章Practical Lessons from Predicting Clicks on Ads at中提出的,思路大致如下:采用基础特征(一般是统计类特征)训练出GBDT模型,当每个样本点经过GBDT模型的每一个树时,会落到一个叶子节点,即产生了一个中间特征,所有这些中间特征会配合其他ID类特征的特征一起输入到LR模型来做CTR预估.在基础特征特征非常多(数万种)的情况下,即使只找二阶组合就有上亿中选择,使用人工先验来找组合维度在目前阿里的体量下基本已经是不可能的事情了,GBDT提供了潜在的有意义组合维度作为接下来模型的输入
  • 对抗稀疏性:FM和FFM
    使用组合维度极有可能遇到维度稀疏的问题, 寻找到有训练一个FM模型就可以得到embedding, 然后再把FM 学到的模型输入给DNN作为对于组合的输入
  • Wide and Deep Learning模型
    这个模型的特点是结合了离散LR 以及 Deep Neural Network,category feature 通过embedding的方式输入到DNN学习, 其他一些特征通过LR 方式学习。LR部分通过Feature Cross 精细刻画场景, DNN部分则强调Generalization, Combine 二者尝试得到更优的效果。

Prediction of CTR (click-through rate) is a hot topic. Many computational advertising companies have their own CTR prediction systems, which use knowledge points like the relatively simple logistic regression and wide and deep learning recently proposed by Google. Drawing on firsthand experience at meidav (now 360 Business Product Group) and Alimama.com, 吴炜 explains how to improve CTRprediction systems in a controlled way, covering how CTR prediction systems have evolved from simple ETL+LR systems to very profitable online systems that include online model training, auto-baddit, and automated large-scale feature engineering.

Using a few well-known usage scenarios in this industry and several real-world examples, such as “A Thousand People, A Thousand Faces” and the yearly evolution of Alibaba Singles’ Day, 吴炜 unscrambles traffic monetization based on advertising and recommender systems and discusses large-scale machine learning, distributed optimization, a technology based mobile devices and face recognition, and how to integrate outdoor screen advertising (e.g., billboards, lightboxes, screens inside malls, etc.) into bidding advertisement systems and build an O2O marketing platform along with APPs.

Topics include:

  • GBDT+FTRL—This technology was first introduced by Facebook in 2014 in the paper “Practical Lessons from Predicting Clicks on Ads at Facebook.” Its basic idea is that base features (normally statistical features) can be used to train a GBDT model and that when each sample point passes this GBDT’s model tree, it will fall into a leave node, hence generating a middle-level feature. All middle-level features work with other ID-type features to form the input of LR models, which then perform CTR prediction. GBDT provides potential meaningful combinations of features as the input of following models.
  • Working against sparsity: FM and FFM—It is quite possible that a certain combination of features will introduce sparsity. The solution is to find and train an FM model to get embedding and then use that FM-trained model as the combination feature input to DNN.
  • Wide and deep learning models—Wide and deep learning models can integrate discreet LR and deep neural networks. Category features are fed to a DNN for learning, and other features are learned via LR. LR does fine-grained and scenario-specific prediction via feature cross, while the DNN highlights generalization. Combining the two methods generates better results.

从LR到DNN点击率预估相关推荐

  1. 基于点击率预估的推荐

    1.传统算法不能真正应用到生产系统 2.推荐场景数据是海量的,数据是稀疏的,要求是实时性是秒级 3.推荐系统的核心是"数据召回"和"模型排序" 4.GBDT和L ...

  2. kaggle案例:广告点击率预估+LR

    一.业务背景 传统广告与在线广告区别? 传统广告: 类似电视广告,报纸媒体.杂志.广播.户外媒体等. 在线广告: 类似百度搜索广告,facebook页面展示广告. 区别:在线广告更多与用户相关,例,在 ...

  3. 程序化广告交易中的点击率预估

    程序化广告交易中的点击率预估 指标 广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标: 1. 排序指标.排序指标是最基本的指标,它决定了我们有没有能力把最合适的广告找 ...

  4. 一文总结排序模型CTR点击率预估

    ​CTR点击率预估系列家谱 炼丹之前,先放一张CTR预估系列的家谱,让脉络更加清晰. (一)FiBiNET:结合特征重要性和双线性特征交互进行CTR预估 1.1 背景 本文发表在RecSys 2019 ...

  5. 推荐算法炼丹笔记:排序模型CTR点击率预估系列

    微信公众号:炼丹笔记 ​CTR点击率预估系列家谱 炼丹之前,先放一张CTR预估系列的家谱,让脉络更加清晰. (一)FiBiNET:结合特征重要性和双线性特征交互进行CTR预估 1.1 背景 本文发表在 ...

  6. 推荐算法炼丹笔记:CTR点击率预估系列入门手册

    ​CTR点击率预估系列家谱 炼丹之前,先放一张CTR预估系列的家谱,让脉络更加清晰. (一)FiBiNET:结合特征重要性和双线性特征交互进行CTR预估 1.1 背景 本文发表在RecSys 2019 ...

  7. Kaggle实战:点击率预估

    版权声明:本文出自程世东的知乎,原创文章,转载请注明出处:Kaggle实战--点击率预估. 请安装TensorFlow1.0,Python3.5 项目地址: chengstone/kaggle_cri ...

  8. Ctr点击率预估理论基础及项目实战

    1.机器学习推荐算法模型回顾 召回(粗排) 利用业务规则结合机器学习推荐算法得到初始推荐结果,得到部分商品召回集 ALS\UserCF\ItemCF\FP-Growth\规则等方式召回 排序(精排) ...

  9. CTR点击率预估干货分享

    1.指标 广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标:  1.排序指标.排序指标是最基本的指标,它决定了我们有没有能力把最合适的广告找出来去呈现给最合适的用户. ...

  10. 关于点击率模型,你知道这三点就够了 点击率预估的几个经典模型简介

    关于点击率模型,你知道这三点就够了 德川 2015年11月24日 阅读 2091 快速评论 说到广告,或者运营,关注的最多的就是点击率了.我们经常能听说某某科学家通过建立更好的点击率预测模型,为公司带 ...

最新文章

  1. 专访百度熊辉:有人转AI纯粹因为好找工作,这样的人不是我想要的
  2. 【高并发】并发编程到底应该学什么?一张图秒懂!!
  3. 密码错误Neo.ClientError.Security.Unauthorized: The client is unauthorized due to authentication failure
  4. 从B 树、B+ 树、B* 树谈到R 树
  5. net-ldap for ruby openNebula ldap
  6. qt如何做到实时显示数据_Python 如何实时绘制数据
  7. 新松机器人发行价_知识创造财富,“机器人第一股”背后的院士是怎样炼成的?...
  8. django-模型类中的数据类型-添加中
  9. 随想录(编写用户侧定时器)
  10. 被女朋友三番两次拉黑后,我用 Python 写了个“舔狗”必备神器
  11. 三星note10 android q,【极光ROM】-【三星NOTE10/NOTE10+/5G N97XX-9825】-【V5.0 Android-Q-TE9】...
  12. 企业邮箱申请注册流程,10分钟搞定公司企业邮箱
  13. 管中窥豹SPDK RBD bdev模块
  14. Generative Adversarial Nets[AAE]
  15. 计算机主机箱工作电流,电脑使用常识
  16. 关于1NF、2NF、3NF、BCNF的常考判定
  17. 三个团队的站立会议旁观笔记
  18. Global项目|浅析销售BOM实施方案及注意事项
  19. linux命令之pip命令
  20. RPC好,还是RESTful好?

热门文章

  1. linq 连接mysql_如何:使用 LINQ 查询数据库 - Visual Basic | Microsoft Docs
  2. Struts2-03-拦截器(BOS物流项目用户登录拦截)
  3. Flutter之跨组件状态共享Provider框架剖析(2)
  4. 每天一点正则表达式复习(二)
  5. where 1=1 是什么鬼?SQL中有这玩意?
  6. mac怎么给python下载库_关于macos:在Python中安装库
  7. 计算机应用超期,电脑程序数字签名过期怎么办
  8. python列表推导式求完全数_Python列表推导式(List comprehension)
  9. wps分析工具库如何加载_怎么在wps表格里面加入“数据分析”工具啊?
  10. 使用 SQL Server 代理来计划 SSAS 管理任务