本文是王喆在InfoQ开设的原创技术专栏“深度学习CTR预估模型实践”的第一篇文章(以下“深度学习CTR预估模型实践”简称“深度CTR模型”)。回顾王喆老师过往精彩文章:《重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文》、《YouTube深度学习推荐系统的十大工程问题》。

开篇伊始,有两个问题是应该澄清的,一是该专栏的主题选择,二是该专栏的目标受众。

  • 为什么着重讲深度CTR模型这个主题?除了跟我的计算广告、推荐系统的背景有关之外,更重要的是CTR预估模型以及CTR预估模型衍生出的泛效果预测的模型,已经成为了互联网当之无愧的“增长之心”。自2012年以来,站在Yann LeCun、Geoffrey Hinton和Yoshua Bengio等巨人肩膀上的Alex Krizhevsky凭借AlexNet一举引爆新一轮的深度学习浪潮以来,深度学习席卷各个计算机应用领域,作为广告、搜索、推荐业务核心的CTR预估模型也借助深度学习得到效果上的显著提升,成为几乎所有主流互联网公司的标准配置。

  • 这个专栏希望哪些受众从中受益?我希望把专栏的受众分为两类,一是互联网行业相关方向,特别是广告、推荐、搜索领域的从业者,希望这些同学能够熟悉深度CTR模型的发展脉络,清楚每个关键模型的技术细节,进而能够在工作中应用甚至改进这些模型;二是有一定机器学习基础,想进入这个领域的爱好者、在校生。我会尽量用平实的语言从细节出发介绍每个CTR预估模型,希望大家能够从零开始构建深度CTR模型的知识体系。

对于互联网从业者来说,“增长”这个词就像是插在心中的一只矛,无时无刻不被其刺激和激励着。我对“增长”这个词的理解还是来源于上大学时实验室的一段经历。清华计算机系跟搜狗一直是长期的伙伴,因此实验室的师兄师姐也经常谈起与搜狗合作的项目,我一直记忆至今的一句话是“如果我们能把搜狗搜索引擎广告的点击率提升1%,那就能为公司带来上千万的利润”。从那时,“点击率(Click Through Rate, CTR)”这个词深深的烙在我心中,可能也在潜意识中指引我走上计算广告工程师的职业道路。那么到底是怎样的一个指标能对公司的增长起到如此至关重要的效果,为什么CTR预估模型能够被称为互联网“增长之心”,下面我尝试用两个场景给出答案。

一、CTR预估模型与计算广告的利润增长

CTR预估模型在计算广告领域的关键地位来源于计算广告利润增长的需求。CTR预估的准确与否,直接影响计算广告公司的收入。

假设我们是一个DSP(Demand side platform)公司,需要对接第三方的流量资源,通过出价的方式竞得该流量,从而赢得这个广告曝光(impression)机会。

对于一个以效果为核心目标的中小广告主来说,往往会选择CPC的结算方式,也就是每带来一次点击,我为你支付x元。那么这时,CTR模型的关键就体现出来了,因为只有拥有了准确的CTR模型,DSP公司才能够正确的估计某次流量的成本价。

例如CTR预估模型预测某流量投放某广告的点击率是0.5%(即CTR=0.5%),广告主愿意为一次点击支付1元(即CPC=1),那么我只有用少于 CPC*CTR = 1 * 0.5% = 0.005元的价格竞得该流量,我才不会亏钱。如果CTR模型预测的CTR偏高,我将极可能以高于成本价的价格竞得该流量,这样的情况下,竞得越多这样的流量,公司的亏损也越大。另一方面,如果CTR模型预测的CTR过低,进而出价过低,很有可能损失大量竞得机会,导致客户的广告预算花不完,从而无法获得后续订单,也使公司利润受损。

因此,精准的CTR预估模型是计算广告系统的基础和核心,也是计算广告公司进行利润最大化的核心模块,所以说CTR预估模型是计算广告利润的增长之心丝毫不为过。

二、CTR预估模型与推荐系统的用户使用时长增长

广义上来讲,计算广告和推荐系统的界限并不那么严格,比如淘宝的直通车广告,应该属于计算广告的范畴,但它又完全符合商品推荐的场景。这里我倾向于把一切跟“钱”直接相关的模型归为计算广告的范畴,把一切跟“用户体验”直接相关的模型归为推荐系统的范畴,虽然提高用户体验更本质的目标也是为了最终实现产品利润的增长,但这与计算广告时刻跟出价、转化率、投资回报等“钱”相关的模型还是有业务场景上的较大区别。

所谓提高“用户体验”,可以进一步做这样的解释——“推荐系统的优化目标应该是为了在不损害用户长期兴趣的基础上增加用户的使用时长”。以YouTube为例,其商业目标就是为了通过提高用户观看总时长,实现广告inventory的增长,进而增加公司利润。

实现这一目标的关键就在于预测用户U(user)在某场景C(context)下是否会观看某视频V(video),以及观看该视频的观看时长是多少。这与计算广告中的CTR预估模型的区别仅在于将A(ad)换成了V(video),将构建CTR=g(A, U, C)的问题换成了构建watch time=g(V, U, C)的问题。

事实上,YouTube的工程师们在那篇著名的工程论文“Deep Neural Networks for YouTube Recommendations”也非常明确提出了改造CTR预估模型为预测用户时长的深度学习推荐模型的方法。由CTR预估模型衍生出的泛效果模型共同构成了驱动互利网场景下的用户增长、使用时长增长、转化效果增长等一系列的关键商业指标的增长之心。

三、深度学习CTR预估模型专栏的结构

专栏的正式内容将会分为两大部分,一是深度CTR模型的理论和技术发展脉络;二是深度CTR模型的系统设计和工程实践。

理论部分又将会分为“前深度学习时代“和”深度学习时代“两部分,这里仍要强调”前深度学习时代“CTR预估模型的原因,是希望大家能够建立完整的学习框架,并打牢深度学习模型的理论基础,二者本质上是不可分割的。

而实践部分将分为”模型实现与部署“和”模型业界应用“两部分。能够掌握从”模型理论“到”模型实现“再到”上线部署“的一整套技术栈对于算法工程师来说是重要的。最终的”业界应用”部分包括了Google,Airbnb,Facebook,Alibaba等业界知名互利网公司的CTR预估模型的设计和应用案例,希望读者能够从应用中学到更多实践中应该注意的技术细节。

这是“深度学习CTR预估模型实践”的第一篇文章,期望你能从中受益。

作者介绍

王喆,毕业于清华大学计算机系,现在美国最大的smartTV公司Roku任senior machine learning engineer,曾任hulu senior research SDE,7年计算广告、推荐系统领域业界经验,相关专利3项,论文7篇,《机器学习实践指南》、《百面机器学习》作者之一。

深度学习CTR预估模型凭什么成为互联网增长的关键?相关推荐

  1. 从FM推演各深度学习CTR预估模型

    本文的PDF版本.代码实现和数据可以在我的github取到. 1.引言 点击率(click-through rate, CTR)是互联网公司进行流量分配的核心依据之一.比如互联网广告平台,为了精细化权 ...

  2. SIGIR阿里论文 | 可视化理解深度神经网络CTR预估模型

    小叽导读:尽管业界对于图像处理和自然语言处理领域,在算法可解释性方向上已经取得了一些进展,但对于电商与广告领域,目前还是空白.另一方面,深度学习技术已经开始被大规模应用到广告业务中.广告是很多互联网现 ...

  3. 前深度学习时代CTR预估模型的演化之路:从LR到FFM\n

    本文是王喆在 AI 前线 开设的原创技术专栏"深度学习 CTR 预估模型实践"的第二篇文章(以下"深度学习 CTR 预估模型实践"简称"深度 CTR ...

  4. 前深度学习时代CTR预估模型的演化之路 [王喆观点]

    毕业于清华大学计算机系的王喆学长梳理从传统机器学习时代到深度学习时代所有经典CTR(click through rate)模型的演化关系和模型特点.内容来源:https://zhuanlan.zhih ...

  5. 深度CTR预估模型的演化之路2019最新进展

    作者 | 锅逗逗 来源 | 深度传送门(ID: deep_deliver) 导读:本文主要介绍深度CTR经典预估模型的演化之路以及在2019工业界的最新进展. 介绍 在计算广告和推荐系统中,点击率(C ...

  6. 谷歌、阿里们的杀手锏:三大领域,十大深度学习CTR模型演化图谱

    作者 | 王喆 来源 | 转载自知乎专栏王喆的机器学习笔记 今天我们一起回顾一下近3年来的所有主流深度学习CTR模型,也是我工作之余的知识总结,希望能帮大家梳理推荐系统.计算广告领域在深度学习方面的前 ...

  7. 谷歌、阿里们的杀手锏:3大领域,10大深度学习CTR模型演化图谱(附论文)

    来源:知乎 作者:王喆 本文约4000字,建议阅读8分钟. 本文为你介绍近3年来的所有主流深度学习CTR模型. 今天我们一起回顾一下近3年来的所有主流深度学习CTR模型,也是我工作之余的知识总结,希望 ...

  8. 深度学习CTR模型最全演化图谱 [王喆观点]

    毕业于清华大学计算机系的王喆学长回顾了近3年来的所有主流深度学习CTR (click through rate) 模型,并梳理推荐系统.计算广告领域在深度学习方面的前沿进展.内容来源:https:// ...

  9. 深度长文 | 从FM推演各深度CTR预估模型(附开源代码)

    作者丨龙心尘 & 寒小阳 研究方向丨机器学习,数据挖掘 题记:多年以后,当资深算法专家们看着无缝对接用户需求的广告收入节节攀升时,他们可能会想起自己之前痛苦推导 FM 与深度学习公式的某个夜晚 ...

最新文章

  1. java common.lang_Java 开源工具 Apache Common Lang
  2. 我在兰亭这三年之我接触的郭去疾
  3. 例解基于UML的面向对象分析与设计
  4. python中数据用折线图表示_用python处理文本数据
  5. linux-basic(9)文件与文件系统的压缩与打包
  6. java 指针 引用_java中的引用与c中的指针
  7. 市场观察人士:有充足代工产能支持 联发科3月份营收有望创下新高
  8. iQOO手机正式发布,全新性能旗舰打造爆燃体验
  9. jQuery如何创建元素
  10. 图片-标签、格式\内联框架\音视频播放——HTML
  11. python *args 和 **kwargs
  12. Junglescout 正版账号共享 亚马逊卖家选品必备软件 junglescout插件同步升级
  13. Linux查看cuda版本
  14. 隐私权斗士库克:出身平凡 从小喜欢伸张正义
  15. 如何获取Windows 10的锁屏壁纸
  16. Interview QA-COBOL COBOL II
  17. Flutter:Dialog对话框及自定义Dialog
  18. mysql Miscellaneous notes
  19. 《给孩子的思维导图课》--思维导图
  20. 一个妹子的招银网络科技Java后台开发面经

热门文章

  1. 如何正确有效表达:对不起,我们已经尽力了?
  2. 英伟达新卡皇3090Ti:功耗飙至450W换来性能涨11%
  3. 全国首档极客真人秀上线:1分钟打开智能保险箱,调包酒店外卖,36秒无接触盗取手机隐私...
  4. GitHub防黑客新措施:弃用账密验证Git操作,改用token或SSH密钥,今晚0点执行
  5. 打工人得努力了呀!AI虚拟人都要入职了…
  6. 入门NLP、实现语音识别和语音合成,用这个开源工具SoEasy | 英伟达NLP公开课
  7. 文远知行核武器曝光:无人车量产都靠它
  8. PostgreSQL ODBC问题与探索SQLSpecialColumns
  9. Oracle NULL 和空值
  10. day29(对象转xml(使用java))