丨目录:

· 业务背景

· 技术挑战

· 算法方案

· 未来展望

· 关于我们

1. 业务背景

随着短视频媒体(如抖音、快手等)快速崛起并占据大量用户时长,阿里妈妈的淘系&天猫广告主有着强烈的通过站外媒体引流到淘宝站内的方式带来转化增量效果的诉求,同时集团内平台广告主(如天猫超市、淘特、饿了么、蚂蚁财富等)也有在更广泛的媒体端进行消费者拉新与促活的效果诉求。阿里妈妈外投广告UD效果算法团队致力于帮助淘宝商家广告主进行站外效果投放,同时服务集团内平台广告主进行用户的拉新与促活。根据投放主体(商家&平台),将负责内容分成商家效果用户增长等业务线。

2. 技术挑战

我们在阿里妈妈外投广告产品 UniDesk (UD) 建设了统一的商家效果站外投放能力,服务商家在同一个平台投放多个外部媒体,将商家的外投预算在阿里妈妈广告体系内充分地消耗;同时在商家营销服务上提供强大的营销效果分析能力,解决商家直接在外部媒体投放时后链路效果分析等痛点。UD效果外投核心是ocpx产品模式,具体的投放流程为当媒体侧下发竞价请求至各方 DSP 后,阿里侧 DSP 会与媒体侧协同完成对流量的价值估计:对于阿里侧的每个参竞广告,其预估曝光价值由媒体侧精排 CTR 模块、阿里侧精排 CVR 模块和机制模块协同给出

预估点击率由掌握着用户前链路浏览偏好的媒体侧负责,预估转化率由积累了用户成交行为数据的阿里侧负责,广告主设定的目标转化成本 (target cost per action,即愿意为一次成交付多少钱),是阿里侧机制策略给出的调控因子。ocpx一定程度上可以激励广告主truly bidding,因为广告主在可以承受的成本下通常是拿量越多越好,而当目标成本设置偏低时,广告主往往很难拿到量,促使广告主提高出价。平台通过机制保证广告主的目标转化成本不高于广告主设置的出价,对于可能出现的成本偏高的情况平台会进行赔付。如果阿里侧广告竞价胜出,则该广告会在媒体侧曝光给用户。当用户点击广告后时会唤端进入手淘 app,进而可能会继续发生加购、转化等深度行为。因此,精排 CVR 预估模型在 UD 效果外投场景起着核心作用,持续优化对用户转化行为概率的精准预估能力来为商家带来 ROI 的增长。

区别于淘宝站内广告投放,商家效果外投面临着繁杂媒体的海量流量供给,有着异构的广告场景和资源形态,因而外投场景的精排预估模型面临着更大规模的未知样本:训练样本空间通常是从曝光开始,相比推理空间(流量参竞空间)来说只是其中的一部分,训练/推理空间的不一致性带来了我们常说的样本选择偏差 (Sample Selection Bias) 等问题,这为预估分的准确性带来极大挑战。在上述模式下,CVR 预估模型在输入特征、训练样本、打分准度等各个环节均有其鲜明的挑战需要解决,如下图所示:

商家效果外投链路中,CVR 模型面临的核心问题示意

1)首先显而易见的是,我们对用户在媒体侧的前链路行为偏好一无所知:媒体侧出于数据安全与保护用户隐私的考虑,不会将用户浏览、上下文等信息透传给阿里侧;同样地,阿里侧也不会将用户的购买偏好信息透传给媒体侧。两侧的数据不互通,使得阿里侧 CVR 模型无法引入用户的前链路行为偏好特征。

2)从模型训练样本的角度,转化行为处在整体流量漏斗的最末端因而本就稀少,而在外投场景用户的转化心智也远不及淘内场景(经统计,抖音场景用户的半年序列长度均值小于 10、正样本率也数倍低于淘内场景),因此后链路正样本稀疏对外投 CVR 模型学习是不可回避的难点;另一方面,由于只有被点击过的广告能收集到转化标签,CVR 模型学习通常是基于点击样本,然而在线服务时需要对全体参竞广告进行打分,训练/推理空间的不一致性给模型优化带来很大挑战。

3)从商家效果外投的整体流量生态角度,CVR 模型的预估分直接作为出价公式的一部分来参与竞价,因此对于预估值的准确性(尤其是在用户粒度、广告粒度等细粒度上的准确性)有着较高要求:我们希望模型给出的转化预估值能够表达转化事件的发生概率,与统计意义上的后验转化率值尽可能接近,避免出现过份高估/低估的情况。然而由于每条训练样本的标签均为“是否转化”的二值、而非具体的“转化概率”(无法观测到),模型的预估值准确性难以保障,特别是细粒度上的准确性更加不尽人意。

基于东风系统的用户增长投放是阿里妈妈外投广告平台的另一项重要服务:基于阿里妈妈的数据能力,为集团内平台广告主的用增投放提供全链路优化服务,在预算约束下高效地对各业务方潜客/低活/低购/流失用户进行触达,实现业务用户规模的增长或用户价值的提升。过去用增投放,我们以RTB为主要投放手段并针对某个具体业务做个性化优化,但随着随着投放业务越来越多,覆盖领域越来越广,多业务多目标与有限模型的矛盾开始凸显:由于用增业务涵盖了电商/本地生活/金融等各个领域,不同业务投放周期长短参差不齐,投放目标(点击/到达/唤端/支付等)也不尽相同,若分业务分目标优化则人力资源明显不足后期维护成本也较高,但若用统一优化方式则又因为业务/目标的差异导致效果较差。

3. 算法方案

在商家效果外投业务过往一年以来的迭代过程中,我们针对性的对前链路行为偏好缺失、后链路正样本稀疏、训练/推理空间不一致以及预估值的准度问题等难点进行了持之以恒的探索和攻坚,一系列的技术工作最终成功落地应用,本文接下来重点介绍相关算法方案。针对用户增长投放业务,我们也在多场景多目标预估模型上也展开了诸多探索并落地多项技术,后续将会与大家进行分享。

1)前链路用户偏好缺失:基于阿里妈妈联邦学习框架与媒体侧共建,保护数据隐私、助力模型预估 [EFLS 解决方案, GitHub 开源]

不同于淘内广告建模中我们能获取丰富的前链路行为,我们在外投广告中对用户在媒体端的前链路行为一无所知。由于企业数据互为商业机密,媒体不能共享用户的前链路浏览偏好及实时行为,为精准挖掘用户意图带来了巨大的挑战。为了在隐私保护合规前提下利用前链路的用户行为数据来提升后链路模型预估能力,我们提出了与外投媒体共建投放的RTA-联邦学习新模式:阿里侧的 CVR 模型通过联邦学习与媒体进行共建,媒体侧将用户前链路行为偏好以低维 embeddings 来表征,并发送至阿里侧作为 CVR 模型的输入特征来提升预估能力,助力商家ROI的提升也带来平台业务规模的增长。基于我们在效果外投广告业务中与业界多个合作方深入联邦学习实践的经验,沉淀归纳出了联邦学习场景下通用的解决方案及算法实践经验,并联合兄弟团队阿里妈妈算法工程团队共同将阿里妈妈联邦学习解决方案EFLS (Elastic Federated Learning Solution) 在GitHub上开源,希望可以对业界各大公司在搜推广业务场景下的联邦学习应用产生参考价值。

项目地址:https://github.com/alibaba/Elastic-Federated-Learning-Solution

往期推文:EFLS开源 | 阿里妈妈联邦学习解决方案详解

2)后链路正样本稀疏:自动学习前后链路预估任务的层次化级联关系[AutoHERI 模型, CIKM 2021]

对于 CVR 模型等旨在预估后链路行为的模型来说,正样本稀疏问题始终是无法回避的难点。解决后链路样本稀疏的主流方法是结合样本量丰富的前链路任务进行多任务学习。站在巨人的肩膀上,我们进一步探究用户行为中的层次关联以提升 CVR 预估性能,提出基于层次表示自动聚合的 CVR 预估模型 AutoHERI (Automated Hierarchical Representation Integration):将前级任务中的特征表示聚合连接到后级任务以提升其表示学习,自动搜索最优的连接结构来使模型学习有效的特征聚合模式。同时,考虑到不同场景中的聚合模式都不尽相同,AutoHERI 模型通过 One-shot 自动搜索来提高搜索效率,保证面向不同场景时的复用性。AutoHERI 的效果已在数个外投业务上得到了验证,并在多个场景上全量服务。

往期推文:CIKM 2021 | AutoHERI: 基于层次表示自动聚合的 CVR 预估模型

3)训练/推理空间不一致:显式引入未点击样本的不确定性约束知识蒸馏方案 [UKD 模型, WWW 2022]

由于只有点击样本能收集到真实的转化 label,CVR 模型通常是在点击空间上进行训练;然而在线服务时其需要在参竞空间进行预估,训练/推理空间的不一致带来了样本选择偏差问题。现有方法解决该问题时主要基于全空间辅助任务学习(如 ESMM)和反事实学习(如 Multi-DR),然而前者对于未点击样本的学习存在梯度问题,后者在训练过程中未充分利用未点击样本。我们的解决思路是在 CVR 模型训练过程中显式引入未点击样本,提出基于不确定性约束的知识蒸馏框架 UKD (Uncertainty-Regularized Knowledge Distillation) 实现全空间 CVR 预估。UKD 包含一个点击自适应的教师模型和一个不确定性约束的学生模型:教师模型借鉴领域自适应的方式,学习样本的点击自适应表示并生成未点击样本的伪转化标签;基于此,学生模型可在点击样本(label由日志提供)和未点击样本(label由教师模型提供)上进行全空间训练。同时,学生模型引入不确定性建模伪标签中的固有噪声,在蒸馏过程中自适应地削弱不可靠伪标签的负面影响以取得更优的预估效果。在多个外投场景上的在线实验验证了 UKD 在 CVR、CPA 等指标上获得了显著提升。(具体细节详见今日推文,欢迎关注阿里妈妈技术)

4)预估值的细粒度准度问题:基于 DNN 的特征粒度校准,预估&校准一体化的初步尝试 [AdaCalib 模型, SIGIR 2022]

CTR/CVR 预估模型的准度对于 oCPX 广告生态至关重要,我们希望预估模型的输出概率值能够反映真实似然;然而由于样本粒度的似然不可知,模型的输出概率往往存在一定偏差,为了缓解这一问题,业界广泛采取的做法是引入一个校准模块来对模型预估值进行后处理。预估模型通常是基于大规模离散特征的 DNN,相比之下,校准模块以轻量化的转换函数为主。在看似“矛盾”的设置背后,我们开始思考能否通过 DNN 的强大拟合能力来助力预估值的准确性提升,并探索预估和校准是否有合二为一的可能。沿着这个思路,我们提出后验引导的特征自适应校准模型 AdaCalib (Doubly-adaptive Calibration),通过引入后验统计量,基于 DNN 来学习校准函数族,每个特征值对应特定的校准函数。同时,针对不同特征值的频数信息存在差异的现象,通过自适应分桶机制来保证每个特征值的校准函数所依赖的后验信息的可靠性。在线 serving 时,AdaCalib 可合入预估模型的 ckpt 中并随之一起推送至 RTP,相当于直接在精排模块生效,而不再维护单独的校准模块。在效果外投场景上的在线实验表明 AdaCalib 在 CVR 等指标上取得了明显效果。(具体细节详见今日推文,欢迎关注阿里妈妈技术)

4. 未来展望

过去一年中,我们对外投效果模型做了许多的优化工作,在业务提效与算法技术沉淀方面都有所收获。面向未来仍有许多需要继续践行和探索的方向,例如统一建模外投多场景的行为序列信息、建设更全面立体的投放产品体系等,期待后续与大家持续分享交流。面向星辰大海,技术探索永不停歇!

附本文中开源项目及论文列表

//

1项开源3篇顶会,漫游阿里妈妈外投广告预估模型优化之路相关推荐

  1. 2篇CIKM详解阿里妈妈搜索广告CTR模型如何低碳瘦身

    作为<阿里妈妈搜索广告CTR模型的"瘦身"之路>的姊妹篇,本文将结合团队发表的 CIKM 2021 两篇论文,详解我们在模型瘦身之路上的延续性思考与实践.姊妹篇已经总结 ...

  2. EFLS开源 | 阿里妈妈联邦学习解决方案详解

    ▐ 项目背景 移动互联网时代出于隐私保护和数据安全,APP 之间的开放与互联越来越少,使大量的信息孤岛逐渐形成,限制了信息技术更好地服务广大用户的能力.2016年 Google 提出了以保护终端隐私为 ...

  3. 搜索推荐项目EFLS开源 | 阿里妈妈联邦学习解决方案详解

    猜你喜欢 0.京东推荐算法精排技术实践 1.如何搭建一套个性化推荐系统? 2.从零开始搭建创业公司后台技术栈 3.[万字干货]某视频APP推荐详解 4.微博推荐算法实践与机器学习平台演进 5.腾讯PC ...

  4. KDD2021 放榜,6 篇论文带你了解阿里妈妈AI技术

    关于 KDD ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是国际数据挖掘领域的顶级会议,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机协会推荐为A类会议. ...

  5. 代码开源!阿里妈妈展示广告Match底层技术架构最新进展

    作者:卓立.日涉.谨持 一.背景 大规模信息检索一直是搜推广领域的核心问题之一,而基于任意复杂模型的检索方案无疑是业界重要的迭代方向之一.近年来,阿里妈妈展示广告Match团队与预测引擎团队专注于从算 ...

  6. 阿里妈妈技术团队 5 篇论文入选 TheWebConf 2022

    近日,第31届国际万维网大会(The Web Conference / WWW)审稿结果出炉, 阿里妈妈技术团队有5篇论文入选. TheWebConf 成立于1989年,原名为"The In ...

  7. 面向高维稀疏数据场景,阿里妈妈宣布开源XDL深度学习框架

    据介绍,作为阿里巴巴旗下的大数据营销平台,阿里妈妈基于自身广告业务自主研发了深度学习框架X-Deep Learning(XDL),且已经大规模部署应用在核心生产场景. 阿里妈妈表示,这也是业界首个面向 ...

  8. 【阿里妈妈数据科学系列】第一篇:认识在线实验

    前言 在互联网业务中,"增长"是永恒的主题,但随着互联网时代的发展,野蛮增长的流量红利已逐渐消失,如何在策略效果不可见的条件下,实现有效增长是当下互联网企业的难题.面对未知的策略价 ...

  9. 北大95后「AI萝莉」回来了,一次中8篇顶会论文的她,现在达摩院开源7大NLP模型...

    梦晨 博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 曾有一位北大硕士生,在校期间一次性在国际顶会ACL中标8篇论文,其中2篇一作,还登上了知乎热搜. 在那次热搜之后,这位"论文 ...

最新文章

  1. 如何解决VHDL中参数化赋值:赋全0、全1、全z
  2. opencv 图片剪切
  3. poj3264 线段树
  4. WINCE6.0 chain.bin和xipkernel.bin解析
  5. 电脑qq文件服务器地址,在电脑上接收QQ地理位置打不开,提示获取不到详细地址...
  6. JavaScript由哪三部分组成呢?
  7. Docker Network 配置,自定义bridge网络
  8. Javascript高级程序设计第二版第十一章--DOM2,DOM3--笔记
  9. 20161013 晨报
  10. 【线段树】 SPOJ 2713 Can you answer these queries IV
  11. 201671010128 2017-11-10《Java程序设计》之应用程序部署(2)
  12. XCode 遇到的问题
  13. 宋宝华: CPU是如何访问到内存的?--MMU最基本原理
  14. python对数组的操作_Python Numpy库对数组的操作详解,
  15. 9.4.3 BINARY与VARBINARY类型
  16. 量化投资学sql还是mysql_新人如何学习量化投资
  17. 反转链表-迭代反转法
  18. Win10设置屏保时间
  19. C# base64获取图片后缀
  20. 部署外网网站(二)——宝塔搭建服务器

热门文章

  1. GoLang dlv调试启动过程
  2. WIN10实现桌面远程连接(如连接到阿里云服务器等)的方法
  3. 基于live555的rtsp播放器之十八:G711a/G711u/G726转AAC
  4. 中医在计算机上的应用,计算机工程管理中医院管理应用
  5. 张宇1000题高等数学 第十六章 无穷级数
  6. Linux citra存档位置,citra 3ds模拟器怎样保存游戏进度_citra 3ds模拟器游戏进度保存方法教程-街机中国...
  7. S4Net: Single Stage Salient-Instance Segmentation阅读笔记
  8. Ubuntu 系统安装时遇到错误“安装ubuntu至少需要8.6gb的磁盘空间”
  9. 三星 970 EVO Plus T7 移动固态硬盘测评
  10. Pytorch教程入门系列3