▐  1 背景

在广告领域,广告主为推广自己的品牌会通过媒体或营销平台等渠道购买合约广告,以获得品牌曝光量。广告平台汇集了许多媒体的广告请求,每个广告主都希望自己的品牌广告得到约定的曝光量。本篇文章将介绍,阿里妈妈外投平台是如何将知识蒸馏、曝光预估以及合理 pacing 相结合,以完成每个广告主的品牌曝光量(即保量)诉求的。

用户打开某 APP 时推送的品牌广告为开屏广告,如下图所示。在开屏广告场景下,广告采用预加载的方式,即在用户首次打开 APP 或者正在浏览 APP 时会预先下载广告,随后在用户第 N 次(N>=2)打开 APP 时才会曝光本次加载的广告。预加载的方式给保量带来了两个难题:1)下发的广告不一定曝光;2)广告曝光有延迟。此外,在保量的前提下,近年来广告主也期望广告平台能提升如CTR(点击率)、CVR(转化率)等业务指标,这也进一步增加了投放的难度。

阿里妈妈外投品牌广告投放流程如下图,广告主想投放品牌广告,预算是100w曝光,但媒体发送了150w流量请求,这就要求退回50w的流量(即目标退回率是33%)。广告平台将对剩余的100w流量进行广告填充,并返回媒体完成曝光(这里假设填充的广告都会曝光)。

阿里妈妈外投品牌广告投放流程

注释:

  • UniDesk(简称UD,https://unidesk.taobao.com),是服务阿里巴巴经济体内商家、行业、集团BU的全域消费者运营管理平台,实现全域用户营销触达, 提供内部BU、行业、商家一站式用户运营解决方案

  • 流量下发:指媒体给广告平台发送广告请求,平台对该请求填充了广告并返回

  • TA(Target Audience):目标受众,TA%表示目标受众占广告投放曝光总人群的比例

  • CTR:广告点击率,点击次数/曝光次数

  • CVR:转化率,业务定义的目标转化数(如购买、下载等)/点击次数

  • MAPE:平均预测误差

▐  2、面临的挑战

品牌广告投放过程中,保量往往是第一目标,在此前提下,广告主近年来也更多关注用户与品牌的交互效果提升,如点击率、转化率等行为指标。在品牌投放优化过程中,遇到的挑战主要包括:1)如何选择下发流量填充广告;2)下发不一定曝光;3)曝光有延迟。

2.1 如何选择下发流量填充广告

对于提升用户交互效果(如点击率、转化等),外投优化主要从两方面切入:1)挑选价值高的流量进行广告填充;2)给用户挑选效果更好的创意内容。由于品牌广告的投放模式需要流量下发后100%填充广告,因此流量下发后平台对流量便无法优选,但我们可以在流量下发前(即流量退回阶段)进行流量优选,从而保证退回效果较差的流量,下发优质流量。在流式场景下,如何保证最终退回率到达目标值,同时又保留价值更高的流量,这本质其实也是一个保量问题。

对于第2种提效方式,属于创意优化的范畴,将不在本篇讲述,感兴趣的同学查阅:如何快速选对创意 —— 阿里妈妈广告创意优选

2.2 下发不一定曝光

广告平台能对下发流量填充广告进行分配,但广告是否曝光却是由媒体侧决定的。媒体侧除了预加载广告的方式,还会为了用户体验而控制广告曝光频次,这就造成下图所示现象:

1)不同的媒体上曝光请求比(真实曝光/下发请求)差异会很大(左图);

2)相同媒体不同时间段曝光请求比差异很大(右图)。

保量是对曝光量的“保”而非对下发量,但平台只能对流量下发进行分配,因此这给保量带来了很大挑战。

2.3 曝光有延迟

预加载问题还会带来明显的延迟曝光(延迟曝光,指的是从下发到曝光之间的时间间隔比较长,一般在1小时到几小时不等),并且不同的媒体延迟曝光分布也不同,平均时间间隔从3秒到50000秒不等。这对保量的精准性也带来了巨大的挑战。

▐  3、解决方案

在投放过程中,外投平台能够控制的模块是退回率和广告下发,广告下发到媒体侧后,由媒体侧决定广告的曝光。接下来我们将3.1介绍退回率控制,3.2~3.4介绍对广告下发的保量控制。

投放流量的漏斗示意图

3.1 退回率控制

3.1.1 问题定义

设目标退回率,最简单的做法就是在流量入口处以的概率退回,这样能保证最终退回率的准确性,但缺点就是对流量无筛选。为了兼顾业务效果又能保量,我们对流量定义价值分,若<则流量退回。这里由两个因素决定:目标退回率的完成情况和流量价值。我们定义。为流量价值分,则由实际退回率和目标退回率的差值决定,若 > 则调低 ,若<则提高。

3.1.2 流量价值预估

问题概述

一条完整的流量信息,包括了用户、媒体、创意,其中创意是平台返回给媒体的广告内容。如果每条流量都走正常的创意召回后再进行价值打分,那在线开销将非常巨大。因此,我们将流量退回设定在流量入口处进行,但这也面临两大问题:

1)超时问题:若搭建一个在线价值预估服务,由于流量巨大,将面临机器不够和全链路超时风险。

2)流量无创意内容信息:价值预估发生在创意召回之前,但我们收集的训练样本都是有创意信息的。

为解决上述问题,我们做了如下设计。

方案设计

对于用户与品牌交互效果,首期我们以提升CTR为主要目标,因此将CTR预估分作为流量价值分。

针对超时问题,我们用离线KV查表的方式获取流量价值,除了用户外,媒体id也对CTR影响也较大,因此我们以用户id和pid作为key进行在线查询。

针对无创意信息,我们则采用蒸馏技术解决。精排模型用了更全的特征(含创意特征、交叉特征等)和更复杂的模型对CTR进行预估,其预估往往也更准确。因此,我们采用精排模型作为Teacher,来指导Student(价值预估模型)做CTR预估的学习。常见的知识蒸馏方式,一种是利用Teacher模型中间信息迁移到Student,这种方式往往需要两个模型结构较为相似;另一种则是利用Teacher模型的输出CTR做为soft label进行迁移,这种对二者模型结构无要求,运用较灵活。这里我们采用的是第二种方案,模型如下图所示:

Teacher模型用了更丰富的特征,而Student模型则仅用了user和媒体id特征。这里hard_loss为常见的01分类logloss:

以Teacher带温度参数的softmax预估分作为给Student的soft_label:,并基于此构造soft_loss。这里Teacher模型和Student模型我们采用联合训练的方式(主要考虑流程更简单),但训练初始阶段,Teacher模型可能处于欠拟合状态,导致其soft_label不够置信。我们希望Teacher预估不准时对Student影响小一些,于是我们设计了调控参数r:

,其含义是若hard_label和soft_label越接近,则r越大,soft_loss影响越大,这里和为的上下限。

618大促期间在多个业务上上线了该模型用作流量粗选,CTR均取得了显著的效果提升,验证了该模型对于流量价值预估的正确性。

3.1.3 基于流量价值的退回率

流量最终打分公式为,其中为蒸馏模型完成的CTR预估分,则用pid pacing调控来完成对退回率的保量工作。公式如下:

这里,为截止到第n步的退回率,为目标退回率。

我们以5分钟为一次调控的步数,这里的n代表第n次5分钟的调控。实际使用中设置偏大,设置偏小一些,即实际退回率和目标退回率的直接diff作为影响最重要因素。和的乘积作为最终流量的,我们以历史数据设置合适的阈值,当时,流量进行下发,完成退回率的保量调控。pid pacing保量算法在会场保量场景上做了2期实验,最终曝光相对偏差在2%以内,符合目标预期。

3.2 流量下发

核心目标是保量(既完成目标的曝光量)要做到完成既定保量目标和尽可能匀速释放。核心的难题是下发不一定曝光和曝光带有不同程度的延迟。更由于不同广告主的TA要求不一样,就会导致不同广告主在多个媒体上的下发分布不一致,可能存在有些广告TA浓度偏高,导致广告完成速率太快,进而提早完成曝光,没有能够做到匀速释放。

因为存在不同程度的延迟曝光,所以在广告下发时就要考虑如何对不同广告分配不同下发速率,又要考虑每个广告潜在的曝光量,最后还要避免有的广告释放过快或者超投。为此提出的解决方案大致分为3个模块:

  • 曝光预估:解决潜在曝光量的问题,为整体保量提供基本的数据支撑

  • 广告分配:在流量供给和消耗之间进行最优化分配,最大化收益

  • 纵向pacing:保证整体投放匀速释放,避免有的太快或太慢

3.3 曝光预估

曝光预估就是能够根据截止到当前时间点为止,知道已经下发的广告量和当前已经曝光的广告量,对潜在的曝光量进行预估。能否正确预估出潜在的曝光量,对于精准控量起着至关重要的作用。经过调研,发现曝光预估还是一个很新的话题,相关工作较少,这是一个机遇也是一个挑战。

我们期望在投放过程中,每个5min或者一定的时间窗口,就能够通过当前的数据,调用曝光预估模型得到预估的曝光数据,再加上当前已经观测到的实际曝光,得到总的曝光量,然后基于总曝光量进行广告的分配和保量。

3.3.1 数据分析&建模

在章节2中提到,媒体在大促和日常投放的曝光请求比差异很大,我们主要聚焦在大促投放,所以为了尽量保持数据分布一致性,我们的数据选择也只能是大促期间的数据。整个潜在曝光预估描述如下图所示:在6点时刻,我们进行曝光预估,虚线部分的潜在曝光量就是我们模型要预估的。

截止目前,我们的数据范围和建模目标都已经明确,接下来要做的是如何挑选模型以及构建相关特征,从而达成我们的曝光预估的目标。

3.3.3 建模&训练

遇到的业务问题实际是一个回归问题,目标就是根据当前能够观测到的数据,进行合理的回归预估。常见的回归模型有GBDT,线性回归等。除此之外,曝光预估其实还是一个时序预估问题,常见的序列模型有LSTM、GRU等。考虑到效果和性能的折中,我们本期采用GBDT作为baseline。当保量算法在线上使用时,能够假定在t时刻,给定某个媒体的pid(唯一标示媒体),请求突然中止之后,能够通过当前pid上的数据的现状,给出当前pid上的潜在的曝光量。

对历史数据进行分析,发现当天的流量其实是跟时间强相关的,比如一天会有两个流量高峰,分别是中午1点和晚上7点,凌晨4点流量最低等等。所以模型样本中的特征必须要有当前时间的表达类特征。除此之外,潜在的曝光量也跟当前某时刻的广告下发量相关,例如前几个小时,前几分钟等。假设在t时刻,预测潜在曝光量如下图所示:

为了能更好的接近采买的流量,使用历史上节日大促数据作为训练数据,训练数据为前N天,测试为第N+1天。基于多个媒体训练和预测,离线训练所有媒体MAPE平均为0.14,模型上线之后的线上MAPE数据如下:

媒体 mape
A 0.1167
B 0.1432
C 0.1691

我们将MAPE中间的媒体B拿出来做case分析,实际潜在曝光和预测曝光如图所示:

3.4 曝光预估量分配&pacing

上面已经完成了媒体粒度的曝光预估,即在某个时刻t,给定某个pid的样本,我们能够利用训练的模型给出潜在曝光总量的预估。但是在投放过程中,需要知道每个投放广告上的曝光预估量的。每个广告上的曝光预估量可以通过两种方法得到,一种是直接拿每个广告的数据去在线预测,另外一种是先预测整个媒体的,然后再分配到每个广告上。离线验证第二种方法较好。本节主要介绍我们是怎样在得出媒体的整体的潜在曝光量之后,分配到对应的广告上的。

  • 根据GBDT,得到每个特征的重要性

  • 根据每个特征的重要性,将每个媒体的总量按比例分配到每个特征上

  • 根据每个广告在该特征上的归一化占比,将分配到该特征上的每个媒体的总曝光量进行按比例分配

曝光预估拆分流程

为了更清晰描述问题,我们定义: 共有个媒体,模型共有个特征,本次投放共有个广告。为第个媒体在特征上所分配到的潜在曝光量。为第个广告在第个特征上归一化之后的权重。为第个媒体在第个广告上的潜在曝光分配量。

1)媒体曝光预估量分配到特征

其中为第个媒体的曝光预估量,为第个特征的重要度,得出,

2)特征曝光预估量分配到广告

在步骤1中我们将每个媒体的曝光预估量,按照特征重要度按比例分配给到每个特征上,接下来就是将每个特征上的曝光量分配到每个广告上。如下图:

其中广告在特征上的取值为,则

3)计算该广告下所有的潜在曝光量为

至此我们计算出每个广告上的潜在曝光预估量。

在每次下发广告时,我们会根据每个广告的权重和的乘积作为整体权重,然后根据该权重进行带权选择。为了能够保证整个投放过程中所有广告都均匀释放,我们需要尽可能保证整体完成进度趋于一致,所以我们的目标就是时刻向所有广告的平均完成率看齐。我们使用PID对每个广告的 进行调节,来保证每个广告完成率基本一致:

其中,为截止到时刻的广告的完成率,为曝光预估量,为广告的观测曝光量,为广告的目标曝光量。线上我们5分钟使用上述公式对进行一次调节,为超参。以此来保证整体投放过程中所有广告在考虑CTR的同时保证“齐头并进”。

▐  4 结果&展望

尽管开屏场景下不同媒体的延迟曝光差异很大,但是我们通过曝光预估模型得到预估曝光量+真实曝光量联合控量,并且在控量同时考虑了TA浓度,超额完成了保量目标。

在最近一次大促活动的投放中,在“阶段1-大促前期” 和“阶段2-大促核心段”投放的所有商品的曝光完成率均为100%,整体保量活动超额完成曝光任务。目前,越来越多的广告主关注用户与品牌的交互效果,我们除了在退回率控制上优化外,也在DeepAR、强化学习等领域探索新的技术方法,让广告主之间更合理的分配流量,达到既保量又能提升交互效果的目的。

最后,欢迎对外投广告算法感兴趣的同学加入我们。投递简历邮箱(请注明-外投广告):alimama_tech@service.alibaba.com

END

欢迎关注「阿里妈妈技术」,了解更多~

疯狂暗示↓↓↓↓↓↓↓

品牌保量技术在阿里妈妈外投场景的应用相关推荐

  1. 1项开源3篇顶会,漫游阿里妈妈外投广告预估模型优化之路

    丨目录: · 业务背景 · 技术挑战 · 算法方案 · 未来展望 · 关于我们 1. 业务背景 随着短视频媒体(如抖音.快手等)快速崛起并占据大量用户时长,阿里妈妈的淘系&天猫广告主有着强烈的 ...

  2. 高并发图片实时渲染技术在阿里妈妈的大规模应用

    个性化推荐已经广泛应用到新媒体.电商.游戏等领域,当你打开手机淘宝的时候,淘宝会根据你的浏览和购买等历史行为,提供个性化的商品推荐.那么,这些形式多样.风格各异的个性化商品展示是怎样最终呈现到APP中 ...

  3. 请查收 | 2021 阿里妈妈技术文章回顾

    2021年5月13日,「阿里妈妈技术」正式与大家见面了~ 在过去的237天里,我们分享了50篇原创内容,覆盖了广告算法实践.算法工程&引擎&系统建设.智能创意.风控.数据科学等多个技术 ...

  4. EFLS开源 | 阿里妈妈联邦学习解决方案详解

    ▐ 项目背景 移动互联网时代出于隐私保护和数据安全,APP 之间的开放与互联越来越少,使大量的信息孤岛逐渐形成,限制了信息技术更好地服务广大用户的能力.2016年 Google 提出了以保护终端隐私为 ...

  5. 搜索推荐项目EFLS开源 | 阿里妈妈联邦学习解决方案详解

    猜你喜欢 0.京东推荐算法精排技术实践 1.如何搭建一套个性化推荐系统? 2.从零开始搭建创业公司后台技术栈 3.[万字干货]某视频APP推荐详解 4.微博推荐算法实践与机器学习平台演进 5.腾讯PC ...

  6. NAACL22 SIGIR22 | 面向 CTR 的外投广告动态创意优化实践

    本文分享阿里妈妈外投广告UD效果&用增算法团队在动态创意优化方向上关于文案生成和创意元素组合这两方面的实践,在多次大促投放活动上取得线上收益.基于该项工作总结的两篇学术文章已被 NAACL 2 ...

  7. 阿里妈妈品牌广告中的 NLP 算法实践

    导读:本次分享的主题为阿里妈妈品牌广告中的 NLP 算法实践,主要内容包括: 1. 品牌广告业务模式与技术架构的简要介绍 2. NLP 算法在品牌搜索广告中的实践,以两个具体的算法问题展开:品牌意图识 ...

  8. 阿里妈妈技术团队 5 篇论文入选 TheWebConf 2022

    近日,第31届国际万维网大会(The Web Conference / WWW)审稿结果出炉, 阿里妈妈技术团队有5篇论文入选. TheWebConf 成立于1989年,原名为"The In ...

  9. 阿里妈妈:品牌广告中的NLP算法实践

    分享嘉宾:肖国锐 阿里 高级算法专家 编辑整理:陈道昌 内容来源:DataFun AI Talk 出品社区:DataFun 注:欢迎转载,转载请在留言区内留言. 导读: 本次分享的主题为阿里妈妈品牌广 ...

最新文章

  1. 更改hadoop native库文件后datanode故障
  2. 计算机的用户控制,我的电脑我做主——Windows账户家长控制-用户账户控制设置...
  3. error C2065: 'IDD_***' : undeclared identifier
  4. 注意了,这些数值计算的坑千万别踩!
  5. AIX详细查看用户/进程使用内存
  6. 一个 结构体保存和窗口位置大小记录的类
  7. 如何写软件设计文档[转]
  8. 4种方法教你如何查看java对象所占内存大小
  9. dreamweaver html模版,dreamweaver利用预设模板来快速的架构一个简易网站
  10. 回归分析的五个基本假设
  11. 基于Java的微小企业人事管理系统的设计与实现 毕业设计-附源码231012
  12. ERDAS IMAGINE 2013裁剪影像方法
  13. Python计算最大回撤、回撤天数
  14. 新车磨合应该从正确启动发动机开始
  15. 软件项目的规模、工作量和成本是如何进行估算的
  16. 2022年陕西最新建筑八大员(质量员)模拟考试题库及答案解析
  17. face to face
  18. 视频直播技术详解之采集
  19. php 递归遍历文件夹,php递归遍历目录_PHP教程
  20. Codeforces847K Travel Cards

热门文章

  1. java iconsolefactory_java – 如何设置IOConsole的Caret
  2. developer pack_上汽大众MEB电池Pack制造车间
  3. Vulhub 靶场下载使用
  4. apache部署https
  5. 在tomcat上部署项目需要打成jar_Spring Boot Web 项目教程,SpringBoot与传统Web 优缺对比...
  6. mfc判断文件是否被读写_迅为干货|标准io之一个字符的读写函数
  7. 《深入浅出数据分析》第十三章
  8. std::ostream_iterator、std::cout、std:copy实现输出
  9. Android开发之开发工具之Android Studio出现全屏的解决办法
  10. Android开发编码规范pdf文件下载