目录:

· 前言

· 背景

· 问题定义

· 算法建模

· 实验

· 总结展望

· 参考文献

· 关于我们

▐ 前言

面向淘系商家或广告主的商家理解与建模,是阿里妈妈客户生态建设的关键一环。有别于C端的用户增长与建模,在数据层面,商家端的客户意图与诉求、操作行为更加多样、复杂,而且数据稀疏;在目标层面上,商家建模的目标更加多样化,包括目标客户多样化以及预测指标的多样化;在应用场景层面上,随着淘系广告业态越来越丰富(比如搜索广告、信息流广告、品牌搜索广告、直播广告、互动广告等),商家建模也需要适应多场景的建模需求,可以快速响应不同场景的业务需求。

在本文中,我们提出了一种基于元网络的多场景多任务模型(M2M),服务于阿里妈妈横向增长的多种业务,模型具备多目标多场景的预测能力,可以快速赋能不同场景下新的业务需求。该项工作论文发表在 WSDM 2022,欢迎交流讨论。

论文下载:

http://arxiv.org/abs/2201.06814

▐ 背景

图一 平台与广告主交互示意图

广告主在阿里妈妈平台体系中发挥着重要的作用,满足广告主的营销需求并促进广告主店铺的发展对于电商平台的长期繁荣至关重要。然而,无论是工业界还是学术界,目前的研究更加侧重于用户侧建模(如CTR预估),对于广告主建模的关注较少。和用户侧建模方式不同,广告主建模涉及了多种任务,比如广告主店铺的点击、消耗、平台活跃天数等。除了多任务的需求,广告主建模还需要考虑多场景问题。广告主进入阿里妈妈平台后,可以选择在不同的场景(产品线)进行投放。广告主建模是阿里妈妈平台与广告主交互的基础,交互形式如图一所示:首先广告主在单个/多个场景投放广告;然后模型给出多个场景多个任务下的预测结果;最后模型将预测结果和平台多样的产品/运营工具结合,对广告主产出定制化的任务/消息等,帮助广告主在平台留存以及成长。

图二 解决思路示意图

在广告主建模过程中,我们需要建模多场景下的多种任务。在具体建模多任务多场景问题时,我们遇到了很多挑战。第一,模型可扩展性问题,常规解法可以对每个场景/任务分别建模,但是这种常规解法随着场景的增多需要建设&维护的模型也会随之增多,在工业界并不具备可扩展性;第二,样本稀疏问题,由于不同的场景建立时间、承接广告主数量等有所差异,导致在小场景或者新场景下模型会面临样本稀疏问题,模型的训练效果会受到影响;第三,场景关系复杂的问题,不同场景之间有着复杂的关联关系,场景的关联关系甚至会随着任务的不同而发生变化,模型需要在捕捉多个任务之间固有关联的基础上,捕捉不同场景下多个任务的动态关联。常规的MTL解法如图二(a)所示,底层结构为共享信息结构,通过gate(MMOE[1]/PLE[2]等)或者attention(MRAN[3]等)方式,得到特定任务下的信息表征,再通过特定任务的塔结构,最终得到特征任务的预测结果。但是在整个模型架构中没有显式的表征场景信息,无法学习复杂的场景关联。

模型的主要创新点有:

  • 通过元网络Meta Unit显式的表征场景信息,Meta unit和底层MTL同步进行参数更新,使得模型具备可扩展性;

  • 在元网络Meta Unit的输入信息中,我们引入了丰富的特定场景相关的先验信息,缓解了小场景或者新场景下样本稀疏的问题;

  • 模型将元学习思想和多任务模型结合,元网络作为顶层网络,MMoE、PLE等多任务模型作为底层网络,使得模型在捕捉多个任务之间固有关联的基础上,还可以捕捉不同场景下多个任务的动态关联。

▐ 问题定义

广告主在与阿里妈妈平台交互的过程中会包含很多信息,归纳为4大类信息:场景属性信息,定义为,包含广告主的场景类型,以及相关的一些统计特征;广告主画像信息,定义为,包含店铺类型等基础属性信息;多类别行为序列信息,定义为,表示在时间窗口 T 内的多种类别的行为特征。具体的,通过表征广告主在时间点 时发生的登录、操作等行为特征;多类别效果序列信息,定义为,表示在时间窗口 内的效果特征。具体的,通过表征广告主在时间点 时在平台产生的消耗、点击等效果特征。

给定场景属性信息 ,广告主画像信息 , 多类别行为序列信息 , 多类别效果序列信息 , 我们需要训练一个end-to-end模型,预测在未来 天内的多种场景(直通车、超级推荐、极速推等)下的多类任务(店铺消耗、店铺点击、店铺在平台的活跃天数等),公式化如下:

其中, 是我们需要学习的函数,预测的时间周期可以扩展为不同时间周期。

▐ 算法建模

图三 模型框架图

模型整体的框架图如图三所示,主要包含两个网络:第一部分是主干网络,用来得到特征和任务的嵌入式表征;第二部分是元学习网络,主要包含三种结构:1)元学习单元:显式建模场景信息 2)Attention元网络:捕捉不同场景下多个任务的动态关联:3)tower元网络:增强特定场景的表征能力。其中Attention元网络和Tower元网络采取级联方式连接,Attention元网络的输出是Tower元网络的输入。以下对各子网络进行详细的介绍。

主干网络

主干网络的作用是对特征信息进行处理,得到特征信息的嵌入式表征,作为后面网络的输入。此部分最终得到的嵌入式表征有三种:Expert信息表征、任务信息表征和场景信息表征。

Expert信息表征

表示第 个Expert信息表征,和表征序列信息,Dense表征连续型特征信息。在这里我们采用Transformer,函数对于序列信息进行提取。

任务信息表征

表示特定任务 的任务信息表征,受到MRAN模型的启发,我们将不同类别的任务进行信息表征,和特征信息保持在同一维度。由于在测试集合中无法得到任务的表征信息,所以这里的任务信息表征是全局的而不是局部的。

场景信息表征

表示场景信息表征,在这里我们将场景信息和id类型信息拼接后,通过全连接层得到最终的场景信息表征。

元学习网络

图四 元学习网络

元学习单元

元学习单元用来显式建模场景信息,和传统的建模方式(比如将场景相关信息作为输入特征加入到模型中)不同,为了更好的捕捉动态的场景关联关系,我们通过上节讲到的场景信息表征作为元学习单元的输入,元学习单元通过全连接层的方式将进行转化,为每个场景产出动态的网络weight和bias:

其中为场景信息表征,在经过全连接层后,再通过一个函数,最终得到weight matrix and bias vector 。通过这种方式最终得到特定场景的元表征后,每个场景动态的weight matrix and bias vector 会作为底层网络(Attention网络&Tower网络)的动态参数,参与到网络的学习以及替代底层网络进行梯度更新:

其中,是维度为 的输入向量,是非线性的激活函数,可以是tanh、ReLU等等,是元学习单元的最终输出。我们把元学习单元的整个处理过程定义为函数。

Attention元网络

传统的alignment attention结构可以建模任务和特征之间的关联关系,但是忽略了动态的场景因素的影响。因此,我们设计了Attention元网络,可以在计算attention权重系数的时候引入场景信息,从而可以在不同场景下产出动态的attention权重系数:

其中,是维度为的Expert表征,是维度为的Task表征。是一个转换向量,得到权重系数。最终,通过对所有的加权求和,我们得到了对于特定任务的表征。

Tower元网络

在得到特定任务的表征之后,每个任务会通过Tower Layer,输出每个任务的预测结果。为了进一步增强特定场景的表征能力,和Attention元网络类似,我们在Tower Layer中引入了元学习单元:

模型训练

考虑到我们的多类别任务都属于回归任务,且反应变量Y近似符合泊松分布,我们采用Possion Loss作为损失函数,最终的优化目标为:

其中,等式右边的第一项表示对特定任务下loss的加权求和,第二项表示对顶层元网络和底层多任务结构的参数L2正则化处理, 表征惩罚系数。对于每一个特定任务loss,计算公式为:

▐ 实验

离线实验

对于回归问题来说,通常使用MAPE(Mean Absolute Percentage Error)评测指标衡量模型的微平均效果,使用NMAE(Normalized Mean Absolute Error)评测指标衡量模型的宏平均效果。在我们的场景中,一些任务的Y值可能为0,在MAPE中无法计算,故用SMAPE(Symmetric Mean Absolute Percentage Error)替代MAPE。SMAPE和NMAE的计算公式为:

其中,N代表带评测的测试集中广告主的数量, 和 代表第i个广告主的预测结果和真实结果。

图五 整体评估结果

图六 整体评估结果可视化

我们评估了不同模型的实验结果如图五所示,我们可以看到我们提出的M2M模型相较于其他baseline在不同任务和不同场景下取得了更好的效果。具体来说,对于场景A、B、C的点击任务,我们相较于最佳基线效果在NMAE和SMAPE上提升比例分别为 (+ 4.7%, + 24.1%, + 26.7%)和 (+ 6.9%, + 5.4%, + 8.9%) 。同样的,在活跃天数任务上的提升分别为 (+ 13.3%, + 9.8%, + 12.8%) 和(+ 15.9%, + 24.1%, + 18.9%)。此外,我们发现MMOE,CGC(Customized Gate Control),Cross-Stitich方法优于单一任务学习方法,这表明多任务模型可以很好的捕捉任务之间的相关性。有趣的是,我们注意到对于M2M模型来说,相同的任务在不同场景下提升的比例有所差异,这可能与场景的数据稀疏程度不同有关,模型对于小场景(比如场景B和场景C)的提升作用更加显著,说明我们的模型通过元学习单元的方式,很好的捕捉了场景之间的关联信息,缓解了小场景或者新场景下样本稀疏的问题。最后,我们在图六呈现了模型性能的详细可视化,为了方便比较,我们将最好的基线模型CGC也在图中进行了展示。

在线实验

图七 加速任务流程图

在离线验证的基础上,我们进一步在加速宝产品上验证算法升级的业务效果。加速宝产品的流程如图七所示,通过模型我们预测出广告主在未来一段时间的支出,点击和活跃天数等等,接下来我们选择平台活跃水平较低的客户,根据广告主在未来一段时间的支出,点击产出定制化的任务,广告主通过完成这些任务,得到一些权益奖励,促进在平台的活跃。我们比较了新旧两版模型的业务效果,新版本的模型取得了 + 2.59% 的活跃率提升和+ 2.09% 的每用户平均收入(ARPU)提升。

▐ 总结展望

本项工作中,我们针对多场景多任务的问题提出了一个高效且具有较强泛化能力的模型框架M2M,通过构建元学习单元显式建模场景信息。进一步的,为了更好地表征场景特定信息,我们提出了元学习网络,该网络由两个组件组成:Attention元网络模块和Tower元网络模块,这两个模块是分层组织的:Attention元网络模块位于较低位置以捕获不同场景间相关性,Tower元网络模块位于较高位置以增强特定场景特征的表征能力。我们通过离线和在线实验验证了模型的有效性,特别指出的是模型在小场景&新场景等数据稀疏的问题中效果提升更加明显。在未来工作中,我们将进一步的提高模型的通用能力,同时建模分类任务和回归任务;此外,将M2M模型和Optimization-based的元学习方法结合也是一个有意思的问题。

▐ 关于我们

我们是阿里妈妈客户增长算法团队,致力于构建良好的广告平台客户生态。我们的工作涉及广告主全生命周期理解与建模、营销异质内容理解&推荐、冷启动优化、客户机制策略等众多方向,相比C端用户增长具有更多的挑战。团队近一年在WSDM、CIKM等顶级会议发表多篇论文,技术氛围浓厚,业务前景发展广阔,欢迎感兴趣的同学加入我们!

投递简历邮箱:

alimama_tech@service.alibaba.com

▐ 参考文献

[1]Ma J, Zhao Z, Yi X, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 1930-1939.

[2]Tang H, Liu J, Zhao M, et al. Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 269-278.

[3]Zhao J, Du B, Sun L, et al. Multiple relational attention network for multi-task learning[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 1123-1131.

END

也许你还想看

阿里妈妈技术团队4篇论文入选WSDM 2022

WSDM 2022 | 合约广告自适应统一分配框架

欢迎关注「阿里妈妈技术」,了解更多~

疯狂暗示↓↓↓↓↓↓↓

WSDM 2022 | 基于元学习的多场景多任务商家建模相关推荐

  1. Few-Shot Classification of Aerial Scene Images via Meta-Learning(基于元学习的航拍场景图像小样本分类)

    Abstract: 基于卷积神经网络(CNN)的方法近年来在航空场景分类领域占据主导地位.虽然取得了显著的成功,但基于cnn的方法存在过多的参数,并依赖于大量的训练数据.在本工作中,我们将小样本学习引 ...

  2. COLING'22 | MetaPrompting:基于元学习的soft prompt初始化方法

    每天给你送来NLP技术干货! 论文名称:MetaPrompting: Learning to Learn Better Prompts 论文作者:侯宇泰,董泓源,王兴昊,李博涵,车万翔 原创作者:董泓 ...

  3. 专家点评Nat Mach Intell | 刘琦团队开发基于元学习的AI模型进行抗原-TCR亲和力识别及肿瘤新生抗原免疫原性预测...

    T细胞受体(T-cell receptor, TCR)是获得性免疫过程中的关键分子.TCR经过特定的基因重组和进化筛选,具备高度的多样性及特异性.MHC-多肽复合物与TCR亲和力的计算识别(pMHC- ...

  4. 基于元学习的红外弱小点状目标跟踪算法

    基于元学习的红外弱小点状目标跟踪算法 人工智能技术与咨询 昨天 本文来自<激光技术>,作者热孜亚·艾沙等 引言 红外点状目标的跟踪是红外搜索和跟踪(infrared search and ...

  5. 干货!基于元学习的内容定向推广

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 在推荐系统和广告平台上,内容定向推广模块需要尽可能将商品.内容或者广告传递到潜在的对内容感兴趣的用户面前.扩充候选集技术(Look-al ...

  6. #今日论文推荐#WSDM 2022 | 基于双曲几何无标度图建模的知识感知推荐

    #今日论文推荐#WSDM 2022 | 基于双曲几何无标度图建模的知识感知推荐 为了缓解传统推荐系统中的冷启动与数据稀疏问题,近年来,向推荐系统中引入外部知识构建知识图谱受到了越来越多的关注.此外,由 ...

  7. 基于深度学习的自然场景文字识别

    声明:本文来源,详细内容请参考原博文https://blog.csdn.net/xiaofei0801/article/details/72778223 1.1引言 传统光学字符识别主要面向高质量的文 ...

  8. “交通·未来”第10期:基于深度学习的动态系统复杂数据建模方法:以铁路列车晚点预测为例...

    前一阵公众号正式推出了"交通·未来"系列线上公益学术活动等你来~, 9月21日晚19:00,我们将迎来活动的第10期. 1.讲座主题 基于深度学习的动态系统复杂数据建模方法:以铁路 ...

  9. 个性推荐系统基于元学习的场景化 | KDD 2019

    传统的推荐算法,比如协同过滤算法,往往都是在单一的情景下.对固定的用户和商品集合的推荐.然而,在一个Web应用中往往存在多个需要进行推荐的场景.比如在淘宝APP中,经常会有不同的分页面来展示满足不同需 ...

最新文章

  1. 《网页设计创意书》读后感
  2. Wannafly挑战赛9
  3. (0109)iOS开发之CocoaPods Mac App的安装和使用
  4. Android深度探索第五章
  5. python对象属性赋值_关于python对象 中dict属性赋值的疑问
  6. matlab地址数据类型uns,使用matlab生成sine波mif文件
  7. [转载] Linux里面的文件目录类指令
  8. 2021计算机专业考408的学校,2021考研:计算机考研408是什么?统考学校有哪些?...
  9. 异步类随机多址接入分析
  10. Abseil之拆分字符串
  11. Spring声明式事务配置的两种策略SpringAop和Bean后处理器的代理BeanNameAutoProxyCreator
  12. 微信小程序wxml如何判断字符串中汉语某字符_如何获取别人微信小程序的源文件?...
  13. 十大排序算法Java
  14. pyautogui在网页内写入excel文件内容
  15. 吴军三部曲见识(三) 谈谈见识
  16. 关于视频播放的断点续传实现(.NET)
  17. 【一些有关GraN-DAG的知识点总结】
  18. ASEMI代理AD9833BRMZ-REEL原装ADI车规级AD9833BRMZ-REEL
  19. OpenSSL生成根证书CA及签发子证书
  20. FE File Explorer Pro for Mac(强大的文件管理器)

热门文章

  1. IOS之代理文字点击变大变小
  2. ESP8266-01学习笔记01:如何使用USB转串口对ESP-01进行入门调试、烧录固件?
  3. php 七牛云fetch,七牛云调用类
  4. php curl发送post请求失败,php 利用curl发送post请求
  5. 4位加法器的设计代码verilog_一个简单的8位处理器完整设计过程及verilog代码
  6. 用Setup Factory打包Visual C++ 2008开发的程序心得总结
  7. cassandra随机获取数据,Cassandra适合写入和少读,HBASE随机读取写入
  8. 查数估获近千万元融资 ,用科技为金融赋能
  9. Gradle系列(三):项目实践
  10. 偶对称离散余弦变换 EDCT